Reinforcement Learning Approaches in Dynamic Environments

Miyoung Han 1, 2
2 VALDA - Value from Data
DI-ENS - Département d'informatique de l'École normale supérieure, Inria de Paris
Résumé : L’apprentissage par renforcement consiste en apprendre de l’interaction avec un environnement pour atteindre un but. C’est un cadre efficace pour résoudre les problèmes de décision séquentiels, basée sur l’utilisation des processus de décision de Markov (MDP) comme formulation générale. Dans cette thèse, nous appliquons l’apprentissage par renforcement à des problèmes de décision séquentiels dans des environnements dynamiques. Nous présentons d’abord un algorithme basé sur le Q-apprentissage avec une stratégie personnalisée d’exploration et d’exploitation pour résoudre un problème réel de routage de taxi. Notre algorithme est capable d’apprendre progressivement les actions optimales pour acheminer un taxi autonome aux points de collecte des passagers. Ensuite, nous abordons le problème des MDP factorisés dans un contexte non-déterministe. Nous proposons un algorithme qui apprend les fonctions de transition en utilisant le formalisme des réseaux bayésiens dynamiques. Nous démontrons que les méthodes de factorisation permettent d’apprendre efficacement des modèles corrects ; à travers les modèles appris, l’agent peut accumuler des récompenses cumulatives plus grandes. Nous étendons notre travail à de très grands domaines. Dans le problème de parcours du Web ciblé (focused crawling), nous proposons un nouveau mécanisme de score prenant en compte les effets à long terme de la sélection d’un lien, et présentant de nouvelles représentations des caractéristiques des états pour les pages Web et les actions de sélection du lien suivant. Cette approche nous a permis d’améliorer l’efficacité du parcours du Web ciblé. Dans le problème de maximisation de l’influence (MI), nous étendons le problème de la MI classique avec une connaissance incomplète de la structure du graphe et un intérêt utilisateur basé sur le sujet. Notre algorithme trouve les graines les plus influentes pour maximiser l’influence dépendante du sujet, en apprenant des valeurs d’action pour chaque nœud sondé.
Type de document :
Thèse
Databases [cs.DB]. Télécom ParisTech, 2018. English
Liste complète des métadonnées

https://hal.inria.fr/tel-01891805
Contributeur : Pierre Senellart <>
Soumis le : mercredi 10 octobre 2018 - 07:47:35
Dernière modification le : vendredi 12 octobre 2018 - 01:12:23

Fichier

Thesis.pdf
Fichiers produits par l'(les) auteur(s)

Identifiants

  • HAL Id : tel-01891805, version 1

Citation

Miyoung Han. Reinforcement Learning Approaches in Dynamic Environments. Databases [cs.DB]. Télécom ParisTech, 2018. English. 〈tel-01891805〉

Partager

Métriques

Consultations de la notice

46

Téléchargements de fichiers

20