El curso sobre Aprendizaje Profundo por Refuerzo se celebrará durante la Escuela de Ciencias Informáticas (ECI 2019), que tendrá lugar del 22 al 26 de julio de 2019 en la Universidad de Buenos Aires.
T1: Aprendizaje profundo por refuerzo 13:30 a 16:30 Juan Gómez Romero, Universidad de Granada, España
- Introducción
- Organización
- Bibliografía
- Introducción al curso
- Preparación de entorno de programación
- configuracion (configuracion)
- Aprendizaje profundo
- Fundamentos del aprendizaje profundo
- Entrenamiento
- Implementación con PyTorch
- Instrucciones de instalación (Google Colaboratory, local)
- Comprobación de requisitos (01. hello_world)
- Primera red (02. mi primera red)
- Clasificación con RNA (03. iris-nn)
- Aprendizaje por refuerzo
- Procesos de decisión de Markov
- Métodos de Montecarlo
- Métodos de diferencia temporal
- Implementación
- Aspectos básicos (01. hello_gym)
- Montecarlo Blackjack (02. Montecarlo_blackjack)
- Q-Learning Cliffwalking (03. QLearning_cliffwalking)
- Aprendizaje profundo por refuerzo
- Concepto de aprendizaje profundo por refuerzo
- Métodos basados en estimación del valor de acción (DQN)
- Métodos basados en optimización de políticas (REINFORCE)
- Métodos actor-critic (DDPG)
- Implementación
- DQN LunarLander (01. DQN_lunarlander)
- DDPG Pendulum (01. DDPG_pendulum)
- AlphaGo
La evaluación constará de dos pruebas:
-
Un cuestionario, que se realizará durante el último día del curso en la ECI (acceso al cuestionario, soluciones). Con este cuestionario se podrán obtener hasta 8.5 puntos; esto es, la puntuación será número de aciertos x 0.57.
-
Un ejercicio práctico, que deberá entregarse antes del 20 de agosto de 2019 23:59 (hora de Argentina). Las instrucciones para la entrega del ejercicio práctico se encuentran aquí. Con este ejercicio se podrán obtener hasta 5 puntos.
La nota global del curso será: nota final = nota del cuestionario (sobre 8.5) + nota del ejercicio práctico (sobre 5). Las notas finales >=10 constarán como 10.
Siguiendo las normas de la UBA, el curso será aprobado cuando: nota final >= 4.
Juan Gómez Romero (PhD)
Senior Research Fellow
Departamento de Ciencias de la Computación e Inteligencia Artificial
Universidad de Granada
PROFICIENT is a 2-year project funded by the EXPLORA programme of the Spanish Ministry of Science, Innovation and Universities in 2018-2020 (TIN2017-91223-EXP).