# Enunciado
## Destino: Planeta VASS!
Por fin! El sistema que hemos creado ha terminado de analizar las características del planeta y se ha comprobado que es habitable. Después de un largo trayecto y varios inconvenientes, estamos a un paso de cumplir nuestro objetivo!

Este último paso es, probablemente, el más importante de todos, aterrizar en el planeta VASS.
Para asegurar el éxito del aterrizaje, hemos realizado una serie de experimentos en un espacio de simulación para predecir la manera más eficiente de aterrizar de forma segura.

Sin embargo, el simulador ha tenido problemas a la hora de determinar la eficiencia en algunos de los experimentos, por lo que ahora nuestro objetivo será analizar las simulaciones y determinar el nivel de eficiencia de aterrizaje de cada uno de los experimentos en los que falló. Tendremos que tener en cuenta las siguientes observaciones:

### Observaciones
Cada uno de los experimentos cuenta con una serie pasos compuestos de estados y acciones de la nave de una simulación determinada.
En cada paso el simulador genera un estado y decide una acción. El siguiente estado se verá determinado por esta acción, y a su vez se decidirá una nueva acción en base a ese nuevo estado, eso hasta que la simulación llegue a su fin.
En cada paso, el simulador determina la contribución individual que ha tenido la acción tomada a la eficiencia total. Finalmente se calculan todas estas contribuciones para determinar la eficiencia total del experimento.
La eficiencia es una función que utiliza internamente el simulador para determinar cuándo está tomando buenas decisiones. Esta función podría estar teniendo en cuenta los cambios que hay en los estados, así como las distintas acciones y variables.
Las simulaciones se han realizado en diversas condiciones: gravedad, viento y turbulencias.
CUIDADO! En algunas de las simulaciones los valores de la gravedad y viento no se guardaron correctamente, por lo que el sistema las ha registrado con un valor de 0.
Descarga los datos de los experimentos, analízalos y crea un modelo para predecir la eficiencia total de cada uno de los experimentos. Por último, observa los experimentos del conjunto de test que viene incluido en la descarga de los datos y envía las predicciones de los registros en el orden original separadas por comas, de la siguiente manera:

205.12,122.14,80.34,30.15,109.93

El ejemplo expuesto se correspondería con las predicciones de los 5 primeros registros, tendréis que subir en una sola línea las 2,000 predicciones usando este formato.

# How to land the Star Cruiser 42

## Context

This dataset contains information about simulations of landing a spaceship in a 2D environment.
This information can be used to determine the efficiency function in order to evaluate the best actions possible in a future landing.


## Metadata
Number of train files: 9513
Number of test files: 2000
Number of variables: 13
Target variable: efficiency


File variable details:

- x_pos # The position of the ship on the X axis, in units relative to the landing platform.
- y_pos # The position of the ship on the Y axis, in units relative to the landing platform.
- x_vel # Velocity of the ship on the X axis.
- y_vel # Velocity of the ship on the Y axis.
- angle # The angle of the spaceship in radians.
- ang_vel # The angular velocity of the spaceship.
- leg_1 # Boolean that represent whether leg 1 is in contact with the ground or not
- leg_2 # Boolean that represent whether leg 2 is in contact with the ground or not
- main_booster #  The throttle of the main engine.
- lat_booster # The throttle of the lateral boosters.

The first 6 variables determine the state and each step, and the last two (main_booster and lat_booster) are the actions taken in response
to that state, whose repercussions will be seen in the following step.

Experiment variable details:
- gravity # The magnitude of the gravity acceleration. A value of 0 means that the system didn't register the real value.
- wind_power # The maximum magnitude of linear wind applied to the spaceship. A value of 0 means that the system didn't register the real value.
- turbulences # The maximum magnitude of rotational wind applied to the spaceship.

Target variable detail
    - efficiency # An internal function of the simulator to evaluate the quality of the landing.
    

In [4]:
import pandas as pd

# Open fase7/data/experiments_summary_test.xlsx and train
experiments_summary_test = pd.read_excel('data/experiments_summary_test.xlsx')
experiments_summary_train = pd.read_excel('data/experiments_summary_train.xlsx')

In [5]:
experiments_summary_train

Unnamed: 0,filename,total_timesteps,gravity,wind_power,turbulence_power,efficiency
0,experiment_1.csv,185,-5.375066,14.337393,1.902789,415.69
1,experiment_2.csv,428,-3.958084,16.376438,1.697932,104.37
2,experiment_4.csv,193,-3.640152,1.614948,0.192214,411.14
3,experiment_5.csv,166,0.000000,0.000000,0.242178,414.93
4,experiment_6.csv,172,-5.289123,15.771525,1.453806,373.85
...,...,...,...,...,...,...
9508,experiment_11506.csv,290,0.000000,0.000000,1.734030,413.52
9509,experiment_11507.csv,80,-9.777887,17.290063,1.830932,-765.06
9510,experiment_11508.csv,199,-5.563846,14.299549,1.971660,414.10
9511,experiment_11509.csv,115,0.000000,5.761313,1.203968,41.77


In [6]:
experiments_summary_test

Unnamed: 0,filename,total_timesteps,gravity,wind_power,turbulence_power
0,experiment_0.csv,156,-10.363594,9.555678,0.441689
1,experiment_3.csv,252,-2.599651,7.094931,0.772004
2,experiment_8.csv,146,-10.768399,5.744031,0.898704
3,experiment_10.csv,178,-7.815608,19.640269,1.631348
4,experiment_14.csv,193,-3.833533,11.007721,1.577970
...,...,...,...,...,...
1995,experiment_11478.csv,257,-5.879329,13.640501,0.986232
1996,experiment_11497.csv,845,-1.886632,0.843915,1.206717
1997,experiment_11505.csv,128,0.000000,5.633470,1.822572
1998,experiment_11511.csv,158,-10.947976,5.852086,1.298264


### Primera toma de contacto
Tiene pinta de ser un problema de aprendizaje por refuerzo (reinforcement learning), pero creo que también podría ser un problema de redes neuronales recurrentes.

#### Aprendizaje por refuerzo
El aprendizaje por refuerzo es una técnica de aprendizaje que consiste en una serie de iteraciones de entrenamiento, donde el objetivo es aprender a predecir el estado siguiente a partir del estado actual. https://es.wikipedia.org/wiki/Aprendizaje_por_refuerzo
![](https://upload.wikimedia.org/wikipedia/commons/thumb/1/1b/Reinforcement_learning_diagram.svg/250px-Reinforcement_learning_diagram.svg.png "RL")


Pensandolo mejor, es un problema supervisado, por lo que no creo que sea un problema de aprendizaje por refuerzo, aunque sí parece que el "simulador" que genera estos experimentos internamente es una inteligencia artificial de Reinforcement Learning.
Nosotros lo que tenemos que hacer es aprender a predecir la valoración de todo el conjunto de acciones de cada experimento.

#### Idea de red neuronal recurrente
La idea de la red neuronal recurrente es que la red se comporte como una máquina de estados, y que cada vez que se ejecuta una acción, se guarda el estado actual en una matriz de estados, y se guarda la acción que se ha tomado en una matriz de acciones. Podríamos probar con una LSTM.

![](https://upload.wikimedia.org/wikipedia/commons/thumb/9/93/LSTM_Cell.svg/300px-LSTM_Cell.svg.png "LSTM")