# Trabajo Regresión lineal: predicción de la nota media de los alumnos de grado de la ETSIT, UPCT. Primera parte.
## Introducción


> En este trabajo, usamos datos asociados a todos los alumnos de Grado en Ingeniería Telemática y Grado en Ingeniería de Sistemas de Telecomunicación de la UPCT, que hayan superado 120 ECTS, que provengan de la Región de Murcia y que se hayan examinado de Física y Matemáticas_II en la Prueba de Acceso a la Universidad (PAU).

## Objetivo:

Nuestro objetivo es estudiar la posibilidad de predecir la nota media a partir de algunos datos en el ingreso del estudiante (calificación y ranking PAU, así como de Física y Matemáticas II) y de sus resultados en algunas de las asignaturas más exigentes de la titulación:

1. Fundamentos de programación.
2. Sistemas y circuitos
3. Sistemas lineales
4. Ondas electromagnéticas

El fichero que contiene los datos es `notas_DURM_media_ETSIT.csv` que se puede descargar del Aula Virtual y guardar en la carpeta data del directorio asociado a nuestro workspace. 

Después de cargar las librerías `pandas`, `numpy` y `matplotlib`, cargar los datos en un dataframe llamado `grados`.

In [1]:
# Completar aquí

# --------------------


In [2]:
# Completar aquí

# --------------------
grados

- La variable `MEDIA` es la nota media sobre 10 del alumno, ponderada por los créditos de cada asignatura.
- Las variables que contienen `PAU` corresponden a lo obtenido por el alumno en el examen de acceso a la universidad, en particular `NOTA_PAU_CALIFICACION` es la nota media sobre 10.

Realizad una exploración del fichero de datos, obteniendo el número de registros para cada variable, si tienen datos faltantes, indicadores como su máximo, mínimo, etc.

In [3]:
# Completar aquí, exploración del conjunto

# --------------------


## Primer paso: modelo simplificado

Vamos a empezar con un modelo simplificado donde sólo consideramos en cuanto a perfiles de ingreso, la nota  PAU. 

### Representación gráfica
Obtened una gráfica de la nota media en el grado en función de la calificación PAU

In [4]:
# Completar aquí

# --------------------


### Ajuste de una recta, usando el algoritmo de gradiente


En esta parte, vamos a ajustar una recta para intentar explicar la nota media en función del ranking del alumno en la  PAU. Aunque, sea mucho (muchísimo!) más sencillo usar `LinearRegression` de `scikit-learn` para realizar el ajuste, implementaremos el algoritmo del gradiente para ir encontrando el mínimo de la función coste. 

Lo haremos en varias etapas...

#### Implementación de la función coste.

Recordar que la función coste es (ver transparencias):
$$J(\theta)=\frac{1}{n}\sum_{i=1}^n\left(y_i-x_{i\bullet}^T\theta\right)^2=\frac{1}{n}\lvert\lvert \mathbf{y}-\mathbf{X}\theta\rvert\rvert^2=\frac{1}{n}\left(\mathbf{y}-\mathbf{X}\theta\right)^T\cdot \left(\mathbf{y}-\mathbf{X}\theta\right),$$
donde $\mathbf{y}$ es el vector que contiene todas las observaciones de la variable respuesta, y la matriz $\mathbf{X}$ la matriz de diseño. La matriz de diseño contiene los valores de las características que queremos tener en cuenta en nuestro modelo para todos los individuos y una columna de 1.

Definir el array de numpy `y` que contenga los valores de MEDIA, y el array `X` que sea la matriz de diseño asociada a la fórmula: 

$$MEDIA=\theta_0+\theta_1 NOTA\_PAU\_CALIFICACION$$
pero habiendo, en primer lugar, quitado las filas que tienen un dato faltante en alguna de estas dos columnas

Para definir `X`, habrá que usar `np.concatenate`, y `np.ones` tal como está explicado en las transparencias del tema.


In [5]:
# Completar aquí

# --------------------
print(f'10 primeros valores de y: \n {y[:10]}')
print(f'10 primeras filas de X:\n {X[:10, :]}')

Podemos ahora definir la función coste, que se llamará `J`  y que admita los parámetros `theta`, `X` e `y`.

In [6]:
# Completar aquí

# --------------------
J(np.array([1, 1]), X, y)

El gradiente de la función coste se puede escribir de manera compacta (ver transparencias) 
$$\nabla J(\theta)=\frac{2}{n} \mathbf{X}^T\cdot \left(\mathbf{X}\theta-y\right).$$
Pasamos a definirla también con el nombre `gradJ`

In [7]:
# Completar aquí

# --------------------
gradJ(np.array([1, 1]), X, y)

#### Implementación del algoritmo del gradiente

Una vez que tenemos implementada la función de coste y su gradiente, podemos escribir el código para el algoritmo iterativo del gradiente.

Empezamos por fijar un valor inicial de theta, el valor de $\alpha$, el learning rate y también el número máximo de iteraciones que autorizaremos para el algoritmo.




In [8]:
theta_inicial = np.array([1, 1])
alpha = 0.001
iteraciones =  3000

Usando un bucle implementad el algoritmo del gradiente usando la fórmula de actualización, a cada etapa:
$$\theta\leftarrow \theta-\alpha \nabla J(\theta).$$


In [9]:
# Completar aquí

# --------------------
theta

### Debemos monitorizar el algoritmo del gradiente

Para comprobar cómo evoluciona el algoritmo del gradiente y en particular, si hemos escogido bien el valor de $\alpha$, es importante comprobar la evolución del valor de la función coste con las iteraciones.

Para ello vamos a introducir un DataFrame llamado monitor, que recoja los valores de `alpha`, `theta`, `J(theta, X, y)` y `gradJ(theta, X, y)` a medida que vamos iterando el algoritmo. 

Empezamos por definir dos funciones que faciliten el manipular el dataframe monitor:
- la primera función `inicializa_monitor` que devuelve un dataframe preparado con las columnas necesarias y con el tipo apropiado.
- la segunda función `inserta_en_monitor`, que añade a `monitor` una fila con los valores de iteracion, alpha, theta y el coste.

In [10]:
# Nada que completar pero sí entender el código
def inicializa_monitor():
    monitor = pd.DataFrame(
        {
            'alpha': float(), 
            'theta_0': float(), 
            'theta_1': float(), 
            'coste': float()
        }, 
        index=[]
    )
    return monitor
# ------------------------------------------------------------------------------------------------------
def inserta_en_monitor(monitor, iteracion, alpha, theta, coste):
    fila = pd.DataFrame(
         {
             'alpha': alpha, 
             'theta_0': theta[0], 
             'theta_1': theta[1], 
             'coste': coste
        }, 
        index=[iteracion]
    )
    return pd.concat([monitor,fila])



Tenéis ahora que aprovechar vuestra implementación del algoritmo del gradiente para crear una nueva función `buscar_optimo_gradiente` que admita los siguientes parámetros:
- theta_inicial: un vector `numpy` de valores para los componentes de theta_inicial 
- coste: la función de coste definida, que tome como parámetro theta
- gradiente: la función que calcule el gradiente de la función de coste
- alpha: el paso escogido para cada iteración  
- iteraciones: el número total de iteraciones que se realiza hasta parar y devolver el óptimo
- monitor: el dataframe que contiene la evolución de las cantidades de interés durante la iteración.
Tendrá que devolver un tupla que contenga theta, el valor final de theta encontrado, y el dataframe monitor

In [11]:
# Completar aquí: Definir buscar_optimo_gradiente

# --------------------
monitor = inicializa_monitor()
theta, monitor = buscar_optimo_gradiente(
    theta_inicial,
    coste=J,
    gradiente=gradJ,
    iteraciones=iteraciones,
    alpha=0.001,
    monitor=monitor
)
print(f'El valor final de theta es {theta}')
print(f'El dataframe monitor es: {monitor}')



Podemos ahora representar gráficamente la evolución de la función coste en función de la iteración del algoritmo:

In [12]:
# Completar aquí

# --------------------


Observamos un decrecimiento brusco de la función coste en las primeras iteraciones pero después parece decrecer muy lentamente. Quiere decir que hemos alcanzado el mínimo muy rápidamente?

Para comprobarlo, tenéis que representar la evolución del coste pero entre la iteración 50 y la iteración 3000:

In [13]:
# Completar aquí

# --------------------


#### Variamos el learning rate.

Vimos que era recomendable probar con distintos valores de $\alpha$. Concretamente, vamos a probar para empezar los valores 
       $$\alpha=0.001\curvearrowright 0.003\curvearrowright0.01$$


Añadir a vuestro algoritmo de gradiente que registraba la evolución en el dataframe monitor, un bucle adicional para explorar estos valores de $\alpha$.

In [14]:
# Completar aquí

# --------------------
monitor

Ahora vamos a representar solamente para iter superior a 50, tres líneas de evolución de J en función de la iteración, una para cada valor de $\alpha$.

In [15]:
# Completar aquí

# --------------------


Nos queda probar con `alpha` igual a 0.03 por ejemplo, pero usaremos menos iteraciones, solamente 30.

In [16]:
# Completar aquí

# --------------------
fig, ax = plt.subplots()
ax.plot(monitor.index, monitor['coste']);

#### Parámetros finales
Vamos por lo tanto a quedarnos con alpha=0.01, pero aumentamos el número de iteraciones, por ejemplo a 30000

In [17]:
# Completar aquí

# --------------------
print(f'Nuestra estimación de la ordenada al origen es {theta[0]:.2f} mientras que la pendiente es {theta[1]:.2f}')

Queremos representar la hipótesis, es decir el modelo con el que nos quedaríamos. Para ello, podréis usar `axline` de `matplotlib` (ver [referencia](https://matplotlib.org/stable/api/_as_gen/matplotlib.axes.Axes.axline.html#matplotlib.axes.Axes.axline))

In [18]:
# Completar aquí

# --------------------
