### Importar librerías y df:

In [24]:
import pandas as pd
import numpy as np

In [25]:
from sklearn.datasets import load_iris  # dataset utilizada para los ejercicios

# Cargar el conjunto de datos
iris = load_iris()

# Crear un DataFrame con los datos y las columnas
df = pd.DataFrame(iris.data, columns=iris.feature_names)

# Añadir la columna de objetivo
df['species'] = pd.Categorical.from_codes(iris.target, iris.target_names)

### T. 01

Utilizar el método `factorize` de Pandas para crear una codificación de un atributo categórico.<br>
¿Qué diferencia hay entre `factorize` y los métodos que hemos usado de codificación con enteros?

In [26]:
df.info()
df['species_factorize'] = pd.factorize(df['species'])[0]
df = df.drop(['species'], axis=1)
df

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype   
---  ------             --------------  -----   
 0   sepal length (cm)  150 non-null    float64 
 1   sepal width (cm)   150 non-null    float64 
 2   petal length (cm)  150 non-null    float64 
 3   petal width (cm)   150 non-null    float64 
 4   species            150 non-null    category
dtypes: category(1), float64(4)
memory usage: 5.1 KB


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species_factorize
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


Diferencia clave:

`factorize()`:
1. Entrada: Una serie o columna categórica.
2. Salida: Dos arrays: uno con las etiquetas numéricas y otro con los valores únicos.
3. Funcionamiento: Asigna automáticamente etiquetas numéricas a los valores únicos en la columna.
4. Ventajas:
    - No necesitas crear un diccionario manualmente para mapear valores a enteros.
    - Es más eficiente en términos de memoria y tiempo de ejecución.
5. Desventajas:
    - Las etiquetas numéricas no son necesariamente secuenciales (por ejemplo, [0, 1, 0, 2, 1, 0]).
    - No puedes especificar manualmente las etiquetas numéricas.

### T. 02

Crea un dataframe llamado "decripcion" que junte el resultado de `describe()` con el resultado de `mode()`

In [27]:
df_mode = df.mode()
df_describe_mode = pd.concat([df.describe(), df_mode])
df_describe_mode

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species_factorize
count,150.0,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333,1.0
std,0.828066,0.435866,1.765298,0.762238,0.819232
min,4.3,2.0,1.0,0.1,0.0
25%,5.1,2.8,1.6,0.3,0.0
50%,5.8,3.0,4.35,1.3,1.0
75%,6.4,3.3,5.1,1.8,2.0
max,7.9,4.4,6.9,2.5,2.0
0,5.0,3.0,1.4,0.2,0.0
1,,,1.5,,1.0


### T. 03

Crea un dataframe de juguete o utiliza uno que ya tengas con el único requisito de que tenga más de 5 atributos.

A continuación añádele dimensiones polinómicas de grado 2 pero SOLO de **tres** columnas que elijas, manteniendo todas las demás.

In [44]:
df.columns

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)', 'species_factorize'],
      dtype='object')

In [49]:
from sklearn.preprocessing import PolynomialFeatures

degree = 2                  # número de columnas convinadas a demás de las iniciales
interaction_only = True
polyf = PolynomialFeatures(degree=degree, interaction_only=interaction_only)
df_dim = pd.DataFrame(polyf.fit_transform(df[['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)']]), columns=['0', 'sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'sepal_length_width', 'sepal_petal_length', 'sepal_width_petal_length'])
df_dim = pd.concat([df, df_dim.drop(['0', 'sepal length (cm)', 'sepal width (cm)', 'petal length (cm)'], axis=1)], axis=1)
df_dim

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species_factorize,sepal_length_width,sepal_petal_length,sepal_width_petal_length
0,5.1,3.5,1.4,0.2,0,17.85,7.14,4.90
1,4.9,3.0,1.4,0.2,0,14.70,6.86,4.20
2,4.7,3.2,1.3,0.2,0,15.04,6.11,4.16
3,4.6,3.1,1.5,0.2,0,14.26,6.90,4.65
4,5.0,3.6,1.4,0.2,0,18.00,7.00,5.04
...,...,...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2,20.10,34.84,15.60
146,6.3,2.5,5.0,1.9,2,15.75,31.50,12.50
147,6.5,3.0,5.2,2.0,2,19.50,33.80,15.60
148,6.2,3.4,5.4,2.3,2,21.08,33.48,18.36


Crea características $\log (\cdot)~$ de cada una de las características del dataframe resultante del ejercicio anterior.

> *Al hacer $\log~$ estamos convirtiendo en números negativos los valores menores que uno, y en positivos más pequeños, cercanos al orden de magnitud, los valores mayores que uno.*

¿Qué problemas puede introducir esta transformación?

Crea características $e^{(\cdot)}~$ de cada una de las características del dataframe resultante del ejercicio anterior.

> *Al hacer $\exp~$ estamos convirtiendo todos los valores en positivos.* <br>
*Además todos los que tengan un valor absoluto mayor que uno son agrandados, y los que tiene valor absoluto menor que uno empequeñecidos.*

Descarga un dataframe de internet o utiliza uno que ya tengas con el único requisito de que tenga más de 5 atributos.
Separalo en dos:
- trainDF
- testDF

A continuación realiza ingeniería de características sobre trainDF.<br>
Debe incluir:
- Aumento de dimensionalidad, con:
  - características creadas por ti,
  - características polinómicas de orden 3, pero SOLO de 2 características que elijas y con la opción `interaction_only = True`
- Un escalado o una estandarización del dataframe resultante.

Desupués aplica esas transformaciones de testDF.

### T. 04

Añadir al dataframe `iris_df` del ejemplo sólo las características polinómicas con interacción y un par de características creadas manualmente. Después hacer un filtrado.

Repetir el ejercicio anterior pero ANTES del filtrado realiza una estandarización.
- ¿Da el mismo resultado?
- ¿Por qué?
- Como conclusión de este ejercicio responde: ¿cuál de los dos procesos se debería hacer SIEMPRE ANTES que el otro? ¿por qué?

Repetir el ejercicio anterior, pero ahora haciendo un escalado al intervalo unidad.

Observa los resultados en comparación con el ejemplo de arriba y el ejercicio anterior. ¿Qué conclusiones tienes?

Repetir el primer ejercicio pero ahora:
- Descarga de internet el conjunto de datos [_Student Performance_](https://archive.ics.uci.edu/static/public/320/student+performance.zip).<br>
[Aquí](https://archive.ics.uci.edu/dataset/320/student+performance) puedes encontrar información sobre los datos.
- Separa el conjunto de datos en dos (entrenamiento y test)
- Sobre el conjunto de entrenamiento:
  - Haz un aumento de dimensionalidad creando nuevas características
  - Evalua la posibilidad de hacer una selección de características
- Transforma del conjunto de test de la misma manera que transformaste el conjunto de entrenamiento.

### T. 05

Realiza los siguientes pasos:
1. Separa el conjunto de datos "load_wine" en Entrenamiento (90%) y Test (10%)<br>
A partir de ese momento utiliza sólo el conjunto de entrenamiento.
2. Aumenta la dimensionalidad
3. Haz un filtrado de características
4. Haz una reducción a 3 componentes principales<br>
  ¿Cuál es el ratio de varianza explicada por estos 3 componentes principales?


Razona la respuesta a la siguiente pregunta. ¿Qué habría que hacer antes: filtrado por varianza o PCA?

### T. 06 - No hay

### T. 07

Con el conjunto de datos "Iris" de la biblioteca Scikit-learn, hacer lo siguiente:
1. Cargar el conjunto y hacer una exploración sencilla para averiguar:
   - cuantas clases diferentes hay
   - cuantos ejemplos tiene
   - cuantos atributos tiene
2. Separar el conjunto de datos original en un conjunto de entrenamiento del 85% para aprender un modelo lineal y el 15% restante para testearlo.
<br>
--- A partir de ahora el enunciado SIEMPRE se refiere al conjunto de entrenamiento ---
3. Transformar el conjunto de datos en otro que tenga sólo los 2 primeros componentes principales.
4. Aprender un modelo lineal para discriminar la clase 0 de las otras dos. <br>
Aprender otro modelo lineal para discriminar la clase 1 de las otras dos.<br>
Aprender un tercer modelo lineal para discriminar la clase 2 de las otras.
5. Pintar el conjunto de datos y los tres clasificadores.<br>
--- AHORA, Con el conjunto de test ---
5. Pintar con cruces los datos del conjunto de test y con circulos las predicciones que hace cada clasificador.<br>
Por ejemplo, con el clasificador de la clase 0 frente al resto, pintar solo aquellas predicciones que sean de la clase 0, para poder comparar con las verdaderas, y así con las demás.

### T. 08

Si la función logística es una función de distribución (_Cumulative Distribution Function_ o CDF), escribe el código para pintar su función de densidad de probabilidad (_Probability Density Function_ o PDF)

Modifica el código de los ejemplos para el caso de que al conjunto de datos se le añada una característica _dummy_ = 1.

Modifica los códigos dados para probar diferentes umbrales de probabilidad

Repite el ejercicio largo del cuaderno anterior, pero ahora utilizando regresión logística.

### T. 09

Repite los ejemplos pero ahora utiliza la función
$\mathcal L(w_1, w_2) = w_1 e^{(w_1^2 + w_2^2)}$.<br>
Utiliza `bound = 2` y `Ns=32`

Modificar el último ejemplo para que el algoritmo del descenso del gradiente tenga una condición de parada doble:
- alcanzar un número máximo de iteraciones
- la diferencia entre el último punto alcanzado y media de los últimos $n$ últimos puntos de la trayectoria no supera un valor de tolerancia.

Modifica el algoritmo de descenso de gradiente para que empiece con $\eta = 0.0001$ y cada vez que descienda modifique $\eta$ multiplicándolo por 1.3.

Cuando la función evaluada en el último punto sea MAYOR que la función evaluada en el punto anterior debemos "resetear"  $~\eta = 0.0001.$

<small>(Este algoritmo se denomina _Denscenso de gradiente con ratio de aprendizaje variable_.)</small>

### T. 10

Calcular la regla de actualización de pesos si utilizamos la pérdida MAE

Crear una clase MAE que implemente la pérdida MAE y que incorpore el método `grad_w`.

Después repetir el ejemplo sencillo con está pérdida.

Cambiar el código para que se pueda ejecutar sobre un conjunto de datos con $N>1$.