![image.png](attachment:image.png)

![image.png](attachment:image.png)

Para ejercitarte y afianzar lo aprendido sobre **Proceso de Datos**, como primera etapa de ML, completa los siguientes ejercicios. Recuerda que necesitarás datos que están en el directorio data que acompaña al notebook (búscalo en el repositorio de ejercicios)
  
La solución a los mismos las tienes ya, intenta no mirarlos de primeras pero no dejes de hacerlo cuando hayas terminado por si te pudieran aportar.

### Ejercicio 0

Importa los paquetes y módulos que necesites a lo largo del notebook

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import random 

from sklearn.model_selection import train_test_split

### Ejercicio 1

Carga el dataset de advertising que encontrarás en la carpeta de datos. Muestra su información general. ¿Qué te llama la atención? ¿Tendremos que limpiar alguna variable?

In [None]:
df = pd.read_csv("./data/advertising_ml.csv")

In [None]:
df.info()

In [None]:
df.head()

*La variable Age tiene los datos en "years" y "años", pero más que eso lo suyo sería convertirla en una variable de tipo numérico*

### Ejercicio 2

Tenemos que entender el problema antes de seguir. Nos dicen que la compañía "QuickRespond" quiere poder generar un modelo que a partir de datos como los del dataset para poder dirigir mejor su campaña de anuncios. Hablando con ellos llegamos a la conclusión de que queremos un modelo para poder predecir si un usuario pulsará en el link de un anuncio o no. ¿Qué tipo de problemas estamos tratando?¿Y de que tipo de aprendizaje?¿Existe una variable target que puedas identificar rapidamente?

*Como quieren predecir si una persona pulsará o no, es como clasificar a esas personas en "pulsadores" y "no pulsadores", por tanto estamos hablando de **un problema de categorizacion**.  

*Si observas bien tenemo **la variable "Clicked on Ad" que claramente es la variable target**, la que nos dice si las personas de las que tenemos datos pulsaron en el anuncio (1) y las que no (0). En realidad la interpretación de qué es 1 y qué es 0 deberíamos confirmarla con quien nos proporcionó los datos, aunque suele ser totalmente estándar que 1 -> True, 0 -> False.*  

*Como tenemos etiquetados en nuestro dataset quién es y quien no es "pulsador" estamos ante un problema de **aprendizaje supervisado***


### Ejercicio 3

Volvamos ya a los datos. Intenta dar una definicón de cada columna, obten su cardinalidad y en función de esta y del tipo de variable de pandas, clasifícalas en categóricas y numéricas.

*Obtengamos las cardinalidades primero*

In [None]:
diccionario_cardinalidad = {}
for col in df.columns:
    cardinalidad = round(df[col].nunique()/len(df) * 100,2)
    print(f"Para <{col}> la cardinalidad es:", df[col].nunique(), "Variacion card:" , cardinalidad )
    diccionario_cardinalidad[col] = cardinalidad


*Hagamos ahora una descripción y fijemos un tipo de variable a priori*


* '`Daily Time Spent on Site`': tiempo del consumidor en el sitio en minutos, [numérica continua]
* '`Age`': edad del cliente en años [numérica continua por su variación de cardinalidad podríamos convertirla a categórica]
* '`Area Income`': Ingreso promedio del área geográfica del consumidor [numérica continua]
* '`Daily Internet Usage`': Promedio de minutos al día que el consumidor está en internet [numérica continua]
* '`Ad Topic Line`': Titular del anuncio [textual, esta es especial que tendremos que procesar de forma particular, porque en principio es única]
* '`City`': Ciudad del consumidor [Categorica, pero observa la cardinalidad, probablemente no aporte información por tener tanta variación]
* '`Male`': Si el consumidor era hombre o no [Categorica]
* '`Country`': País del consumidor [Categorica]
* '`Timestamp`': Momento en el que el consumidor hizo clic en el anuncio o cerró la ventana [Fecha, por su variación de cardinalidad podríamos transformala en franja horaria, por ejemplo]
* '`Clicked on Ad`': 0 o 1 indicando si hizo clic en el anuncio [Categorica, el target]

### Ejercicio 4

Limpia las columnas que necesiten ser limpiadas, no completes nulos (porque asignar valores a nulos sólo puedes hacerlo primero con el train, ya explicaremos con detalle por qué). 

*De todas ellas parece interesante procesar Age, quitando los años/years y volviéndola a ver*

In [None]:
df["Age"] = df.Age.str.replace(r"[year|años]","", regex= True).astype(int) # Quitamos la etiqueta y la convertimos a numercia

In [None]:
df.Age.nunique()

In [None]:
df.Age.hist()

*Se queda así*

### Ejercicio 5

Divide el datset en train y test, empleando sklearn para ello tal y como hemos hecho en el workout. Usa la regla del 80-20

In [None]:
train_set, test_set = train_test_split(df, test_size = 0.2, random_state = 42)

### Ejercicio 6

Haz un pequeño análisis univariante de las columnas numéricas (muestra sus histogramas)

*Hacemos el análisis solo sobre las numéricas contínuas, porque tanto "Male" como "Clicked on Ad" ya las han pasado a numéricas pero realmente son categóricas*

In [None]:
train_set[["Daily Time Spent on Site","Age","Area Income","Daily Internet Usage"]].hist(bins=50, figsize=(12, 8)) # La forma de generar histogramas de una sola vez para las variables numéricas de un dataset
plt.show()

1. Hay variación de rangos (tendremos que escalar) de unas variables a otras.
2. No tenemos problemas con las *heavy-tail*, no transformaremos las distribuciones.

### Ejercicio 7

Muestra las correlaciones de las variables continuas con un "PairPlot" y emplea como codigo de color la variable target. [Esto es otra forma de hacer un bivariante y un multivariante a la vez]. Para ello como argumento del pairplot de seaborn usa el dataframe de train (no la matriz de correlación)

In [None]:
sns.pairplot(train_set, hue = "Clicked on Ad");

### Ejercicio 8

Fijándote en la diagonal principal del gráfico anterior haz una selecció de features:

![image.png](attachment:image.png)

*Observa que las cuatro figuras en la elipse grande muestran dos distribuciones no superpuestas, una para cada valor de "Clicked on Ad". Eso quiere decir que son predictivas. Mientras que para el caso de Male, las distribuciones se superponen completamente, es decir que básicamente da igual esa variable*

*En definitiva, nos qeudaremos con ["Age","Area Income","Daily Internet Usage","Daily Time Spent on Site"] y descartaremos "Male"*

*Otra forma de hacer el análisis hubiera sido calcular el bivariante de cada una de las posibles variables con "Clicked on Ad" y haber hecho el test correspondiente para comrpobar si había relación, además del análisis visual* 

*Nos quedaría analizar las variables "City" y "Country", lo haremos en el siguiente grupo de ejercicios, por una cuestión de extensión y duración*