### Datos de Marketing

Se propone un archivo CSV (`datos_marketing.csv`) de 2240 filas (clientes) con 28 columnas relacionadas con datos de marketing.

Más específicamente, las columnas son:

`id`: Identificador único del cliente (Considerada como la `primary-key`).

`Year_Birth`: Año de nacimiento del cliente.

`Education`: Nivel de educación del cliente.

`Marital_Status`: Estado civil del cliente.

`Income`: Ingreso familiar anual del cliente.

`Kidhome`: Número de niños en el hogar del cliente.

`Teenhome`: Número de adolescentes en el hogar del cliente.

`Dt_Customer`: Fecha de alta del cliente en la plataforma de compras.

`Recency`: Frescura del cliente, número de días desde la última compra del cliente,

`MntWines`: Cantidad gastada en vino en los últimos 2 años.

`MntMeatProducts`: Cantidad gastada en carne en los últimos 2 años.

`MntFishProducts`: Cantidad gastada en pescado en los últimos 2 años.

`MntSweetProducts`: Cantidad gastada en dulces en los últimos 2 años.

`MntSweetProducts`: Cantidad gastada en dulces en los últimos 2 años.

`MntSweetProducts`: Cantidad gastada en oro en los últimos 2 años.

`NumDealsPurchases`: Número de compras con descuentos.

`NumWebPurchases`: Número de compras realizadas a través de la web de la empresa.

`NumWebPurchases`: Número de compras realizadas a través del catálogo de la empresa.

`NumStorePurchases`: Número de compras realizadas en la tienda de la empresa.

`NumStorePurchases`: Número de visitas a la web de la empresa en el último mes.

`AcceptedCmp1`: 1 si el cliente ha aceptado la oferta en la primera campaña que se le ha realizado. En caso contrario 0.

`AcceptedCmp2`: 1 si el cliente ha aceptado la oferta en la segunda campaña que se le ha realizado. En caso contrario 0.

`AcceptedCmp3`: 1 si el cliente ha aceptado la oferta en la tercera campaña que se le ha realizado. En caso contrario 0.

`AcceptedCmp4`: 1 si el cliente ha aceptado la oferta en la cuarta campaña que se le ha realizado. En caso contrario 0.

`AcceptedCmp5`: 1 si el cliente ha aceptado la oferta en la quinta campaña que se le ha realizado. En caso contrario 0.

`Response`: 1 si el cliente ha aceptado la oferta en la última campaña que se le ha realizado. En caso contrario 0.

`Complain`: 1 si el cliente ha realizado alguna queja en los últimos 2 años. En caso contrario 0.

`Country`: Localización del cliente.

### Introducción

Vamos a ponernos en realizar un `roleplay` de analista de datos. El equipo de ventas y marketing nos ha pedido que las campañas de marketing recientes no han sido tan eficaces como se esperaba. Debemos analizar el conjunto de datos para comprender este problema y proponer soluciones basadas en datos.



### Tareas

¿Hay valores nulos o valores atípicos? ¿Cómo los disputará/manejará?        
¿Hay alguna variable que justifique las transformaciones?       
¿Hay alguna variable útil que pueda diseñar con los datos proporcionados?       
¿Notas algún patrón o anomalía en los datos?        
¿Puede representarlo graficamente? (Aquí os ayudaremos)         

#### 1. Importación de librerías

In [3]:
import pandas as pd
import numpy as py  
import os  

#### 2. Lea el dataset

##### Solución

In [10]:
df=pd.read_csv("datos_marketing.csv")

#### 3. Use el comando `.info()` para ver información del `dataset`

##### Solución

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2240 entries, 0 to 2239
Data columns (total 28 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   ID                   2240 non-null   int64 
 1   Year_Birth           2240 non-null   int64 
 2   Education            2240 non-null   object
 3   Marital_Status       2240 non-null   object
 4    Income              2216 non-null   object
 5   Kidhome              2240 non-null   int64 
 6   Teenhome             2240 non-null   int64 
 7   Dt_Customer          2240 non-null   object
 8   Recency              2240 non-null   int64 
 9   MntWines             2240 non-null   int64 
 10  MntFruits            2240 non-null   int64 
 11  MntMeatProducts      2240 non-null   int64 
 12  MntFishProducts      2240 non-null   int64 
 13  MntSweetProducts     2240 non-null   int64 
 14  MntGoldProds         2240 non-null   int64 
 15  NumDealsPurchases    2240 non-null   int64 
 16  NumWeb

#### 4. Use el comando `.head()` para ver las columas

##### Solución

In [9]:
df.head(5)

Unnamed: 0,ID,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,NumStorePurchases,NumWebVisitsMonth,AcceptedCmp3,AcceptedCmp4,AcceptedCmp5,AcceptedCmp1,AcceptedCmp2,Response,Complain,Country
0,1826,1970,Graduation,Divorced,"$84,835.00",0,0,6/16/14,0,189,...,6,1,0,0,0,0,0,1,0,SP
1,1,1961,Graduation,Single,"$57,091.00",0,0,6/15/14,0,464,...,7,5,0,0,0,0,1,1,0,CA
2,10476,1958,Graduation,Married,"$67,267.00",0,1,5/13/14,0,134,...,5,2,0,0,0,0,0,0,0,US
3,1386,1967,Graduation,Together,"$32,474.00",1,1,5/11/14,0,10,...,2,7,0,0,0,0,0,0,0,AUS
4,5371,1989,Graduation,Single,"$21,474.00",1,0,4/8/14,0,6,...,2,7,1,0,0,0,0,1,0,SP


#### 5. Tratamiento de la columna `'income'`

Trate la columna:   

Eliminando el espacio del nombre de la columna. Puede usar la función `replace`.  
Quite el símbolo del dolar. Puede usar la función `replace`.  
Cambie la columna al tipo `float`. Puede usar la función `astype(...)` 

##### Solución

In [11]:
df.columns

Index(['ID', 'Year_Birth', 'Education', 'Marital_Status', ' Income ',
       'Kidhome', 'Teenhome', 'Dt_Customer', 'Recency', 'MntWines',
       'MntFruits', 'MntMeatProducts', 'MntFishProducts', 'MntSweetProducts',
       'MntGoldProds', 'NumDealsPurchases', 'NumWebPurchases',
       'NumCatalogPurchases', 'NumStorePurchases', 'NumWebVisitsMonth',
       'AcceptedCmp3', 'AcceptedCmp4', 'AcceptedCmp5', 'AcceptedCmp1',
       'AcceptedCmp2', 'Response', 'Complain', 'Country'],
      dtype='object')

#### 6. Imprima de nuevo el dataset con `.head()` y compruebe los resultados

##### Solución

##### Solución

#### 7. Empecemos mirando los valores nulos de las columnas.

Identifique el número de valores nulos en cada columna.

Use el comando `isnull()` y la combinación de `isnull()` y `sum()` para lograrlo.

##### Solución

#### 8. ¿Qué columna tiene valores nulos?

¿Cuántos valores nulos ha conseguido detectar?

¿En qué columna/s?

A continuación use el siguiente código para representar la columna `'Income'` y trate de ver qué ocurre.

plt.figure(figsize=(16, 8))     
sns.histplot(datos['Income'])   
plt.title('Distribucion de la columna "Income"', size=25)   
plt.ylabel('Conteo');   
Mire en el Eje X, ¿qué identifica en la figura? ¿Ve los valores nulos?  

##### Solución

##### 9. Rellene los valores nulos

Use la mediana de la columna para rellenar aquellos valores nulos.

La mediana puede ser calculada mediante `'.median()'`

##### Solución

#### 10. ¿Requiere alguna columna de realizar una transformación?

Mire la columna `Dt_Customer`. Cambie el tipo de columna a `Datetime`.

Puede usar la función `to_datetime()`.

##### Solución

#### 11. Otras tareas de ingeniería de datos que podemos hacer para facilitar la vida al equipo de ventas y marketing

Revise una lista de los nombres de columnas a continuación, a partir de los cuales podemos crear nuevas:

Es posible crear una nueva columna con el número total de menores de edad en el hogar (nueva columna `'Dependents'`) a partir de la suma de `'Kidhome'` y `'Teenhome'`.

Es posible tener a mano el año de cuando el cliente compró por primera vez (nueva columna `'Year_Customer'`) partir de `'Dt_Customer'`.

La cantidad total gastada (nueva columna `"TotalMnt"`) se puede crear a partir de la suma de todas las columnas que contienen la palabra clave `'Mnt'`.

Las compras totales (nueva columna `"TotalPurchases"`) se pueden diseñar a partir de la suma de todas las columnas que contienen la palabra clave `'Purchases'`.

El número total de campañas aceptadas por clientes (nueva columna `'TotalCampaignsAcc'`) se puede diseñar a partir de la suma de todas las columnas que contienen las palabras clave `'Cmp'` y `'Response'` (significa que es la última campaña).

##### Solución