# Datos de Marketing

Se propone un archivo CSV (`datos_marketing.csv`) de 2240 filas (clientes) con 28 columnas relacionadas con datos de marketing. 

Más específicamente, las columnas son:

* `id`: Identificador único del cliente (Considerada como la `primary-key`).

* `Year_Birth`: Año de nacimiento del cliente.

* `Education`: Nivel de educación del cliente.

`Marital_Status`: Estado civil del cliente.

* `Income`: Ingreso familiar anual del cliente.

* `Kidhome`: Número de niños en el hogar del cliente.

* `Teenhome`: Número de adolescentes en el hogar del cliente.

* `Dt_Customer`: Fecha de alta del cliente en la plataforma de compras.

* `Recency`: Frescura del cliente, número de días desde la última compra del cliente,

* `MntWines`: Cantidad gastada en vino en los últimos 2 años.

* `MntMeatProducts`: Cantidad gastada en carne en los últimos 2 años.

* `MntFishProducts`: Cantidad gastada en pescado en los últimos 2 años.

* `MntSweetProducts`: Cantidad gastada en dulces en los últimos 2 años.

* `MntSweetProducts`: Cantidad gastada en dulces en los últimos 2 años.

* `MntSweetProducts`: Cantidad gastada en oro en los últimos 2 años.

* `NumDealsPurchases`: Número de compras con descuentos.

* `NumWebPurchases`: Número de compras realizadas a través de la web de la empresa.

* `NumWebPurchases`: Número de compras realizadas a través del catálogo de la empresa.

* `NumStorePurchases`: Número de compras realizadas en la tienda de la empresa.

* `NumStorePurchases`: Número de visitas a la web de la empresa en el último mes.

* `AcceptedCmp1`: 1 si el cliente ha aceptado la oferta en la primera campaña que se le ha realizado. En caso contrario 0.

* `AcceptedCmp2`: 1 si el cliente ha aceptado la oferta en la segunda campaña que se le ha realizado. En caso contrario 0.

* `AcceptedCmp3`: 1 si el cliente ha aceptado la oferta en la tercera campaña que se le ha realizado. En caso contrario 0.

* `AcceptedCmp4`: 1 si el cliente ha aceptado la oferta en la cuarta campaña que se le ha realizado. En caso contrario 0.

* `AcceptedCmp5`: 1 si el cliente ha aceptado la oferta en la quinta campaña que se le ha realizado. En caso contrario 0.

* `Response`: 1 si el cliente ha aceptado la oferta en la última campaña que se le ha realizado. En caso contrario 0.

* `Complain`: 1 si el cliente ha realizado alguna queja en los últimos 2 años. En caso contrario 0.

* `Country`: Localización del cliente.

# Introducción

Vamos a ponernos en realizar un `roleplay` de analista de datos. El equipo de ventas y marketing nos ha pedido que las campañas de marketing recientes no han sido tan eficaces como se esperaba. Debemos analizar el conjunto de datos para comprender este problema y proponer soluciones basadas en datos.

## Tareas

* ¿Hay valores nulos o valores atípicos? ¿Cómo los disputará/manejará?
* ¿Hay alguna variable que justifique las transformaciones?
* ¿Hay alguna variable útil que pueda diseñar con los datos proporcionados?
* ¿Notas algún patrón o anomalía en los datos? 
* ¿Puede representarlo graficamente? (Aquí os ayudaremos)

# Importación de librerías



# Lea el dataset

## Solución

# Use el comando .info() para ver información del `dataset`.

## Solución

# Use el comando .head() para ver las columas

¿Qué observa en la columna `'income'`?

## Solución

# Tratamiento de la columna `'income'`

Trate la columna: 
* Eliminando el espacio del nombre de la columna. Puede usar la función `replace`.
* Quite el símbolo del dolar. Puede usar la función `replace`.
* Cambie la columna al tipo `float`. Puede usar la función `astype(...)`

## Solución

# Imprima de nuevo el dataset con `.head()` y compruebe los resultados

## Solución

# Empecemos mirando los valores nulos de las columnas. 

Identifique el número de valores nulos en cada columna. 

Use el comando `isnull()` y la combinación de `isnull()` y `sum()` para lograrlo.

## Solución

# ¿Qué columna tiene valores nulos?

¿Cuántos valores nulos ha conseguido detectar?

¿En qué columna/s?

A continuación use el siguiente código para representar la columna `'Income'` y trate de ver qué ocurre.



```
plt.figure(figsize=(16, 8))
sns.histplot(datos['Income'])
plt.title('Distribucion de la columna "Income"', size=25)
plt.ylabel('Conteo');
```

Mire en el Eje X, ¿qué identifica en la figura? ¿Ve los valores nulos?



# Rellene los valores nulos

Use la **mediana** de la columna para rellenar aquellos valores nulos.

La mediana puede ser calculada mediante `'.median()'`

## Solución

# ¿Requiere alguna columna de realizar una transformación?

Mire la columna `Dt_Customer`. Cambie el tipo de columna a `Datetime`.

Puede usar la función `to_datetime()`.

## Solución

# Otras tareas de ingeniería de datos que podemos hacer para facilitar la vida al equipo de ventas y marketing

Revise una lista de los nombres de columnas a continuación, a partir de los cuales podemos crear nuevas:

* Es posible crear una nueva columna con el número total de menores de edad en el hogar (nueva columna `'Dependents'`) a partir de la suma de `'Kidhome'` y `'Teenhome'`.

* Es posible tener a mano el año de cuando el cliente compró por primera vez (nueva columna `'Year_Customer'`)  partir de `'Dt_Customer'`.

* La cantidad total gastada (nueva columna `"TotalMnt"`) se puede crear a partir de la suma de todas las columnas que contienen la palabra clave `'Mnt'`.

* Las compras totales (nueva columna `"TotalPurchases"`) se pueden diseñar a partir de la suma de todas las columnas que contienen la palabra clave `'Purchases'`.

* El número total de campañas aceptadas por clientes (nueva columna `'TotalCampaignsAcc'`) se puede diseñar a partir de la suma de todas las columnas que contienen las palabras clave `'Cmp'` y `'Response'` (significa que es la última campaña).


## Solución

