# __Analisis de personalidad de clientes (Parte I)__

Es un analisis detallado que se realiza a los clientes para encontrar el cliente ideal de una empresa. Permite a las empresas comprender mejor a sus clientes para facilitar la adaptacion de sus productos segun las necesidades, comportamientos e inquietudes especificas de los diferentes tipos de clientes.

La forma en que lo vamos a realizar es segmentando los clientes de acuerdo a caracteristicas comunes y encontrar el grupo que tiene mayor probabilidad de comprar un producto para luego comerciarlizarlo unicamente a ese segemento en particular, reduciendo costos de distribucion, marketing y ahorrando tiempo.

## __Contexto de los Datos__

Vamos a trabajar con un set de datos de clientes de una empresa. La descripcion de la informacion recolectada es la siguiente:

Informacion Basica: 

- _ID_: Identificador unico de cliente.
- _Year_Birth_: Año de nacimiento del cliente.
- _Education_: Nivel educativo.
- _Marital_Status_: Estado civil.
- _Income_: Ingresos familiares anuales.
- _Kidhome_: Numero de niños en el hogar.
- _Teenhome_: Numero de adolescentes en el hogar.
- _Dt_Customer_: Fecha de alta del cliente en la empresa.
- _Recency_: Numero de dias desde la ultima compra del cliente.

Informacion de productos:

- _MntWines_: Cantidad gastada en vino en los ultimos 2 años.
- _MntFruits_: Cantidad gastada en frutas en los ultimos 2 años.
- _MntMeatProducts_: Cantidad gastada en carnes en los ultimos 2 años.
- _MntSweetProducts_: Cantidad gastada en dulces en los ultimos 2 años.
- _MntGoldProds_:Cantidad gastada en oro en los ultimos 2 años.

Informacion de promociones tomada por los clientes

- _NumDealsPurchases_: Numero de compras realizadas con descuento.
- _AcceptedCmp1_: 1 si el cliente aceptó la oferta en la primera campaña, 0 en caso contrario.
- _AcceptedCmp2_: 1 si el cliente aceptó la oferta en la segunda campaña, 0 en caso contrario.
- _AcceptedCmp3_: 1 si el cliente aceptó la oferta en la tercera campaña, 0 en caso contrario.
- _AcceptedCmp4_: 1 si el cliente aceptó la oferta en la cuarta campaña, 0 en caso contrario.
- _AcceptedCmp5_: 1 si el cliente aceptó la oferta en la quinta campaña, 0 en caso contrario.
- _Response_: 1 si el cliente aceptó la oferta en la ultima campaña, 0 en caso contrario.

Informacion sobre el sitio de compras

- _NumWebPurchases_: Numero de compras realizadas a traves del sitio web de la empresa.
- _NumCatalogPurchases_: Numero de compras realizadas a traves del catalogo.
- _NumStorePurchases_: Numero de compras realizadas directamente en tiendas.
- _NumWebVisitsMonth_: Numero de visitas al sitio web en el ultimo mes.


Informacion extra:
- _Complain_: Numero de quejas dejada por el cliente.
- _Z_CostContact_: Costo por obtener al cliente.
- _Z_Revenue_: Ganancia por clic.
- _Response_: Respuesta.



## __Importando librerias__

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import warnings
warnings.filterwarnings('ignore')

## __Cargando el dataset__

In [3]:
df = pd.read_csv('./marketing_campaign.csv', sep='\t')
df.head()

Unnamed: 0,ID,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,NumWebVisitsMonth,AcceptedCmp3,AcceptedCmp4,AcceptedCmp5,AcceptedCmp1,AcceptedCmp2,Complain,Z_CostContact,Z_Revenue,Response
0,5524,1957,Graduation,Single,58138.0,0,0,04-09-2012,58,635,...,7,0,0,0,0,0,0,3,11,1
1,2174,1954,Graduation,Single,46344.0,1,1,08-03-2014,38,11,...,5,0,0,0,0,0,0,3,11,0
2,4141,1965,Graduation,Together,71613.0,0,0,21-08-2013,26,426,...,4,0,0,0,0,0,0,3,11,0
3,6182,1984,Graduation,Together,26646.0,1,0,10-02-2014,26,11,...,6,0,0,0,0,0,0,3,11,0
4,5324,1981,PhD,Married,58293.0,1,0,19-01-2014,94,173,...,5,0,0,0,0,0,0,3,11,0


Analicemos la informacion de cada columna.

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2240 entries, 0 to 2239
Data columns (total 29 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   ID                   2240 non-null   int64  
 1   Year_Birth           2240 non-null   int64  
 2   Education            2240 non-null   object 
 3   Marital_Status       2240 non-null   object 
 4   Income               2216 non-null   float64
 5   Kidhome              2240 non-null   int64  
 6   Teenhome             2240 non-null   int64  
 7   Dt_Customer          2240 non-null   object 
 8   Recency              2240 non-null   int64  
 9   MntWines             2240 non-null   int64  
 10  MntFruits            2240 non-null   int64  
 11  MntMeatProducts      2240 non-null   int64  
 12  MntFishProducts      2240 non-null   int64  
 13  MntSweetProducts     2240 non-null   int64  
 14  MntGoldProds         2240 non-null   int64  
 15  NumDealsPurchases    2240 non-null   i

> El dataset contiene 2240 registros en 29 columnas.

> Las variables Education, Marital_Status y Dt_customer son de tipo 'object'. Debemos convertirlas en un formato adecuado para que pueda ser interpretado correctamente por el modelo que se implementara.

> La variable Income presenta valores faltantes.

## __Analisis estadistico descriptivo__

In [None]:
# para variables numericas
df.describe(include='number').round(2).T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
ID,2240.0,5592.16,3246.66,0.0,2828.25,5458.5,8427.75,11191.0
Year_Birth,2240.0,1968.81,11.98,1893.0,1959.0,1970.0,1977.0,1996.0
Income,2216.0,52247.25,25173.08,1730.0,35303.0,51381.5,68522.0,666666.0
Kidhome,2240.0,0.44,0.54,0.0,0.0,0.0,1.0,2.0
Teenhome,2240.0,0.51,0.54,0.0,0.0,0.0,1.0,2.0
Recency,2240.0,49.11,28.96,0.0,24.0,49.0,74.0,99.0
MntWines,2240.0,303.94,336.6,0.0,23.75,173.5,504.25,1493.0
MntFruits,2240.0,26.3,39.77,0.0,1.0,8.0,33.0,199.0
MntMeatProducts,2240.0,166.95,225.72,0.0,16.0,67.0,232.0,1725.0
MntFishProducts,2240.0,37.53,54.63,0.0,3.0,12.0,50.0,259.0
