# Analisis de Datos: Primeros Pasos

## Aclaración previa: Estadística descriptiva e Inferencial, población y muestra.

En este módulo de Análisis de Datos al que pertenece el Sprint y la píldora, vamos a trabajar con lo que se denomina Estadística Descriptiva. Eso nos permitirá construir nuestros EDA para explorar y resumir conjuntos de datos, identificar patrones, tendencias y anomalías, y formular hipótesis iniciales.

Pero ojo, aquí no se acaba el camino, esta parte de Análisis nos debe ayudar a tener una visión general y una comprensión de la naturaleza de los datos, que es fundamental antes de realizar cualquier inferencia estadística o aplicar modelos predictivos y ya estar en completa disposición de tomar casi cualquier decisión de forma informada.

Y para terminar esta larga aclaración, digamos burdamente que en la estadística descriptiva trabajamos sobre nuestros datos como si fueran los únicos que hubiera del tema que estamos tratando (como si fueran lo que se dice la población completa) y con la estadística inferencial partimos del contexto de que queremos sacar conclusiones que se puedan generalizar fuera de esos datos concretos (pensamos que trabajamos con una muestra del total de datos posibles). Por ejemplo:

- Si nuestro datasets es de las ventas de yogures en los supermercados de Madrid de nuestra marca. Al hacer el EDA y trabajar con estadística descriptiva vamos a contar la historia de ese contexto en concreto sin pensar en que exista otro. Para este caso los supermercados de Madrid de nuestra marca son todos los supermercados del mundo (toda la población).

- Si a partir de los datos anteriores y su EDA quiero obtener (o inferir) datos que me digan cómo podrían ser las ventas en los supermercados de la competencia, en mis supermercados cuando los abra en otra ciudad, etc, etc. Entonces estoy generalizando (entonces mis datos anteriores son una muestra) y usaremos estadística inferencial y modelos de aprendizaje automático.

## Tengo los datos preparadísimos y ahora ¿qué?

Ahora puedes estar en una de estas dos situaciones:

1. Tienes claro que quieres sacar de los datos (o te lo han dejado claro las jefas): preguntas a respuestas del tipo ¿qué tipo de cliente compra más en mis tiendas del norte del país frente al resto? ¿Es mejor comprar o alquilar, en qué ciudades?, o confirmaciones/negaciones de hipótesis de trabajos de criptomonedas se emplean principalmente para el lavado de dinero.

2. Tienes una idea muy vaga o ninguna sobre lo qué quieres obtener, sólo sabes que te gusta el dataset o es el que te han proporcionado en el curro.

### Los datasets guía

In [None]:
# Como simepre importamos lo siguiente:

In [2]:
import pandas as pd

Para poder trabajar la unidad vamos a ponernos con dos situaciones diferentes

### Caso 1
En este caso, que llamaremos EDA-TD, vamos a partir de un dataset de una compañía de seguros que tiene muy claro lo que quiere que hagas: Quiere que analices el Lifetime Customer Value (el valor acumulado de un cliente a lo largo de su relación con una empresa, por ejemplo: todo el dinero que le has dado a tu compañía de teléfonos), resumidamente CLV, y la respuesta a las ofertas de marketing. En concreto quiere saber:

1. ¿Cómo se distribuye demográficamente el CLV? (es decir por género, región, nivel de educación, etc)
2. ¿Cómo responden los clientes a las ofertas de renovación?
3. ¿Cómo se distribuye esa oferta de renovación? (¿Responden mejor los hombres? ¿Los dueños de coches de lujo? ¿Qué canal tiene mejor respuesta)
4. ¿Qué relación hay entre las reclamaciones y CLV y entre aquellas y la respuesta a marketing?

Para ello cargamos en df_seguros los datos de esta empresa:

In [5]:
df_seguros = pd.read_csv("C:/Users/david/Downloads/Marketing-Customer-Analysis.csv")

In [7]:
df_seguros.head(10)

Unnamed: 0,customer,state,customer_lifetime_value,response,coverage,education,effective_to_date,employmentstatus,gender,income,...,months_since_policy_inception,number_of_open_complaints,number_of_policies,policy_type,policy,renew_offer_type,sales_channel,total_claim_amount,vehicle_class,vehicle_size
0,BU79786,Washington,2763.519279,No,Basic,Bachelor,2/24/11,Employed,F,56274,...,5,0,1,Corporate Auto,Corporate L3,Offer1,Agent,384.811147,Two-Door Car,Medsize
1,QZ44356,Arizona,6979.535903,No,Extended,Bachelor,1/31/11,Unemployed,F,0,...,42,0,8,Personal Auto,Personal L3,Offer3,Agent,1131.464935,Four-Door Car,Medsize
2,AI49188,Nevada,12887.43165,No,Premium,Bachelor,2/19/11,Employed,F,48767,...,38,0,2,Personal Auto,Personal L3,Offer1,Agent,566.472247,Two-Door Car,Medsize
3,WW63253,California,7645.861827,No,Basic,Bachelor,1/20/11,Unemployed,M,0,...,65,0,7,Corporate Auto,Corporate L2,Offer1,Call Center,529.881344,SUV,Medsize
4,HB64268,Washington,2813.692575,No,Basic,Bachelor,2/3/11,Employed,M,43836,...,44,0,1,Personal Auto,Personal L1,Offer1,Agent,138.130879,Four-Door Car,Medsize
5,OC83172,Oregon,8256.2978,Yes,Basic,Bachelor,1/25/11,Employed,F,62902,...,94,0,2,Personal Auto,Personal L3,Offer2,Web,159.383042,Two-Door Car,Medsize
6,XZ87318,Oregon,5380.898636,Yes,Basic,College,2/24/11,Employed,F,55350,...,13,0,9,Corporate Auto,Corporate L3,Offer1,Agent,321.6,Four-Door Car,Medsize
7,CF85061,Arizona,7216.100311,No,Premium,Master,1/18/11,Unemployed,M,0,...,68,0,4,Corporate Auto,Corporate L3,Offer1,Agent,363.02968,Four-Door Car,Medsize
8,DY87989,Oregon,24127.50402,Yes,Basic,Bachelor,1/26/11,Medical Leave,M,14072,...,3,0,2,Corporate Auto,Corporate L3,Offer1,Agent,511.2,Four-Door Car,Medsize
9,BQ94931,Oregon,7388.178085,No,Extended,College,2/17/11,Employed,F,28812,...,7,0,8,Special Auto,Special L2,Offer2,Branch,425.527834,Four-Door Car,Medsize


In [8]:
df_seguros.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9134 entries, 0 to 9133
Data columns (total 24 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   customer                       9134 non-null   object 
 1   state                          9134 non-null   object 
 2   customer_lifetime_value        9134 non-null   float64
 3   response                       9134 non-null   object 
 4   coverage                       9134 non-null   object 
 5   education                      9134 non-null   object 
 6   effective_to_date              9134 non-null   object 
 7   employmentstatus               9134 non-null   object 
 8   gender                         9134 non-null   object 
 9   income                         9134 non-null   int64  
 10  location_code                  9134 non-null   object 
 11  marital_status                 9134 non-null   object 
 12  monthly_premium_auto           9134 non-null   i

### Caso 2 (bottom-up EDA): Nuevo departamento DataScience de TabarAir

En este otro caso, que llamaremos EDA-BU, partimos de nuestro conocido dataset de viajes de compañías aéreas, aunque con algunos cambios. La unidad de BI de TabarAir ha creado recientemente una unidad de Ciencia del Dato y como todavía no tiene claro qué quiere hacer nos ha pasado datos que ha conseguido de la competencia junto con los suyos propios y nos pide que le saquemos, literalmente "todo el jugo posible". Vamos que ninguna directriz "operativa"...

De hecho nos ha pasado datos de dos meses, Junio y Julio, por separado.

Carguemos los datos y echemos un vistazo: