## Análisis de Datos: Dispersión de variables numéricas

Para saber si los datos están muy dispersos o se concentran en torno a un valor (caso en el que una de las medidas centrales como la media o la mediana los representarán muy bien), hemos visto ya los percentiles y el rango para hacernos una idea, pero en general lo que se emplea en el caso de los valores numéricos son dos medidas, relacionadas entre sí, y luego métodos visuales basados en dos tipos de gráficas: los histográmas y las graficas de función de densidad de probabilidad [Aunque a esta parte le dedicaremos la siguiente píldora]

Vamos a verlos y a aplicarlos a nuestros dos casos de uso de ejemplo. Para ello, ya sabes, ejecuta las siguientes celdas:

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns

df_seguros = pd.read_csv("./data/Marketing-Customer-Analysis.csv")
df_air_jun = pd.read_csv("./data/dataset_viajes_jun23.csv")

In [3]:
display(df_seguros.head())
df_seguros.info()

Unnamed: 0,customer,state,customer_lifetime_value,response,coverage,education,effective_to_date,employmentstatus,gender,income,...,months_since_policy_inception,number_of_open_complaints,number_of_policies,policy_type,policy,renew_offer_type,sales_channel,total_claim_amount,vehicle_class,vehicle_size
0,BU79786,Washington,2763.519279,No,Basic,Bachelor,2/24/11,Employed,F,56274,...,5,0,1,Corporate Auto,Corporate L3,Offer1,Agent,384.811147,Two-Door Car,Medsize
1,QZ44356,Arizona,6979.535903,No,Extended,Bachelor,1/31/11,Unemployed,F,0,...,42,0,8,Personal Auto,Personal L3,Offer3,Agent,1131.464935,Four-Door Car,Medsize
2,AI49188,Nevada,12887.43165,No,Premium,Bachelor,2/19/11,Employed,F,48767,...,38,0,2,Personal Auto,Personal L3,Offer1,Agent,566.472247,Two-Door Car,Medsize
3,WW63253,California,7645.861827,No,Basic,Bachelor,1/20/11,Unemployed,M,0,...,65,0,7,Corporate Auto,Corporate L2,Offer1,Call Center,529.881344,SUV,Medsize
4,HB64268,Washington,2813.692575,No,Basic,Bachelor,2/3/11,Employed,M,43836,...,44,0,1,Personal Auto,Personal L1,Offer1,Agent,138.130879,Four-Door Car,Medsize


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9134 entries, 0 to 9133
Data columns (total 24 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   customer                       9134 non-null   object 
 1   state                          9134 non-null   object 
 2   customer_lifetime_value        9134 non-null   float64
 3   response                       9134 non-null   object 
 4   coverage                       9134 non-null   object 
 5   education                      9134 non-null   object 
 6   effective_to_date              9134 non-null   object 
 7   employmentstatus               9134 non-null   object 
 8   gender                         9134 non-null   object 
 9   income                         9134 non-null   int64  
 10  location_code                  9134 non-null   object 
 11  marital_status                 9134 non-null   object 
 12  monthly_premium_auto           9134 non-null   i

In [4]:
display(df_air_jun.head())
df_air_jun.info()

Unnamed: 0,aircompany,origen,destino,distancia,avion,con_escala,consumo_kg,duracion,ingresos,id_vuelo,mes
0,Airnar,París,Ginebra,411,Boeing 737,False,1028.6919,51,14232.65,Air_PaGi_10737,Jun23
1,FlyQ,Bali,Roma,12738,Boeing 737,True,33479.132544,1167,468527.19,Fly_BaRo_10737,Jun23
2,TabarAir,Ginebra,Los Angeles,9103,Airbus A380,False,109439.9072,626,584789.19,Tab_GiLo_11380,Jun23
3,MoldaviAir,París,Cincinnati,6370,Boeing 737,False,17027.01,503,233342.51,Mol_PaCi_10737,Jun23
4,TabarAir,Cincinnati,Roma,7480,Boeing 747,False,86115.744,518,438535.07,Tab_CiRo_10747,Jun23


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 600 entries, 0 to 599
Data columns (total 11 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   aircompany  600 non-null    object 
 1   origen      600 non-null    object 
 2   destino     600 non-null    object 
 3   distancia   600 non-null    int64  
 4   avion       600 non-null    object 
 5   con_escala  600 non-null    bool   
 6   consumo_kg  600 non-null    float64
 7   duracion    600 non-null    int64  
 8   ingresos    600 non-null    float64
 9   id_vuelo    600 non-null    object 
 10  mes         600 non-null    object 
dtypes: bool(1), float64(2), int64(2), object(6)
memory usage: 47.6+ KB


### Medidas de dispersión o variabilidad: Varianza


La [varianza](https://es.wikipedia.org/wiki/Varianza) es la media aritmética del cuadrado de las desviaciones respecto a la media de un conjunto de datos (por ejemplo los valores de una de nuestras variables o columnas y, en general, una distribución estadística). La varianza intenta describir la dispersión de los *[datos](https://es.wikipedia.org/wiki/Dato). Básicamente representa lo que varían los datos*. **Como está elevada al cuadrado, la varianza no puede tener las mismas unidades que los datos**. 

Una varianza elevada significa que los datos están más dispersos. Mientras que un valor bajo, indica que los datos están próximos a la media. Se representa como $\sigma^2$. 
$$\sigma^2 = \frac{\sum\limits_{i=1}^n(x_i - \mu)^2}{n} $$




INCISO: Y por qué está elevado al cuadrado te preguntarás: Porque no quiero que las diferencias positivas y negativas se compensen. Piensa en esta serie de datos:
  
[-104,100,102,0,-100,120,-119]

La media es: 

$$\mu = \frac{1}{n} \sum_{i}x_i = \frac{(-104 + 100 + 102 + 0 -100 + 120 - 119)}{7} = \frac{-1}{7} \approx -0.14$$

Si no elevaramos al cuadrado y aplicaramos:


$$\sigma^2 = \frac{\sum\limits_{i=1}^n(x_i - \mu)}{n} $$


El denominador sería:

$$\sum\limits_{i=1}^n(x_i - \mu) = (-104 - 0.14) + (100 - 0.14) + (102 - 0.14) + (0 - 0.14) + (-100 - 0.14) + (120 - 0.14) + (-119 - 0.14) = -1.98$$


Y al dividirlo se nos quedariá en un grado de dispersión de 0.28 que no es real (fíjate que el rango como tal es 239), para que no se compensen las diferencias se elevan al cuadrado.


Y la varianza según la definición de ese conjunto de datos es:

$$\sigma^2 \approx 9968.69$$



En vez de aplicarla a los datos veamos la versión comparable (es decir medida en las mismas unidades que los datos que estamos analziando) que es la desviación estándar

### Medidas de dispersión o variabilidad: Desviación estándar

La [desviación típica](https://es.wikipedia.org/wiki/Desviaci%C3%B3n_t%C3%ADpica) es la raíz cuadrada de la varianza. Se representa con la letra griega $\sigma$.
$$\sigma = \sqrt{\frac{\sum\limits_{i=1}^n(x_i - \mu)^2}{n}} $$

Una ventaja que presenta la desviación estándar sobre la varianza es que se expresa en unidades de la variable en cuestión.

¿Y para qué nos sirven estas medidas?
* Nos dan una idea rápida de si los datos están dispersos (gte. compararemos la desviación con la media) y por tanto de si la media y mediana son buenos representantes de los valores o bien tenemos que trabajar la variable de otra forma, considerando rangos por ejemplo.
* Nos sirven para hacer cálculos posteriores y de otras medidas (que nos permitirán interpretar los datos de otras formas)

Podemos aplicar directamente el concepto de "Coeficiente de Variación" (CV) que es la división de la desviación estándar entre la media. Como pautas generales:

- Un CV menor al 15% suele considerarse como una baja variabilidad.
- Un CV entre 15% y 30% indica una variabilidad moderada.
- Un CV mayor al 30% a menudo se considera como una alta variabilidad.

Estos valores son orientativos y deben interpretarse en el contexto específico de tus datos y el área de estudio.

#### Caso 1. Seguros: Dispersión

En general, fijate en la desviación y, de nuevo, la podemos obtener del método describe():


In [5]:
df_seguros.describe().loc[["std","mean"]].T

Unnamed: 0,std,mean
customer_lifetime_value,6870.967608,8004.940475
income,30379.904734,37657.380009
monthly_premium_auto,34.407967,93.219291
months_since_last_claim,10.073257,15.097
months_since_policy_inception,27.905991,48.064594
number_of_open_complaints,0.910384,0.384388
number_of_policies,2.390182,2.96617
total_claim_amount,290.500092,434.088794


Si obtenemos el coeficiente de variación:

In [6]:
def variabilidad(df):
    df_var = df.describe().loc[["std","mean"]].T
    df_var["CV"] = df_var["std"]/df_var["mean"]
    return df_var

In [7]:
variabilidad(df_seguros)

Unnamed: 0,std,mean,CV
customer_lifetime_value,6870.967608,8004.940475,0.858341
income,30379.904734,37657.380009,0.806745
monthly_premium_auto,34.407967,93.219291,0.369108
months_since_last_claim,10.073257,15.097,0.667236
months_since_policy_inception,27.905991,48.064594,0.580594
number_of_open_complaints,0.910384,0.384388,2.368397
number_of_policies,2.390182,2.96617,0.805814
total_claim_amount,290.500092,434.088794,0.669218


Conclusión (no para mostrar sino para seguir avazando en el EDA): 
* Salvo quizá monthly_premium_alto para el resto de variables debo analizar con cuidado esa distribución de valores.
* En el caso de CLV que es una de nuestras directoras, y en el de income que es importante, tendré que dar más cariño

#### Caso 2. Viajes: Dispersión

Aplicando ya directamente la función:

In [8]:
variabilidad(df_air_jun)

Unnamed: 0,std,mean,CV
distancia,5550.244086,8071.003333,0.687677
consumo_kg,67441.849592,68240.520508,0.988296
duracion,450.474786,635.873333,0.708435
ingresos,318285.76397,418768.8515,0.760051


Nos ocurre algo parecido, en este caso probablemente sería más interesante hacerlo por compañía todo, pero eso lo veremos en la siguiente unidad. En cualquier caso tanto consumo (CV > 90%) como ingresos, nuestras variables directoras (o por lo menos las que nosotros hemos decidido que lo sean por ahora) necesitan que miremos sus distribuciones.

En ambos casos tenemos que ver qué "pinta" tienen los datos, nos nos vale con estas pistas de las métricas y ahí es donde entran nuestras dos siguientes herramientas: Los histogramas y las funciones de densidad.
