## Análisis de Datos: Tendencia Central

In [None]:
import pandas as pd

df_seguros = pd.read_csv("./data/Marketing-Customer-Analysis.csv")
df_air_jun = pd.read_csv("./data/dataset_viajes_jun23.csv")

 las medidas estadísticas que se conconen como medidas de tendencia central.

### Por qué y para qué
+ De primeras, **permiten resumir los datos**, quizás muy mucho, por que nos resume la variable en un solo número pero de una forma consistente y con criterio.

las medidas de tendencia central
se llaman así porque indican el punto central o el **valor típico** de un conjunto de datos. Estas medidas "tienden" a ubicarse en el centro de la distribución de los datos. (De ahí su nombre)

+ Además permiten hacer **comparaciones**, quizás gruesas, pero lo permiten,
sí las medidas de tendencia central son una por variable.

+ Un sólo valor que en función de la distribución puede servirnos para **tomar decisiones**.

+ Finalmente, son la **base de cálculos más complicados** y, en general, más significativos.

## Medidas de tendencia central

Las medidas más comunes, sin contar las medidas de posición, son:


* **Media** Suma de todos los valores partido por el número de valores. Solo se puede hacer con numéricas.

* **Moda** valor con mayor frecuencia, aplicable a las categóricas nominales

* **Mediana** Se aplica tantoa las numéricas como a las categóricas nominales y m,e quedo con la que represente el 50% y si son pares me quedo con la media..

Además fijate que son medidas que aplican cada una a un tipo de variable:

* La media la aplicamos a numéricas discretas o continuas  
* La mediana la podemos aplicar a numéricas pero tiene más sentido con categóricas ordinales (donde podemos establecer una relación de orden)  
* La moda la podemos aplicar a las categóricas nominales (y también a las ordinales), no tiene mucho sentido con las numéricas con una cardinalidad media y alta  

## Media 
La [media aritmética](https://es.wikipedia.org/wiki/Media_aritm%C3%A9tica) es el valor obtenido al sumar todos los *[datos](https://es.wikipedia.org/wiki/Dato)* y dividir el resultado entre el número total elementos. Se suele representar con la letra griega $\mu$. Si tenemos una [muestra](https://es.wikipedia.org/wiki/Muestra_estad%C3%ADstica) de $n$ valores, $x_i$, la *media aritmética*, $\mu$, es la suma de los valores divididos por el numero de elementos; en otras palabras:
$$\mu = \frac{1}{n} \sum_{i}x_i$$

Está bien que te sepas la fórmula, aunque en Python emplearemos funciones. Los métodos de pandas y si no np.mean.

### Aplicación al Análisis

 obtén la media de todas tus variables (numéricas y guárdala, aunque con Pandas es inmediato obtenerla)

#### Caso 1. Seguros: Medias

In [None]:
df_seguros.describe().loc["mean"] #describe nos devuelve un df, y nos da la media para cada una de las columnnas numéricas a las qque se puede aplicar.

In [None]:
customer_lifetime_value           8004.940475
income                           37657.380009
monthly_premium_auto                93.219291
months_since_last_claim             15.097000
months_since_policy_inception       48.064594
number_of_open_complaints            0.384388
number_of_policies                   2.966170
total_claim_amount                 434.088794
Name: mean, dtype: float64 #nos devuelve esto

 no simplemente nos da una idea pero nos permite describir la compañía de una forma resumida:
* Los ingresos medios de nuestros clientes son de 37K$ anuales
* Nuestro valor medio prolongado en el tiempo es de 8K€, es decir en media un cliente suele aportar en su vida con la compañía ese valor
* La prima media premium mensual de un seguro de coche es de 93€, es decir que cobramos unos 1116K€ en media a los clientes premium
* Los partes de un cliente suelen distanciarse en media unos 15 meses

## Mediana 
La <a href="https://es.wikipedia.org/wiki/Mediana_(estad%C3%ADstica)">mediana</a> es el valor que ocupa el lugar central de todos los datos cuando éstos están ordenados de menor a mayor. Se representa con $\widetilde{x}$.

Si los datos están concentrados, usamos la media, si son asimétricos, usamos la mediana, ya que será más representativa.

```Python
x = [  4,  6,  2,  1,  7,  8, 11,  3]
```

Para calcular la mediana tendríamos que ordenar los datos, y escoger el valor que caiga justo en medio

```Python
x = [  4,  6,  2,  1,  7,  8, 11,  3]
y = [  1,  2,  3,  4,  6,  7,  8, 11]
```
Una vez ordenado, buscamos el valor que divide la mitad, hay 8 valores por lo cual, como es par, elegimos la media entre los dos valores que caen en el centro (4 y 6 = 5). Esto es polrque hacemos la media de los valores del centro, como no tenemos 4 y 5 , hacemo0s el cálculo 4+6=10/2=5.

In [None]:
df_seguros.describe().loc["50%"] #es el caso del percentil 50

Comparándola con la media, podemos ver que quizás es mejor caracterizar algunos valores con la "mediana" para no llevarnos a subestimar o sobreestimar algunas características:

Para hacer un rápido check veamos los valores máximos:


In [None]:
df_seguros.describe().loc["max"]

    * Valores que destacan -> Me los apunto como interesantes para seguir.

En definitiva, sin ser un gran mensajes si que me apuntaría:
- Mirar distribuciones de CLV, mirar distribuciones de claims.
- Mirar distribuciones de consumos, y de distancias.

## Moda 
La <a href="https://es.wikipedia.org/wiki/Moda_(estad%C3%ADstica)">moda</a> es el valor que tiene mayor frecuencia absoluta. Se representa con $M_0$. La moda puede ser compartida por varios valores.

La moda, es el valor que se repite con mayor frecuencia, es la forma que podemos aplicar en las categóricas, para ver cuantas veces se repiten.

Antes hay que apuntarse todas las categóricas que teíamos:

In [None]:
categoricas_seguros = [ # Sí, conviene pasar la tabla a listas python :-)
    "state",
    "response",
    "coverage",
    "education",
    "employmentstatus",
    "gender",
    "location_code",
    "marital_status",
    "policy_type",
    "policy",
    "renew_offer_type",
    "sales_channel",
    "vehicle_class",
    "vehicle_size"
]

In [None]:
df_seguros[categoricas_seguros].mode().T #nos da un df .T es por el cambio de tamaño.

Este podría decirse que es un perfil "típico" en nuestro dataset.

## Análisis de Datos: Frecuencias

Las variables se suelen tratar a partir de sus frecuencias, del número de apariciones de las mismas tanto en términos absolutos como relativos, dándonos una idea de como se distribuyen los valores

In [None]:
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns

df_seguros = pd.read_csv("./data/Marketing-Customer-Analysis.csv")
df_air_jun = pd.read_csv("./data/dataset_viajes_jun23.csv")

In [None]:
categoricas_seguros = [ # Sí, conviene pasar la tabla a listas python :-)
    "state",
    "response",
    "coverage",
    "education",
    "employmentstatus",
    "gender",
    "location_code",
    "marital_status",
    "policy_type",
    "policy",
    "renew_offer_type",
    "sales_channel",
    "vehicle_class",
    "vehicle_size"
]


In [None]:

variables_categoricas_viajes = [
    "aircompany",
    "origen",
    "destino",
    "avion",
    "con_escala"
]


Esta función nos ayuda a pintar gráficos de barras

In [None]:
def pinta_distribucion_categoricas(df, columnas_categoricas, relativa=False, mostrar_valores=False):
    num_columnas = len(columnas_categoricas)
    num_filas = (num_columnas // 2) + (num_columnas % 2)

    fig, axes = plt.subplots(num_filas, 2, figsize=(15, 5 * num_filas))
    axes = axes.flatten() 

    for i, col in enumerate(columnas_categoricas):
        ax = axes[i]
        if relativa:
            total = df[col].value_counts().sum()
            serie = df[col].value_counts().apply(lambda x: x / total)
            sns.barplot(x=serie.index, y=serie, ax=ax, palette='viridis', hue = serie.index, legend = False)
            ax.set_ylabel('Frecuencia Relativa')
        else:
            serie = df[col].value_counts()
            sns.barplot(x=serie.index, y=serie, ax=ax, palette='viridis', hue = serie.index, legend = False)
            ax.set_ylabel('Frecuencia')

        ax.set_title(f'Distribución de {col}')
        ax.set_xlabel('')
        ax.tick_params(axis='x', rotation=45)

        if mostrar_valores:
            for p in ax.patches:
                height = p.get_height()
                ax.annotate(f'{height:.2f}', (p.get_x() + p.get_width() / 2., height), 
                            ha='center', va='center', xytext=(0, 9), textcoords='offset points')

    for j in range(i + 1, num_filas * 2):
        axes[j].axis('off')

    plt.tight_layout()
    plt.show()



### Frecuencias absolutas
Siendo la moda el valor más común entre todos los posibles de la variable, también podemos sacar su **tabla de frecuencia absoluta**, que se define como el número de veces que se repite cada valor de la variable. Nosotros lo obtenemos con value_counts

#### Caso 1. Seguros: Frecuencias absolutas

In [None]:
for catego in categoricas_seguros:
    print(f"Para{catego}")
    print(df_seguros[catego].value_counts())
    print("\n"*2)

#### Visualización
Las frecuencias es una de esas medidas, como todas las de distribución de datos, que más que leer es mejor visualizar para analizarlas.
Así que empleemos esa función criptica del principio para visualizar nuestras frecuencias:

In [None]:
pinta_distribucion_categoricas(df_seguros, categoricas_seguros) #nos genera para cada función un diagrama de barras

### Frecuencia Relativa
Dividir la frecuencia absoluta entre el registro de números que tiene nuestro dataset.

#### Caso 1. Seguros: Frecuencia relativa


In [None]:
for catego in categoricas_viajes:
    print(f"Para{catego}")
    print(df_air_jun[catego].value_counts()/len(df_seguros*100))
    print("\n"*2)

visualizar función relativa:

In [None]:
pinta_distribucion_categoricas(df_seguros, categoricas_seguros, relativa = True)

## Análisis de Datos: Medidas de posición y rangos

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns

df_seguros = pd.read_csv("./data/Marketing-Customer-Analysis.csv")
df_air_jun = pd.read_csv("./data/dataset_viajes_jun23.csv")

In [None]:
def plot_multiple_boxplots(df, columns, dim_matriz_visual = 2): #funcion pintar gráficas
    num_cols = len(columns)
    num_rows = num_cols // dim_matriz_visual + num_cols % dim_matriz_visual
    fig, axes = plt.subplots(num_rows, dim_matriz_visual, figsize=(12, 6 * num_rows))
    axes = axes.flatten()

    for i, column in enumerate(columns):
        if df[column].dtype in ['int64', 'float64']:
            sns.boxplot(data=df, x=column, ax=axes[i])
            axes[i].set_title(column)

    # Ocultar ejes vacíos
    for j in range(i+1, num_rows * 2):
        axes[j].axis('off')

    plt.tight_layout()
    plt.show()




In [None]:
def plot_boxplot_grouped(df, column_to_plot, group_column): #función diagrama de cajas
    if df[column_to_plot].dtype in ['int64', 'float64'] and df[group_column].dtype in ['object', 'category']:
        sns.boxplot(data=df, x=group_column, y=column_to_plot)
        plt.show()

### Percentil
El percentil es el valor que divide un conjunto ordenado de datos estadísticos de forma que un porcentaje de tales datos sea inferior a dicho valor.
**Teniendo la variable ordenada en sentido ascendente, el percentil representa el orden relativo de cada valor respecto al resto de variables.**

Por ejemplo, si en una clase hay 100 alumnos, y en un examen solo tenemos 4 personas que hayan sacado mejor nota que nosotros, estaremos en el percentil 95%.

Por cierto, si recuerdas, la mediana es equivalente al percentil 50.

En pandas tenemos el método `quantile` para calcular los percentiles y en numpy la función `percentile`.

Por ejemplo si quiero el grado de dispersión en el CLV de los seguros, donde sé que la media y la mediana se separan entre otras cosas por que el valor máximo es muy alto, puedo acudir a ver los percentiles siguientes:
```Python
print(df_seguros["customer_lifetime_value"].quantile(0.5),
    df_seguros["customer_lifetime_value"].quantile(0.9), 
      df_seguros["customer_lifetime_value"].quantile(0.95),
     df_seguros["customer_lifetime_value"].max())
```
5780.182197 15433.385306000006 22064.3612665 83325.38119

### Quartiles
Los **[cuartiles](https://es.wikipedia.org/wiki/Cuartil)** son los tres valores de la variable estadística que dividen a un [conjunto de datos](https://es.wikipedia.org/wiki/Conjunto_de_datos) ordenados en cuatro partes iguales. Q1, Q2 y Q3 determinan los valores correspondientes a **los percentiles 25%, al 50% y al 75% de los datos**. Q2 coincide con la <a href="https://es.wikipedia.org/wiki/Mediana_(estad%C3%ADstica)">mediana</a>.

Podemos obtener los valores de los cuartiles utilizando los métodos y funciones comentados de pandas y numpy, pero también directamente del método `describe`.

In [None]:
df_air_jun.describe()

 usa un concepto denominado "rango intercuartílico" o `IQR` que es la diferencia entre el percentil 75% y el percentil 25% y,por tanto es un rango de valores entre los que se encuentra el 50% de los valores que no están en un extremo ni en el otro.

In [1]:
#el iqr, nos da idea de la dispersión:
def get_IQR(df, col):
    return df[col].quantile(0.75) - df[col].quantile(0.25)

In [None]:
get_IQR(df_seguros,"customer_lifetime_value")

* Si el IQR es mucho mayor que la mediana (por ejemplo más de un 50%) podríamos pensar en una variable con valores bastante dispersos (y por tanto las medidas de tendencia central hay que considerarlas con más cuidado)
* Podemos comparar el IQR con la diferencia entre valor máximo y mínimo (lo que veremos en un momento que es el rango) y si el IQR es comparable entonces de nuevo podremos hablar de una variable dispersa.

###  Diagramas de caja
Los [diagramas de cajas](https://es.wikipedia.org/wiki/Diagrama_de_caja) son una presentación visual que describe varias características importantes al mismo tiempo, tales como la dispersión y simetría. Para su realización se representan los tres cuartiles y los valores mínimo y máximo de los datos, sobre un rectángulo, alineado horizontal o verticalmente. Estos gráficos nos proporcionan abundante información y son sumamente útiles para encontrar [valores atípicos](https://es.wikipedia.org/wiki/Valor_at%C3%ADpico) y comparar dos [conjunto de datos](https://es.wikipedia.org/wiki/Conjunto_de_datos). 

<img src="https://miro.medium.com/max/18000/1*2c21SkzJMf3frPXPAR_gZA.png" width="500" height="550">

Nos da dispersión, asimetría y valores atípicos de un conjunto de datos.Un boxplot, es una gráfica donde hay una caja cuyos valores límite son el cuartil 1 y el 3 (percentil 25 y 75), que va a tener una linea en medio, que reresenta la mediana, percentil 50(quartil 2, con lieas denominadas bigotes, que tienen elk mínimo y el máximo, y los valores que estén más ayá del mínimo y máximo, serán valores raros. Cuanto más centrada esté la linea de la mediana en la caja, más simétrica será la distribución yu cuanto más pequeña sea esa caja, más concentrada estarála distribuciónj de valores.

Nos sirve para comparar dseries de valores entre sí y ver valores anómalos.

#### Caso 1. Seguros: Percentiles y BoxPlots


In [None]:
# Primero necesitamos las columnas numéricas:
columnas_numericas_customers = [
    "customer_lifetime_value",
    "income",
    "monthly_premium_auto",
    "months_since_last_claim",
    "months_since_policy_inception",
    "number_of_open_complaints",
    "number_of_policies",
    "total_claim_amount"
]
columnas_numericas_customers = df_seguros.describe().T.index.to_list()
print(columnas_numericas_customers)
#otra manera de printar las columnas numéricas es agtravés el describe y usando el index to list.

In [None]:
plot_multiple_boxplots(df_seguros, columnas_numericas_customers)

In [None]:
plot_boxplot_grouped(df_seguros, "customer_lifetime_value", "response")#podemos comparar entre dos para ver la diferencia de la distribución

### Rangos
 obtener los rangos de cada varible numérica, es decir hacer la diferencia entre su valor máximo y su valor mínimo:

In [None]:
df_seguros.describe().loc["max"] - df_seguros.describe().loc["min"]

In [None]:
df_air_jun.describe().loc["max"] - df_air_jun.describe().loc["min"]

Para ver los rangos, hacemo0s la difgerencia de máximos y mínimos.

En ambos casos los rangos nos sirven más para comparar y como referencia que como un dato a analizar de primeras. 


## Análisis de Datos: Dispersión de variables numéricas

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns

df_seguros = pd.read_csv("./data/Marketing-Customer-Analysis.csv")
df_air_jun = pd.read_csv("./data/dataset_viajes_jun23.csv")

### Medidas de dispersión o variabilidad: Varianza

La [varianza](https://es.wikipedia.org/wiki/Varianza) es la media aritmética del cuadrado de las desviaciones respecto a la media de un conjunto de datos. Cojo dato a dato de una variable, le resto la media lo elevo al cuadrado y lo divido por el número de valores de mi variable. Esto da sigma cuadrado o varianza
$$\sigma^2 = \frac{\sum\limits_{i=1}^n(x_i - \mu)^2}{n} $$
Básicamente representa lo que varían los datos*. **Como está elevada al cuadrado, la varianza no puede tener las mismas unidades que los datos**.
Una varianza elevada significa que los datos están más dispersos. Mientras que un valor bajo, indica que los datos están próximos a la media. Se representa como $\sigma^2$.

está elevado al cuadrado
Porque no quiero que las diferencias positivas y negativas se compensen. Piensa en esta serie de datos:



En vez de aplicarla a los datos veamos la versión comparable (es decir medida en las mismas unidades que los datos que estamos analziando) que es la desviación estándar. Porque la desviación estandar están las mismas variables que la columna que estamos analizando.
Nos sirve para indicar que hay desviación de datos y que la media y la mediana no son buenos representantes para las medias centrales y de datos.

Podemos aplicar directamente el concepto de "Coeficiente de Variación" (CV) que es la división de la desviación estándar entre la media. Como pautas generales:

- Un CV menor al 15% suele considerarse como una baja variabilidad.
- Un CV entre 15% y 30% indica una variabilidad moderada.
- Un CV mayor al 30% a menudo se considera como una alta variabilidad.

Estos valores son orientativos y deben interpretarse en el contexto específico de tus datos y el área de estudio.

#### Caso 1. Seguros: Dispersión


In [None]:
df_seguros.describe().loc[["std","mean"]].T #nos da la desviación estandard y su media

In [None]:
#obtenemos el cociente de variación
def variabilidad(df):
    df_var = df.describe().loc[["std","mean"]].T
    df_var["CV"] = df_var["std"]/df_var["mean"]
    return df_var

In [None]:
variabilidad(df_seguros) #nos da los coeficientes

## Análisis de Datos: Distribución de valores en variables numéricas

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns

df_seguros = pd.read_csv("./data/Marketing-Customer-Analysis.csv")
df_air_jun = pd.read_csv("./data/dataset_viajes_jun23.csv")

In [None]:

def plot_multiple_boxplots(df, columns, dim_matriz_visual = 2):
    num_cols = len(columns)
    num_rows = num_cols // dim_matriz_visual + num_cols % dim_matriz_visual
    fig, axes = plt.subplots(num_rows, dim_matriz_visual, figsize=(12, 6 * num_rows))
    axes = axes.flatten()

    for i, column in enumerate(columns):
        if df[column].dtype in ['int64', 'float64']:
            sns.boxplot(data=df, x=column, ax=axes[i])
            axes[i].set_title(column)

    # Ocultar ejes vacíos
    for j in range(i+1, num_rows * 2):
        axes[j].axis('off')

    plt.tight_layout()
    plt.show()

In [None]:

def plot_histo_den(df, columns):
    num_cols = len(columns)
    num_rows = num_cols // 2 + num_cols % 2
    fig, axes = plt.subplots(num_rows, 2, figsize=(12, 6 * num_rows))
    axes = axes.flatten()

    for i, column in enumerate(columns):
        if df[column].dtype in ['int64', 'float64']:
            sns.histplot(df[column], kde=True, ax=axes[i])
            axes[i].set_title(f'Histograma y KDE de {column}')

    # Ocultar ejes vacíos
    for j in range(i + 1, num_rows * 2):
        axes[j].axis('off')

    plt.tight_layout()
    plt.show()


### Distribución de valores: Histogramas
Los histogramas son la mejor herramienta para ver la forma, dispersión y tendencia central de los datos. Nos dan la frecuencia de aparición de cada valor de los datos.

In [None]:
df_seguros["customer_lifetime_value"].hist() #histograma

In [None]:
plot_multiple_boxplots(df_seguros, ["customer_lifetime_value"]) #boxplot

¿Y qué podemos hacer?
1. Analizar la variable filtrando los valores extremos.
2. En cualquier caso, parece interesante crearse una nueva variable categórica ordinal (con el *binning* que vimos en su momento) y emplearla para hacer una análisis más detallado por CLV (recuerda que es nuestra variable directora)
[Y me sigo apuntando estas cosas para mi continuación de EDA]

### Distribución de valores: Función densidad de probabilidad
Nos sirve para ver la forma que tiene una variable, así como la probabilidad de aparición de cada uno de sus valores. Este tipo de gráficos se utiliza para variables contínuas. Las vamos presentando porque: 

* Hay determinadas "formas" de esa función que cuando los datos las siguen podemos aplicar ciertas propiedas a los mismos

* las emplearemos bastante más adelante ya que según la forma de esa función, podremos hacer transformaciones o tendremos que hacerlas para el modelado en sprints posteriores.

In [None]:
plot_histo_den(df_seguros,["customer_lifetime_value"])

Compararemos nuestras variables on figuras estudiadas, porque si siguen esas distribucione spodemos hacer más inferencia sobre nuestros datos.

## EN EL EDA, DEBEMOS EMPLEAR ESE GRÁFICO EN TODAS LAS VARIABNLES NUMÉRICAS

#### Caso 1. Seguros: Histogramas y densidades

In [None]:
Nos da los tipos de gráficos de la columna
columnas_numericas = df_seguros.describe().columns.to_list()

plot_histo_den(df_seguros,columnas_numericas)
#para buscar sobre valores, debemos incidr sobre ellos con otras funciones.

## Análisis de Datos: Outliers
Un outlier es una observación anormal y extrema en un conjunto de valores relacionados, como los de nuestras variables o los de una muestra estadística. Son valores extremos tanto por arriba como por abajo. Estas anomalías son datos que puede afectar potencialmente a la estimación de los parámetros del mismo.

Se trata de datos que no son consistentes con el resto.


In [3]:
alturas = [1.65, 1.80, 1.72, 1.68, 1.75, 1.85, 1.62, 1.79, 1.82, 1.69]

print("Media de alturas:", sum(alturas)/len(alturas))

print("Maximo de alturas:", max(alturas))

print("Minimo de alturas:", min(alturas))

Media de alturas: 1.737
Maximo de alturas: 1.85
Minimo de alturas: 1.62


La altura media cae aproximadamente a mitad del rango (1.735), lo cual tiene sentido al ser una medida de centralidad. Ahora imaginemos que se incorporan a la clase dos futuros NBA.

In [4]:
alturas = [1.65, 1.80, 1.72, 1.68, 1.75, 1.85, 1.62, 1.79, 1.82, 1.69, 2.18, 2.22]

print("Media de alturas:", sum(alturas)/len(alturas))

print("Maximo de alturas:", max(alturas))

print("Minimo de alturas:", min(alturas))

Media de alturas: 1.8141666666666667
Maximo de alturas: 2.22
Minimo de alturas: 1.62


Ahora la media difiere bastante de la mitad del rango (1.92), por lo que nos desvirtúa mucho el cálculo.

Visto el ejemplo, tenemos dos puntos que cubrir:
1. Cómo se detectan.
2. ¿Qué hacer con ellos?


In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns

df_seguros = pd.read_csv("./data/Marketing-Customer-Analysis.csv")
df_air_jun = pd.read_csv("./data/dataset_viajes_jun23.csv")

In [None]:

def plot_multiple_boxplots(df, columns, dim_matriz_visual = 2):
    num_cols = len(columns)
    num_rows = num_cols // dim_matriz_visual + num_cols % dim_matriz_visual
    fig, axes = plt.subplots(num_rows, dim_matriz_visual, figsize=(12, 6 * num_rows))
    axes = axes.flatten()

    for i, column in enumerate(columns):
        if df[column].dtype in ['int64', 'float64']:
            sns.boxplot(data=df, x=column, ax=axes[i])
            axes[i].set_title(column)

    # Ocultar ejes vacíos
    for j in range(i+1, num_rows * 2):
        axes[j].axis('off')

    plt.tight_layout()
    plt.show()

In [None]:
def plot_histo_dens(df, columns, bins=None):
    num_cols = len(columns)
    num_rows = num_cols // 2 + num_cols % 2
    fig, axes = plt.subplots(num_rows, 2, figsize=(12, 6 * num_rows))
    axes = axes.flatten()

    for i, column in enumerate(columns):
        if df[column].dtype in ['int64', 'float64']:
            if bins:
                sns.histplot(df[column], kde=True, ax=axes[i], bins=bins)
            else:
                sns.histplot(df[column], kde=True, ax=axes[i])
            axes[i].set_title(f'Histograma y KDE de {column}')

    # Ocultar ejes vacíos
    for j in range(i + 1, num_rows * 2):
        axes[j].axis('off')

    plt.tight_layout()
    plt.show()

# Ejemplo de uso:
# plot_histograms_with_density(df, ['columna1', 'columna2', 'columna3'], bins=20)


In [None]:

def plot_combined_graphs(df, columns, whisker_width=1.5):
    num_cols = len(columns)
    if num_cols:
        
        fig, axes = plt.subplots(num_cols, 2, figsize=(12, 5 * num_cols))
        print(axes.shape)

        for i, column in enumerate(columns):
            if df[column].dtype in ['int64', 'float64']:
                # Histograma y KDE
                sns.histplot(df[column], kde=True, ax=axes[i,0] if num_cols > 1 else axes[0])
                if num_cols > 1:
                    axes[i,0].set_title(f'Histograma y KDE de {column}')
                else:
                    axes[0].set_title(f'Histograma y KDE de {column}')

                # Boxplot
                sns.boxplot(x=df[column], ax=axes[i,1] if num_cols > 1 else axes[1], whis=whisker_width)
                if num_cols > 1:
                    axes[i,1].set_title(f'Boxplot de {column}')
                else:
                    axes[1].set_title(f'Boxplot de {column}')

        plt.tight_layout()
        plt.show()


### Detección de Outliers

In [None]:
plot_combined_graphs(df_seguros, ["customer_lifetime_value"]) #nos da el histograma y el diagrama de caja.

En ambos casos vemos que la larga cola de uno y los valores fuera del "maximum" ya nos indican la presencia de valores anómalos en el rango superior 

1. Cuando la densidad estimada en el diagrama combinado histograma-densidad se parece a una normal, entonces un buen criterio es [y lo explicaremos en la sesión en vivo] obtener la desviación estándar de nuestra variable y considerar outliers a aquellos valores que superen 2 o 3 veces la desviación (valores < media - std\*n) y (valores > media + std\*n) (como puedes ver la distribución normal es simétrica respecto a la media por eso hay que contar a derecha e izquierda). 

|Valor de n | Tanto % de valores comprendidos en el rango no outlier|
|-|-|
|1|68%|
|2|95%|
|3|98%|

2. 


Si se parece a:

una campana de gaus

Lo que está fuera de la campana de gaus son outlier y la mitad es la media.

2. Si nuestra densidad no tiene pinta de gaussiana, como le pasa a la distribución de valores de CLV, entonces podemos escoger la longitud de los bigotes de nuestro bloxplot, lo que quede por debajo del "minimum" y por encima del maximum serán outliers. Pero para estos casos te recomiendo que aumentes la longitud de los bigotes en función de lo que veas en el histograma. En plata:

In [None]:
plot_combined_graphs(df_seguros, ["customer_lifetime_value"], whisker_width= 4.5) # 3 veces la longitud habitual (que es 1.5*IQR)
#se hace a través del whisker

#### Caso 1.Seguros: Detección de Outliers

In [None]:
columnas_numericas = df_seguros.describe().columns.to_list()

plot_combined_graphs(df_seguros, columns = columnas_numericas, whisker_width=3)

### Tratamiento de Outliers

Los outliers no son necesariamente malos, de hecho, habrá veces que querrás cazar outliers y que son precisamente esos valores los que te interesan. Por eso qué hacer con ellos depende mucho del problema y el contexto. **No hay una regla para el tratamiento de los mismos**. Un conjunto de posibles tratamientos:

* Mantenerlos 
* Elimiar si son valores erróneos 
* Eliminarlos directamente, indicando que se ha hecho 
* Aplicar transformaciones (se verá en feature engineering), para que estos outliers no molesten, los cambiaremos. 
* Discretizar la variable 
* Imputar el valor por otro nuevo (como los missings) 
* Tratar por separado 

#### Caso 1. Seguros: Tratamiento de Outliers.
En este caso al ser CLV la variable casi más importante, descartamos eliminarlos, mi sugerencia sería:
1. Asegurarnos de que no son valores erróneos (no tiene pinta)
2. Dividir el dataset en dos, hacer un estudio para unos y otros.
3. Previamente analizar como se relacionan con las otras dos columns de outliers. 

Una vez separados los datasets, analizar los nuevos outliers  (es decir ya en el dataset de outliers de CVL estos ya nos on outliers, pero puede que haya outliers en los otros campos):
1. Categorizar las variables con outliers, rehacer su análisis tal como hicimos con las otras categóricas. 