# Clase 13 - An√°lisis Exploratorio de Datos

**MDS7202: Laboratorio de Programaci√≥n Cient√≠fica para Ciencia de Datos**

**Profesor: Pablo Badilla**


## Objetivos de la Clase

![Etapas de un Proyecto de Ciencia de Datos](https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/13-EDA/metodologia.png)

Los datos son la materia prima para la contrucci√≥n de an√°lisis estad√≠sticos y modelos predictivos. Esto implica que las hip√≥tesis y predicciones elaboradas por dichos modelos estar√°n directamente relacionados con la calidad de los datos. Por ende, es cr√≠tico asegurar un preprocesado y una buena examinaci√≥n de los datasets a trabajar.

El contenido de esta c√°tedra, se centra en las t√©cnicas esenciales para la exploraci√≥n de datos usando las herramientas que hemos visto hasta el momento.


## Problema de Esta Clase: House Pricing

![House Pricing](https://storage.googleapis.com/kaggle-competitions/kaggle/5407/media/housesbanner.png)

El dataset **`house pricing`** consiste en 80 variables (79 variables explicativas m√°s una variable objetivo) que describen aspectos fundamentales de hogares residenciales en la ciudad de _Ames, Iowa_.

La variable objetivo de este dataset es generar un modelo que prediga el precio final de cada hogar por medio de una regresi√≥n.

Es un problema "ultra conocido"y pueden encontrar su descripci√≥n aqu√≠: https://www.kaggle.com/c/house-prices-advanced-regression-techniques


In [None]:
import numpy as np
import pandas as pd
from scipy import stats
from scipy.stats import norm

# El conjunto a trabajar es el de entrenamiento
df = pd.read_csv(
    "https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/13-EDA//train.csv",
    index_col="Id",
)
df


In [None]:
# Preprocesamiento

# Etapa 1: Convertir mes y a√±o a Datetime
df["DateSold"] = pd.to_datetime(
    "1/" + df["MoSold"].astype(str) + "/" + df["YearBuilt"].astype(str), yearfirst=False
)

# Etapa 2: Generar cuartiles para los precios
df["SalePriceQCut"] = pd.qcut(
    df["SalePrice"], 4, ["Low", "Low-Mid", "Mid-High", "High"]
)

# Etapa 3: Convertir strings a categor√≠as
df = pd.concat(
    [
        df.select_dtypes([], ["object"]),
        df.select_dtypes(["object"]).apply(pd.Series.astype, dtype="category"),
    ],
    axis=1,
)


In [None]:
df = df.loc[
    :,
    [
        # Terreno üèîÔ∏è
        "LotArea",  # Area del terreno
        "LandSlope",  # Pendiente del terreno
        "Neighborhood",  # Barrio
        # Metadatos de la Vivienda üìÜ
        "BldgType",  # Tipo de vivienda
        "YearBuilt",  # A√±o de construcci√≥n
        "YearRemodAdd",  # A√±o de remodelaci√≥n
        "Utilities",  # Agua, luz, etc...
        # Materiales üß±
        "Foundation",  # Fundaci√≥n de la vivienda
        "RoofMatl",  # Material del techo
        "RoofStyle",  # Estilo del techo
        "Exterior1st",  # Material del Exterior
        "ExterCond",  # Condici√≥n del material exterior
        # Interior de la casa üè°
        "GrLivArea",  # Area habitable sobre el nivel del suelo.
        "1stFlrSF",  # Area primer piso
        "2ndFlrSF",  # Area segundo piso
        "FullBath",  # Ba√±os completos
        "HalfBath",  # Medios ba√±os, ba√±os sin tina.
        "BedroomAbvGr",  # Piezas
        "KitchenAbvGr",  # Cocinas
        "KitchenQual",  # Calidad de la cocina
        # S√≥tano ü™®
        "TotalBsmtSF",  # Total s√≥tano
        "BsmtCond",  # Condici√≥n del s√≥tano
        # Garaje üöó
        "GarageType",  # Tipo de garaje
        "GarageCars",  # Cantidad de autos por garaje
        # Piscina ü§Ω‚Äç‚ôÇÔ∏è
        "PoolArea",  # Area de la piscina
        "PoolQC",  # Calidad de la piscina
        # Calefacci√≥n y Aire üå¶Ô∏è
        "Heating",  # Calefacci√≥n
        "HeatingQC",  # Calidad de la Calefacci√≥n
        "CentralAir",  # Aire Acondicionado Central
        # Calidad y Condici√≥n üåü
        "OverallQual",  # Calidad general
        "OverallCond",  # Condici√≥n general actual
        # Datos de la venta  üíµ
        "DateSold",  # Mes y A√±o de venta
        "SaleType",  # Tipo de venta
        "SaleCondition",  # Condici√≥n de la vivienda en la venta
        "SalePrice",  # Precio de la venta
        "SalePriceQCut",  # Cuartiles del precio de la vivienda
    ],
]

numeric = df.select_dtypes(["int64"]).columns
categorical = df.select_dtypes(["category"]).columns


In [None]:
df.info()


In [None]:
df.head()


> **Actividad üìé**: ¬øQu√© hacemos ahora? - Dise√±en en conjunto un plan para explorar los datos.


## An√°lisis Exploratorio de Datos

Un an√°lisis exploratorio de datos (EDA, por sus siglas en ingl√©s) es una t√©cnica utilizada en la ciencia de datos para examinar y resumir las principales caracter√≠sticas de un conjunto de datos. **El objetivo principal del EDA es descubrir patrones, relaciones y tendencias en los datos, as√≠ como identificar cualquier anomal√≠a o error que pueda estar presente.**


<img src='https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/13-EDA/eda_related.png' alt='Gr√°ficos en an√°lisis exploratorio de datos'/>

<div align='center'/>
An√°lisis exploratorio de datos. 
<br>
Fuente: <a href='https://towardsdatascience.com/exploratory-data-analysis-8fc1cb20fd15'>What is Exploratory Data Analysis?</a>
</center>


El EDA implica la utilizaci√≥n de herramientas estad√≠sticas y gr√°ficas para explorar los datos. Esto incluye la visualizaci√≥n de datos, el c√°lculo de medidas estad√≠sticas como la media, la mediana y la desviaci√≥n est√°ndar, y la identificaci√≥n de valores at√≠picos (o _outliers_) y errores.

En general, podemos resumir este proceso en estas 5 etapas, una del problema:

0. **Entender el problema con el que trabajaremos y obtener los datos.**

Y las otras respecto a los datos en si:

1. **An√°lisis Univariado**: En esta etapa se analiza cada variable de forma individual, utilizando t√©cnicas estad√≠sticas y gr√°ficas para examinar su distribuci√≥n, tendencias y valores at√≠picos.
2. **An√°lisis Bivariado y Multivariado**: En esta etapa se analizan las relaciones entre pares de variables, utilizando gr√°ficos de dispersi√≥n y t√©cnicas estad√≠sticas para determinar la asociaci√≥n entre ellas.
3. **Identificaci√≥n y manejo de valores faltantes:** En esta etapa se identifican los valores faltantes en los datos y se decide c√≥mo manejarlos para evitar sesgos en el an√°lisis.
4. **Resumen y conclusiones:** En esta etapa se resumen los hallazgos clave del an√°lisis exploratorio de datos y se extraen conclusiones sobre los datos y las relaciones entre las variables. Estas conclusiones pueden guiar el an√°lisis posterior y la toma de decisiones.


### Repaso: Estad√≠sticas de Resumen

Las estad√≠sticas de resumen se refieren a un conjunto de medidas num√©ricas que resumen o describen las caracter√≠sticas clave de un conjunto de datos. Estas medidas proporcionan una forma r√°pida y sencilla de comprender los patrones y propiedades de los datos a trav√©s del an√°lisis de su distribuci√≥n, centralidad, variabilidad, entre otras.

Las estad√≠sticas de resumen incluyen:

- Medidas de tendencia central (ver como se comportan los datos a trav√©s de valores centrales) como:

  1. Media (promedio): es la suma de todos los valores dividida por el n√∫mero de observaciones.
  2. Mediana: es el valor que se encuentra en el centro de un conjunto de datos ordenados de menor a mayor.
  3. Moda: es el valor que ocurre con mayor frecuencia en un conjunto de datos.

- Dispersi√≥n (miden la variabilidad de los datos) como:

  1. Rango: es la diferencia entre el valor m√°ximo y el valor m√≠nimo en un conjunto de datos.
  2. Desviaci√≥n est√°ndar: mide la dispersi√≥n de los datos alrededor de la media.

- Percentiles y Cuartiles.

En el caso en que estemos analizando de forma multivariada, podemos usar:

- Correlaci√≥n: mide el grado de asociaci√≥n lineal entre dos variables.
- Tablas de contingencia: conteo entre ocurrencias de variables categ√≥ricas.


---


## 1. An√°lisis Univariado

El an√°lisis univariado es el primer paso de un EDA y se enfoca en analizar cada variable de forma individual. Durante el an√°lisis univariado, se utilizan diversas t√©cnicas estad√≠sticas y gr√°ficas para explorar las caracter√≠sticas de una variable. Algunas de las t√©cnicas comunes del an√°lisis univariado incluyen:

1. Gr√°ficos de frecuencia: son histogramas o gr√°ficos de barras que muestran la frecuencia de cada valor en una variable.

2. Medidas de tendencia central: como la media, mediana y moda, que ayudan a resumir la ubicaci√≥n central de los datos.

3. Medidas de dispersi√≥n: como la desviaci√≥n est√°ndar, varianza y rango, que miden cu√°nto se desv√≠an los datos de la tendencia central.

4. Gr√°ficos de caja: proporcionan una visi√≥n general de la distribuci√≥n de los datos, incluyendo los cuartiles, el rango y los valores at√≠picos.

El objetivo final de esta etapa es comprender qu√© papel juega cada variable (de forma independiente) en la resoluci√≥n del problema.


#### An√°lisis univariado num√©rico

En el siguiente ejemplo se mostrar√° c√≥mo realizar un an√°lisis de la variable num√©rica `SalePrice`.


In [None]:
df.loc[:, ["SalePrice"]].describe().round(2)


> **Pregunta ‚ùì**: ¬øCu√°l es el problema de la tabla anterior?


##### Histograma y Boxplot


Para mejorar el an√°lisis anterior, usaremos un histograma m√°s un boxplot o gr√°fico de caja.

1. Histograma: permite ver la distribuci√≥n de los datos a trav√©s de barras que muestran la frecuencia de intervalos (bins) en una variable.
2. Boxplots: proporcionan una visi√≥n general de la distribuci√≥n de los datos, incluyendo los cuartiles, el rango y los valores at√≠picos. El siguiente punt√©o muestra el c√≥mo leerlos:

- La caja muestra el primer y tercer cuartil.
- La mediana est√° mostrada en la divisi√≥n de la caja.
- El ancho de la caja es el rango intercuant√≠lico (Q3 - Q1).
- Los brazos representan el rango intercuant√≠lico \* +/- 1.5. Los valores fuera de este rango pueden ser considerados datos fuera de la norma / outliers.


In [None]:
import plotly.express as px

px.histogram(
    df, 
    x="SalePrice", 
    title="An√°lisis de la variable SalePrice", 
    marginal="box"
)


Al finalizar, podemos concluir enseguida o juntar los res√∫menes m√°s adelante:

_Bajo estos gr√°ficos podemos concluir que:_

- _La mayor√≠a de las propiedades se concentran cerca del promedio de la distribuci√≥n._
- _Existen algunas propiedades muy caras que hacen que la cola de la distribuci√≥n sea muy larga hacia la derecha. Esto se confirma con el boxplot, en donde existen muchos puntos outliers._
- _Es relativamente uniforme a lo largo del dominio, salvo por algunas discontinudades, como por ejemplo en 170k a 180k._


### Caracterizar distribuciones

Existen algunas medidas √∫tiles para caracterizar la distribuci√≥n de una variable (aplican bien cuando las distribuciones son normales).


##### 1. **Skewness / Asimetr√≠a**

El skewness (o asimetr√≠a) de una distribuci√≥n estad√≠stica es una medida de la falta de simetr√≠a en la forma de la distribuci√≥n. En otras palabras, el skewness nos indica si la distribuci√≥n est√° desplazada hacia la derecha o hacia la izquierda con respecto a su valor central.

Si una distribuci√≥n es...

- Sim√©trica, su skewness es cero, lo que significa que la mitad de los datos est√°n por encima del valor central y la otra mitad por debajo, y la distribuci√≥n tiene un aspecto equilibrado.
- Asim√©trica, su skewness es diferente de cero y la distribuci√≥n tiene una forma sesgada hacia uno de los lados.

<div align='center'>
    <img src='https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/13-EDA/skew.png' alt='Skewness' width=600/>
</div>


##### 2. **Curtosis**:

La curtosis mide el grado de concentraci√≥n de los datos en torno a la media y la presencia de valores extremos (valores at√≠picos) en la distribuci√≥n.

Una distribuci√≥n con una curtosis...

1. Alta: tiene una concentraci√≥n mayor de datos alrededor de la media y una cola m√°s pronunciada, lo que indica que hay m√°s valores extremos en la distribuci√≥n.
2. Baja: tiene una concentraci√≥n menor de datos alrededor de la media y una cola menos pronunciada, lo que indica que hay menos valores extremos en la distribuci√≥n.

<div align='center'>
    <img src='https://encrypted-tbn0.gstatic.com/images?q=tbn%3AANd9GcT1n1f_pfBRWXsET7Zk8UbRnzKLDPqsBs5ESL_uh9aKmlDcIpkO' alt='Kurtosis' width=600/>
</div>


In [None]:
# skewness and kurtosis
print(f"Skewness: {df.loc[:, 'SalePrice'].skew().round(2)}")
print(f"Kurtosis: {df.loc[:, 'SalePrice'].kurt().round(2)}")


> **Pregunta ‚ùì**: ¬øQu√© nos dicen estos valores de asimetr√≠a y curtosis de `SalePrice`?


In [None]:
px.histogram(
    df, x="SalePrice", title="An√°lisis de la variable SalePrice", marginal="box"
)


### Distribuciones de Variables Num√©ricas

A continuaci√≥n, generaremos histogramas que nos permitir√°n entender y visualizar la geometr√≠a de cada distribuci√≥n.


In [None]:
import plotly.graph_objects as go
from plotly.subplots import make_subplots

n_cols = 4

fig = make_subplots(
    rows=len(numeric) // n_cols + 1, cols=n_cols, subplot_titles=numeric
)

for idx, col in enumerate(numeric):
    row_idx = idx // n_cols + 1
    col_idx = idx % n_cols + 1

    hist = go.Histogram(x=df.loc[:, col], name=col, histnorm="probability")
    fig.add_trace(hist, row=row_idx, col=col_idx)

fig.update_layout(
    height=800,
    title_text="An√°lisis Univariado de las Variables Num√©ricas",
    showlegend=False,
)
fig.show()


### Distribuciones de Variables Categ√≥ricas

Para las variables categ√≥ricas, se genera un conteo de las categor√≠as a trav√©s de gr√°ficos de barra.


In [None]:
import plotly.graph_objects as go
from plotly.subplots import make_subplots

n_cols = 4

fig = make_subplots(
    rows=len(categorical) // n_cols + 1, cols=n_cols, subplot_titles=categorical
)

for idx, col in enumerate(categorical):
    row_idx = idx // n_cols + 1
    col_idx = idx % n_cols + 1

    data = df.loc[:, col]
    hist = go.Histogram(x=data, name=col)
    fig.add_trace(hist, row=row_idx, col=col_idx)

fig.update_layout(
    height=1200,
    title_text="An√°lisis Univariado de las Variables Categoricas",
    showlegend=False,
)
fig.show()


Al observar las distribuciones, es importante buscar si existe variabilidad dentro de estas, pues por lo general, una variable con un √∫nico valor casi seguro, no aporta informaci√≥n a la din√°mica de los datos.


## 2. An√°lisis Multivariado

El an√°lisis bi y multivariado en un EDA implica el estudio simult√°neo de dos o m√°s variables en un conjunto de datos para determinar las relaciones entre ellas.

Las t√©cnicas utilizadas en un an√°lisis multivariado dependen de los tipos de variables involucradas:

- Si son de tipo num√©rico, se pueden utilizar:

  - Gr√°ficos de dispersi√≥n y coordenadas paralelas.
  - Medidas de correlaci√≥n.

- Si una de las variables es categ√≥rica y la otra num√©rica, se puede utilizar un gr√°fico de barras para comparar la distribuci√≥n de la variable categ√≥rica en funci√≥n de los valores de la variable num√©rica.

- Si son categ√≥ricas, se pueden utilizar:
  - Tablas de contingencia
  - Medidas de asociaci√≥n, como el coeficiente de contingencia o el coeficiente de phi, para determinar la fuerza de la relaci√≥n.


### Scatter Matrix

Una scatter matrix es una visualizaci√≥n en forma de matriz; en donde cada variable num√©rica se representa en un eje (vertical u horizontal) y cada celda en la matriz representa la relaci√≥n entre dos variables num√©ricas.

La scatter matrix es √∫til para identificar patrones o relaciones complejas entre m√∫ltiples variables num√©ricas en un conjunto de datos y para identificar posibles valores at√≠picos o errores en los datos. Sin embargo, presenta debilidades en cuanto a la cantidad de variables que esta puede mostrar.


In [None]:
variables_interes = [
    "GrLivArea",  # Area sobre el suelo
    "TotalBsmtSF",  # Area del s√≥tano
    "FullBath",  # N√∫mero de ba√±os
    "OverallQual",  # Calidad general
]


In [None]:
fig = px.scatter_matrix(
    df.sort_values(by="SalePriceQCut", ascending=True),
    dimensions=variables_interes,
    height=1200,
    title="An√°lisis Bivariado",
    #color="SalePriceQCut",
).update_traces(diagonal_visible=False)

fig.show()


### Coordenadas paralelas

El gr√°fico de coordenadas paralelas es una visualizaci√≥n que permite comparar m√∫ltiples variables num√©ricas en un conjunto de datos. En este gr√°fico, cada variable se representa en un eje paralelo al resto de las variables, y las l√≠neas que conectan los puntos representan las observaciones en el conjunto de datos.

El gr√°fico de coordenadas paralelas es √∫til para identificar patrones y relaciones complejas entre m√∫ltiples variables, y para identificar posibles valores at√≠picos o errores en los datos.
Una desventaja de este gr√°fico es que no muestra la distribuci√≥n individual de cada variable, sino que muestra solamente la relaci√≥n entre ellas.


In [None]:
variables_interes = [
    "GrLivArea",  # Area sobre el suelo
    "TotalBsmtSF",  # Area del s√≥tano
    "1stFlrSF",  # Area del primer piso
    "2ndFlrSF",  # Area del segundo piso
    "FullBath",  # N√∫mero de ba√±os
    "YearBuilt",  # A√±o de construcci√≥n
    "OverallQual",  # Calidad
]

px.parallel_coordinates(df, dimensions=variables_interes, color="OverallQual")


La √∫ltima fila de esta visualizaci√≥n entrega una idea de la relaci√≥n entre las variables de inter√©s. Dentro de las interacciones entre variables, se observa que 'GrLivArea' y 'TotalBsmtSf' se comportan de manera similar contra 'OverllQuall', esperandose cierta tendencia creciente en ambos casos.


### An√°lisis bivariado respecto a la variable dependiente

Cuando se crea un modelo predictivo, es com√∫n tener una variable dependiente o objetivo que se desea predecir. Para desarrollar un buen modelo, es importante analizar c√≥mo se comportan las dem√°s variables con respecto a dicha variable. El objetivo de an√°lisis es esencial para identificar las variables m√°s relevantes y comprender la naturaleza de la relaci√≥n entre ellas y la variable objetivo.

Para esto, veremos 2 visualizaciones especiales:


#### Gr√°ficos de viol√≠n

Un gr√°fico de viol√≠n permite sumarizar y observar caracter√≠sticas de un dataset. Este se comporta como un gr√°fico de cajas (boxplot), mostrando la mediana, el rango intercuant√≠lico IQR (percentil 75 - percentil 25, o Q3 - Q1) y el rango 1.5 intercuant√≠lico (Q3 +- 1.5 IQR). Sumado a lo anterior, se suma una estimaci√≥n de la densidad por kernel a cada lado. Esto quiere decir, que zonas con mayor densidad, se ver√°n como 'montes' horizontales.

A continuaci√≥n veremos un par de ejemplos de esto:


##### OverallQual


In [None]:
import plotly.express as px


fig = px.violin(
    df, 
    x="OverallQual", 
    y="SalePrice", 
    title="OverallQuall vs SalePrice",
).show()

fig = px.box(
    df, 
    x="OverallQual", 
    y="SalePrice", 
    title="OverallQuall vs SalePrice",
).show()

In [None]:
fig = px.violin(
    df, x="OverallQual", 
    y="SalePrice", 
    title="OverallQuall vs SalePrice"
).show()

Se observa la variable `OverallQual` (categ√≥rica) y se compara con la variable de inter√©s `SalePrice`. Para ello se usa un gr√°fico de categ√≥rias tipo viol√≠n y box (para adicionalmente comparar ambas visualizaciones)


##### LandSlope


In [None]:
fig = px.violin(
    df, x="LandSlope", y="SalePrice", title="Violin plot LandSlope vs SalePrice"
)
fig.show()


Por otra parte, analizando las gr√°ficas univariadas, se puede observar que para `LandSlope`, se tiene poca variablidad y no genera diferencias en distribuci√≥n para 'SalePrice' en ninguna de sus categorias.


#### Scatterplots con Lineas de Tendencia

Otra t√©cnica que se utiliza para analizar la relaci√≥n entre dos variables en un modelo predictivo es el gr√°fico de dispersi√≥n con regresi√≥n lineal. Este gr√°fico permite visualizar la relaci√≥n entre dos variables y estimar la magnitud y direcci√≥n de esa relaci√≥n.


Por ejemplo, estudiemos la variable `GrLivArea`. Para esto, primero definimos una funci√≥n para gr√°ficar variables num√©ricas con respecto a `SalePrice`.


In [None]:
fig = px.scatter(
    df,
    x="LotArea",
    y="SalePrice",
    title=f"LotArea vs SalePrice",
    trendline="ols",
)
fig.show()


En este caso, se puede observar una distrbuci√≥n univariada bien definida y un comportamiento lineal aunque ruidoso. Esto hace que `GrLivArea` sea una variable de inter√©s. De la misma manera, `1stFlrSF`, parece reflejar las mismas buenas caracter√≠sticas.


In [None]:
fig = px.scatter(
    df,
    x="1stFlrSF",
    y="SalePrice",
    title=f"1stFlrSF vs SalePrice",
    trendline="ols",
)
fig.show()


En el caso de 'TotalBsmtSF' se tiene


In [None]:
fig = px.scatter(
    df,
    x="TotalBsmtSF",
    y="SalePrice",
    title=f"TotalBsmtSF vs SalePrice",
    trendline="ols",
)
fig.show()


Una relaci√≥n menos lineal con un poco m√°s de ruido pero una buena distribuci√≥n en e dataset. Esta variable puede ser de inter√©s pero esto se puede estudiar a posteriori.

Finalmente para `PoolArea`, se tiene


In [None]:
fig = px.scatter(
    df,
    x="PoolArea",
    y="SalePrice",
    title=f"PoolArea vs SalePrice",
    trendline="ols",
)
fig.show()


Se aprecia una distribuci√≥n altamente concentrada en el 0 y poco relacionada con la variable a predecir.


#### Categor√≠as Paralelas

La visualizaci√≥n de Categor√≠as Paralelas permite comparar el comportamiento de variables categoricas a trav√©s de un gr√°fico 2d, en donde cada categor√≠a es representada por una barra y conjuntos de datos similares se agrupan en cintas (_ribbons_).


In [None]:
fig = px.parallel_categories(
    df.sample(1000).sort_values("SalePriceQCut", ascending=False),
    dimensions=[
        "OverallQual",
        "Exterior1st",
        "Utilities",
        "SalePriceQCut",
    ],
)
fig.show()


> **Ejercicio ‚úèÔ∏è**: Explore el equivalente de Categor√≠as Paralelas para variables num√©ricas ([Coordenadas paralelas](https://plotly.com/python/parallel-coordinates-plot/)) y grafique la relaci√≥n entre variables num√©ricas y 'SalePrice'.


### An√°lisis Temporal

Este an√°lisis nos permite ver como se comportan los valores de alguna variable a trav√©s del tiempo.


In [None]:
df_temporal = (
    df.query("YearBuilt > 1920")
    .groupby("YearBuilt")
    .agg({"SalePrice": ["mean", "std"]})
    .sort_values("YearBuilt")
    .reset_index()
)

df_temporal.columns = ["YearBuilt", "SalePriceMean", "SalePriceStd"]

df_temporal


In [None]:
px.line(
    df_temporal,
    y="SalePriceMean",
    x="YearBuilt",
)


In [None]:
px.line(df_temporal, y="SalePriceMean", x="YearBuilt", error_y="SalePriceStd")


#### Graficar percentiles

Tambi√©n pueden graficar usando percentiles espec√≠ficos:


In [None]:
def percentile(n):
    def percentile_(x):
        return np.percentile(x, n)

    percentile_.__name__ = "percentile_%s" % n
    return percentile_


df_temporal_per = (
    df.query("YearBuilt > 1920")
    .groupby("YearBuilt")
    .agg({"SalePrice": [percentile(25), percentile(50), percentile(75)]})
    .sort_values("YearBuilt")
    .reset_index()
)
df_temporal_per.columns = ["YearBuilt", "SalePriceP25", "SalePriceP50", "SalePriceP75"]
df_temporal_per


> **Pregunta ‚ùì**: ¬øQu√© podemos hacer en este caso para graficar cada columna con un color distinto?


In [None]:
df_temporal_per = df_temporal_per.melt(
    id_vars=["YearBuilt"], value_name="SalePrice", var_name="Percentile"
)
df_temporal_per


In [None]:
px.line(df_temporal_per, x="YearBuilt", y="SalePrice", color="Percentile")


#### Boxplot temporal

Una √∫ltima opci√≥n es graficar usando boxplots.


In [None]:
px.box(df.query("YearBuilt > 1920"), x="YearBuilt", y="SalePrice")


### Correlaciones entre variables


El an√°lisis de correlaciones es una t√©cnica que permite identificar patrones y relaciones entre las distintas variables de un dataset.

La correlaci√≥n es una medida que cuantifica qu√© tanto dos variables se mueven juntas. Sus valores pueden ser:

- Positivo (cuando una variable aumenta, la otra tambi√©n lo hace)
- Negativo (cuando una variable aumenta, la otra disminuye) 
- Cercana a cero (cuando las variables no est√°n relacionadas).


La correlaci√≥n se puede medir utilizando diferentes m√©todos, como el coeficiente de correlaci√≥n de Pearson, el coeficiente de correlaci√≥n de Spearman y el coeficiente de correlaci√≥n de Kendall.
En pandas, podemos calcular la matriz de correlaciones por variables numericas usando el m√©todo `corr()`.

> **Pregunta ‚ùì**: ¬øCorrelaci√≥n implica causalidad?

Lectura interesante: https://www.jotdown.es/2016/06/correlacion-no-implica-causalidad/

In [None]:
correlaciones = df.corr()
correlaciones

Y lo podemos graficas usando `px.imshow`


In [None]:
px.imshow(
    correlaciones,
    aspect="16:9",
    title="Correlaci√≥n entre Variables",
    height=800,
    zmin=-1,
    color_continuous_midpoint=0,
    zmax=1,
    color_continuous_scale=px.colors.sequential.Viridis,
)


Seg√∫n el esquema de valores, se buscan los puntos m√°s claros y m√°s oscuros fuera de la diagonal. En primera instancia, las variables `TotalBsmtSF` y `1stFlrSF` parece bastante correlacionadas, lo mismo ocurre con la variables `GarageCars` y `GarageArea`, esto puede indicar multicolinearidad que implica informaci√≥n duplicada o relacionada de manera trivial en el dataset.


#### Correlaciones con respecto a la variable dependiente

Un caso especial del c√°lculo de las correlaciones es el de todas las variables con respecto a la dependiente: correlaciones cercanas al 1 o -1 pueden indicar que existe una fuerte relaci√≥n entre alguna variable y la dependiente.

A continuaci√≥n mostraremos las correlaciones de `SalePrice` con respecto a todas las otras.

In [None]:
px.imshow(
    correlaciones.loc[["SalePrice"], :].sort_values("SalePrice", axis=1),
    zmin=-1,
    zmax=1,
    color_continuous_midpoint=0,
    color_continuous_scale=px.colors.sequential.Viridis,
    title="Correlaci√≥n SalePrice con respecto a todas las variables"
)


Si bien, las correlaciones con `SalePrice` deben ser analizadas con m√°s detenimiento, se pude ver claramente que `GrLivArea`, `TotalBsmtSF`, y `OverallQual` juegan un papel preponderante en el valor de la propiedad.


### Tablas de Contingencia

Para analizar valores categ√≥ricos (categ√≥rico vs categ√≥rico) existen herramientas especializadas una de ellas es por medio de tablas de dos tratamientos o de contingencia (2 way tables).

Estas permiten calcular el numero de ocurrencias de una variable para cada una de sus categor√≠as en comparaci√≥n con los valores de otra variable.

Por ejemplo, construyamos una tabla para analizar 'OverallQual' vs 'GarageCars':


In [None]:
# Se construye la tabla
tabla = pd.crosstab(
    index=df.loc[:, "OverallQual"],
    columns=df.loc[:, "GarageCars"],
)
tabla


## 3. Identificaci√≥n y manejo de valores faltantes

La tercera etapa consiste en buscar detectar y tratar los valores faltantes en los datos.

Los valores faltantes son aquellos datos que faltan en una o varias observaciones o variables del conjunto de datos. Esto puede ocurrir por varias razones, como errores de entrada de datos, datos faltantes o incompletos o simplemente porque no se recopil√≥ esa informaci√≥n.

La identificaci√≥n de los valores faltantes es el primer paso en este proceso. Esto implica la revisi√≥n del conjunto de datos para detectar los valores faltantes y determinar la cantidad y la ubicaci√≥n de estos valores. Este paso puede llevarse a cabo mediante el uso de herramientas de visualizaci√≥n o estad√≠sticas descriptivas.


Una vez que se han identificado los valores faltantes, el siguiente paso es el manejo de estos valores. Hay varias formas de tratar los valores faltantes, que incluyen:

- Eliminaci√≥n de las observaciones o variables con valores faltantes.
- Imputaci√≥n de los valores faltantes mediante la asignaci√≥n de un valor estad√≠stico, como la media o la mediana, o mediante t√©cnicas m√°s avanzadas como la imputaci√≥n m√∫ltiple.
- Considerar la creaci√≥n de nuevas variables para representar los valores faltantes.


En esta clase solo veremos el primer paso: identificar.

### Exploraci√≥n de valores faltantes

Cuando los datos faltantes se encuentran en variables que no son de inter√©s, se pueden obviar. Sin embargo, esto no es la regla general.


In [None]:
df.isnull().sum()


Sin embargo, basta observar las columnas para comprender que tales variables si poseen valores faltantes


In [None]:
var_missing = ["BsmtCond", "GarageType", "PoolQC"]

df[var_missing].head()


Por tal motivo es necesario realizar una exploraci√≥n inicial de los datos faltantes en conjunci√≥n con los an√°lisis de distribuci√≥n iniciales.

**Ejercicios ‚úèÔ∏è**

1. Estudie la distribuci√≥n de los valores faltantes en las variables num√©ricas.

2. Considerando que para las variables categ√≥ricas las variables con valor 'nan' son consideradas como una nueva categor√≠a. ¬øSe ven afectados los an√°lisis anteriores sobre sus distribuciones?


**Ejemplo**

Para estudiar en mayor profundidad la distribuci√≥n de los valores faltantes, se procede a transformarlos en formato `np.nan`


In [None]:
df.replace("nan", np.nan, inplace=True)


In [None]:
px.bar(df.isnull().sum().sort_values())


### Nullity Matrix


En t√©rminos generales, los valores perdidos de este dataset se encuentran relativamente limpios pues est√°n estandarizados con la categor√≠a 'nan'.

Dado que sumarizar valores faltantes genera una estructura de datos, vale la pena explorarla visualmente, para facilitar tal tarea, existe la librer√≠a `missingno`


In [None]:
# Instalamos el paquete usando conda o pip
import sys

!conda install --yes --prefix {sys.prefix} missingno
# !{sys.executable} -m pip install numpy # descomentar si se usa pip
import missingno as msno

Las visualizaciones de generadas por medio de esta librer√≠a pueden ser utilizadas para discutir el problema de valores faltantes y generan una estrategia para su tratamiento.


In [None]:
df.isnull().sum().nlargest(10)


mediante la libreria `missingno` es posible ver el panorama completo de los valores faltanes en el dataset de manera sencilla


In [None]:
import matplotlib.pyplot as plt
import missingno as msno

fig, ax = plt.subplots(figsize=[15, 10])

msno.matrix(df, ax=ax, sparkline=False)


Esta visualizaci√≥n muestra que exiten columnas practicamente sin informaci√≥n, seg√∫n la agregaci√≥n anterior, estas corresponden a `PoolQC`, `MiscFeature` y `Alley`.

Por medio de correlaciones entre valores faltantes, es posible obtener un an√°lisis bivariado an√°logo al anteriormente generado. Para ello se puede utilizar un mapa de calor.


In [None]:
fig, ax = plt.subplots(figsize=[15, 10])
msno.heatmap(df, ax=ax)

plt.show()


Este gr√°fico muestra correlaciones de nulidad entre pares de variables, estas varian desde -1 a 1, donde

- $-1$ significa que las variables son excluyentes, es decir, la aparici√≥n de una hace que la otra este ausente.
- $1$ corresponde inclusi√≥n, esto quiere decir, que la aparici√≥n de una hace que la otra aparezca. Valores cercanos a 0 (sin valor num√©rico en el gr√°fico) indican ausencia de relaci√≥n de nulidad entre las variables.

En el gr√°fico recien generado, no se observen relaciones de nulidad negativa, por otra parte, existen variables fuertemente relacionadas en cuanto a su informaci√≥n como lo son 'MasVnrType' y 'MasVnrArea', el comportamiento general es que la informaci√≥n esta fuertemente relacionada (en el sentido de inclusi√≥n de informaci√≥n) o simplemente no lo est√°.

> **Ejercicio ‚úèÔ∏è**

1. El gr√°fico de correlaciones de nulidad permite tener una idea de como se relaciona la informaci√≥n faltante en pares de variables. Para comparar m√°s de dos variables es posible utilizar un _dendograma_. Utilice las 20 variables con mayor cantidad de valores faltanes visualice su dendograma por medio de `msno.dendogram`. Interprete los resultados.[_Hint_](https://github.com/ResidentMario/missingno)


> **Pregunta ‚ùì**: ¬øQu√© hacemos con las columnas con datos faltantes?


---

## 4. `Pandas Profiling`

Pandas Profiling es una herramienta de perfilamiento autom√°tico de variables, el cu√°l dado un dataframe, genera un reporte en formato HTML.
El reporte contiene informaci√≥n detallada sobre cada variable m√°s gr√°ficos de interacciones y correlaciones entre estas. Seg√∫n la documentaci√≥n, los perfiles generados contienen:

- **Type inference**: detect the types of columns in a dataframe.
- **Essentials**: type, unique values, missing values
- **Quantile statistics** like minimum value, Q1, median, Q3, maximum, range, interquartile range
- **Descriptive statistics** like mean, mode, standard deviation, sum, median absolute deviation, coefficient of variation, kurtosis, skewness
- **Most frequent values**
- **Histogram**
- **Correlations** highlighting of highly correlated variables, Spearman, Pearson and Kendall matrices
- **Missing values matrix**, count, heatmap and dendrogram of missing values
- **Text analysis** learn about categories (Uppercase, Space), scripts (Latin, Cyrillic) and blocks (ASCII) of text data.
- **File and Image analysis** extract file sizes, creation dates and dimensions and scan for truncated images or those containing EXIF information.

Bien usada, es una herramienta muy poderosa que les permitir√° acelerar mucho el An√°lisis Exploratorio de Datos.
Sin embargo, simpre estar√° la posibilidad de que tengan que programar algo "a mano" ya que el an√°lisis entregado por el profiler no es suficiente.


In [None]:
!pip install ipywidgets
!pip install pandas_profiling

In [None]:
from pandas_profiling import ProfileReport

profile = ProfileReport(
    df,
    title="Reporte Housing Pricing",
    explorative=True,
    vars={"num": {"low_categorical_threshold": 0}},  # resolver problema #954
)

# Problema 954:
# https://github.com/ydataai/pandas-profiling/issues/954

profile.to_file("report.html")
