In [1]:
%load_ext autoreload
%autoreload 3

In [None]:
import os
import sys

sys.path.append(os.path.dirname(os.path.abspath(os.path.abspath(""))))

# Análisis Exploratorio de Datos


## Importar librerías


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

### Establecer apariencia general de los gráficos


In [None]:
%matplotlib inline

plt.style.use('ggplot')
sns.set_theme(style="whitegrid", context="notebook")
plt.rcParams["figure.figsize"] = (16, 9)
plt.rcParams.update({"font.size": 16, "font.family": "sans serif"})

## Cargar los **Datos**


In [None]:
df = pd.read_csv()
df.head()

## Ejercicio de validación de datos


### ¿Qué tipo de datos son las variables del conjunto de datos?


In [None]:
df.dtypes

### ¿Cuantas variables de cada tipo de dato tenemos en el conjunto de datos?


In [None]:
df.dtypes.value_counts()

### ¿Cuantas observaciones y variables tenemos en el conjunto de datos?


In [None]:
df.shape

# Observaciones --> Filas
# Variables --> Columnas

### ¿Existen valores nulos explícitos en el conjunto de datos?


In [None]:
df.isnull().any()

### ¿De tener observaciones con valores nulos? ¿Cuántas tenemos por cada variable?


In [None]:
df.isnull().sum()

### ¿Cuantos valores nulos tenemos en el total en el conjunto de datos?


In [None]:
df.isnull().sum().sum()

## Proporción


### ¿Cuál es la proporción de valores nulos por cada variable?


### ¿Cómo podemos visualizar los valores nulos en todo el conjunto de datos?


### ¿Cuantas observaciones perdemos si eliminamos los datos faltantes?


# Análisis univariado


## Explorando una variable categórica: conteos y proporciones

### Tabulación

- Contabiliza la frecuencia de aparición de cada valor único de una variable.

### Proporciones

- Relación de correspondencia entre las partes y el todo.


## Preludio: ¿Que estadísticos describen el conjunto de datos?


### Todas las variables


In [None]:
df.describe(include="all")

### Solo las numéricas


In [None]:
df.describe(include=np.number)

### Solo categorías: Tipos de datos object


In [None]:
df.describe(include=object)

### Solo categorías: Configurar tipo de dato category

```python
penguins_df = penguins_df.astype(
    {"species": "category", "island": "category", "sex": "category"}
)
```


## Visualizar Conteos


## Visualizar proporciones


## Estadística descriptiva aplicada: medidas de tendencia central


## Medidas de tendencia central

- Media aritmética (promedio)

- Media ponderada

- Media geométrica

- Media armónica

- Mediana (dato central)

- Moda (dato que más se repite)


### Media o promedio


In [None]:
df.mean(numeric_only=True)

### Mediana


In [None]:
df.median(numeric_only=True)

### Moda


In [None]:
df.mode(numeric_only=True)

### Variables categoricas


In [None]:
df.describe(include=object)

## Estadística descriptiva aplicada: medidas de dispersión


### Medidas dispersión

- Rango: La diferencia entre el valor máximo y el valor mínimo de los datos.

- Rango intercuartílico: Comprenden **+ y - 25%** de los datos respecto a la mediana.

- Desviación estándar: Ofrece la dispersión media de una variable.


### Rango


In [None]:
min_df = df.min(numeric_only=True)
max_df = df.max(numeric_only=True)

print("Rango de variables numéricas\n", np.subtract(max_df, min_df))

### Curtosis

- Meoscurtica el índice vale 0

- Leptocurtica el índice es mayor que 0

- Platocurtica el índice es menor que 0

Una curtosis `mayor a 0` indica que la **mayoría de los datos están muy concentrados alrededor de la media**, lo cual indica que hay **poca variabilidad** en los datos, es decir, el rango es pequeño.

Una curtosis `negativa indica lo contrario`, los datos están **alejados de la media**, lo cual indica **mucha variabilidad en los datos**, su rango es amplio.


## Ejercicio de obtención de medidas de dispersión


### Medidas de dispersión


#### ¿Cuál es el valor máximo de las variables?


In [None]:
df.max(numeric_only=True)

#### ¿Cuál es el valor mínimo de las variables?


In [None]:
df.min(numeric_only=True)

#### ¿Cuál es el rango de las variables?


In [None]:
np.subtract(df.max(numeric_only=True), df.min(numeric_only=True))

### ¿Cuál es la desviación estándar de las variables?


In [None]:
df.std(numeric_only=True)

In [None]:
print(
    f"""
mean + std = {df.mean(numeric_only=True) + df.std(numeric_only=True)}

mean - std = {df.mean(numeric_only=True) - df.std(numeric_only=True)}
"""
)

#### ¿Cuál es el rango intercuartílico de las variables?


In [None]:
df.quantile(0.25, numeric_only=True)

In [None]:
df.quantile(0.5, numeric_only=True)

In [None]:
df.quantile(0.75, numeric_only=True)

#### Rango Intercuartilico


In [None]:
df.quantile(0.75, numeric_only=True) - df.quintile(0.25, numeric_only=True)

In [None]:
df.quantile(q=[0.75, 0.50, 0.25], numeric_only=True).transpose().rename_axis(
    "variable"
).reset_index().assign(iqr=lambda df: df[0.75] - df[0.25])

## ¿Cómo puedo visualizar la distribución de una variable?


### Histograma


### Diagrama de caja / BoxPlot


### Determinación el tamaño de binwidth del histograma mediante la regla de Freedman-Diaconis

$${2 \frac{IQR(x)}{\sqrt{n}}}$$


In [None]:
def freedman_diaconis_bindwith(x: pd.Series) -> float:
    """Find optimal bindwith using Freedman-Diaconis rule."""

    IQR = x.quantile(0.075) - x.quantile(0.25)
    N = x.size

    return np.abs(2 * IQR / N * 1 / 3)

## Estadística descriptiva aplicada: distribuciones


### ¿Comó visualizar una distribución?

#### Función de Probabilidad de masas `(PMFs)`

Nos indica la probabilidad de que una **variable aleatoria discreta tome un valor** determinado.

Ejemplo: Cuál es la probabilidad de que en un salón haya personas de 23 años.

#### Función de Distribución Acumulada `(CDFs)`

Devuelve la probabilidad de que una **variable sea menor o igual a un valor** determinado.

Ejemplo: Cuál es la probabilidad de que en un salón haya personas de 23 o menos años.

#### Función de Probabilidad de Densidad `(PDFs)`

Determina la probabilidad de que una **variable continua tome un valor** determinado entre un intervalo de valores.

Ejemplo: Cuál es la probabilidad de que en un salón haya una persona de 1.845 metros


### PMF: Función de Probabilidad de masas


### ECDF: Función empírica de probabilidad acumulada


### PDF: Funciones de Densidad de Probabilidad

Nos ayudan a estimar la probabilidad para valores que no contiene el dataset, formando una distribución continua. También son útiles para ver la forma de la distribución a detalle y hacer comparaciones con la distribución teórica.


#### Comparando la distribución de los datos con la teórica utilizando PDFs
