# Capítulo 5 — Estadísticas descriptivas (tablas, gráficos y resumen)

Este notebook acompaña al manual.  
Las explicaciones son breves y apuntan a la **sintaxis** y al **uso del código**.


In [None]:
# Setup del capítulo (mínimo)
import sys
print("Versión de Python:", sys.version.split()[0])


## Cómo leer la sintaxis (rápido)

- `value_counts()` → conteos.
- `normalize=True` → proporciones.
- `pd.crosstab(a, b, normalize=...)` → tabla cruzada (conteos o proporciones).
- `plt.hist(x, bins=..., density=...)` → histograma (frecuencia o densidad).
- ECDF: `x = np.sort(...)` y `y = np.arange(1,n+1)/n`.
- `describe()`, `var()`, `std()`, `cov()`, `corr()` → resúmenes y matrices.
- `boxplot` → gráfico de caja.


In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

plt.rcParams["figure.figsize"] = (8, 4.5)
plt.rcParams["figure.dpi"] = 120


## 1) Datos de ejemplo (local)

In [None]:
np.random.seed(123)

df = pd.DataFrame({
    "marriage": np.random.choice(["mala", "regular", "buena"], size=80, p=[0.2, 0.35, 0.45]),
    "haskids":  np.random.choice(["sin hijos", "con hijos"], size=80, p=[0.55, 0.45]),
    "roe":      np.clip(np.random.normal(loc=12, scale=6, size=80), -10, 40),
    "salary":   np.clip(np.random.normal(loc=120, scale=35, size=80), 20, 300)
})
df.head()


## 2) Frecuencias y gráficos para categorías

In [None]:
# value_counts(): frecuencias
freq = df["marriage"].value_counts()
freq


In [None]:
# Porcentaje (proporciones * 100)
df["marriage"].value_counts(normalize=True) * 100


In [None]:
# Pastel (pie) desde una Serie
freq.plot(kind="pie", autopct="%1.1f%%")
plt.ylabel("")
plt.title("marriage — pastel")
plt.show()


In [None]:
# Barras horizontales
freq.sort_values().plot(kind="barh")
plt.title("marriage — barras")
plt.xlabel("frecuencia")
plt.ylabel("categoría")
plt.show()


## 3) Crosstab + barras apiladas/agrupadas

In [None]:
tabla = pd.crosstab(df["marriage"], df["haskids"])
tabla


In [None]:
# Apiladas
tabla.plot(kind="bar", stacked=True)
plt.title("marriage vs haskids — apiladas")
plt.xlabel("marriage")
plt.ylabel("frecuencia")
plt.show()


In [None]:
# Agrupadas
tabla.plot(kind="bar", stacked=False)
plt.title("marriage vs haskids — agrupadas")
plt.xlabel("marriage")
plt.ylabel("frecuencia")
plt.show()


In [None]:
# Normalizaciones: total, por fila, por columna
pd.crosstab(df["marriage"], df["haskids"], normalize=True)


In [None]:
pd.crosstab(df["marriage"], df["haskids"], normalize="index")


In [None]:
pd.crosstab(df["marriage"], df["haskids"], normalize="columns")


## 4) Histograma (frecuencia y densidad)

In [None]:
plt.hist(df["roe"], bins=12)
plt.title("Histograma de ROE (frecuencia)")
plt.xlabel("roe")
plt.ylabel("frecuencia")
plt.show()


In [None]:
plt.hist(df["roe"], bins=12, density=True)
plt.title("Histograma de ROE (densidad)")
plt.xlabel("roe")
plt.ylabel("densidad")
plt.show()


In [None]:
# KDE (opcional): puede depender de paquetes extra
# df["roe"].plot(kind="density")
# plt.title("KDE de ROE")
# plt.xlabel("roe")
# plt.show()


## 5) ECDF

In [None]:
x = np.sort(df["roe"].to_numpy())
y = np.arange(1, len(x) + 1) / len(x)

plt.plot(x, y)
plt.title("ECDF de ROE")
plt.xlabel("roe (x)")
plt.ylabel("F(x) acumulada")
plt.ylim(0, 1)
plt.show()


## 6) Estadísticos y matrices

In [None]:
df[["roe", "salary"]].describe()


In [None]:
# Media, mediana, varianza, desviación estándar
df["roe"].mean(), df["roe"].median(), df["roe"].var(), df["roe"].std()


In [None]:
# Covarianza y correlación
df[["salary", "roe"]].cov(), df[["salary", "roe"]].corr()


## 7) Boxplots

In [None]:
plt.boxplot(df["roe"].dropna())
plt.title("Boxplot de ROE")
plt.ylabel("roe")
plt.show()


In [None]:
df.boxplot(column="roe", by="haskids")
plt.title("ROE por haskids (boxplot)")
plt.suptitle("")
plt.xlabel("haskids")
plt.ylabel("roe")
plt.show()


## 8) Datos reales (opcional)

Si quieres practicar con datos reales, puedes usar datasets educativos (ej. `wooldridge`).


In [None]:
# (Opcional) wooldridge
# !pip -q install wooldridge
# import wooldridge as woo
# import numpy as np
# import pandas as pd
# import matplotlib.pyplot as plt
#
# affairs = woo.dataWoo("affairs")
# affairs["ratemarr"].value_counts()
# pd.crosstab(affairs["ratemarr"], affairs["kids"], normalize="index")
#
# ceosal1 = woo.dataWoo("ceosal1")
# plt.hist(ceosal1["roe"], bins=20)
# plt.show()


## Ejercicios propuestos

1) **Frecuencias + barras**  
Calcula `value_counts()` de `marriage` y grafica barras horizontales.

**Respuesta esperada:** 3 barras con conteos por categoría.


In [None]:
# Escribe tu solución aquí


2) **Crosstab normalizado por filas**  
Crea `pd.crosstab(marriage, haskids, normalize="index")`.

**Respuesta esperada:** cada fila suma 1.


In [None]:
# Escribe tu solución aquí


3) **Frecuencia vs densidad**  
Dos histogramas de `roe`: uno con `density=False` y otro con `density=True`.

**Respuesta esperada:** cambia la escala del eje y.


In [None]:
# Escribe tu solución aquí


4) **ECDF y percentil**  
Construye la ECDF de `roe` y estima el percentil 90.

**Respuesta esperada:** cercano a `df["roe"].quantile(0.9)`.


In [None]:
# Escribe tu solución aquí


5) **Cov y corr**  
Calcula `cov()` y `corr()` para `salary` y `roe`.

**Respuesta esperada:** dos matrices 2×2.


In [None]:
# Escribe tu solución aquí


6) **Boxplot por grupo**  
Boxplot de `roe` por `haskids`.

**Respuesta esperada:** 2 cajas.


In [None]:
# Escribe tu solución aquí


## Glosario

- **frecuencia**: conteos.
- **proporción**: conteos / total.
- **crosstab**: tabla cruzada.
- **densidad**: histograma escalado (`density=True`).
- **KDE**: densidad estimada (kernel).
- **boxplot**: gráfico de caja.
- **cov / corr**: covarianza / correlación.
