<a href="https://colab.research.google.com/github/franciscogarate/cdiae/blob/main/notebooks/15_Bondad_California.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Modelos de ajuste a una distribución
En este ejercicio
- Realizaremos el histograma y ajuste a una distribución exponencial.
- Calcularemos la bondad del ajuste basado en el test de Kolmogorov-Smirnov
- Realizaremos la gráfica QQ-Plot frente a una distribución exponencial.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import scipy.stats as st
import numpy as np

Importamos la base de datos de precios de casas de California

In [None]:
!git clone https://github.com/franciscogarate/cdiae

In [None]:
df = pd.read_feather('cdiae/data/03_model_input/california_housing_clean.ftr')
datos = df.AveRooms.copy()

Ajustamos una distribución lognormal a los datos

In [None]:
shape, loc, scale = st.lognorm.fit(datos)
lognormal = st.lognorm(shape, loc=loc, scale=scale)

Mostramos el histograma con el ajuste lognormal superpuesto

In [None]:
plt.hist(datos, bins=50, density=True, alpha=0.75)
x = np.linspace(datos.min(), datos.max(), 50)
y = st.lognorm.pdf(x, shape, loc=loc, scale=scale)
plt.plot(x, y)
plt.show()

Comprobamos la bondad del ajuste con el test de Kolmogorov-Smirnov

In [None]:
kstest = st.kstest(datos, cdf='lognorm', args=(shape, loc, scale))
print(kstest)

Generamos el gráfico QQ-Plot para comparar los cuantiles observados y teóricos.

In [None]:
st.probplot(datos, dist=st.lognorm, sparams=(shape, loc, scale), plot=plt)
plt.show()

Si bien observamos que el ajuste en los percentiles centrales es bueno, vemos que en los extremos la distribución lognormal no ajusta tan bien a los datos. En este caso, la conclusión es que los datos **se ajustan razonablemente bien**, no obstante se podría seguir buscando una distribución con mayor ajuste.
