# Intro
Identificar el tipo de distribución que tiene a una variable es un paso fundamental en prácticamente todos los estudios que implican datos, desde los contrastes de hipótesis hasta la creación de modelos por aprendizaje estadístico y machine learning.

En Python existen varias librerías que permiten ajustar distribuciones. 

En este documento se muestran las funcionalidades del módulo scipy.stats, haciendo hincapié en cómo comparar múltiples distribuciones con el objetivo de identificar a cuál de ellas se ajustan mejor los datos.

In [1]:
from scipy import stats
import pandas as pd

In [2]:
# Distribuciones agrupadas por dominio
# ==============================================================================
distribuciones = [getattr(stats,d) for d in dir(stats) \
                  if isinstance(getattr(stats,d), (stats.rv_continuous, stats.rv_discrete))]

distribucion = []     
dominio_1 = []
dominio_2 = []

for dist in distribuciones:
    distribucion.append(dist.name)
    dominio_1.append(dist.a)
    dominio_2.append(dist.b)
    
info_distribuciones = pd.DataFrame({
                        'distribucion': distribucion,
                        'dominio_1': dominio_1,
                        'dominio_2': dominio_2
                      })

info_distribuciones = info_distribuciones \
                      .sort_values(by=['dominio_1', 'dominio_2'])\
                      .reset_index(drop=True)

print("-------------------------------------")
print("Información distribuciones scipy.stat")
print("-------------------------------------")
display(info_distribuciones)

-------------------------------------
Información distribuciones scipy.stat
-------------------------------------


Unnamed: 0,distribucion,dominio_1,dominio_2
0,frechet_l,-inf,0.0
1,levy_l,-inf,0.0
2,weibull_max,-inf,0.0
3,cauchy,-inf,inf
4,crystalball,-inf,inf
...,...,...,...
111,geom,1.0,inf
112,logser,1.0,inf
113,pareto,1.0,inf
114,yulesimon,1.0,inf


In [8]:
#info_distribuciones[(info_distribuciones['dominio_1'] == 0) & (info_distribuciones['dominio_2'] == 'inf')]
#info_distribuciones[(info_distribuciones['dominio_2'] == inf)]
info_distribuciones.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 116 entries, 0 to 115
Data columns (total 3 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   distribucion  116 non-null    object 
 1   dominio_1     116 non-null    float64
 2   dominio_2     116 non-null    float64
dtypes: float64(2), object(1)
memory usage: 2.8+ KB
