In [None]:
%load_ext autoreload
%autoreload 2

In [None]:
# To use only Google Colab
# ! pip install matplotlib --upgrade

In [None]:
# To use only Google Colab
# ! pip install matplotlib --upgrade
# ! wget https://github.com/javieriserte/qualitative-data-course/raw/master/classes/C01.py


# Unidad I. Variables, distribuciones y pruebas de hipótesis.

- Características numéricas de las variables aleatorias
- Concepto de muestra
- Estimación estadística de los parámetros de una distribución a partir de los
datos de una muestra



## Análisis descriptivo de datos

La estadística descriptiva:
  - quiere describir una muestra de manera
    - cualitativa (gráfica) o
    - cuantitativa (numérica)
  - ligada al
    - análisis exploratorio
    - análisis inicial
  - búsqueda de hipótesis
    - nuevos muestreos
    - experimentos

La estadística inferencial:
  - quiere inferir propiedades acerca de la población
  - se focaliza en:
    - asegurar la calidad de los datos
    - chequear las suposiciones
    - testear la hipótesis que tenemos en mente


## Muestra estadística

Muestra:
  - subconjunto de datos
    - tomados de una población estadística
    - mediante un proceso de muestreo determinado.

Observación:
  - Cada una de las unidades muestrales
  - es posible medir variables aleatorias sobre una observación.

Las **muestras** pueden ser:
- **Completas**:
  - Incluye a todos los casos, individuos u objetos de la población..
    que cumplen con un criterio (de selección) determinado.
  - Es difícil o imposible disponer de muestras completas.
- **Representativas**:
  - Conjunto de unidades muestrales seleccionadas de una muestra completa
  - usando un proceso de selección/muestreo que no depende de las propiedades de
    estas unidades.
  - Una manera de obtener muestras no sesgadas es seleccionando una
    **muestra aleatoria**


## Técnicas de muestreo

### Muestreo aleatorio simple

- Se selecciona un número k de unidades
- de manera aleatoria
- cada unidad tiene la misma probabilidad de ser seleccionado.
- El muestreo puede ser:
  - con reposición:
    - cada unidad puede ser seleccionada más de una vez.
  - sin reposición:
    - cada unidad puede ser seleccionada solo una vez.
    - seleccionar un elemento altera las probabilidades de selección del
      siguiente.
    - sin embargo cualquir orden de extracciñon es equiprobable.
  - Si el tamaño de la población es mucho mayor al tamaño de la muestra:
    - el muestreo con reposición y sin reposción se aproximan.

### Generación de muestras aleatorias en python

In [None]:
import numpy as np

population = np.arange(100)

sample_without_replacement = np.random.choice(
  a = population,
  size = 99,
  replace = False
)

all_different = len(np.unique(sample_without_replacement)) == 99

print(
  "Todos los elementos son diferentes en la muestra sin reemplazo? : "
  f"{all_different}"
)

sample_with_replacement = np.random.choice(
  a = population,
  size = 99,
  replace = True
)
all_different = len(np.unique(sample_with_replacement)) == 99

print(
  "Todos los elementos son diferentes en la muestra con reemplazo? : "
  f"{all_different}"
)


In [None]:
# Se puede usar con elementos no numéricos también.
population = [
  "lunes",
  "martes",
  "miercoles",
  "jueves",
  "viernes",
  "sábado",
  "domingo"
]
np.random.choice(
  a = population,
  size = 5,
  replace = True
)

### Muestreo sistemático

- Consiste en:
  - ordenar los elementos según alguna variable de interés
  - luego tomar n unidades muestrales equiespaciadas.
  - El primer elemento debe ser seleccionado al azar
    - quedando los otros determinados en relación a este.
- permite muestrear una variable de intereses en todo su rango.
- debe tenerse cuidado:
  - si la variable muestra alguna característica periódica
  - no se verá la variación entre dos elementos contiguos
    - nunca se seleccionan a la vez.

### Generación de muestras sistemáticas en python

- En este ejemplo vamoas a usar el conjunto de datos de **iris**.
  - Tamaño (ancho y largo) de pétalo y sépalo tres variantes de plantas.
- Vamos a ordenar según el largo de sus pétalos:

In [None]:
from sklearn import datasets
import pandas as pd
import numpy as np

iris = datasets.load_iris(as_frame=True)
df = iris.frame
df.head()

In [None]:
df = df.sort_values(
  by="petal length (cm)",
)

sample_size = 17 # Aprox...
print(f"El tamaño de la muestra es {sample_size}")
spacing = int(round(len(df) / sample_size))
print(f"Los elementos estan espaciados cada {spacing} posiciones")
starting_position = np.random.randint(low=0, high=spacing-1)
print(f"Elijo una posición de inicio aleatoria: {starting_position}")
selected_positions = np.arange(len(df)) % spacing == starting_position
sample = df.iloc[selected_positions, :]
print(f"El tamaño real de la muestra es {len(sample)}")
sample


### Muestreo estratificado

- Se estratifica la población antes de tomar las muestras.
- Se divide la población en grupos homogéneos.
  - Los grupos son mutuamente excluyentes
  - Todos los miembros de la población deben pertenecer a un grupo
  - No pueden quedar miembros sin clasificar.
- Se realiza un muestreo de cada estrato
  - aleatorio simple
  - sistemático dentro



Existen tres posibles estrategias:
- **Asignación proporcional**:
  - El número de unidades de cada grupo:
    - es proporcional al número de individuos de cada grupo en la población.
  - Se respeta las proporciones de los grupos en la población.
- **Asignación óptima**:
  - El número de unidades de cada grupo:
    - es proporcional a la desviación estándar de la variable de interés.
- **Asignación uniforme**:
  - Igual número de elementos para cada grupo.
  - El dataset **iris** fue generado de esta forma.
    - 50 flores de cada especie.


La media del muestreo es:
 - $ \mu_{s} = \frac{1}{N} \sum_{h=1}^{L} N_{h} \mu_{h} $
 * $\mu_{s}$ es la media
 * $N$ es el tamaño de toda la población
 * $N_{h}$ es el tamaño del estrato h
 * $\mu_h$ es la media de la muestra del estrato h.


Ejercicio:
- Se quiere construir un set de datos similar a Iris, pero en lugar de 150
  muestras con 1000.
- Se quiere que la asignación sea óptima con respecto al largo del pétalo.
- ¿Cuántos elementos de cada especie deberían recolectarse?

## Estadísticos de resumen

Los estadísticos de resumen:
- describen de manera cuantitativa la distribución de una muestra.
- se describe cada variable aleatoria/dimensión manera independiente.

Existen estadísticos de:
- tendencia central
- dispersión
- forma:
  - asimetría (Skewness)
  - apuntamiento (Kurtosis)

Algunos estadísticos pueden ser robustos:
  - están menos afectados por valores extremos atípicos.
  - tienen buena performance con muchos tipos de distribuciones.


### Estadísticos de tendencia central

Los estadísticos más comunes de este tipo:
- la *media*
  - Es el promedio aritmético de un conjunto de datos.
  - $\bar{X} = \frac{1}{N}\times{\sum_{i=1}^N{x_i}}$
  - No es robusto.
- La *mediana*.
  - Es el valor ubicado en el percentil 50 de una distribución.
  - Es un estimador robusto
- La *moda*
  - Es el valor más frecuente
    - es el único estadístico de tendencia central para datos nominales
  - Difícil de estimar correctamente para variables continuas.

In [None]:
df.mean()

In [None]:
df.median()

In [None]:
df.mode()

In [None]:
import C01
C01.mean_mode_median()


## Estadísticos de dispersión

- La *desviación estándar*
  - es el más popular
  - No es un estimador robusto.
  - $s=\sqrt{\frac{\sum_{i=1}^N{(x_i-\bar{x})^2}}{N-1}}$
  - Varianza: $s^2$
- El rango entre cuartiles:
  - Es la diferencia entre el tercer cuartil y el primer cuartil.
  - $Q_3 - Q_1$
- La desviación mediana absoluta **Median Absolute Deviation** (MAD).
  - Es análogo a la desviación estandard utilizando la mediana
  - $median(|X_i-median(X)|)$
- El rango:
  - Es la diferencia entre el valor máximo y mínimo.

In [None]:
df.std()

In [None]:
df.quantile(0.75) - df.quantile(0.25) 

In [None]:
(df - df.mean()).abs().median()

In [None]:
df.max() - df.min()

In [None]:
import C01
C01.dispersion_measures()

## Estadísticos de forma

Las medidas de forma de la distribución principales son:
  - el *Skewness* o *asimetría*
    - mide que tan simétricos son los datos con respecto a la media.
  - la *Kurtosis*
    - mide la concentración de datos cerca de la media.
  - El *exceso de kurtosis*
    - Es la diferencia con la kurtosis de la distribución normal estándar.
    - *Kurtosis - 3*
      - Igual a cero: igual a la distribución normal estándar.
      - Menor a cero: Más concentrado sobre la media.
      - Mayor a cero: Colas más pesadas.

In [None]:
df.skew()

In [None]:
df.kurtosis()

In [None]:
import C01
C01.skewness_plot()

In [None]:
import C01
C01.kurtosis_plot()

## Descripción gráfica

Los *Histogramas* permiten:
- tener una visión de la forma de una distribución de densidad
  para una variable aleatoria continua.
- Se construyen:
  - Subdiviendo el dominio en grupos (*bins*)
  - contando el número de observaciones para cada *bin*.

In [None]:
import matplotlib.pyplot as plt

var = "petal length (cm)"

plt.hist(
  df[var],
  bins = 25,
  label = var
)
plt.legend()


Los estimadores de núcleo de densidad (*Kernel Density Estimator*):
- generan curvas suaves que estiman la función de densidad de la muestra
- Tiene dos parámetros importantes:
  - Una función de probabilidad (kernel)
    - Por defecto se usa la distribución normal.
  - El ancho de banda a utilizar.
  - $\hat{f}(x) = \frac{1}{nh}\sum_{i=1}^{n}K(\frac{x-x_i}{h})$
    - $K$ en la función de kernel
    - $h$ es el ancho de banda


In [None]:
import C01
C01.kde_plot()

Los Diagramas de Dispersión:
- utilizan las coordenadas cartesianas
- muestran la distribución de dos variables en un espacio bi dimensional.
- Es posible representar más dimensiones utilizado diferentes formas, tamaños
  y/o colores.


In [None]:
import matplotlib.pyplot as plt

var1 = "petal length (cm)"
var2 = "sepal length (cm)"

scatter = plt.scatter(
  x = df[var1],
  y = df[var2],
  c = df["target"]
)
a, b = scatter.legend_elements()
plt.xlabel(var1)
plt.ylabel(var2)
plt.legend(a, iris["target_names"])

In [None]:
_ = pd.plotting.scatter_matrix(
  df.iloc[:,0:4],
  figsize=(10,10),
  c = df["target"]
)

Histogramas bivariados

- Los grupos (bins) se establecen para las dos variables
- se definen rectángulos
- Normalmente se utiliza un código de color para
  indicar la cantidad de valores en cada grupo.


In [None]:
_ = plt.hist2d(
  df["petal length (cm)"],
  df["petal width (cm)"],
  bins = 20,
)
plt.title("2D histogram")
plt.xlabel("Petal length (cm)")
plt.ylabel("Petal width (cm)")

### Mapa de calor (HeatMap)

- Similar a un histograma 2D
- Tienen variables categóricas o discretas en sus ejes.


In [None]:
df.head()

In [None]:
means_by_group = (
  df
    .groupby(
      by="target"
    )
    .aggregate(
      func = np.mean
    )
)

means_by_group.index = iris["target_names"]

im = plt.imshow(means_by_group)
plt.xticks(
  np.arange(len(means_by_group.columns)),
  means_by_group.columns,
  rotation = 45
)
plt.yticks(
  np.arange(len(iris["target_names"])),
  iris["target_names"]
)
cbar = plt.colorbar(im)
plt.tight_layout()


### Boxplots

- permiten observar estadísticos de:
  - tendencia central (mediana)
  - de dispersión (rango entre cuartiles).
  - valores extremos (outliers)

In [None]:
import C01
C01.boxplot_example()

In [None]:
plt.boxplot(df.iloc[:, :4])
_ = plt.xticks(
  np.arange(len(df.columns[:4]))+1,
  df.columns[:4],
  rotation = 45
)


### Funciones Empíricas de Distribución Acumulada

- Estima una función de probabilidad acumulada (CDF)
- A partir de los datos


In [None]:
import scipy
s = df.iloc[:, 1].value_counts().sort_index().cumsum()
s = s / max(s)
plt.plot(s)


In [None]:
res = scipy.stats.cumfreq(
    a = df.iloc[:, 1],
    numbins = 20
)
plt.bar(
    x = np.linspace(
        res.lowerlimit,
        res.binsize * res.cumcount.size + res.lowerlimit,
        res.cumcount.size
    ),
    height = res.cumcount,
    width = res.binsize
)


### Ajuste de distribuciones estadísticas

- Encontrar:
  - la mejor función de distribución teórica
    - Se presume una familia y se ajustan los parámetros
  - de acuerdo a los datos que tenemos
- Los estadisticos y gráficos evaludados en la exploración pueden guiar la
  elección de la familiad de funciones.

In [None]:
from scipy.stats import norm
import scipy.stats as st
normal_sample = norm.rvs(
    loc=2,
    scale = 3,
    size = 1000
)

fitted_mu, fitted_sigma = norm.fit(normal_sample)
print(f"fitted_mu: {fitted_mu}")
print(f"fitted_sigma: {fitted_sigma}")

x = np.linspace(
    start = fitted_mu - 3*fitted_sigma,
    stop = fitted_mu + 3*fitted_sigma,
    num = 100
)

plt.hist(normal_sample, bins =  50, density=True)
plt.plot(x, st.norm.pdf(x, loc=fitted_mu, scale=fitted_sigma))


In [None]:
data = (
    df
        .loc[df.iloc[:, 4] == 0, :]
        .iloc[:, 1]
)
mu, dev = norm.fit(data)
data = (data-mu)/dev
res = scipy.stats.fit(
    scipy.stats.norm,
    data
)
res.plot()
plt.hist(
    data,
    density=True,
    color = "red",
    bins = 20
)

In [None]:
xs = np.linspace(0, 20, 100)
lognorm_sample = scipy.stats.lognorm.rvs(size=1000, s=0.7, loc=3, scale=1.6)
s, loc, scale = scipy.stats.lognorm.fit(lognorm_sample)
lognorm_data = scipy.stats.lognorm.pdf(xs, s=s, loc=loc, scale=scale)
fig, axes = plt.subplots()
axes.plot(xs, lognorm_data)
_ = axes.hist(lognorm_sample, density = True, bins=100)
print(s, loc, scale)


## Tests de normalidad

- Suele ser útil saber si nuestros datos se distribuyen normalmente
  - Propiedades del origen de datos
  - Requerimiento para tests estadísticos

### Gráfico de probabilidad normal

- Quantile / Quantile plots
  - Se compara cuantil a cuantil una distribución dada vs la distribución normal.
  - Si los datos provienen de una distribución normal,}
    - el gráfico se acerca a una recta.


In [None]:
import statsmodels.api as sm
import scipy

data = (
    df
        .loc[df.iloc[:, 4] == 0, :]
        .iloc[:, 1]
)

fig = sm.qqplot(
    data = data,
    dist = scipy.stats.norm,
    fit = True,
    line = "45"
)

In [None]:
import statsmodels.api as sm
import scipy

data = (
    df
        .loc[df.iloc[:, 4] == 0, :]
        .iloc[:, 1]
)

s, loc, scale = scipy.stats.lognorm.fit(data, f0 = 0.7)
data = (data - loc) / scale
plt.hist(data, density = True)
plt.plot(
    np.linspace(0,2, 100),
    scipy.stats.lognorm.pdf(np.linspace(0,2,100), 0.7)
)
fig = sm.qqplot(
    data = data,
    dist = scipy.stats.lognorm,
    line = "45",
    distargs = (0.7,)
)

### Test de hipótesis

Existen diversos tests
- Hipótesis nula:
  - Los datos provienen de una distribución normal
- En general:
  - Se observa el p-valor devuelto
  - Si es menor que el nivel de significancia elegido.
    - Rechazo la hipótesis de normalidad.
- Test Anderson-Darling
- Test Shapiro-Wilk
- Test Kolmogorov-Smirnov
  - Compara la CDF de la función con la empírica de los datos
- Test D'Agostino-Pearson

In [None]:
normal_sample = scipy.stats.norm.rvs(size=1000)
uniform_sample = scipy.stats.uniform.rvs(size=1000)
lognorm_sample = scipy.stats.lognorm.rvs(size=1000, s=0.7)
fig, axes = plt.subplots(
    nrows=3,
    figsize=(7, 6)
)
axes[0].hist(normal_sample, bins=30)
axes[1].hist(uniform_sample, bins=30)
axes[2].hist(lognorm_sample, bins=30)
fig.tight_layout()

In [None]:
normal_test = scipy.stats.anderson(normal_sample)
normal_stat = scipy.stats.anderson(normal_sample).statistic
uniform_stat = scipy.stats.anderson(uniform_sample).statistic
lognorm_stat = scipy.stats.anderson(lognorm_sample).statistic
print(f"El valor de estadistico para la dist. normal es: {normal_stat}")
print(f"El valor de estadistico para la dist. uniforme es: {uniform_stat}")
print(f"El valor de estadistico para la dist. lognormal es: {lognorm_stat}")
print(f"Los valores criticos son: {normal_test.critical_values}")
print(f"Los niveles de significancia son: {normal_test.significance_level}")

In [None]:
normal_stat = scipy.stats.shapiro(normal_sample)[1]
uniform_stat = scipy.stats.shapiro(uniform_sample)[1]
lognorm_stat = scipy.stats.shapiro(lognorm_sample)[1]
print(f"El p-valor para la dist. normal es: {normal_stat}")
print(f"El p-valor para la dist. uniforme es: {uniform_stat}")
print(f"El p-valor para la dist. lognormal es: {lognorm_stat}")

In [None]:
cdf_norm = scipy.stats.norm.cdf
normal_stat = scipy.stats.kstest(normal_sample, cdf_norm)[1]
uniform_stat = scipy.stats.kstest(uniform_sample, cdf_norm)[1]
lognorm_stat = scipy.stats.kstest(lognorm_sample, cdf_norm)[1]
print(f"El p-valor para la dist. normal es: {normal_stat}")
print(f"El p-valor para la dist. uniforme es: {uniform_stat}")
print(f"El p-valor para la dist. lognormal es: {lognorm_stat}")


In [None]:
normal_stat = scipy.stats.normaltest(normal_sample)[1]
uniform_stat = scipy.stats.normaltest(uniform_sample)[1]
lognorm_stat = scipy.stats.normaltest(lognorm_sample)[1]
print(f"El p-valor para la dist. normal es: {normal_stat}")
print(f"El p-valor para la dist. uniforme es: {uniform_stat}")
print(f"El p-valor para la dist. lognormal es: {lognorm_stat}")


In [None]:
result = (
    df
        .groupby("target")
        .aggregate(
            [
                lambda x: scipy.stats.anderson(x).statistic,
                lambda x: scipy.stats.normaltest(x)[1],
                lambda x: scipy.stats.kstest(x, scipy.stats.norm.cdf)[1],
                lambda x: scipy.stats.shapiro(x)[1]
            ]
        )
)
result = result.T

test_name = [
    "Anderson", "DAgostino", "KS", "Shapiro"
] * 4

index = result.index.to_frame()
index.iloc[:, 1] = test_name
index = result.index.from_frame(index)
result = result.set_index(index)

result.columns = iris["target_names"]
result

### Teorización *Post Hoc*

- Generación de hipótesis sugeridas por el conjunto de datos observado, sin
  testear esta hipótesis en nuevos datos.
  - puede resultar en aceptar hipótesis incorrectas
  - que sólo son válidas en el presente conjunto de datos

- Es necesario testear estas nuevas hipotesis en una nueva muestra de la
  población.
  - Sin embargo,
    - en muchas casos eso puede ser imposible:
      - analizar un fenómeno natural finito.
      - difícil o imposible la recolección de nuevos datos
  - puede surgir en la bioinformática
    - cuando se toman todos los elementos de una base de datos
    - sin dejar datos suficientes para testear las hipótesis

### Data *fishing*:
  - testear muchas hipótesis sobre un conjunto de datos
    - hasta encontrar un caso significativo

#### Alternativas para no caer en este problema:
  - Recolectar nuevos datos (out-of-sample data)
    realizar un nuevo experimento,
    para testear la nueva hipótesis.
  - Separar el conjunto de datos de manera aleatoria en dos grupos.
     - Uno para plantear nuevas hipótesis
     - El otro para evaluarlas.
  - Utilizar métodos de validación cruzada (cross validation)
    - evitar un sobreajuste (overfitting)
  - Aplicar correcciones por testeo múltiple.