# Matemáticas para IA con Python: Estadística descriptiva.

**Objetivo**. Revisar los conceptos básicos de la estadística descriptiva usando ejemplos con Python.

 <p xmlns:cc="http://creativecommons.org/ns#" xmlns:dct="http://purl.org/dc/terms/"><a property="dct:title" rel="cc:attributionURL" href="https://github.com/luiggix/intro_MeIA_2023">Matemáticas para IA con Python</a> by <span property="cc:attributionName">Luis Miguel de la Cruz Salas</span> is licensed under <a href="http://creativecommons.org/licenses/by-nc-sa/4.0/?ref=chooser-v1" target="_blank" rel="license noopener noreferrer" style="display:inline-block;">CC BY-NC-SA 4.0<img style="height:22px!important;margin-left:3px;vertical-align:text-bottom;" src="https://mirrors.creativecommons.org/presskit/icons/cc.svg?ref=chooser-v1"><img style="height:22px!important;margin-left:3px;vertical-align:text-bottom;" src="https://mirrors.creativecommons.org/presskit/icons/by.svg?ref=chooser-v1"><img style="height:22px!important;margin-left:3px;vertical-align:text-bottom;" src="https://mirrors.creativecommons.org/presskit/icons/nc.svg?ref=chooser-v1"><img style="height:22px!important;margin-left:3px;vertical-align:text-bottom;" src="https://mirrors.creativecommons.org/presskit/icons/sa.svg?ref=chooser-v1"></a></p> 


En la era del *Big Data* y la IA, es importante saber cómo calcular las medidas estadísticas que describen los datos. Estas medidas dan un resumen de los datos y es posible calcularlas usando diferentes bibliotecas de Python. Por ejemplo:

* Módulo `statistics` con las funciones más importantes de estadística descriptiva.
* Biblioteca `numpy` para manejar arreglos de manera eficiente y también hacer algunos cálculos estadísticos.
* Biblioteca `scipy`que contiene funciones adicionales para trabajar con arreglos de `numpy`.
* Biblioteca `pandas` para trabajar con conjuntos de datos etiquetados.
* Biblioteca `matplotlib` para visualizar los datos.

Para explicar los elementos principales de la estadística descriptiva, usaremos un conjunto de datos que crearemos artificialmente. 

In [None]:
import math
import statistics
import numpy as np
import scipy.stats
import pandas as pd
import matplotlib.pyplot as plt
import macti.vis as mvis

# Creación de un conjunto de datos.

In [None]:
N = 20 # cantidad de datos
L = 10 # dominio de estudio de los datos, de 0 a L

# Generación de un conjunto de datos
x = np.linspace(0,L,N) 
y = x + np.random.randn(N)

# Revisa que todos los valores sean positivos, si obtienes algun valor negativo
# vuelve a ejecutar la celda hasta que todos los valores sean positivos.
print(x)
print(y)

# Análisis exploratorio.

## Graficación usando `matplotlib`.

In [None]:
plt.scatter(x,y)
plt.xlabel('$x$')
plt.ylabel('$y$')
plt.grid()
plt.show()

## Graficación usando `pandas.DataFrame.plot()` .

In [None]:
# Almacenamiento de datos en un Dataframe
df = pd.DataFrame(np.array([x, y]).T, columns=['x', 'y'])
df

In [None]:
df.plot(x='x', y = 'y', kind='scatter')
plt.grid()
plt.show()

# Medidas estadísticas.

## Medidas de tendencia central.

### Media

$$
\bar{x} = \frac{1}{n} \sum_{i=1}^n x_i
$$

In [None]:
# Usando funciones simples de Python
sum(df.y) / len(df.y)

In [None]:
# Usando statistics
statistics.mean(df.y)

In [None]:
# Usando numpy
np.mean(df.y)

In [None]:
# Usando pandas
df.mean()

In [None]:
df.y.mean()

In [None]:
df['y'].mean()

<div class="alert alert-info" role="alert">
    
Existen también funciones para calcular la media ponderada. Véase  `np.average()`.


**Definición**.

---

Para una serie de datos numéricos $X = \{x_{1},x_{2},x_{3}...,x_{n}\}$ a la que corresponden los pesos $W = \{w_{1},w_{2},w_{3},...,w_{n}\}$ la media ponderada se calcula de la siguiente manera:

$
\bar{x}= \dfrac{\sum _{i=1}^{n}x_{i}w_{i}}{\sum_{i=1}^{n}w_{i}} = \dfrac{x_{1}w_{1}+x_{2}w_{2}+x_{3}w_{3}+...+x_{n}w_{n}}{w_{1}+w_{2}+w_{3}+...+w_{n}}
$

Si los pesos son iguales, $w_{i}=w$ para $1\leq i\leq n$, entonces la media ponderada coincide con la media aritmética.

---

</div>

### Media armónica

Suele ser empleada para promediar velocidades, tiempos, rendimientos, entre otros. La media armónica resulta poco influida por la existencia de determinados valores mucho más grandes que el conjunto de los otros, siendo en cambio sensible a valores mucho más pequeños que el conjunto. 

$$
H = \frac{n}{ \sum_{i=1}^n 1/ x_i}
$$

In [None]:
# Usando funciones simples de Python
len(df.y) / sum(1 / item for item in df.y)

In [None]:
# Usando statistics
statistics.harmonic_mean(df.y)

In [None]:
# Usando scipy
scipy.stats.hmean(df.y)

### Media geométrica

Es recomendada para datos de progresión geométrica, para promediar razones, interés compuesto y números índice. 

$$
G = \sqrt[n]{\prod_{i=1}^n x_i}
$$

In [None]:
# Usando Python
G = 1
for i in df.y:
    G *= i

G **= (1/len(df.y))

print(G)

In [None]:
# Usando statistics
statistics.geometric_mean(df.y)

In [None]:
# Usando scipy
scipy.stats.gmean(df.y)

In [None]:
plt.plot(df.y, np.zeros(len(df.y)), 'o')
plt.scatter(statistics.mean(df.y), 0, fc='C1', ec='gray', alpha=0.75, s = 75, label='Media') 
plt.scatter(statistics.harmonic_mean(df.y), 0, fc='C2', ec='gray', alpha=0.75, s = 75, label='Media Armónica') 
plt.scatter(statistics.geometric_mean(df.y), 0, fc='C3', ec='gray', alpha=0.75, s = 75, label='Media Geométrica') 
plt.ylim(-0.5, 0.5)
plt.legend()

### Mediana

Es el elemento medio de un conjunto de datos ordenado.

La media se ve afectada por valores atípicos, mientras que la mediana es afectada poco o nada por ese tipo de elementos.

In [None]:
# Usando statistics
statistics.median(df.y)

In [None]:
# Usando numpy
np.median(y)

In [None]:
# Usando pandas
df.y.median()

In [None]:
# ¿Qué pasa si agregamos un valor muy grande?
np.append(y, 300)

In [None]:
statistics.median(np.append(y, 300))

In [None]:
statistics.mean(np.append(y, 300))

In [None]:
statistics.mean(y)

### Moda
Valor del conjunto de datos que ocurre con más frecuencia.

In [None]:
# Usando statistics
a = np.array([7,2,3,4,2,6,2,7,7,4,2,5,6,7,8,2,2,9,7,3,7])
statistics.mode(a)

In [None]:
statistics.multimode(a)

In [None]:
# Usando scipy
scipy.stats.mode(a, keepdims=True)

In [None]:
# Usando pandas
aS = pd.Series(a)
aS.mode()

## Medidas de variabilidad

Estas medidas permiten determinar que tan dispersos se encuentran los datos.

### Varianza

La varianza es una medida de dispersión que se utiliza para representar la variabilidad de un conjunto de datos respecto de la media aritmética de los mismo. Así, se calcula como la suma de los residuos elevados al cuadrado y divididos entre el total de observaciones.

$$
\sigma^2 = \frac{1}{n-1} \sum_{i}^{n}(x_i - \bar{x})^2
$$

Una varianza alta indica que los datos están más dispersos, mientras que una baja sugiere que están más agrupados. La varianza se suele utilizar en conjunto con la desviación estándar, ya que la desviación estándar es la raíz cuadrada de la varianza.

**Ejemplos de aplicación**.

* En producción: Una baja varianza en el peso de los paquetes puede indicar que el proceso de empaque es eficiente y consistente. 
* En finanzas: Una alta varianza en el precio de una acción puede indicar que es una inversión más volátil, con mayor riesgo pero también mayor potencial de ganancia. 
* En experimentos: Una alta varianza en los resultados de un experimento puede indicar que hay una mayor influencia de factores externos o que la medición no es muy precisa. 


In [None]:
# Usando Python
n = len(y)
ym = sum(y) / n
sum((i - ym)**2 for i in y) / (n - 1)

In [None]:
# Usando statistics
statistics.variance(y)

In [None]:
# Usando numpy
y.var(ddof=1) # ddof=0 calcula dividiendo entre n

In [None]:
# Usando pandas
df.y.var()

### Desviación estándar

Es la raíz cuadrada positiva de la varianza de la muestra. Está relacionada con la varianza de la muestra y suele ser más conveniente que la varianza porque tiene la misma unidad que los datos.

$$
\sigma = \sqrt{\frac{1}{n-1} \sum_{i}^{n}(x_i - \bar{x})^2}
$$

Una desviación estándar baja indica que la mayor parte de los datos de una muestra tienden a estar agrupados cerca de su media (también denominada el valor esperado), mientras que una desviación estándar alta indica que los datos se extienden sobre un rango de valores más amplio.


In [None]:
# Usando Python
n = len(y)
ym = sum(y) / n
(sum((i - ym)**2 for i in y) / (n - 1))**(0.5)

In [None]:
# Usando statistics
statistics.stdev(y)

In [None]:
# Usando numpy
y.std(ddof=1)

In [None]:
# Usando pandas
df.y.std()

### Asimetría estadística (*Skewness*)

Mide la asimetría de la muestra de los datos. Existen varias definiciones. Para cada biblioteca revise la documentación.


In [None]:
# Usando scipy
scipy.stats.skew(y, bias=False)

In [None]:
# Usando pandas
df.y.skew()

### Cuantiles, cuartiles, percentiles

Los cuantiles son puntos tomados a intervalos regulares de la función de distribución de una variable aleatoria. 

Los cuartiles, que dividen a la distribución en cuatro partes (corresponden a los cuantiles 0.25; 0.50 y 0.75).

Los percentiles, que dividen a la distribución en cien partes.

Suele definirse también los deciles (diez partes), quintiles (cinco partes), octiles (ocho partes) 


In [None]:
np.sort(y)

In [None]:
# Usando statistics
statistics.quantiles(y, n=2)

In [None]:
statistics.quantiles(y, n=4) # cuartiles

In [None]:
statistics.quantiles(y, n=5) # quintiles

In [None]:
# Usando numpy
np.percentile(y, [25, 50, 75], method='normal_unbiased')

In [None]:
np.quantile(y, [0.25, 0.50, 0.75], method='normal_unbiased')

In [None]:
# Usando pandas
df.y.quantile([0.25, 0.50, 0.75])

### Rangos

El rango de los datos es la diferencia entre el elemento mínimo y máximo.

In [None]:
np.ptp(y)

### Resumen de datos estadísticos

In [None]:
# Usando scipy
scipy.stats.describe(y, ddof=1, bias=False)

In [None]:
df.y.describe()

## Medidas de correlación

La correlación, en estadística, es una medida de la relación o asociación entre dos o más variables. Describe hasta qué punto estas variables cambian juntas, es decir, si una tiende a aumentar o disminuir a medida que la otra cambia. Entonces, la correlación permite identificar patrones y relaciones entre variables. En algunos casos, la correlación puede usarse para predecir el valor de una variable basándose en el valor de otra.

**La correlación no implica causalidad, solo indica una relación estadística**.  Además, no puede detectar relaciones curvilíneas o valores atípicos que puedan sesgar los resultados. 


El **coeficiente de correlación**, es una medida numérica que indica la fuerza y dirección de la relación entre las variables.

**Tipos de correlación**.

* Correlación positiva: Cuando ambas variables tienden a aumentar o disminuir juntas. 
* Correlación negativa: Cuando una variable tiende a aumentar y la otra a disminuir, y viceversa. 
* Correlación nula o débil: Cuando no hay una relación lineal aparente entre las variables. 

**Ejemplos**.

* La cantidad de lluvia y la altura de los ríos (correlación positiva).
* El precio de un producto y la demanda del mismo (correlación negativa).
* La estatura de una persona y el número de amigos que tiene (correlación nula o débil). 

In [None]:
# Correlación positiva
plt.scatter(x,y)

In [None]:
# Correlación negativa
plt.scatter(np.flip(x),y)

In [None]:
# Correlación débil
z = np.random.rand(len(y))
plt.scatter(z,y)

### Covarianza muestral.

Cuantifica la fuerza y dirección de una relación entre dos variables. Es el dato básico para determinar si existe una dependencia entre ambas variables y además es el dato necesario para estimar otros parámetros básicos, como el coeficiente de correlación lineal o la recta de regresión. 

$$
S_{xy} = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})
$$

* Si $S_{xy}>{0}$ hay dependencia directa (positiva), es decir, a grandes valores de $x$ corresponden grandes valores de $y$.

* Si $S_{xy}={0}$ se interpreta como la no existencia de una relación lineal entre las dos variables.

* Si $S_{xy}<{0}$ hay dependencia inversa (negativa), es decir, a grandes valores de $x$ corresponden pequeños valores de $y$.

In [None]:
np.cov(x,y)

* El primer elemento del primer renglón es la varianza de $x$, el segundo elemento de ese renglón es la covarianza $S_{xy}$.

* El primer elemento del segundo renglón es la covarianza $S_{xy}$, el segundo elemento de ese renglón es la varianza de $y$.

Observa que $S_{xy} > 0$.

In [None]:
# Covarianza negativa
np.cov(np.flip(x),y)

In [None]:
# Covarianza cercana a cero.
np.cov(z,y)

In [None]:
# Usando pandas
df.y.cov(df.x)

### Coeficiente de correlación 

El coeficiente de correlación, o coeficiente de correlación producto-momento de Pearson, se denota con el símbolo $r$ (también con $\rho_{xy}$) y es otra medida de la correlación entre los datos. A diferencia de la covarianza, la correlación de Pearson es independiente de la escala de medida de las variables, se puede pensar como una covarianza estandarizada.

$$
\rho_{xy} = \frac{S_{xy}}{\sigma_x \sigma_y}
$$

De manera menos formal, podemos definir el coeficiente de correlación de Pearson como un índice que puede utilizarse para medir el grado de relación de dos variables siempre y cuando ambas sean cuantitativas y continuas. 

* $r > 0$ indica una correlación positiva.
* $r < 0$ indica una correlación negativa.
* $r = 1$ es el valor máximo y corresponde a una relación positiva lineal.
* $r = -1$ es el valor mínimo y corresponde a una relación negativa lineal.
* $r \approx 0$ indicar una correlación débil.

La correlación entre dos variables no implica, por sí misma, ninguna relación de causalidad. Por ejemplo, los ingresos y gastos de una familia, la producción y ventas de una fábrica, los gastos en publicidad y beneficios de una empresa. 

In [None]:
# Usando scipy. Correlación positiva
scipy.stats.pearsonr(x, y)

**P-value**.

El p-value (valor-p) es una medida estadística que nos ayuda a decidir si los resultados de un experimento son estadísticamente significativos.

Si p-value es pequeño (por ejemplo, $< 0.05$), rechazamos $H_0$, por lo tanto los resultados son estadísticamente significativos.

Si p-value es grande (por ejemplo, $> 0.05$), no tenemos evidencia suficiente para rechazar $H_0$.

¿Pero qué es $H_0$?

Hipótesis nula ($H_0$): Es una afirmación que asume que no hay efecto o no hay diferencia. Por ejemplo: "El nuevo medicamento no mejora la salud más que el placebo."

Hipótesis alternativa ($H_1$): Es la afirmación opuesta a la hipótesis nula: "El medicamento sí mejora la salud."


In [None]:
from scipy.stats import binomtest

# Parámetros del experimento
caras_obtenidas = 60
lanzamientos = 100
probabilidad_esperada = 0.5  # moneda justa

# Prueba binomial (H0: la moneda es justa)
test = binomtest(caras_obtenidas, lanzamientos, probabilidad_esperada)

print(f"Valor-p: {test.pvalue:5.4f}")

# Interpretación
if test.pvalue < 0.05:
    print("Rechazamos la hipótesis nula: la moneda probablemente no es justa.")
else:
    print("No se rechaza la hipótesis nula: no hay evidencia suficiente para decir que la moneda no es justa.")

In [None]:
# Usando scipy. Correlación negativa
scipy.stats.pearsonr(np.flip(x), y)

In [None]:
# Usando scipy. Correlación débil
scipy.stats.pearsonr(z, y)

In [None]:
# Usando numpy
np.corrcoef(x, y)

In [None]:
np.corrcoef(np.flip(x), y )

In [None]:
np.corrcoef(z,y)

In [None]:
# Usando pandas
df.y.corr(df.x)

In [None]:
# Usando scipy
lres = scipy.stats.linregress(x, y)
lres

In [None]:
print(lres.slope)
print(lres.intercept)
print(lres.rvalue)
print(lres.pvalue)

## Regresión lineal.

La regresión lineal es un método estadístico usado para modelar la relación entre una variable dependiente $y$ y una o más variables independientes $x$. El objetivo es encontrar una línea recta que mejor se ajuste a los datos.

La forma general de la regresión lineal simple es: $y = mx + b$

donde $y$ variable dependiente (lo que queremos predecir), $x$ variable independiente, $m$ es la pendiente de la recta (cuánto cambia $y$ por cada unidad que cambia $x$) y $b$ es la ordenada al origen (valor de $y$ cuando $x=0$).

In [None]:
# Regresión lineal usando scipy.stats.linregress

# Ecuación de la recta
y_lr = lambda x: lres.slope * x + lres.intercept

# Variable independiente para dibujar la línea recta.
x_lr = np.linspace(0,L,100) 

plt.scatter(x,y, fc='C1', ec='k', label='Datos')  # los datos
plt.plot(x_lr, y_lr(x_lr), label='Regresión lineal') # el ajuste con la línea recta
plt.legend()
plt.show()

Scikit-learn es una biblioteca para aprendizaje automático de software libre para el lenguaje de programación Python. Incluye algoritmos para estadística básica, pero su mayor valor está en que provee herramientas para IA. Está diseñada para interoperar con las bibliotecas numéricas y científicas NumPy y SciPy. 

Podemos usarla para realizar una regresión lineal.

In [None]:
from sklearn.linear_model import LinearRegression

linear_model = LinearRegression() # Construimos el objeto para la regresión lineal.

X, Y = x.reshape(-1,1),y.reshape(-1,1) # Necesitamos los datos en forma de columna

linear_model.fit(X,Y) # Realizamos el ajuste

print(linear_model.coef_) # Pendiente
print(linear_model.intercept_) # Ordenada al origen
print(linear_model.score(X,Y)) # Cuadrado de la correlación de Pearson.

Evaluamos el modelo.

In [None]:
XI = x_lr.reshape(-1,1)
YP = linear_model.predict(XI)  # Se hace la predicción

plt.scatter(x,y, fc='C1', ec='k', label='Datos')
plt.plot(x_lr, YP, label='Regresión lineal')
plt.legend()
plt.show()

## Visualizando con Matplotlib y seaborn

In [None]:
import seaborn as sns
sns.set_theme()

In [None]:
print(x)
print(y)

### Boxplots

In [None]:
w = np.random.randn(1000)
fig, ax = plt.subplots()
ax.boxplot([x, y, w], vert=False, showmeans=True, meanline=True,
           tick_labels=('x', 'y', 'w'), patch_artist=True,
           medianprops={'linewidth': 3, 'color': 'yellow'},
           meanprops={'linewidth': 2, 'color': 'orange'})
plt.show()

### Histogramas

In [None]:
hist, bin_edges = np.histogram(w, bins=10)
print(hist)
print(bin_edges)

In [None]:
fig, ax = plt.subplots()
ax.hist(w, bin_edges)
ax.set_xlabel('w')
ax.set_ylabel('Frequency')
plt.show()

### Gráfica de barras

In [None]:
etiquetas = np.arange(11)
datos = np.random.randint(1, 11, size=11)
errores = np.fabs(np.random.randn(11))

fig, ax = plt.subplots()
ax.bar(etiquetas, datos, yerr=errores)
ax.set_xlabel('Etiquetas')
ax.set_ylabel('Datos')
ax.set_xticks(etiquetas)
plt.show()

### Mapas de calor

In [None]:
sns.heatmap(data=np.cov(x,y), annot=True, cmap='summer')

In [None]:
z = np.random.rand(len(y))
sns.heatmap(data=np.cov(y,z), annot=True, cmap='hot')

In [None]:
sns.displot(data=w, kde=True)