# Estad√≠stica Descriptiva

Los objetivos de aprendizaje son:

1. ¬øQu√© es la estad√≠stica descriptiva?
    - Tipos de Medidas
    - Poblaci√≥n y Muestras
    - Valores at√≠picos
2. Paquetes con funcionalidades de estad√≠stica.
3. C√°lculo de estad√≠sticas descriptivas.
    - Medidas de tendencia central
    - Medidas de Variabilidad
4. Correlaci√≥n
5. Correlaci√≥n Linear
    - Coeficiente de correlaci√≥n de Pearson
6. Correlaci√≥n de rango
    - Coeficiente de correlaci√≥n de Spearman
    - Coeficiente de correlaci√≥n de Kendall


## ¬øQu√© es la estad√≠stica descriptiva?

Consiste en describir y resumir datos. Utiliza dos enfoques principales:

1. El enfoque cuantitativo describe y resume los datos num√©ricamente.

2. El enfoque visual ilustra los datos con tablas, diagramas, histogramas y otros gr√°ficos.


Cuando describimos y/o resumimos una sola variable, estamos realizando un an√°lisis univariado. Cuando buscamos relaciones estad√≠sticas entre un par de variables, estamos realizando un an√°lisis bivariado. De manera similar, un an√°lisis multivariado se ocupa de m√∫ltiples variables a la vez.

### Tipos de Medidas

Cubriremos tres tipos de medidas:

- **Tendencia central**: Informaci√≥n sobre d√≥nde se agrupan de los datos, e.g. media, mediana etc.
<br>

- **Variabilidad**: Informaci√≥n sobre la dispersi√≥n de los datos. e.g. varianza, desviaci√≥n est√°ndar.
<br>

- **Coorrelaci√≥n**: Informaci√≥n sobre la relaci√≥n entre un par de variables en un conjunto de datos. e.g. covarianza, coeficiente de correlaci√≥n, etc.


### Poblaci√≥n y Muestras

En estad√≠stica:

- **Poblaci√≥n**: Conjunto de todos los elementos de inter√©s. Las poblaciones suelen ser muy amplias, lo que las hace inapropiadas para recopilar y analizar sus datos.

- **Muestra**: Este subconjunto de una poblaci√≥n. Idealmente, la muestra deber√≠a preservar las caracter√≠sticas estad√≠sticas esenciales de la poblaci√≥n en una medida satisfactoria.


> Generalmente intentaremos sacar conclusiones sobre una poblaci√≥n eligiendo y examinando una muestra.

### Valores at√≠picos

Es un punto de datos que difiere significativamente de la mayor√≠a de los datos tomados de una muestra o poblaci√≥n. Pueden existir debido a:

- Variaci√≥n natural de los datos.
- Cambio en el comportamiento del sistema observado.
- Errores en la recopilaci√≥n de datos.

> No existe una definici√≥n matem√°tica precisa de valores at√≠picos. Debemos confiar en la experiencia, el conocimiento sobre el tema de inter√©s y el sentido com√∫n.


## Paquetes con funcionalidades de estad√≠stica.

Existen muchos paquetes con funcionalidades de estad√≠stica, por ejemplo:

- `statistics`: M√≥dulo pre-instalado, puedemos usarlo si el conjuntos de datos no son demasiado grandes o si no puedemos instalar librer√≠as de terceros.
<br>

- `NumPy`: Es un paquete para computaci√≥n num√©rica, optimizada para trabajar con matrices unidimensionales y multidimensionales.
<br>

- `SciPy`: Es un paquete para computaci√≥n cient√≠fica basado en NumPy. Ofrece funcionalidad adicional en comparaci√≥n con NumPy, incluido scipy.stats para an√°lisis estad√≠stico.
<br>

- `Pandas`: Es un paquete para computaci√≥n num√©rica basada en NumPy. Sobresale por la implementaci√≥n de la clase `DataFrame`, una abstraci√≥n de datos tabulares. 
<br>

- `Matplotlib`: Es un paquete para la visualizaci√≥n de datos. Funciona bien en combinaci√≥n con NumPy, SciPy y Pandas.


## C√°lculo de estad√≠sticas descriptivas.

Iniciaremos por importar las librer√≠as necesarias:

In [None]:
import math
import numpy as np
import scipy.stats

Vamos a crear algunos datos con los que trabajar, comenzaremos por una lsta con datos num√©ricos arbitrarios:

In [None]:
x = [8.0, 1, 2.5, 4, 28.0]
x_with_nan = [8.0, 1, 2.5, math.nan, 4, 28.0]

Ahora tenemos las listas `x` y `x_with_nan`.

Son casi iguales, salvo que `x_with_nan` contiene un valor `nan`. 

Es importante comprender el comportamiento de las rutinas de estad√≠sticas cuando se encuentran con un `nan`.

Ahora usaremos `x` y `x_with_nan` para crear dos `np.array`s. Una `np.array` es una matriz de valores, todos del mismo tipo, que est√° indexada por una tupla de enteros no negativos.



In [None]:
y, y_with_nan = np.array(x), np.array(x_with_nan)

### Medidas de tendencia central

Muestran el valores central de los datos. Hay varias definiciones de lo que se considera el centro de un conjunto de datos. Revisaremos:

- Media
- Media ponderada
- Media arm√≥nica
- Media geom√©trica
- Mediana
- Moda

#### Media

La media muestral es el promedio aritm√©tico de todos los elementos de un conjunto de datos.

La media de un conjunto de datos ùë• se expresa matem√°ticamente como Œ£·µ¢ùë•·µ¢/ùëõ, donde ùëñ = 1, 2, ‚Ä¶, ùëõ. 

> Es la suma de todos los elementos ùë•·µ¢ dividida por la cantidad de elementos ùëõ

Puedemo calcular la media con Python usando `sum()` y `len()`:

In [None]:
media = sum(x) / len(x)
media

Aunque una manera m√°s limpia de calcular la media es con `numpy`:

In [None]:
print(np.mean(y))

print(y.mean())

Tanto la funci√≥n `mean()` como el m√©todo `mean()` regresan `nan` cuando existen valores no num√©ricos:

In [None]:
print(np.mean(y_with_nan))

print(y_with_nan.mean())

Si preferimos ignorar los valores `nan`, puedemoes usar:

In [None]:
np.nanmean(y_with_nan)

#### Media ponderada

Es una generalizaci√≥n de la media que permite definir la contribuci√≥n relativa de cada punto de datos al resultado.

Se define como:

Œ£·µ¢(ùë§·µ¢ùë•·µ¢) / Œ£·µ¢ùë§·µ¢.

Donde:
- ùë§·µ¢: Es el peso para cada punto, es importante que ùë§·µ¢ ‚â• 0.
- ùë•·µ¢: El valor i-√©simo del conjunto de datos.

Supongamos que tenemos un conjunto en el que:

- 20% de todos los elementos son iguales a 2
- 50% de los elementos son iguales a 4
- 30% restante de los elementos son iguales a 8. 

Puedemos calcular la media ponderada como:

In [None]:
0.2 * 2 + 0.5 * 4 + 0.3 * 8

Veamos otro ejemplo:

In [None]:
x = [8.0, 1, 2.5, 4, 28.0]
w = [0.1, 0.2, 0.3, 0.25, 0.15]

y, w = np.array(x), np.array(w)

wmean = np.average(y, weights=w)
wmean

¬øQu√© pasa si tenemos valores `nan`? 

In [None]:
w = np.array([0.1, 0.2, 0.3, 0.0, 0.2, 0.1])
np.average(y_with_nan, weights=w)

#### Media arm√≥nica

Es el rec√≠proco de la media de los rec√≠procos de todos los elementos del conjunto de datos:

ùëõ / Œ£·µ¢(1/ùë•·µ¢),

Donde:
- ùëñ = 1, 2, ‚Ä¶, ùëõ 
- ùëõ es el n√∫mero de elementos del conjunto de datos.
- ùë•·µ¢ es el valor i-√©simo del conjunto de datos.

La media arm√≥nica es menos sensible a valores muy altos, siendo m√°s sensible a valores peque√±os.

In [None]:
x = [8.0, 1, 2.5, 4, 28.0]
hmean = len(x) / sum(1 / item for item in x)
hmean

In [None]:
x = [8.0, 1, 2.5, 4, 28.0]
print(f"Media: {np.mean(x)}")
print(f"Media arm√≥nica: {scipy.stats.hmean(x)}")


In [None]:
x = [8.0, 1000, 2.5, 4, 28.0]
print(f"Media: {np.mean(x)}")
print(f"Media arm√≥nica: {scipy.stats.hmean(x)}")

In [None]:
x = [8.0, 0.01, 2.5, 4, 28.0]
print(f"Media: {np.mean(x)}")
print(f"Media arm√≥nica: {scipy.stats.hmean(x)}")

#### Media goem√©trica

Es la ra√≠z ùëõ-√©sima del producto los ùëõ elementos ùë•·µ¢ en un conjunto de datos:

‚Åø‚àö(Œ†·µ¢ùë•·µ¢)

Donde:
- ùëñ = 1, 2, ‚Ä¶, ùëõ 
- ùëõ es el n√∫mero de elementos del conjunto de datos.
- ùë•·µ¢ es el valor i-√©simo del conjunto de datos.

Se usa cuando se comparan diferentes variable, cuyos unidades de medida est√°n en distinas escalas. 

Por ejemplo: La media geom√©trica puede dar un valor para comparar dos empresas que tienen:

1. Una calificaci√≥n entre 0 a 10 por su sostenibilidad ambiental
2. Una calificaci√≥n entre 0 a 1000 por su viabilidad financiera.

In [None]:
cia_1 = [3, 800]
print(f"Media: {np.mean(cia_1)}")
print(f"Media geom√©trica: {scipy.stats.gmean(cia_1)}")


In [None]:
cia_2 = [3, 900]
print(f"Media: {np.mean(cia_2)}")
print(f"Media geom√©trica: {scipy.stats.gmean(cia_2)}")


Si estandarizamos los datos de modo que la calificaci√≥n por su viabilidad financiera est√© entre 0 a 10. 

In [None]:
cia_1 = [3, 8]
print(f"Media: {np.mean(cia_1)}")
print(f"Media geom√©trica: {scipy.stats.gmean(cia_1)}")


In [None]:
cia_2 = [3, 9]
print(f"Media: {np.mean(cia_2)}")
print(f"Media geom√©trica: {scipy.stats.gmean(cia_2)}")


#### Mediana

Es el elemento central de un conjunto de datos ordenados. El conjunto de datos se puede ordenar en orden creciente o decreciente.

- Si el n√∫mero de elementos ùëõ del conjunto de datos es impar, entonces la mediana es el valor en la posici√≥n intermedia: 0.5(ùëõ + 1). La media de (1, 2, 4, 8, 9) ser√≠a 4.
<br>

- Si ùëõ es par, entonces la mediana es la media aritm√©tica de los dos valores del medio, es decir, los elementos en las posiciones 0.5ùëõ y 0.5ùëõ + 1. La media de (1, 2, 4, 8) ser√≠a 3.


> La media se ve muy afectada por los valores at√≠picos, pero la mediana solo depende de los valores at√≠picos, ya sea un poco o nada.

In [None]:
x = [8.0, 1, 2.5, 4, 2]
print(f"Media: {np.mean(x)}")
print(f"Mediana: {np.median(x)}")


In [None]:
x = [8.0, 1, 2.5, 4, 28.0]
print(f"Media: {np.mean(x)}")
print(f"Mediana: {np.median(x)}")


In [None]:
np.nanmedian(x_with_nan)

#### Moda

Es el valor en el conjunto de datos que ocurre con mayor frecuencia. Si hay m√°s de un valor decimos que el conjunto es multimodal.

In [None]:
u = [2, 3, 2, 8, 12]
v = [12, 12, 15, 15, 21]
u, v = np.array(u), np.array(v)
print(f"Moda: {scipy.stats.mode(u)}")
print(f"Conjunto Multimodal: {scipy.stats.mode(v)}")

La funci√≥n `scipy.stats.mode()` devuelve el objeto con el valor modal y la cantidad de veces que ocurre. Si hay varios valores modales en el conjunto de datos, solo se devuelve el valor m√°s peque√±o.

### Medidas de Variabilidad

Cuantifican la dispersi√≥n de los datos. En esta secci√≥n veremos:

- Varianza
- Desviaci√≥n Est√°ndar
- Skewness
- Percentiles
- Rangos


#### Varianza

Muestra num√©ricamente qu√© tan lejos est√°n los datos de la media. matem√°ticamente se define como:

ùë†¬≤ = Œ£·µ¢(ùë•·µ¢ ‚àí media(ùë•))¬≤ / (ùëõ ‚àí 1)

Donde:
- ùëñ = 1, 2, ‚Ä¶, ùëõ 
- ùëõ es el n√∫mero de elementos del conjunto de datos.
- ùë•·µ¢ es el valor i-√©simo del conjunto de datos.
- media(ùë•) es la media muestral de ùë•.

Dividimos entre ùëõ ‚àí 1 en lugar de ùëõ por la [correcci√≥n de Bessel](https://en.wikipedia.org/wiki/Bessel%27s_correction), para corregir el sesgo de estimar la varianza poblacional desde una muestra.


Podemos calcular la varianza de la muestra con la funci√≥n `np.var()` o el m√©todo correspondiente `.var()`

In [None]:
y

In [None]:
np.var(y, ddof=1)

> Si estamos usando datos de una muestra es muy importante especificar el par√°metro `ddof=1` para usar (ùëõ ‚àí 1) en el denominador en lugar de ùëõ.

In [None]:
np.nanvar(y_with_nan, ddof=1)

#### Desviaci√≥n Est√°ndar

La desviaci√≥n est√°ndar, ùë†, es la ra√≠z cuadrada positiva de la varianza de la muestra. La desviaci√≥n est√°ndar suele ser m√°s conveniente que la varianza porque tiene la misma unidad que los puntos de datos.

In [None]:
np.std(y, ddof=1)

In [None]:
y.std(ddof=1)

In [None]:
np.nanstd(y_with_nan, ddof=1)

#### Skewness

Mide la asimetr√≠a de una muestra de datos.

Una expresi√≥n com√∫n para calcular la asimetr√≠a del conjunto de datos es:

Œ£·µ¢(ùë•·µ¢ ‚àí media(ùë•))¬≥ ùëõ / ((ùëõ ‚àí 1)(ùëõ ‚àí 2)ùë†¬≥)

Donde
- ùëñ = 1, 2, ‚Ä¶, ùëõ 
- ùëõ es el n√∫mero de elementos del conjunto de datos.
- ùë•·µ¢ es el valor i-√©simo del conjunto de datos.
- media(ùë•) es la media muestral de ùë•.
- ùë†¬≥ es la desviaci√≥n est√°ndar elevada al cubo.

Si:

- El valor es cercano a 0 la distribuci√≥n es sim√©trica.
- El valor <0 la distribuci√≥n es asim√©trica hacia la derecha.
- El valor >0 la distribuci√≥n es asim√©trica hacia la izquierda.

In [None]:
import matplotlib.pyplot as plt

normal = np.random.normal(0, 1, 1000)

plot = plt.hist(normal)

In [None]:
scipy.stats.skew(normal, bias=False)

In [None]:
gamma = np.random.gamma(1, 4, 1000)

plot = plt.hist(gamma)

In [None]:
scipy.stats.skew(gamma, bias=False)

In [None]:
skewnorm = scipy.stats.skewnorm.rvs(-25, size=1000)

plot = plt.hist(skewnorm)

In [None]:
scipy.stats.skew(skewnorm, bias=False)

#### Percentiles

El percentil ùëù es el elemento en el conjunto de datos tal que el ùëù% de los elementos en el conjunto de datos son menores o iguales a ese valor.

Cada conjunto de datos tiene tres cuartiles, que son los percentiles que dividen el conjunto de datos en cuatro partes:

- El primer cuartil es el percentil 25 de la muestra. Divide aproximadamente el 25% de los elementos m√°s peque√±os del resto del conjunto de datos.
<br>

- El segundo cuartil es el percentil 50 de la muestra o la mediana.
<br>

- El tercer cuartil es el percentil 75 de la muestra. Divide aproximadamente el 25 % de los elementos m√°s grandes del resto del conjunto de datos.

Podemos usar la funci√≥n `np.percentile()` para determinar cualquier percentil de una muestra:

In [None]:
sorted(y)

In [None]:
np.percentile(y, [25, 50, 75])


NumPy tambi√©n le ofrece dos funciones `quantile()` y `nanquantile()`. Si los usa, deberemos proporcionar los valores percentiles como n√∫meros entre 0 y 1.

## Correlaci√≥n

Es una medida de la relaci√≥n entre dos variables.

Si analizamos dos variables cualesquiera de un conjunto de datos, es posible encontrar alg√∫n tipo de correlaci√≥n entre ellas. Consideremos las siguientes gr√°ficas:

![image.png](attachment:image.png)


- **Puntos rojos - Correlaci√≥n negativa**: Los valores de `y` tienden a disminuir a medida que aumentan los valores de `x`.
<br>

- **Puntos verdes - Correlaci√≥n d√©bil**: Ocurre cuando una asociaci√≥n entre dos caracter√≠sticas no es obvia o es dif√≠cilmente observable.
<br>

- **Puntos azules - Correlaci√≥n positiva**: Los valores de `y` tienden a aumentar a medida que aumentan los valores de `x`.



## Correlaci√≥n Linear

Mide la proximidad de la relaci√≥n matem√°tica entre variables a funci√≥n lineal $y =\beta_0 + \beta1*x$.

Si la relaci√≥n entre las dos caracter√≠sticas es m√°s cercana a alguna funci√≥n lineal, entonces su correlaci√≥n lineal es m√°s fuerte y el valor absoluto del coeficiente  $\beta_1$ es m√°s alto.

### Coeficiente de correlaci√≥n de Pearson

Sean `x` e `y` dos conjuntos de datos cada uno con `n` valores.

Digamos que el primer valor x‚ÇÅ de x corresponde al primer valor y‚ÇÅ de y, el segundo valor x‚ÇÇ de x al segundo valor y‚ÇÇ de y, y as√≠ sucesivamente. 

Entonces, hay n pares de valores correspondientes: (x‚ÇÅ, y‚ÇÅ), (x‚ÇÇ, y‚ÇÇ), y as√≠ sucesivamente. Cada uno de estos pares x-y representa una sola observaci√≥n.

El coeficiente de correlaci√≥n de Pearson es el resultado de dividir la covarianza de `x` e `y`  por el producto de sus desviaciones est√°ndar:

r = Œ£·µ¢((x·µ¢ ‚àí media(x))(y·µ¢ ‚àí media(y))) * (‚àöŒ£·µ¢(x·µ¢ ‚àí media(x))¬≤ ‚àöŒ£·µ¢(y·µ¢ ‚àí media(y))¬≤)‚Åª¬π


Esta f√≥rmula muestra que:

- Si los valores de x m√°s grandes tienden a corresponder a valores de y m√°s grandes r > 0
<br>

- Si los valores de x m√°s grandes se asocian principalmente con valores de y m√°s peque√±os r < 0.


In [None]:
x = np.arange(10, 20)
y = np.array([2, 1, 4, 5, 8, 12, 18, 25, 96, 48])
scipy.stats.pearsonr(x, y)

La funci√≥n [`scipy.stats.pearsonr()`](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.pearsonr.html) regresa:

- El coeficiente de correlaci√≥n: 0.7586
- El p-value: 0.01096

En este caso el p-value es la probabilidad de haber observado un valor igual 0.7586 en la muestra dado que el valor verdadero de la poblaci√≥n es 0.


## Correlaci√≥n de rango


Compara la ordenaci√≥n de dos variables. Si el orden de los valores es similar, entonces la correlaci√≥n es positiva. Sin embargo, si el orden de los valores est√° casi invertido, entonces la correlaci√≥n es negativa.

Para ilustrar la diferencia entre correlaci√≥n lineal y de rango, consideremos la siguiente gr√°ficas:

![image.png](attachment:image.png)

- La gr√°fica de la izquierda tiene una correlaci√≥n lenear positiva, y su coeficiente de correlaci√≥n es 1.
<br>

- La gr√°fica del centro y de la derecha tienen alg√∫n tipo de correlaci√≥n, pero el coeficiente de Pearson es m√°s cercano a 0 que a 1 o -1.


### Coeficiente de correlaci√≥n de Spearman


Es el coeficiente de correlaci√≥n de Pearson entre sus √≠ndices. Se calcula de la misma manera que el coeficiente de correlaci√≥n de Pearson pero tiene en cuenta los √≠ndices en lugar de sus valores.

In [None]:
x = np.array([-100, -5 , -2, 0, 1, 2, 3])
y = np.array([-2, -2 , -2, 0, 10, 10, 10])
scipy.stats.pearsonr(x, y)

In [None]:
scipy.stats.spearmanr(x, y)

### Coeficiente de correlaci√≥n de Kendall

Consideremos n-tuplas con dos valores cada una `x` e `y`. Cada uno de los pares x-y (x‚ÇÅ, y‚ÇÅ), (x‚ÇÇ, y‚ÇÇ),... es una √∫nica observaci√≥n. 

Cada par de observaciones (x·µ¢, y·µ¢) y (x‚±º, y‚±º), donde i < j podr√° caer en uno de los siguientes casos:

- **Concordante**: si (x·µ¢ > x‚±º y y·µ¢ > y‚±º) o (x·µ¢ < x‚±º y y·µ¢ < y‚±º)
<br>

- **Discordante**: si (x·µ¢ < x‚±º y y·µ¢ > y‚±º) o (x·µ¢ > x‚±º y y·µ¢ < y‚±º)
<br>

- **Empate**: si x (x·µ¢ = x‚±º) o empate en y (y·µ¢ = y‚±º)

El coeficiente de correlaci√≥n de Kendall compara el n√∫mero de pares de datos concordantes y discordantes.

A menudo se denota con la letra griega tau (œÑ) y se llama **tau de Kendall** y:

- Puede tomar un valor real en el rango ‚àí1 ‚â§ œÑ ‚â§ 1.
<br>

- Su valor m√°ximo œÑ = 1 corresponde al caso en que los rangos de los valores correspondientes en `x` e `y` son iguales, i.e., todos los pares son concordantes.
<br>

- Su valor m√≠nimo œÑ = ‚àí1 corresponde al caso en todos los pares son discordantes.



In [None]:
scipy.stats.kendalltau(x, y)


###  Kendall vs Spearman

- La correlaci√≥n de Kendall es m√°s robusta que la correlaci√≥n de Spearman. Significa que se prefiere la correlaci√≥n de Kendall cuando hay muestras peque√±as o algunos valores at√≠picos.


- La correlaci√≥n de Kendall tiene una complejidad de c√°lculo O(n^2) en comparaci√≥n con O(n logn) de la correlaci√≥n de Spearman, para sets de datos muy grandes ser√° mejor usar la correlaci√≥n de Spearman.