# Estadística básica con Numpy

En esta sesión analizaremos elementos básicos de estadística con **Numpy**.

`NumPy` es el paquete fundamental para la computación científica en Python. Según Wikipedia, NumPy es una biblioteca para el lenguaje de programación Python que da soporte para crear vectores y matrices grandes multidimensionales, junto con una gran colección de funciones matemáticas de alto nivel para operar con ellas.

La documentación de la biblioteca puede consultarse [aquí](https://numpy.org/).
W3Schools ofrece también un excelente sitio de referencia sobre la biblioteca, puedes consultarlo [aquí](https://www.w3schools.com/python/numpy/).

In [None]:
#Para instalar Numpy usar el siguiente código. No es necesario en Google Colab
!pip install numpy

In [None]:
!ls

In [None]:
import numpy as np   #Operaciones con matrices de datos
import pandas as pd #Trabajando con datos
import matplotlib.pyplot as plt # Visualización de datos
import seaborn as sns # Visualización de datos

En esta sesión cubriremos los siguientes conceptos de estadística:

1. Media
2. Mediana
3. Percentiles
4. Rango intercuartil
5. Valores atípicos
6. Desviación estándar

## Cargando el dataset
Utilizaremos el dataset de la información del Titanic.

In [None]:
!wget --no-check-certificate https://catalabs.mx/datasets/titanic.csv -O titanic.csv

In [None]:
df_titanic = pd.read_csv('titanic.csv') #Creamos el dataframe

## Explorando el Dataset

In [None]:
df_titanic.head()

In [None]:
df_titanic.tail()

## Analizando los datos

In [None]:
df_titanic.describe()

In [None]:
df_titanic.Age.describe()

In [None]:
print(29.7+3*14.52)

In [None]:
# Fija el ancho y alto de la figura
plt.figure(figsize=(14,6))
# Agrega título
plt.title("Edades de los pasajeros")
#sns.lineplot(data=df_titanic.Age)
sns.scatterplot(data=df_titanic.Age)
plt.xlabel("Id de Pasajero")
plt.ylabel("Edad")

In [None]:
sns.boxplot(data=df_titanic.Age)

### Histogramas

Cuando analizamos por primera vez un conjunto de datos, queremos ser capaces de entender rápidamente ciertas cosas sobre él:

- ¿Existen algunos valores más frecuentes que otros?
- ¿Cuál es el rango del conjunto de datos (es decir, los valores mínimos y máximos)?
- ¿Hay muchos valores atípicos?

Podemos visualizar esta información mediante un gráfico llamado histograma.

In [None]:
sns.histplot(x=df_titanic.Age)

In [None]:
sns.barplot(x=df_titanic.Pclass, y=df_titanic.Age)

Para empezar, analizaremos conjuntos de datos de una sola variable. Una forma de pensar en un conjunto de datos de una sola variable es que contiene respuestas a una pregunta. Por ejemplo, podemos preguntar a 100 personas: "¿Cuánto años tienes?". Las edades formarían nuestro conjunto de datos. Obtengamos entonces la columna de las edades de los pasajeros del Titanic:

In [None]:
edades = df_titanic.Age
edades.head(20)

En la salida anterior podemos observar algunos valores con la leyenda NaN (Not a Number) eso indica la ausencia de datos (dato nulo) en Python.

In [None]:
#Revisamos la forma del dataframe. shape nos indica el número de renglones y columnas del conjunto de datos.
df_titanic.shape

In [None]:
edades.shape

### Eliminamos valores nulos

In [None]:
edades = edades.dropna()

In [None]:
edades.head(20)

Convertimos el Dataframe resultante a un arreglo de Numpy para trabajar con él.

In [None]:
pasajeros_edades = edades.to_numpy()

In [None]:
print(pasajeros_edades[0:40])

#### La media (mean)

El primer concepto estadístico que exploraremos es la media, también llamada comúnmente promedio. La media es una medida útil para obtener el centro de un conjunto de datos. NumPy tiene una función incorporada para calcular el promedio o la media de las matrices: `np.mean`

In [None]:
edad_promedio = np.mean(pasajeros_edades)
desviacion_std = np.std(pasajeros_edades)
print(f"Edad promedio de los pasajeros: {round(edad_promedio,2)}")
print(f"Desviación estándar: {round(desviacion_std,2)}")

### La media y operaciones lógicas

También podemos utilizar `np.mean` para calcular el porcentaje de elementos del array que tienen una determinada propiedad.

Como sabemos, un operador lógico evaluará cada elemento de un array para ver si coincide con la condición especificada. Si el elemento coincide con la condición dada, el elemento se evaluará como True y será igual a 1. Si no coincide, será Falso e igual a 0.

Cuando `np.mean` calcula una sentencia lógica, el valor medio resultante será equivalente al número total de elementos Verdaderos dividido por la longitud total de la matriz.

### Calcular el porcentaje de personas menores o con 21 años.

In [None]:
porc_menores_a_21 = np.mean(pasajeros_edades < 21)
print(f"Porcentaje de pasajeros menores de edad: {porc_menores_a_21*100}%")

In [None]:
porc_menores_a_10 = np.mean(pasajeros_edades < 10)
print(porc_menores_a_10)

### Calcular el porcentaje de personas entre 20 y 40 años inclusive.

**Método 1**. Obtenemos los porcentajes de menores a 41 años y el de menores a 20 años, la diferencia es el valor buscado:

In [None]:
porc_menores_a_20 = np.mean(pasajeros_edades < 20)
porc_menores_a_41 = np.mean(pasajeros_edades < 41)

print(f"Menores a 20: {porc_menores_a_20}")
print(f"Menores a 41: {porc_menores_a_41}")

porc_entre_20y40_inclusive = porc_menores_a_41 - porc_menores_a_20

print(f"Porcentaje de personas entre 20 y 40 años inclusive: {porc_entre_20y40_inclusive}")


**Método 2**. Obtenemos los porcentajes de menores a 20 años y el de mayores de 40 años, restamos ambos valores al 100% y ese es el valor buscado:

In [None]:
porc_menores_a_20 = np.mean(pasajeros_edades < 20)
porc_mayores_a_40 = np.mean(pasajeros_edades >= 41)
print(f"Menores a 20: {porc_menores_a_20}")
print(f"Mayores a 40: {porc_mayores_a_40}")
print(f"Con 20 años o más: {1 - porc_menores_a_20}")
print(f"Porcentaje de personas entre 20 y 40 años inclusive: {1 - porc_menores_a_20 - porc_mayores_a_40}")

**Método 3**. Utilizamos la función `bitwise_and` de Numpy para aplicar las condiciones requeridas a los datos.

In [None]:
np.mean(np.bitwise_and(pasajeros_edades>=20,pasajeros_edades<41))

### Cálculo de la media de matrices 2D
Si tenemos una matriz bidimensional, `np.mean` puede calcular la media de la matriz mayor así como los valores interiores.
Crearemos ahora una matriz bidemensional que contenga las edades y el dato de si el pasajero sobrevivió o no.

In [None]:
edades_sobrevivientes = df_titanic[["Age","Survived"]]
edades_sobrevivientes = edades_sobrevivientes.dropna()

In [None]:
edades_sobrevivientes.head()

Convertimos los datos a un arreglo de Numpy:

In [None]:
edades_sobrevivientes_array = edades_sobrevivientes.to_numpy()
print(len(edades_sobrevivientes_array))
print(edades_sobrevivientes_array[:30])

Realizamos la transposición de los datos, para convertir los valores en columna a valores en renglón:

In [None]:
edades_sobrevivientes_array = edades_sobrevivientes_array.transpose()
print(edades_sobrevivientes_array)

Si calculamos la media de toda la matriz no tendríamos un dato útil. Por lo anterior, vamos a indicarle a Numpy que deseamos que calcule las medias de los datos de cada renglón. Esto lo realizaremos indicando el parámetro `axis=1`.

In [None]:
np.mean(edades_sobrevivientes_array,axis=1)

### Datos atípicos

Como podemos ver, la media es una forma útil de entender rápidamente las diferentes partes de nuestros datos. Sin embargo, la media está muy influenciada por los valores específicos de nuestro conjunto de datos. ¿Qué ocurre cuando uno de esos valores es significativamente diferente del resto?

Los valores que no se ajustan a la mayoría de un conjunto de datos se conocen como valores atípicos. Es importante identificar los valores atípicos porque, si pasan desapercibidos, pueden sesgar nuestros datos y provocar errores en nuestro análisis (como la determinación de la media). También pueden ser útiles para señalar errores en la recolección de datos.

Cuando somos capaces de identificar los valores atípicos, podemos determinar si se deben a un error en la recogida de la muestra o si representan o no una desviación significativa pero real de la media.

Imaginemos que tenemos los datos de las calificaciones de los alumnos de un grupo de matemáticas:

`[90,95,93,98,94,160]`

En este caso, es claro que 160 es un dato atípico, que probablemente se debe a un error de captura.

#### Ordenamiento y datos atípicos
Una forma de identificar rápidamente los valores atípicos es ordenando nuestros datos, una vez que nuestros datos están ordenados, podemos echar un vistazo rápidamente al principio o al final de una matriz para ver si algunos valores se encuentran más allá del rango esperado. Podemos utilizar la función NumPy `np.sort` para ordenar nuestros datos.

In [None]:
pasajeros_edades = pasajeros_edades.transpose()
pasajeros_edades_ordenados = np.sort(pasajeros_edades)
print(pasajeros_edades_ordenados)

In [None]:
media = np.mean(pasajeros_edades)
mediana = np.median(pasajeros_edades)
print(f"La media de las edades es: {media}")
print(f"La mediana de las edades es: {mediana}")

In [None]:
lista_calificaciones = [96, 97, 98, 99, 100, 90, 140]
calificaciones = np.array(lista_calificaciones)

In [None]:
print(np.mean(calificaciones))

In [None]:
print(np.median(calificaciones))

### Percentiles

El percentil es una medida de posición usada en estadística que indica, una vez ordenados los datos de menor a mayor, el valor de la variable por debajo del cual se encuentra un porcentaje dado de observaciones en un grupo. Por ejemplo, el percentil 25 es el valor bajo el cual se encuentran el 25 % de las observaciones, y el 75 % restante son mayores.

In [None]:
print(f"El percentil 90 de las edades es: {np.percentile(pasajeros_edades,90)}")
print(f"El percentil 5 de las edades es: {np.percentile(pasajeros_edades,5)}")

Algunos percentiles tienen nombres específicos:

- El percentil 25 se llama primer cuartil
- El percentil 50 se llama mediana
- El percentil 75 se llama tercer cuartil

El mínimo, el primer cuartil, la mediana, el tercer cuartil y el máximo de un conjunto de datos se denominan resumen de cinco números. Calcular este conjunto de números es muy útil cuando obtenemos un nuevo conjunto de datos.

La diferencia entre el primer y el tercer cuartil es un valor llamado rango intercuartil.

In [None]:
primer_cuartil = np.percentile(pasajeros_edades,25)
tercer_cuartil = np.percentile(pasajeros_edades,75)
rango_intercuartil = tercer_cuartil - primer_cuartil
print(f"Primer cuartil: {primer_cuartil}")
print(f"Tercer cuartil: {tercer_cuartil}")
print(f"Rango intercuartil: {rango_intercuartil}")

El 50% del conjunto de datos estará dentro del rango intercuartil. El rango intercuartil nos da una idea de la dispersión de nuestros datos. Cuanto menor sea el valor del rango intercuartílico, menor será la varianza de nuestro conjunto de datos. Cuanto mayor sea el valor, mayor será la varianza.

### Numpy y la desviación estándar

Si bien la media y la mediana pueden informarnos sobre el centro de nuestros datos, no reflejan el rango o la variación de los mismos. Ahí es donde entra la desviación estándar.

Al igual que el rango intercuartil, la desviación estándar nos indica la dispersión de los datos. Cuanto mayor sea la desviación estándar, más separados estarán los datos del centro. Cuanto menor sea la desviación estándar, más se agrupan los datos en torno a la media.

Podemos usar la función `np.std()` para calcular la desviación estándar de un conjunto de datos.

In [None]:
desviacion_estandar = np.std(pasajeros_edades)

print(f"La media es: {np.mean(pasajeros_edades)}")
print(f"La desviación estándar es: {desviacion_estandar}")