## Introducción a Python.
### Bienvenidos. En esta sesión analizaremos elementos básicos de estadística con **Numpy**.
---
![Python](https://www.python.org/static/img/python-logo.png)


`NumPy` es el paquete fundamental para la computación científica en Python. Según Wikipedia, NumPy es una biblioteca para el lenguaje de programación Python que da soporte para crear vectores y matrices grandes multidimensionales, junto con una gran colección de funciones matemáticas de alto nivel para operar con ellas.

La documentación de la biblioteca puede consultarse [aquí](https://numpy.org/).

In [None]:
import numpy as np

En esta sesión, exploraremos cómo podemos usar NumPy para analizar datos. Aprenderemos diferentes métodos para calcular propiedades estadísticas comunes de un conjunto de datos, como encontrar la media y la desviación estándar. Al final, serás capaz de hacer un análisis básico de un conjunto de datos y entenderás cómo podemos usar la estadística para llegar a conclusiones sobre los datos.

Los conceptos estadísticos que cubriremos incluyen

- Media
- Mediana
- Percentiles
- Rango intercuartil
- Valores atípicos
- Desviación estándar

Para empezar, analizaremos conjuntos de datos de una sola variable. Una forma de pensar en un conjunto de datos de una sola variable es que contiene respuestas a una pregunta. Por ejemplo, podemos preguntar a 100 personas: "¿Cuánto años tienes?". Las edades formarían nuestro conjunto de datos.

In [None]:
import pandas as pd

In [None]:
import matplotlib.pyplot as plt
#%matplotlib inline
import seaborn as sns

In [None]:
!wget --no-check-certificate \
    https://catalabs.mx/datasets/titanic.csv \
    -O titanic.csv

In [None]:
!sudo apt list

### Cargamos los datos.
En este caso como es un archivo separado por comas, usaremos la función read_csv() que nos generará un DataFrame.

In [None]:
df = pd.read_csv('titanic.csv')

In [None]:
df.Age.describe()

In [None]:
df.tail(20)

In [None]:
# Set the width and height of the figure
plt.figure(figsize=(14,6))
# Add title
plt.title("Edades de pasajeros")
# Line chart
sns.lineplot(data=df[["Age"]])
# Add label for horizontal axis
plt.xlabel("Pasajero")

In [None]:
# Set the width and height of the figure
plt.figure(figsize=(10,6))

# Add title
plt.title("Edades promedio por clase")

# Bar chart showing average arrival delay for Spirit Airlines flights by month
sns.barplot(x=df.Pclass, y=df.Age)

# Add label for vertical axis
plt.ylabel("Edad (en años)")

In [None]:
sns.scatterplot(x=df['Pclass'], y=df['Age'])

In [None]:
sns.regplot(x=df['Pclass'], y=df['Age'])

In [None]:
sns.scatterplot(x=df['Pclass'], y=df['Age'], hue=df["Survived"])

In [None]:
sns.scatterplot(x=df['Age'], y=df['Survived'], hue=df["Pclass"])

In [None]:
sns.histplot(x=df['Age'], hue = df["Pclass"])

Creamos un dataset que contenga solo los datos de la edad de los pasajeros del Titanic

In [None]:
edades = df[["Age"]]
edades.head(10)

In [None]:
edades.shape

Eliminamos los valores nulos

In [None]:
edades = edades.dropna()

In [None]:
edades.head(10)

Convertimos el Dataframe resultante a un arreglo de Numpy para trabajar con él.

In [None]:
pasajeros_edades = edades.to_numpy()
print(len(pasajeros_edades))
print(pasajeros_edades[:30])

### La media (mean)

El primer concepto estadístico que exploraremos es la media, también llamada comúnmente promedio. La media es una medida útil para obtener el centro de un conjunto de datos. NumPy tiene una función incorporada para calcular el promedio o la media de las matrices: `np.mean`

In [None]:
edad_promedio = np.mean(pasajeros_edades)
print(f"Edad promedio de los pasajeros: {edad_promedio}")

### La media y operaciones lógicas

También podemos utilizar `np.mean` para calcular el porcentaje de elementos del array que tienen una determinada propiedad.

Como sabemos, un operador lógico evaluará cada elemento de un array para ver si coincide con la condición especificada. Si el elemento coincide con la condición dada, el elemento se evaluará como True y será igual a 1. Si no coincide, será Falso e igual a 0.

Cuando `np.mean` calcula una sentencia lógica, el valor medio resultante será equivalente al número total de elementos Verdaderos dividido por la longitud total de la matriz.

In [None]:
porcentaje_menores_de_edad = np.mean(pasajeros_edades <= 21)
print(f"Porcentaje de pasajeros menores de edad: {porcentaje_menores_de_edad*100}%")

### Cálculo de la media de matrices 2D
Si tenemos una matriz bidimensional, `np.mean` puede calcular la media de la matriz mayor así como los valores interiores.

Crearemos ahora una matriz bidemensional que contenga las edades y el dato de si el pasajero sobrevivió o no.

In [None]:
edades_sobrevivientes = df[["Age","Survived"]]
edades_sobrevivientes = edades_sobrevivientes.dropna()

In [None]:
edades_sobrevivientes.tail()

Convertimos los datos a un arreglo de Numpy:

In [None]:
edades_sobrevivientes_array = edades_sobrevivientes.to_numpy()
print(len(edades_sobrevivientes_array))
print(edades_sobrevivientes_array[:30])

Realizamos la transposición de los datos, para convertir los valores en columna a valores en renglón:

In [None]:
edades_sobrevivientes_array = edades_sobrevivientes_array.transpose()
print(edades_sobrevivientes_array)

Si calculamos la media de toda la matriz no tendríamos un dato útil. Por lo anterior, vamos a indicarle a Numpy que deseamos que calcule las medias de los datos de cada renglón. Esto lo realizaremos indicando el parámetro `axis=1`.

In [None]:
np.mean(edades_sobrevivientes_array,axis=1)

### Datos atípicos

Como podemos ver, la media es una forma útil de entender rápidamente las diferentes partes de nuestros datos. Sin embargo, la media está muy influenciada por los valores específicos de nuestro conjunto de datos. ¿Qué ocurre cuando uno de esos valores es significativamente diferente del resto?

Los valores que no se ajustan a la mayoría de un conjunto de datos se conocen como valores atípicos. Es importante identificar los valores atípicos porque, si pasan desapercibidos, pueden sesgar nuestros datos y provocar errores en nuestro análisis (como la determinación de la media). También pueden ser útiles para señalar errores en la recolección de datos.

Cuando somos capaces de identificar los valores atípicos, podemos determinar si se deben a un error en la recogida de la muestra o si representan o no una desviación significativa pero real de la media.

Imaginemos que tenemos los datos de las calificaciones de los alumnos de un grupo de matemáticas:

`[90,95,93,98,94,160]`

En este caso, es claro que 160 es un dato atípico, que probablemente se debe a un error de captura.

#### Ordenamiento y datos atípicos
Una forma de identificar rápidamente los valores atípicos es ordenando nuestros datos, una vez que nuestros datos están ordenados, podemos echar un vistazo rápidamente al principio o al final de una matriz para ver si algunos valores se encuentran más allá del rango esperado. Podemos utilizar la función NumPy `np.sort` para ordenar nuestros datos.

In [None]:
pasajeros_edades = pasajeros_edades.transpose()
pasajeros_edades_ordenados = np.sort(pasajeros_edades)
print(pasajeros_edades_ordenados)

### Numpy y la mediana

Otra métrica clave que podemos utilizar en el análisis de datos es la mediana. La mediana es el valor medio de un conjunto de datos que se ha ordenado en términos de magnitud (de menor a mayor).

In [None]:
mediana = np.median(pasajeros_edades)
print(f"La mediana es {mediana}")

### La media vs la mediana

En un conjunto de datos, el valor de la mediana puede proporcionar una importante comparación con la media. A diferencia de la media, la mediana no se ve afectada por los valores atípicos. Esto es importante en los conjuntos de datos sesgados, cuyos valores no se distribuyen uniformemente.

Imaginemos que tenemos los datos del tiempo en minutos que invierten en Internet los empleados de cierta empresa.

In [None]:
tiempos = np.array([   0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,     0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,     0,    0,    0,    0,    0,    0,    0,    0,    0,    1,    1,    1,     1,    1,    1,    1,    1,    1,    1,    1,    1,    1,    1,    1,     1,    1,    1,    1,    1,    1,    1,    1,    1,    1,    1,    1,     1,    1,    1,    1,    1,    1,    1,    1,    1,    1,    1,    1,     1,    1,    1,    1,    1,    1,    1,    1,    1,    1,    1,    1,     1,    1,    1,    1,    1,    1,    2,    2,    2,    2,    2,    2,     2,    2,    2,    2,    2,    2,    2,    2,    2,    2,    2,    2,     2,    2,    2,    2,    2,    2,    2,    2,    2,    2,    2,    3,     3,    3,    3,    3,    3,    3,    3,    3,    3,    3,    3,    3,     3,    3,    3,    3,    3,    3,    3,    3,    3,    3,    3,    3,     3,    3,    3,    3,    3,    3,    3,    4,    4,    4,    4,    4,     4,    4,    4,    4,    4,    4,    4,    4,    4,    4,    4,    4,     4,    4,    4,    4,    4,    4,    4,    5,    5,    5,    5,    5,     5,    6,    6,    6,    6,    9,   10,   22,   60,   60,   61,   72,    75,   82,  103,  120,  210,  304])

In [None]:
media_tiempos = np.mean(tiempos)
mediana_tiempos = np.median(tiempos)

print(f"Media: {media_tiempos}")
print(f"Mediana: {mediana_tiempos}")

¿Qué medida representa mejor a la mayoría de los datos?

### Percentiles

Como hemos visto, la mediana es el punto medio de un conjunto de datos: es el número para el que el 50% de las muestras están por debajo, y el 50% de las muestras están por encima. Pero, ¿qué pasaría si quisiéramos encontrar un punto en el que el 30% de las muestras estuvieran por debajo y el 70% por encima?

Este tipo de punto se llama percentil. El percentil N se define como el punto en el que el N% de las muestras están por debajo. Así, el punto en el que el 30% de las muestras están por debajo se llama percentil 30. Los percentiles son medidas útiles porque pueden indicarnos dónde se sitúa un valor concreto dentro del conjunto de datos mayor.

In [None]:
print(np.percentile(pasajeros_edades,90))
print(np.percentile(pasajeros_edades,75))

Algunos percentiles tienen nombres específicos:

- El percentil 25 se llama primer cuartil
- El percentil 50 se llama mediana
- El percentil 75 se llama tercer cuartil

El mínimo, el primer cuartil, la mediana, el tercer cuartil y el máximo de un conjunto de datos se denominan resumen de cinco números. Calcular este conjunto de números es muy útil cuando obtenemos un nuevo conjunto de datos.

La diferencia entre el primer y el tercer cuartil es un valor llamado rango intercuartil.

In [None]:
primer_cuartil = np.percentile(pasajeros_edades,25)
tercer_cuartil = np.percentile(pasajeros_edades,75)
rango_intercuartil = tercer_cuartil - primer_cuartil
print(f"Primer cuartil: {primer_cuartil}")
print(f"Tercer cuartil: {tercer_cuartil}")
print(f"Rango intercuartil: {rango_intercuartil}")


El 50% del conjunto de datos estará dentro del rango intercuartil. El rango intercuartil nos da una idea de la dispersión de nuestros datos. Cuanto menor sea el valor del rango intercuartílico, menor será la varianza de nuestro conjunto de datos. Cuanto mayor sea el valor, mayor será la varianza.

### Numpy y la desviación estándar

Si bien la media y la mediana pueden informarnos sobre el centro de nuestros datos, no reflejan el rango o la variación de los mismos. Ahí es donde entra la desviación estándar.

Al igual que el rango intercuartil, la desviación estándar nos indica la dispersión de los datos. Cuanto mayor sea la desviación estándar, más separados estarán los datos del centro. Cuanto menor sea la desviación estándar, más se agrupan los datos en torno a la media.

Podemos usar la función `np.std()` para calcular la desviación estándar de un conjunto de datos.

In [None]:
desviacion_estandar = np.std(pasajeros_edades)

print(f"La media es: {np.mean(pasajeros_edades)}")
print(f"La desviación estándar es: {desviacion_estandar}")

### Histogramas

Cuando analizamos por primera vez un conjunto de datos, queremos ser capaces de entender rápidamente ciertas cosas sobre él:

- ¿Existen algunos valores más frecuentes que otros?
- ¿Cuál es el rango del conjunto de datos (es decir, los valores mínimos y máximos)?
- ¿Hay muchos valores atípicos?

Podemos visualizar esta información mediante un gráfico llamado histograma.

In [None]:
from matplotlib import pyplot as plt

In [None]:
pasajeros_edades = pasajeros_edades.transpose()

In [None]:
plt.hist(pasajeros_edades, bins=20)

# Esto despliega el histograma
plt.show()

### Distribución Normal

La distribución más común en estadística es la conocida como distribución normal, que es una distribución simétrica y unimodal.

Muchas cosas siguen una distribución normal:

- Las alturas de un grupo grande de personas
- Las mediciones de la presión arterial de un grupo de personas sanas
- Errores en las mediciones

Las distribuciones normales se definen por su media y su desviación estándar. La media establece el "centro" de la distribución, y la desviación estándar establece la "anchura" de la distribución. Una desviación estándar mayor conduce a una distribución más amplia. Una desviación estándar menor conduce a una distribución más delgada.

#### Generando nuestra propia distribución normal
Podemos generar nuestros propios conjuntos de datos con distribución normal utilizando NumPy.

Para crear estos conjuntos de datos, necesitamos utilizar un generador de números aleatorios. La biblioteca NumPy tiene varias funciones para generar números aleatorios, incluyendo una construida específicamente para generar un conjunto de números que se ajusten a una distribución normal: `np.random.normal`. Esta función toma los siguientes argumentos:

- **loc**: la media de la distribución normal
- **scale**: la desviación estándar de la distribución
- **size**: el número de números aleatorios a generar

In [None]:
a = np.random.normal(90, 3, size=100000)

In [None]:
plt.hist(a,bins=100)

# Esto despliega el histograma
plt.show()

#### Distribución normal y desviación estándar
La distribución normal cumple con ciertas reglas que es muy útil conocer:

- El 68% de nuestras muestras caerán entre +/- 1 desviación estándar de la media
- El 95% de nuestras muestras se situarán entre +/- 2 desviaciones estándar de la media
- El 99,7% de nuestras muestras se situarán entre +/- 3 desviaciones estándar de la media