# Estadística Descriptiva y Pandas

Objetivos de este notebook:
- Repasar conceptos básicos de estadística
- Seguir aprendiendo a operar con Numpy
- Incorporar Pandas a las herramientas de trabajo

## 1. Estadística Descriptiva

La Estadística Descriptiva sirve para comenzar a analizar y entender un conjunto de datos. En el caso de datos numéricos, lo hace obteniendo *valores estadísticos* que, de alguna forma, reemplazan a (o resumen) los datos. Por ejemplo, es muy difícil leer y *entender* la edad de 1.000 personas. Pero con un grupo reducido de valores estadísticos (mínimo, máximo, media y desviación estándar, etc.) es posible aproximarse a ese conjunto de una manera mucho más comprensible. Veamos algunas medidas importantes:

Medidas de tendencia central:
- Media (o promedio) aritmético/geométrico: valor promedio de los datos observados.
- Mediana: valor exacto del medio en un conjunto de datos.
- Moda: valor con mayor frecuencia (que más se repite) en un conjunto de datos.

Medidas de dispersión:
- Varianza: diferencia (distancia) entre el valor de una observación y la media del conjunto de datos.
- Error típico/Desv std: es la raíz cuadrada de la varianza.
- Rango: medida de amplitud de los valores de la muestra. Esto es la diferencia entre el valor más alto y el más bajo.
- Rango intercuartil: distribuye los datos cuatro partes. De esta forma es fácil identificar en qué rangos de valores se concentran los datos y qué tna dispersos están respecto de la mediana.

### Algunas fórmulas:

**Promedio (Media)**

Dados $n$ números $x_1,x_2,...,x_n$, el promedio o media es 

$$\overline{x} = \frac{1}{n}\sum_{i=1}^{n} x_i = \frac{x_1 + x_2 + ... + x_n}{n}$$

**Desviación Estándar y Varianza**

La varianza y la desviación estándar nos dan una idea de cuán "dispersos" están los valores con respecto a su promedio.

$$ Var = \frac{\sum_{i=1}^{n} (x_i -\overline{x})^2}{n - 1}$$

La desviación estándar es la raiz cuadrada de la varianza. En general se usa la letra griega $\sigma$ para representarla o las siglas $SD$:

$$ SD = \sqrt{\frac{\sum_{i=1}^{n} (x_i -\overline{x})^2}{n - 1}}$$

$$ SD = \sqrt{Var}$$


También es recomendable tener claras las diferencias entre **población** y **muestra**.

**<font color='indianRed'>Ejercicio: </font>** Dada la siguiente lista de números, escribir un código que calcule su promedio, su varianza y desviación estándar. Pistas:
* Probablemente sea útil revisar conceptos de ejercicios anteriores (clase previa).
* Para calcular la varianza y la desviación estándar, se puede usar el resultado obtenido al calcular el promedio.

In [1]:
x_s = [1,2,3,1,2,2,3,4,1,2,3,4,1,2,4]

In [2]:
# Promedio
promediox_s = sum(x_s)/len(x_s)
promediox_s

Si ya queremos ver menos decimales en los resultados, acá una forma de dar formato:

In [3]:
round(promediox_s,3)

In [4]:
# Varianza y Desv. std.

erroresalcuad = []
for i in x_s:
    erroralcuad = (i - promediox_s)**2
    erroresalcuad.append(erroralcuad)
    
# Varianza
varianza = sum(erroresalcuad)/(len(x_s)-1)
print(varianza)

# Desv std
SD = varianza ** (1/2)
print(SD)

# Rango
r = max(x_s) - min(x_s)
print(r)

## 2 Estadística con NumPy

Cálculo de los estadísticos de un arreglo usando NumPy.

In [5]:
import numpy as np

x_s = np.array([1,2,3,1,2,2,3,4,1,2,3,4,1,2,4])

# Promedio
print(x_s.mean())

# Mediana
print(np.median(x_s))

# Varianza
print(x_s.var(ddof = 1))

# Desviación estándar
print(x_s.std(ddof = 1))

# Notar la diferencia en las ejecuciones anteriores entre métodos y funciones en Python

Ya es tiempo de presentar mejor los resultados:

In [6]:
# Promedio
print('Promedio de x_s = ' + str(round(x_s.mean(),3)),'\n')

# Varianza
print('Varianza de x_s = ' + str(round(x_s.var(ddof = 1),3)),'\n')

# Desviación estándar
print('Desv. std. de x_s = ' + str(round(x_s.std(ddof = 1),3)))

**Consideraciones adicionales:**
- La media es susceptible a valores atípicos. Ejemplo: las edades de un grupo.
- La moda no aplica para datos numéricos continuos (por los decimales).

**Para profundizar:** Hay otras medidas que también hacen parte de los estadísticos, pero tienen un uso menos extendido. Entre ellas se encuentran la media ponderada, la media armónica y la media geométrica.

**Investigar**: ¿Qué es el parámetro `ddof` de la función .var()?¿Qué pasa si no se usa?

NumPy también puede calcular percentiles, cuartiles, mínimos y máximos. Esto en relación con el Rango y con el Rango intercuartil.

In [8]:
print(np.percentile(x_s,75)) # Calcula el percentil 75%
print(np.quantile(x_s,0.5))
print(np.min(x_s))
print(np.max(x_s))

Es posible observar los elementos del array ordenados.

In [9]:
x_s.sort()
x_s

Se sugiere investigar variantes de sort (ascendente, descendente, etc).

Con el siguiente gráfico (Boxplot) se representa la información del Rango intercuartil.

In [12]:
import matplotlib.pyplot as plt
plt.boxplot(x_s);

A partir de qué valor se consideran *outliers*?

In [13]:
Q3 = np.quantile(x_s,0.75)
Q1 = np.quantile(x_s,0.25)
print(Q1)
print(Q3)

In [14]:
iqr = Q3 - Q1
minlimit = Q1 - 1.5*iqr
maxlimit = Q3 + 1.5*iqr
print('Rango para detección de outliers: {}, {}'.format(minlimit, maxlimit))
# La fórmula anterior es particularmente usada para datos simétricamente distribuidos.

### 1.3 Generación de muestras al azar

Algo útil que se puede hacer con NumPy es generar muestras al azar. Esto permite simular situaciones. Por ejemplo tiradas de dados. Estas funciones están dentro del paquete `random` de NumPy, cuya documentación pueden revisar [aquí](https://docs.scipy.org/doc/numpy-1.15.0/reference/routines.random.html). Ejemplos:

In [15]:
muestras_dado = np.random.randint(1,7, size = 6)
print(muestras_dado)

# También se puede
muestras_dado = np.random.choice([1,2,3,4,5,6], size = 15)
print(muestras_dado)

A partir de la ejecución de la celda anterior. Se recomienda detenerse y analizar la lógica de `random.randint` y `random.choice`.

## <font color='indianred'>Ejercicios</font>

<font color='indianred'>**Ejercicio 1:**</font> ¿Cuál será el promedio de los valores obtenidos al tirar muchas veces un dado? Vamos a tratar de responder esta pregunta **simulando** un dado. Para ello:
* Obtener muestras al azar de un dado usando lo que vimos anteriormente.
* Calcular su promedio y desviación estándar.

¿A partir de qué cantidad de muestras el promedio se "estabiliza"?

In [16]:
muestras_dado = np.random.choice([1,2,3,4,5,6], size = 30)
# print(muestras_dado)
# Promedio
print('Promedio =',muestras_dado.mean())
# Desv std
print('Desv. std. =',muestras_dado.std(ddof = 1))

<font color='indianred'>**Ejercicio 2:**</font> Simular un dado cargado para favorecer un valor de su elección. Por ejemplo, el seis. Para ello, consultar la ayuda de la función `np.random.choice`. ¿Cómo se modifica el promedio y la desviación estándar?

In [17]:
# En np.random.choice si no se dan probabilidades, se asumen uniformes. Acá con probabilidades especificadas.
muestras_dado2 = np.random.choice([1,2,3,4,5,6], p = [0.1,0.1,0.1,0.1,0.1,0.5], size = 250)
#print(muestras_dado)
print('Promedio =',muestras_dado2.mean())
print('Desv. std. =',muestras_dado2.std(ddof = 1))

## 3. Pandas 

Pandas es la librería para manipular y analizar datos más conocida de Python. Está montada sobre NumPy, por lo cual muchas funcionalidades son similares. En principio utilizaremos Pandas para trabajar con datasets estructurados. 

Así como NumPy tiene los *arrays* y con ellos se accede a muchas nuevas funcionalidades, Pandas provee los *Data Frames* y las *Series*. De estos dos objetos el más utilizado es *DataFrames*. 

En esta sección empezaremos a:

1. Familiarizarnos con los Data Frames de Pandas, manipular sus funciones básicas y entender la lógica de las mismas.
2. Empezar a trabajar con Datasets.

### 3.1 Primeros pasos

Importar la librería

In [20]:
import pandas as pd

Creación del dataset:<br />
1 - Cargar uno a uno los datos y guardarlos en una variable `data_col`.¿Qué tipos de variables son?<br />
2 - Lectura de csv<br />
3 - Lectura de xlsx<br />

**Nota**: la población está en número de habitantes y la superficie en km2.

In [18]:
# Cargar datos uno a uno
data_col = {"Departamento":['Amazonas','Antioquia','Arauca','San Andrés','Atlántico','Bolívar','Boyacá',
                            'Caldas','Caquetá','Casanare','Cauca','Cesar','Chocó','Córdoba ','Cundinamarca','Guainía',
                            'Guaviare','Huila','La Guajira','Magdalena','Meta','Nariño','Norte de Santander','Putumayo',
                            'Quindio','Risaralda','Santander','Sucre','Tolima','Valle del Cauca','Vaupés','Vichada'],
            "Poblacion":[66056,5974788,239503,48299,2342265,1909460,1135698,923472,359602,379892,
                         1243503,1098577,457412,1555596,9974346,44431,73081,1009548,825364,1263788,
                         919129,1335521,1346806,283197,509640,839597,2008841,864036,1228763,3789874,
                         37690,76642],
            "Superficie":[109665,63612,23818,52000,3388,25978,23189,7888,88965,44640,29308,22905,46530,
                          25020,22633,72238,53460,19890,20848,23188,85635,33268,21658,24885,1845,4140,30537,
                          10917,23562,22140,54135,100242]}

# data_col como estructura de datos es un diccionario
type(data_col)

Así (de la forma anterior) es posible crear arreglos a partir de listas, y también crear Data Frames a partir de diccionarios.

Se sugiere investigar y tener clara la diferencia entre una lista y un arreglo.

In [21]:
# Creación del DataFrame
df_col = pd.DataFrame(data_col)
df_col

In [22]:
# Lectura de un CSV como dataframe de Pandas
df_col2 = pd.read_csv('departamentos_col.csv',encoding='utf-8')
type(df_col2)

Lectura de un XLSX como dataframe de Pandas

In [23]:
# Ojo, es probable que se necesite instalar openpyxl. Se puede hacer con la siguiente línea de código.
# !pip install openpyxl

# Cuando se tenga instalada, se requiere determinar el parámetro engine como "openpyxl".
df_col3 = pd.read_excel('departamentos_col.xlsx', engine = 'openpyxl')
type(df_col3)

<font color='indianred'>**Ejercicio 1:**</font> investigar las funciones que se implementan en la próxima celda. ¿Qué hacen? ¿Para qué piensan que pueden ser útiles?

In [35]:
df_col.head()
df_col.tail()
df_col.count()
df_col.shape()

<font color='indianred'>**Ejercicio 2:**</font> agregar al Dataset la información correspondiente a un Departamento nuevo. Recordar que al tratarse de una nueva instancia, corresponde a una fila adicional. **Pista:** investigar "add row to pandas dataframe" (o similar. No hay una única forma de buscar info).

In [24]:
df_col_n = pd.DataFrame({"Departamento":["Nuevo Dpto"],"Poblacion":[1000000],"Superficie":[25000]})
print(df_col_n, "\n")

df_col.append(df_col_n, ignore_index = True)
# Ojo: en la línea anterior, si no le digo index = True, me pone el elemento como index cero.

# Otra forma de hacerlo
# Ver al final si se debe usar loc o iloc
# df_col.loc[32] = ["Nuevo Dpto",1000000,25000]

<font color='indianred'>**Ejercicio 3:**</font> Investigar las funciones columns e index. ¿Qué hacen? ¿Qué tipo de dato es su salida?

In [29]:
print(df_col.columns) # indica el rótulo de cada columna y el tipo de variable
print(df_col.index) # indica la relación de consecutivos de la tabla

Qué tipo de datos son las columnas del dataset? Recurso extra: [documentación de dtypes()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dtypes.html)

In [30]:
df_col.dtypes # tipos de datos de cada columna en el dataset

<font color='indianred'>**Ejercicio 4:**</font> ¿Qué hacen las siguientes operaciones?

In [31]:
df_col['Departamento'] # muestra todos los datos de la col Departamento
df_col[['Departamento','Poblacion']] # muestra todos los datos de las col Departamento y Población
df_col.Poblacion #'Poblacion' in data_pandas # Valida si hay una columna llamada Población en el dataframe

<font color='indianred'>**Ejercicio 5:**</font> Agregar una columna al dataframe que corresponda a la densidad de cada jurisdicción. Usar la información que **ya está** en el dataset.

In [32]:
df_col['Densidad'] = df_col["Poblacion"] / df_col.Superficie
df_col.head()

Se sugiere profundizar este punto investigando:
+ Cómo obtener la sumatoria y el promedio de una columna de un dataframe.
+ Cómo ordenar los datos por los valores de una columna del dataframe

Con Pandas es posible generar un conjunto completo de estadisticos descriptivos del dataset usando pandas.DataFrame.describe()
[Acá](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html) la documentación de la función Describe.

In [33]:
df_col.describe()

### 3.2. Filtrado por máscara

Lo que veremos a continuación es **importante** porque es una operación muy frecuente. Su implementación es muy parecida en NumPy y en Pandas. Veremos primero cómo hacerlo en NumPy, luego en Pandas.

Supongamos que hacemos 50 tiradas de un dado, como hicimos en la sección anterior, pero queremos seleccionar solamente aquellas tiradas que fueron menores que cuatro. ¿Cómo podemos hacerlo?

In [34]:
import numpy as np
tiradas_dado = np.random.randint(1,7, size = 50)
print(tiradas_dado)
print(len(tiradas_dado))

Lo que podemos hacer es crear una máscara:

In [35]:
mascara = tiradas_dado < 4
print(mascara)
print(type(mascara))

Notar que `mascara` es un arreglo de booleanos, con `True` en los valores que cumplen la condición y `False` donde no. Una vez que creada la máscara, se puede usar para seleccionar del arreglo original aquellos elementos deseados.

In [36]:
print(tiradas_dado[mascara])

Notar que con `mascara.sum()` podemos contar cuántas veces se cumple la condición que pedimos.

In [37]:
print(mascara.sum())

A veces, podemos hacerlo en una sola línea. Supongamos que queremos aquellas tiradas donde salió seis:

In [38]:
print(tiradas_dado[tiradas_dado == 6])

**Ahora en Pandas**

Supongamos que hay que seleccionar los departamentos cuya población sea mayor a 1,5 millones de habitantes.

In [39]:
df_col[df_col.Poblacion > 1500000]

¿Y si queremos seleccionar aquellos departamentos cuya población sea mayor a 1,5 millones de habitantes **y** su superficie menor a 20 mil km2?

In [40]:
mascara = np.logical_and(df_col.Poblacion > 1500000, df_col.Superficie < 20000)
df_col[mascara]

# Es equivalente usar:
# df_col[(df_col.Poblacion > 1500000) & (df_col.Superficie < 20000)]

<font color='indianred'>**Ejercicio:**</font> seleccionar los departamentos cuya población sea menor a 500 mil habitantes **o** su superficie mayor a 40 mil km2.

In [41]:
mascara2 = np.logical_or(df_col.Poblacion < 500000, df_col.Superficie > 40000)
cuadro = df_col[mascara2]
cuadro

In [90]:
# Guardar el dataset en disco
cuadro.to_csv('cuadro_resumen.csv')

## Bonus 1: Tipos de datos

Recordar que en muchas ocasiones los datos son llamados a partir de denominaciones como: transaccionales, demográficos, de comportamiento.

## Bonus 2: Formas de obtener Datasets

Se puede operar con datasets que se extraen de fuentes externas. Pero también es posible utilizar datasets precargados de Seaborn.

In [42]:
import seaborn as sns
sns.get_dataset_names()

## <font color='indianred'>**Ejercicio**</font>

Para hacerlo se recomienda ir buscando info en internet y consultando la documentación que se considere apropiada.

Vamos a trabajar con Iris Dataset. Uno de los conjuntos de datos más famosos, porque muchos ejemplos se realizan con él.

1. Abrir con Pandas el archivo 'DS_Bitácora_04_iris.csv' (¿Qué tipo de archivo es?) Imprimir sus primeros cinco elementos. Pista: `pd.read...()`.

In [43]:
data_iris = pd.read_csv("DS_Bitácora_04_Iris.csv")
data_iris.head()

También se puede asignar manualmente el separador de los datos. No ejecutarlo con iris dataset. Solo comprender la sintaxis. Sería algo como: 

data_iris = pd.read_csv("DS_Bitácora_04_Iris.csv", delimiter=";")

2. ¿Cuántas columnas (features) tiene el dataset?¿Cuáles son sus nombres?¿Y cuántas filas (instancias)? Pistas: `shape`, `columns`.

In [44]:
print(data_iris.columns) # indica el rótulo de cada columna y el tipo de variable
print(data_iris.shape) # indica la cantidad de dats y la cantidad de columnas

3. Obtener el valor medio y desviación estándar de cada columna. ¿Cuál es la función de Pandas que entrega estos y otros estadísticos? `describe`.

In [45]:
# COMPLETAR
# Mean
print(data_iris.SepalLengthCm.mean())
#print(data_iris.SepalWidthCm.mean())
#print(data_iris.PetalLengthCm.mean())
#print(data_iris.PetalWidthCm.mean())

# Std Dev
print(data_iris.SepalLengthCm.std(ddof = 1))
#print(data_iris.SepalWidthCm.std(ddof = 1))
#print(data_iris.PetalLengthCm.std(ddof = 1))
#print(data_iris.PetalWidthCm.std(ddof = 1))

# función describe() --> se usa mucho para no ir pidiendo datos uno por uno
print(data_iris.SepalLengthCm.describe())
#print(data_iris.SepalWidthCm.describe())
#print(data_iris.PetalLengthCm.describe())
#print(data_iris.PetalWidthCm.describe())

4. ¿Será que todas las columnas tienen información útil? *Eliminar* la columna que crean que no agrega valor. Dependiendo de la función usada - hay más de una opción -, hay que prestar **atención** al argumento `inplace`. Pista: `drop`, `del`.

In [46]:
data_iris.drop(columns= "Id" ) # Agregar inplace = True para que no se vaya a quedar la col sin datos.

5. **Profundizar:** ¿Para qué sirven `loc` e `iloc`? Crea algunos ejemplos.

In [53]:
data_iris.loc[0:2]

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa


## Se sugiere repasar:

1. Manipulando el siguiente datset.
1. Cómo aplicar las medidas de tendencia central y de dispersión a columnas específicas de un DataFrame de Pandas.

In [63]:
# Dataset para practicar
movies = pd.read_csv('https://github.com/jnserna/DS_Basic/blob/main/Python%20en%20DS%20%2B%20Numpy/movies.csv?raw=true', encoding='utf-8')
type(movies)

In [65]:
movies.head()