<a href="https://colab.research.google.com/github/Valerius-ufv/python_bootcamp_DV/blob/main/DS_Notebook_04_Estad%C3%ADstica_y_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Estadística Descriptiva y Pandas

El objetivo del siguiente notebook es, además de repasar conceptos de estadística, que sigas aprendiendo a operar con Numpy y que, además, incorpores Pandas a tu caja de herramientas.

## 1. Estadística Descriptiva

La Estadística Descriptiva nos sirve para comenzar a analizar y entender un conjunto de datos. En el caso de datos numéricos, lo hace obteniendo *valores estadísticos* que, de alguna forma, reemplazan a nuestros datos. Por ejemplo, es muy difícil leer y *entender* la edad de 1000 personas. Pero con un grupo reducido de valores estadísticos (mínimo, máximo, media y desviación estándar, etc.) podemos aproximarnos a ese conjunto de una manera mucho más comprensible. Veamos dos medidas muy importantes:

**Promedio**

Dados $n$ números $x_1,x_2,...,x_n$, el promedio o media es

$$\overline{x} = \frac{1}{n}\sum_{i=1}^{n} x_i = \frac{x_1 + x_2 + ... + x_n}{n}$$

**Desviación Estándar**

La varianza y la desviación estándar nos dan una idea de cuán "dispersos" están los valores con respecto a su promedio.

$$ Var = \frac{\sum_{i=1}^{n} (x_i -\overline{x})^2}{n - 1}$$

La desviación estándar es la raiz cuadrada de la varianza. En general se usa la letra griega $\sigma$ para representarla o las siglas $SD$:

$$ SD = \sqrt{\frac{\sum_{i=1}^{n} (x_i -\overline{x})^2}{n - 1}}$$

$$ SD = \sqrt{Var}$$


**Comentarios**:
1. Dado un conjunto de números, el promedio suele ser considerado el número más representativo de ese conjunto. Esto no siempre es así. Pensá o googleá por qué.
2. Al conjunto de números $x_1,...,x_n$ los pueden encontrar por el nombre de *población* o *muestra* (¡Ojo que no estamos diciendo que *población* y *muestra* sean lo mismo!).

### Challenge:

Vamos a utilizar de excusa la estadística descriptiva para hacer un desafío de programación:

Dadas la siguiente lista de números, escribir una rutina que calcule su promedio, su varianza y desviación estándar. **Pistas:**
* Probablemente te sea muy útil usar lo que hiciste para ejercicios anteriores.
* Para calcular la varianza y la desviación estándar, usa el resultado que obtuviste al calcular el promedio.

In [None]:
import numpy as np

In [None]:
x_s = [1,2,3,1,2,2,3,4,1,2,3,4,1,2,4]
# COMPLETAR

In [None]:
x_s = [1,2,3,1,2,2,3,4,1,2,3,4,1,2,4]
promedio = sum(x_s)/len(x_s)
print(promedio)

2.3333333333333335


In [None]:
x_s = [1,2,3,1,2,2,3,4,1,2,3,4,1,2,4]
varianza = sum(promedio**2 for promedio in x_s)/len(x_s) - promedio**2
print(varianza)

ds = np.sqrt(varianza)
print(ds)

1.1555555555555541
1.0749676997731392


¿Cómo te fue con el Challenge? Si no pudiste resolverlo, no te preocupes. ¡NumPy tiene funciones ya incorporadas que calcula algunos estadísticos sobre un arreglo!

### 1.2 Estadística con NumPy

Veamos cómo se calculan, en NumPy, el promedio, varianza y desviación estándar sobre un arreglo.

In [None]:
import numpy as np

x_s = np.array([1,2,3,1,2,2,3,4,1,2,3,4,1,2,4])

# Promedio
print(x_s.mean())
print(np.mean(x_s))

# Varianza
print(x_s.var(ddof = 1))

# Desviación estándar
print(x_s.std(ddof = 1))

2.3333333333333335
2.3333333333333335
1.238095238095238
1.1126972805283735


**Para investigar**: ¿qué es el parámetro `ddof` de esa función?¿Qué pasa si no lo usas? Esta pregunta es **difícil** y requiere cierto conocimiento previo. Pero intenta, de todas formas, averiguarlo.

NumPy también puede calcular percentilos (¡googlear!), cuantilos, mínimos y máximos:

In [None]:
print(np.percentile(x_s,75))
print(np.quantile(x_s,0.5))
print(np.min(x_s))
print(np.max(x_s))

3.0
2.0
1
4


**Para investigar**: ¿Cuál es la diferencia entre `np.percentile()` y `np.quantile()`?¿Cómo obtendrías los cuartiles a partir de ellos?

### 1.3 Generación de muestras al azar

Una cosa sumamente útil que podemos hacer con NumPy es generar muestras al azar. Esto nos permite simular situaciones. Estas funciones las encontramos dentro del paquete `random` de NumPy, cuya documentación pueden encontrar [aquí](https://docs.scipy.org/doc/numpy-1.15.0/reference/routines.random.html). Veamos cómo lo podemos hacer:

In [None]:
muestras_dado1 = np.random.randint(1,7, size = 15)
print(muestras_dado1)

### También se puede
muestras_dado2 = np.random.choice([1,2,3,4,5,6], size = 15)
print(muestras_dado2)

[4 1 4 3 5 6 4 1 1 2 3 3 1 5 1]
[3 4 2 5 4 1 4 5 5 6 4 4 2 3 4]


### Ejercitación

**Ejercicio 1:** ¿Cuál será el promedio de los valores obtenidos al tirar muchas veces un dado?¿Te animás a averiguar - o calcular - cuánto *debería dar* antes de hacerlo? Vamos a tratar de responder esta pregunta **simulando** un dado. Para ello:
* Obtener muestras al azar de un dado usando lo que vimos anteriormente.
* Calcular su promedio y desviación estándar.

¿A partir de qué cantidad de muestras el promedio se "estabiliza"?

In [None]:
print("La media es", muestras_dado1.mean())
print("La DS es", muestras_dado1.std())

La media es 2.933333333333333
La ds es 1.6519348924485158


**Ejercicio 2:** Simular un dado cargado para favorecer un valor de su elección. Por ejemplo, el seis. Para ello, consultar la ayuda de la función `np.random.choice`. ¿Cómo se modifica el promedio y la desviación estándar?

In [None]:
muestras_dado2 = np.random.choice([1,2,3,4,5,6], size = 1500, p=[2/6, 1/12, 1/12, 1/6, 1/6, 1/6])

In [None]:
print("La media es", muestras_dado2.mean())
print("La DS es", muestras_dado2.std())

La media es 3.7333333333333334
La ds es 1.2892719737209144


In [None]:
len(muestras_dado2)
print(len(muestras_dado2))

1500


In [None]:
muestras_dado2 = np.random.choice([1,2,3,4,5,6], size = 1500, p=[2/6, 1/12, 1/12, 1/6, 1/6, 1/6])
print("La media es", muestras_dado2.mean())
print("La DS es", muestras_dado2.std())

La media es 3.2693333333333334
La DS es 1.9220109838973924


## 2. Pandas

Pandas es la librería más conocida de Python para manipular y analizar datos. Está montada sobre NumPy, por lo cual muchas funcionalidades son similares. Utilizaremos Pandas para trabajar con datasets estructurados (y bueno, ¡bastante más!).

Así como NumPy nos proveé de los *arreglos* y con ellos accedemos a muchas nuevas funcionalidades, Pandas nos provee de los *Data Frames* y las *Series*. Por lejos, el objeto más utilizados es el primero, los Data Frames.


En esta sección empezaremos a:

1. Familiarizarnos con los Data Frames de Pandas, manipular sus funciones básicas y entender la lógica de las mismas (¡para después googlearlas!).
2. Empezar a trabajar con Datasets.

**¡Manos a la obra!**

### 2.1 Primeros pasos

Importamos la librería.

In [42]:
import pandas as pd
import numpy as np

Vamos a crear nuestro propio dataset. Es decir, agarrar a mano los datos poblacionales y guardarlos en una variable `data_dic`.¿Qué tipo de variable es, desde el punto de vista de la programación?

**Nota**: la población está en número de habitantes y la superficie en km2.

In [2]:
data_dic = {"Jurisdiccion":['Andalucía', 'Aragón', 'Asturias', 'Baleares', 'Canarias', 'Cantabria', 'Castilla y León', 'Castilla-La Mancha', 'Cataluña',
                            'Comunidad de Madrid', 'Comunidad Foral de Navarra', 'Comunidad Valenciana', 'Extremadura', 'Galicia', 'La Rioja', 'País Vasco',
                            'Principado de Andorra', 'Región de Murcia', 'Ceuta', 'Melilla'],
            "Poblacion":[8446561, 1319291, 1028244, 1187805, 2207225, 582206, 2408083, 2032863, 7675217, 6640705,
                         661828, 5003769, 1072863, 2698764, 314487, 2207776, 77006, 1493898, 85344, 86487],
            "Superficie": [87599, 47720, 10603, 4992, 7447, 5321, 94127, 79600, 32114, 8028, 10391, 23255, 41634, 29574, 5045, 7264, 468, 11314, 20, 12]}
print(data_dic)

{'Jurisdiccion': ['Andalucía', 'Aragón', 'Asturias', 'Baleares', 'Canarias', 'Cantabria', 'Castilla y León', 'Castilla-La Mancha', 'Cataluña', 'Comunidad de Madrid', 'Comunidad Foral de Navarra', 'Comunidad Valenciana', 'Extremadura', 'Galicia', 'La Rioja', 'País Vasco', 'Principado de Andorra', 'Región de Murcia', 'Ceuta', 'Melilla'], 'Poblacion': [8446561, 1319291, 1028244, 1187805, 2207225, 582206, 2408083, 2032863, 7675217, 6640705, 661828, 5003769, 1072863, 2698764, 314487, 2207776, 77006, 1493898, 85344, 86487], 'Superficie': [87599, 47720, 10603, 4992, 7447, 5321, 94127, 79600, 32114, 8028, 10391, 23255, 41634, 29574, 5045, 7264, 468, 11314, 20, 12]}


Así como podemos crear arreglos a partir de listas, podemos crear Data Frames a partir de diccionarios.

In [4]:
# Creamos el DataFrame
data_pandas = pd.DataFrame(data_dic)
data_pandas

Unnamed: 0,Jurisdiccion,Poblacion,Superficie
0,Andalucía,8446561,87599
1,Aragón,1319291,47720
2,Asturias,1028244,10603
3,Baleares,1187805,4992
4,Canarias,2207225,7447
5,Cantabria,582206,5321
6,Castilla y León,2408083,94127
7,Castilla-La Mancha,2032863,79600
8,Cataluña,7675217,32114
9,Comunidad de Madrid,6640705,8028


In [5]:
data_pandas = pd.DataFrame(data_dic)
print(data_pandas)

                  Jurisdiccion  Poblacion  Superficie
0                    Andalucía    8446561       87599
1                       Aragón    1319291       47720
2                     Asturias    1028244       10603
3                     Baleares    1187805        4992
4                     Canarias    2207225        7447
5                    Cantabria     582206        5321
6              Castilla y León    2408083       94127
7           Castilla-La Mancha    2032863       79600
8                     Cataluña    7675217       32114
9          Comunidad de Madrid    6640705        8028
10  Comunidad Foral de Navarra     661828       10391
11        Comunidad Valenciana    5003769       23255
12                 Extremadura    1072863       41634
13                     Galicia    2698764       29574
14                    La Rioja     314487        5045
15                  País Vasco    2207776        7264
16       Principado de Andorra      77006         468
17            Región de Murc

**Ejercicio 1:** investigar las funciones que se implementan en la próxima celda. ¿Qué hacen? ¿Para qué piensan que pueden ser útiles?

In [12]:
#data_pandas.head(2)
#data_pandas.tail(3)
#data_pandas.count()
#data_pandas.shape()

**Ejercicio 2:** agregar al Dataset la información correspondiente a alguna jurisdicción faltante. Recuerden que, al tratarse de una nueva instancia, corresponde a una fila. Pista: googlear "add row to pandas dataframe" o similar. No hay una única forma de hacerlo.

In [18]:
data_pandas = pd.DataFrame(data_dic)
data_pandas.loc[19] = ['Cantabria', 582206, 5321]
data_pandas

Unnamed: 0,Jurisdiccion,Poblacion,Superficie
0,Andalucía,8446561,87599
1,Aragón,1319291,47720
2,Asturias,1028244,10603
3,Baleares,1187805,4992
4,Canarias,2207225,7447
5,Cantabria,582206,5321
6,Castilla y León,2408083,94127
7,Castilla-La Mancha,2032863,79600
8,Cataluña,7675217,32114
9,Comunidad de Madrid,6640705,8028


**Ejercicio 3:** Investigar las funciones columns e index. ¿Qué hacen? ¿Qué tipo de dato es su salida?¿A qué tipo de dato conocido se parecen?

In [57]:
  data_pandas.columns
  data_pandas.index

RangeIndex(start=0, stop=20, step=1)

In [23]:
list(data_pandas.columns)

['Jurisdiccion', 'Poblacion', 'Superficie']

**Ejercicio 4:** ¿Qué hacen las siguientes operaciones?

In [34]:
type(data_pandas['Jurisdiccion'])

In [36]:
list(data_pandas['Jurisdiccion'])

['Andalucía',
 'Aragón',
 'Asturias',
 'Baleares',
 'Canarias',
 'Cantabria',
 'Castilla y León',
 'Castilla-La Mancha',
 'Cataluña',
 'Comunidad de Madrid',
 'Comunidad Foral de Navarra',
 'Comunidad Valenciana',
 'Extremadura',
 'Galicia',
 'La Rioja',
 'País Vasco',
 'Principado de Andorra',
 'Región de Murcia',
 'Ceuta',
 'Cantabria']

In [35]:
type(data_pandas[['Jurisdiccion','Poblacion']])

In [56]:
# data_pandas['Jurisdiccion']
# data_pandas[['Jurisdiccion','Poblacion']]
# data_pandas.Jurisdiccion
# 'Poblacion' in data_pandas

**Ejercicio 5:** Agregar una columna al dataframe que corresponda a la densidad de cada jurisdicción. Usar la información que **ya está** en el dataset.

In [55]:
data_pandas = pd.DataFrame(data_dic)
data_pandas['Densidad'] = np.round(data_pandas['Poblacion'] / data_pandas['Superficie'], 2)
data_pandas


Unnamed: 0,Jurisdiccion,Poblacion,Superficie,Densidad
0,Andalucía,8446561,87599,96.42
1,Aragón,1319291,47720,27.65
2,Asturias,1028244,10603,96.98
3,Baleares,1187805,4992,237.94
4,Canarias,2207225,7447,296.39
5,Cantabria,582206,5321,109.42
6,Castilla y León,2408083,94127,25.58
7,Castilla-La Mancha,2032863,79600,25.54
8,Cataluña,7675217,32114,239.0
9,Comunidad de Madrid,6640705,8028,827.19


### 2.2 Filtrado por máscara.

Lo que veremos a continuación es **muy importante**, ya que es una operación que haremos muchas veces. Su implementación es muy parecida tanto en NumPy como en Pandas, por lo que veremos cómo hacerlo primero en NumPy luego en Pandas.

Supongamos que hacemos 50 tiradas de un dado, como hicimos en la sección anterior, pero queremos seleccionar solamente aquellas tiradas que fueron menores que cuatro. ¿Cómo podemos hacerlo?

In [44]:
muestras_dado = np.random.randint(1,7, size = 50)
print(muestras_dado)

[3 2 3 3 1 3 5 6 2 2 3 1 4 6 5 4 6 5 3 3 2 3 5 1 3 5 3 6 5 4 4 6 2 4 4 1 2
 6 5 6 3 3 4 5 3 3 1 6 5 1]


Lo que podemos hacer es crear una máscara:

In [45]:
mascara = muestras_dado < 4
print(mascara)
print(type(mascara))

[ True  True  True  True  True  True False False  True  True  True  True
 False False False False False False  True  True  True  True False  True
  True False  True False False False False False  True False False  True
  True False False False  True  True False False  True  True  True False
 False  True]
<class 'numpy.ndarray'>


Notar que `mascara` es un arreglo de booleanos, con `True` en los valores que cumplen la condición y `False` donde no. Una vez que creamos la máscara, podemos usarla para seleccionar de nuestro arreglo aquellos elementos que queríamos:

In [46]:
print(muestras_dado[mascara])

[3 2 3 3 1 3 2 2 3 1 3 3 2 3 1 3 3 2 1 2 3 3 3 3 1 1]


Notar que con `mascara.sum()` podemos contar cuántas veces se cumple la condición que pedimos.

In [47]:
print(mascara.sum())

26


A veces, podemos hacerlo en una sola línea. Supongamos que queremos aquellas tiradas donde salió seis:

In [50]:
print(muestras_dado[muestras_dado == 3])

[3 3 3 3 3 3 3 3 3 3 3 3 3 3]


**En Pandas**

Supongamos que queremos seleccionar aquellas jurisdicciones cuya población sea mayor a un millón de habitantes. Podemos hacerlo de la siguiente forma:

In [60]:
data_pandas[data_pandas.Poblacion > 1000000]

Unnamed: 0,Jurisdiccion,Poblacion,Superficie
0,Andalucía,8446561,87599
1,Aragón,1319291,47720
2,Asturias,1028244,10603
3,Baleares,1187805,4992
4,Canarias,2207225,7447
6,Castilla y León,2408083,94127
7,Castilla-La Mancha,2032863,79600
8,Cataluña,7675217,32114
9,Comunidad de Madrid,6640705,8028
11,Comunidad Valenciana,5003769,23255


¿Y si queremos seleccionar aquellas jurisdicciones cuya población sea mayor a un millón de habitantes **y** su superficie menor a cien mil km2?

In [61]:
mascara = np.logical_and(data_pandas.Poblacion > 1000000, data_pandas.Superficie < 100000)
data_pandas[mascara]

### Es equivalente
# data_pandas[(data_pandas.Poblacion > 1000000) & (data_pandas.Superficie < 100000)]

Unnamed: 0,Jurisdiccion,Poblacion,Superficie
0,Andalucía,8446561,87599
1,Aragón,1319291,47720
2,Asturias,1028244,10603
3,Baleares,1187805,4992
4,Canarias,2207225,7447
6,Castilla y León,2408083,94127
7,Castilla-La Mancha,2032863,79600
8,Cataluña,7675217,32114
9,Comunidad de Madrid,6640705,8028
11,Comunidad Valenciana,5003769,23255


**Ejercicio:** seleccionar aquellas jurisdicciones cuya población sea menor a 500 mil habitantes **o** su superficie mayor a cien mil km2.

In [66]:
mascara = np.logical_or(data_pandas.Poblacion < 500000, data_pandas.Superficie > 100000 )
data_pandas[mascara]

Unnamed: 0,Jurisdiccion,Poblacion,Superficie
14,La Rioja,314487,5045
16,Principado de Andorra,77006,468
18,Ceuta,85344,20
19,Melilla,86487,12


## 2.3 Iris dataset

¿Pero siempre vamos a tener que crear un diccionario y luego pasarlo a un Data Frame? Evidentemente, esta opción no parece muy cómoda, en particular para conjuntos de datos de gran volumen. Veamos cómo trabajamos con un conjunto de datos preexistente.


**Aviso**: Esta sección es, en realidad, un ejercicio. Para hacerlo, debes ir googleando y consultando la documentación que consideres apropiada. Obviamente, también puedes consultar a tu mentor/a.

Vamos a trabajar con el Iris Dataset, probablemente uno de los conjuntos de datos más famosos, ya que muchos ejemplos se realizan con él. Es un dataset sencillo pero ilustrativo.


1. Abrir con Pandas el archivo 'iris.csv' (¿Qué tipo de archivo es?) e imprimir sus primeros cinco elementos. Pista: `pd.read...()`.

In [74]:
df = pd.read_csv('iris.csv', names =['petal_l', 'petal_w', 'sepal_l', 'sepal_w', 'species'] )

df.head()

Unnamed: 0,petal_l,petal_w,sepal_l,sepal_w,species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


2. ¿Cuántas columnas (features) tiene?¿Cuáles son sus nombres?¿Y cuántas filas (instancias)? Pistas: `shape`, `columns`.

In [83]:
print('El fichero tiene ' + str(df.shape[0]) + ' filas y ' + str(df.shape[1]) + ' columnas')

El fichero tiene 150 filas y 5 columnas


In [87]:
print('Las columnas se llaman:', list(df.columns))

Las columnas se llaman: ['petal_l', 'petal_w', 'sepal_l', 'sepal_w', 'species']


In [86]:
type(df.shape[0])

int

3. Obtener el valor medio y desviación estándar de cada columna. ¿Hay alguna función de Pandas que nos dé aún más estadísticos? Pistas: `describe`.

In [90]:
df['species'].unique()

array(['Iris-setosa', 'Iris-versicolor', 'Iris-virginica'], dtype=object)

In [93]:
print(df.shape)
df[df['species'] == 'Iris-setosa'].describe()
df[df['species'] == 'Iris-setosa'].shape()

(150, 5)


TypeError: 'tuple' object is not callable

4. ¿Creen que todas las columnas tienen información? *Tirar* la columna que crean que está demás. Dependiendo de la función que uses - hay más de una opción -, tal vez tengas que prestar **mucha** atención al argumento `inplace`. Pista: `drop`, `del`.

In [71]:
# COMPLETAR

5. ¿Para qué sirven `loc` e `iloc`? Crea algunos ejemplos.

In [96]:
np.random.seed(0)
print(df.sample(frac=1).iloc[0,0])
df.sample(frac=1).head(1)


5.8


Unnamed: 0,petal_l,petal_w,sepal_l,sepal_w,species
92,5.8,2.6,4.0,1.2,Iris-versicolor


In [97]:
print(df.sample(frac=1).loc[0, 'petal_l'])
df[df.index == 0]

5.1


Unnamed: 0,petal_l,petal_w,sepal_l,sepal_w,species
0,5.1,3.5,1.4,0.2,Iris-setosa
