# Estadística Descriptiva y Pandas

El objetivo del siguiente notebook es, además de repasar conceptos de estadística, que sigas aprendiendo a operar con Numpy y que, además, incorpores Pandas a tu caja de herramientas.

## 1. Estadística Descriptiva

La Estadística Descriptiva nos sirve para comenzar a analizar y entender un conjunto de datos. En el caso de datos numéricos, lo hace obteniendo *valores estadísticos* que, de alguna forma, reemplazan a nuestros datos. Por ejemplo, es muy difícil leer y *entender* la edad de 1000 personas. Pero con un grupo reducido de valores estadísticos (mínimo, máximo, media y desviación estándar, etc.) podemos aproximarnos a ese conjunto de una manera mucho más comprensible. Veamos dos medidas muy importantes:

**Promedio**

Dados $n$ números $x_1,x_2,...,x_n$, el promedio o media es 

$$\overline{x} = \frac{1}{n}\sum_{i=1}^{n} x_i = \frac{x_1 + x_2 + ... + x_n}{n}$$

**Desviación Estándar**

La varianza y la desviación estándar nos dan una idea de cuán "dispersos" están los valores con respecto a su promedio.

$$ Var = \frac{\sum_{i=1}^{n} (x_i -\overline{x})^2}{n - 1}$$

La desviación estándar es la raiz cuadrada de la varianza. En general se usa la letra griega $\sigma$ para representarla o las siglas $SD$:

$$ SD = \sqrt{\frac{\sum_{i=1}^{n} (x_i -\overline{x})^2}{n - 1}}$$

$$ SD = \sqrt{Var}$$


**Comentarios**:
1. Dado un conjunto de números, el promedio suele ser considerado el número más representativo de ese conjunto. Esto no siempre es así. Pensá o googleá por qué.
2. Al conjunto de números $x_1,...,x_n$ los pueden encontrar por el nombre de *población* o *muestra* (¡Ojo que no estamos diciendo que *población* y *muestra* sean lo mismo!).

### Challenge:

Vamos a utilizar de excusa la estadística descriptiva para hacer un desafío de programación:

Dadas la siguiente lista de números, escribir una rutina que calcule su promedio, su varianza y desviación estándar. **Pistas:**
* Probablemente te sea muy útil usar lo que hiciste para ejercicios anteriores.
* Para calcular la varianza y la desviación estándar, usa el resultado que obtuviste al calcular el promedio.

In [3]:
x_s = [1,2,3,1,2,2,3,4,1,2,3,4,1,2,4]
# COMPLETAR

promedio= sum(x_s)/len(x_s)
print(promedio)


2.3333333333333335


In [4]:
#SOLUCION PROPUESTA ACAMICA

x_s = [1,2,3,1,2,2,3,4,1,2,3,4,1,2,4] #defino un vector

n = len(x_s) #solicito la longitud
mean = 0 #variable en la cual voy a guardar la suma de las observaciones
for x in x_s:
    mean +=x # equivalente a mean = mean + x ### con este bucle sume el valor de cada elemento del arreglo
mean/=n #equivalente a mean = mean/n #### divido por el numero de observaciones -------> n
print(mean)

### una formula mas facil

mean= sum(x_s)/len(x_s)
print(mean)

2.3333333333333335
2.3333333333333335


In [6]:
# COMPLETAR
n = len(x_s)
var=0    #acumulador
for x in x_s:
    var+=(x-mean)**2 ##calculo del primer componente de la varianza == var+= (x-mean)**2
var/= n-1
std = var**(1/2)

print(var)
print(std)

1.2380952380952384
1.1126972805283737


¿Cómo te fue con el Challenge? Si no pudiste resolverlo, no te preocupes. ¡NumPy tiene funciones ya incorporadas que calcula algunos estadísticos sobre un arreglo!

### 1.2 Estadística con NumPy

Veamos cómo se calculan, en NumPy, el promedio, varianza y desviación estándar sobre un arreglo.

In [9]:
import numpy as np

x_s = np.array([1,2,3,1,2,2,3,4,1,2,3,4,1,2,4])

# Promedio
print(x_s.mean()) ##invoco a la funcion mean()

# Varianza
print(x_s.var(ddof = 1)) ##con el parametro ddof=1 calculo la varianza de la muestra, con 0 en caso contrario trae el del la poblacion

# Desviación estándar
print(x_s.std(ddof = 1)) ##con el parametro ddof=1 calculo el desio estandar de la muestra

### cuando el desvio standar de la muestra es parecido que al de la poblacion quiere decir q la muestra q estoy romando es representativa a la de la poblacion

2.3333333333333335
1.238095238095238
1.1126972805283735


**Para investigar**: ¿qué es el parámetro `ddof` de esa función?¿Qué pasa si no lo usas? Esta pregunta es **difícil** y requiere cierto conocimiento previo. Pero intenta, de todas formas, averiguarlo.

NumPy también puede calcular percentilos (¡googlear!), cuantilos, mínimos y máximos:

In [2]:
print(np.percentile(x_s,75))
print(np.quantile(x_s,0.5))
print(np.min(x_s))
print(np.max(x_s))

3.0
2.0
1
4


**Para investigar**: ¿Cuál es la diferencia entre `np.percentile()` y `np.quantile()`?¿Cómo obtendrías los cuartiles a partir de ellos?

### 1.3 Generación de muestras al azar

Una cosa sumamente útil que podemos hacer con NumPy es generar muestras al azar. Esto no permite simular situaciones. Por ejemplo, las tiradas de dados que aparecen en el GIF de la bitácora. Estas funciones las encontramos dentro del paquete `random` de NumPy, cuya documentación pueden encontrar [aquí](https://docs.scipy.org/doc/numpy-1.15.0/reference/routines.random.html). Veamos cómo lo podemos hacer:

In [3]:
muestras_dado = np.random.randint(1,7, size = 15) ## genero muestras al azar de numeros enteros (randint=num enteros) que van del 1 al 6 con un total de 15 observaciones
print(muestras_dado)

### También se puede
muestras_dado = np.random.choice([1,2,3,4,5,6], size = 15) #la funcion choice() se utiliza para seleccionar elementos al azar
print(muestras_dado)

[6 4 3 4 5 5 2 1 3 3 5 3 5 1 3]
[6 1 1 6 5 5 2 4 1 3 3 4 2 1 1]


### Ejercitación

**Ejercicio 1:** ¿Cuál será el promedio de los valores obtenidos al tirar muchas veces un dado?¿Te animás a averiguar - o calcular - cuánto *debería dar* antes de hacerlo? Vamos a tratar de responder esta pregunta **simulando** un dado. Para ello:
* Obtener muestras al azar de un dado usando lo que vimos anteriormente.
* Calcular su promedio y desviación estándar.

¿A partir de qué cantidad de muestras el promedio se "estabiliza"?

In [8]:
# COMPLETAR
muestras_dado = np.random.randint(1,7, size = 100000)
# Promedio
print(muestras_dado.mean())

# Varianza
print(muestras_dado.var(ddof = 1))

# Desviación estándar
print(muestras_dado.std(ddof = 1))

3.49151
2.9172970928709288
1.7080096875811124


In [8]:
### SOLUCION PROPUESTA ACAMICA
N= 1000000
muestras_dado = np.random.randint(1,7, size=N) #genero una muestra del 1 a 6 con 1000000 de observaciones
print(muestras_dado.mean(), muestras_dado.std())

3.500576 1.7081246055905879


**Ejercicio 2:** Simular un dado cargado para favorecer un valor de su elección. Por ejemplo, el seis. Para ello, consultar la ayuda de la función `np.random.choice`. ¿Cómo se modifica el promedio y la desviación estándar?

In [9]:
# COMPLETAR
muestras_dado_cargado = np.random.choice([1,2,3,4,5,6,6,6,6,6], size = 100000)
# Promedio
print(muestras_dado_cargado.mean())

# Varianza
print(muestras_dado_cargado.var(ddof = 1))

# Desviación estándar
print(muestras_dado_cargado.std(ddof = 1))

4.498
3.2553285532855334
1.8042529072404272


## 2. Pandas 

Pandas es la librería más conocida de Python para manipular y analizar datos. Está montada sobre NumPy, por lo cual muchas funcionalidades son similares. Utilizaremos Pandas para trabajar con datasets estructurados (y bueno, ¡bastante más!). 

Así como NumPy nos proveé de los *arreglos* y con ellos accedemos a muchas nuevas funcionalidades, Pandas nos provee de los *Data Frames* y las *Series*. Por lejos, el objeto más utilizados es el primero, los Data Frames. 


En esta sección empezaremos a:

1. Familiarizarnos con los Data Frames de Pandas, manipular sus funciones básicas y entender la lógica de las mismas (¡para después googlearlas!).
2. Empezar a trabajar con Datasets.

**¡Manos a la obra!**

### 2.1 Primeros pasos

Importamos la librería.

In [1]:
import pandas as pd

Vamos a crear nuestro propio dataset. Es decir, agarrar a mano los datos poblacionales de http://www.ign.gob.ar/nuestrasactividades/geografia/datosargentina/divisionpolitica y guardarlos en una variable `data_dic`.¿Qué tipo de variable es, desde el punto de vista de la programación?

**Nota**: la población está en número de habitantes y la superficie en km2.

In [2]:
data_dic = {"Jurisdiccion":["CABA","Buenos Aires","Catamarca","Chaco","Chubut","Córdoba","Jujuy","Mendoza","Misiones","Río Negro","Santa Cruz",
                           "Santa Fe"],"Poblacion":[2890151,15625084,367828,1055259,509108,3308876,673307,1738929,
                                                   1101593,638645,273964,3194537],"Superficie":
           [200,307521,102606,99633,509108,165321,53219,148827,29801,203013,243943,133007]}

Así como podemos crear arreglos a partir de listas, podemos crear Data Frames a partir de diccionarios.

In [3]:
# Creamos el DataFrame
data_pandas = pd.DataFrame(data_dic)
data_pandas

Unnamed: 0,Jurisdiccion,Poblacion,Superficie
0,CABA,2890151,200
1,Buenos Aires,15625084,307521
2,Catamarca,367828,102606
3,Chaco,1055259,99633
4,Chubut,509108,509108
5,Córdoba,3308876,165321
6,Jujuy,673307,53219
7,Mendoza,1738929,148827
8,Misiones,1101593,29801
9,Río Negro,638645,203013


**Ejercicio 1:** investigar las funciones que se implementan en la próxima celda. ¿Qué hacen? ¿Para qué piensan que pueden ser útiles?

In [None]:
# data_pandas.head() -----> muestras las primeras filas (top o cabezcera)
# data_pandas.tail() -----> seria lo opuesto a 'head', muestra las ultimas filas (tail=cola)
# data_pandas.count() ----> devuelve el numero de entradas/registros (filas) por cada columna
# data_pandas.shape ----> devuelve la forma de la matriz, ctas filas y ctas columnas
#data_pandas.dtypes ---->muestra el tipo de datos de las columnas              

**Ejercicio 2:** agregar al Dataset la información correspondiente a alguna jurisdicción faltante. Recuerden que, al tratarse de una nueva instancia, corresponde a una fila. Pista: googlear "add row to pandas dataframe" o similar. No hay una única forma de hacerlo.

In [7]:
# COMPLETAR
"I said " + ("Hey " * 2) + "Hey!"

'I said Hey Hey Hey!'

In [4]:
### mydataframe = mydataframe.append(new_row, ignore_index=True)

nueva_fila= {"Jurisdiccion":"San Luis","Poblacion":432310,"Superficie":
           77748}
data_pandas = data_pandas.append(nueva_fila, ignore_index=True)
data_pandas

Unnamed: 0,Jurisdiccion,Poblacion,Superficie
0,CABA,2890151,200
1,Buenos Aires,15625084,307521
2,Catamarca,367828,102606
3,Chaco,1055259,99633
4,Chubut,509108,509108
5,Córdoba,3308876,165321
6,Jujuy,673307,53219
7,Mendoza,1738929,148827
8,Misiones,1101593,29801
9,Río Negro,638645,203013


In [5]:
data_pandas.loc[12] = ['Salta',1214441,155488]

**Ejercicio 3:** Investigar las funciones columns e index. ¿Qué hacen? ¿Qué tipo de dato es su salida?¿A qué tipo de dato conocido se parecen?

In [None]:
# data_pandas.columns -----> trae el nombre de las columnas
# data_pandas.index -----> trae la cantidad elementos inidices empezando por 0 y la frecuencia RangeIndex(start=0, stop=16, step=1)

**Ejercicio 4:** ¿Qué hacen las siguientes operaciones?

In [None]:
 # data_pandas['Jurisdiccion'] ------> trae la columna de jurisdiccion pero no como df sino como series
# data_pandas[['Jurisdiccion','Poblacion']] ------> acota las columnas a lo que estoy llamando en los corchetes dentro del df
# data_pandas.Jurisdiccion ------> es lo mismo que el primero pero con otra forma de escribirlo y solo se puede utilizar cuando el objeto a llamar no tiene espacions por ejemplo no se podria si seria 'jurisdiccion 1'
# 'Poblacion' in data_pandas ------> dice si existe o no existe esa columna

**Ejercicio 5:** Agregar una columna al dataframe que corresponda a la densidad de cada jurisdicción. Usar la información que **ya está** en el dataset.

In [6]:
data_pandas['Densidad Jurisdiccion']= (data_pandas['Poblacion']/data_pandas['Superficie'])
data_pandas

Unnamed: 0,Jurisdiccion,Poblacion,Superficie,Densidad Jurisdiccion
0,CABA,2890151,200,14450.755
1,Buenos Aires,15625084,307521,50.809811
2,Catamarca,367828,102606,3.584859
3,Chaco,1055259,99633,10.591461
4,Chubut,509108,509108,1.0
5,Córdoba,3308876,165321,20.014856
6,Jujuy,673307,53219,12.651628
7,Mendoza,1738929,148827,11.684231
8,Misiones,1101593,29801,36.964968
9,Río Negro,638645,203013,3.145833


### 2.2 Filtrado por máscara.

Lo que veremos a continuación es **muy importante**, ya que es una operación que haremos muchas veces. Su implementación es muy parecida tanto en NumPy como en Pandas, por lo que veremos cómo hacerlo primero en NumPy luego en Pandas.

Supongamos que hacemos 50 tiradas de un dado, como hicimos en la sección anterior, pero queremos seleccionar solamente aquellas tiradas que fueron menores que cuatro. ¿Cómo podemos hacerlo?

In [10]:
muestras_dado = np.random.randint(1,7, size = 50)
print(muestras_dado)

[1 2 5 4 1 4 2 6 1 5 3 4 5 3 4 1 3 5 1 6 6 3 1 3 5 4 2 2 4 1 5 2 5 1 5 1 6
 4 1 6 2 3 1 6 6 2 3 5 1 6]


Lo que podemos hacer es crear una máscara:

In [11]:
mascara = muestras_dado < 4
print(mascara)
print(type(mascara))

[ True  True False False  True False  True False  True False  True False
 False  True False  True  True False  True False False  True  True  True
 False False  True  True False  True False  True False  True False  True
 False False  True False  True  True  True False False  True  True False
  True False]
<class 'numpy.ndarray'>


Notar que `mascara` es un arreglo de booleanos, con `True` en los valores que cumplen la condición y `False` donde no. Una vez que creamos la máscara, podemos usarla para seleccionar de nuestro arreglo aquellos elementos que queríamos:

In [12]:
print(muestras_dado[mascara])

[1 2 1 2 1 3 3 1 3 1 3 1 3 2 2 1 2 1 1 1 2 3 1 2 3 1]


Notar que con `mascara.sum()` podemos contar cuántas veces se cumple la condición que pedimos.

In [13]:
print(mascara.sum())

26


A veces, podemos hacerlo en una sola línea. Supongamos que queremos aquellas tiradas donde salió seis:

In [45]:
print(muestras_dado[muestras_dado == 6])

[6 6 6 6 6 6]


**En Pandas**

Supongamos que queremos seleccionar aquellas jurisdicciones cuya población sea mayor a un millón de habitantes. Podemos hacerlo de la siguiente forma:

In [14]:
data_pandas[data_pandas.Jurisdiccion == 'CABA']

Unnamed: 0,Jurisdiccion,Poblacion,Superficie,Densidad Jurisdiccion
0,CABA,2890151,200,14450.755


¿Y si queremos seleccionar aquellas jurisdicciones cuya población sea mayor a un millón de habitantes **y** su superficie menor a cien mil km2?

In [47]:
mascara = np.logical_and(data_pandas.Poblacion > 1000000, data_pandas.Superficie < 100000)
data_pandas[mascara]

### Es equivalente
# data_pandas[(data_pandas.Poblacion > 1000000) & (data_pandas.Superficie < 100000)]

Unnamed: 0,Jurisdiccion,Poblacion,Superficie,Densidad Jurisdiccion
0,CABA,2890151,200,14450.755
3,Chaco,1055259,99633,10.591461
8,Misiones,1101593,29801,36.964968


**Ejercicio:** seleccionar aquellas jurisdicciones cuya población sea menor a 500 mil habitantes **o** su superficie mayor a cien mil km2.

In [48]:
# COMPLETAR
mascara_2= np.logical_or(data_pandas.Poblacion < 500000, data_pandas.Superficie > 100000)
data_pandas[mascara_2]

Unnamed: 0,Jurisdiccion,Poblacion,Superficie,Densidad Jurisdiccion
1,Buenos Aires,15625084,307521,50.809811
2,Catamarca,367828,102606,3.584859
4,Chubut,509108,509108,1.0
5,Córdoba,3308876,165321,20.014856
7,Mendoza,1738929,148827,11.684231
9,Río Negro,638645,203013,3.145833
10,Santa Cruz,273964,243943,1.123066
11,Santa Fe,3194537,133007,24.017811
12,San Luis,432310,77748,5.5604


## 2.3 Iris dataset

¿Pero siempre vamos a tener que crear un diccionario y luego pasarlo a un Data Frame? Evidentemente, esta opción no parece muy cómoda, en particular para conjuntos de datos de gran volumen. Veamos cómo trabajamos con un conjunto de datos preexistente.


**Aviso**: Esta sección es, en realidad, un ejercicio. Para hacerlo, debes ir googleando y consultando la documentación que consideres apropiada. Obviamente, también puedes consultar a tu mentor/a.

Vamos a trabajar con el Iris Dataset, probablemente uno de los conjuntos de datos más famosos, ya que muchos ejemplos se realizan con él. Es un dataset sencillo pero ilustrativo.


1. Abrir con Pandas el archivo 'DS_Bitácora_04_iris.csv' (¿Qué tipo de archivo es?) e imprimir sus primeros cinco elementos. Pista: `pd.read...()`.

In [20]:
# COMPLETAR
df= pd.read_csv('ds_04_iris.csv')
df

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...,...
145,146,6.7,3.0,5.2,2.3,Iris-virginica
146,147,6.3,2.5,5.0,1.9,Iris-virginica
147,148,6.5,3.0,5.2,2.0,Iris-virginica
148,149,6.2,3.4,5.4,2.3,Iris-virginica


In [57]:
df.head(5)

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa


2. ¿Cuántas columnas (features) tiene?¿Cuáles son sus nombres?¿Y cuántas filas (instancias)? Pistas: `shape`, `columns`.

In [61]:
# COMPLETAR
df.columns


Index(['Id', 'SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm',
       'Species'],
      dtype='object')

In [63]:
df.shape

(150, 6)

3. Obtener el valor medio y desviación estándar de cada columna. ¿Hay alguna función de Pandas que nos dé aún más estadísticos? Pistas: `describe`.

In [65]:
# COMPLETAR
print(df.mean())
print(df.var(ddof = 1))

# Desviación estándar
print(df.std(ddof = 1))

Id               75.500000
SepalLengthCm     5.843333
SepalWidthCm      3.054000
PetalLengthCm     3.758667
PetalWidthCm      1.198667
dtype: float64
Id               1887.500000
SepalLengthCm       0.685694
SepalWidthCm        0.188004
PetalLengthCm       3.113179
PetalWidthCm        0.582414
dtype: float64
Id               43.445368
SepalLengthCm     0.828066
SepalWidthCm      0.433594
PetalLengthCm     1.764420
PetalWidthCm      0.763161
dtype: float64


In [69]:
df.describe ()

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm
count,150.0,150.0,150.0,150.0,150.0
mean,75.5,5.843333,3.054,3.758667,1.198667
std,43.445368,0.828066,0.433594,1.76442,0.763161
min,1.0,4.3,2.0,1.0,0.1
25%,38.25,5.1,2.8,1.6,0.3
50%,75.5,5.8,3.0,4.35,1.3
75%,112.75,6.4,3.3,5.1,1.8
max,150.0,7.9,4.4,6.9,2.5


4. ¿Creen que todas las columnas tienen información? *Tirar* la columna que crean que está demás. Dependiendo de la función que uses - hay más de una opción -, tal vez tengas que prestar **mucha** atención al argumento `inplace`. Pista: `drop`, `del`.

In [23]:
# COMPLETAR
df_2= df.drop(columns=['Id'], inplace=False)

In [22]:
df

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...,...
145,146,6.7,3.0,5.2,2.3,Iris-virginica
146,147,6.3,2.5,5.0,1.9,Iris-virginica
147,148,6.5,3.0,5.2,2.0,Iris-virginica
148,149,6.2,3.4,5.4,2.3,Iris-virginica


5. ¿Para qué sirven `loc` e `iloc`? Crea algunos ejemplos.

In [77]:
### Para esto podemos usar el método .loc() que es para seleccionar por etiquetas o por los nombres de la columna.
#### df.loc(1,'Id')
### método .iloc() que sería par seleccionar la posición de la columna, por ejemplo
### df.iloc [1,0]

df.loc[0,'SepalLengthCm']

5.1

In [79]:
df.iloc[0,1]

5.1