# Estadística Descriptiva y Pandas

El objetivo del siguiente notebook es, además de repasar conceptos de estadística, que sigas aprendiendo a operar con Numpy y que, además, incorpores Pandas a tu caja de herramientas.

## 1. Estadística Descriptiva

La Estadística Descriptiva nos sirve para comenzar a analizar y entender un conjunto de datos. En el caso de datos numéricos, lo hace obteniendo *valores estadísticos* que, de alguna forma, reemplazan a nuestros datos. Por ejemplo, es muy difícil leer y *entender* la edad de 1000 personas. Pero con un grupo reducido de valores estadísticos (mínimo, máximo, media y desviación estándar, etc.) podemos aproximarnos a ese conjunto de una manera mucho más comprensible. Veamos dos medidas muy importantes:

**Promedio**

Dados $n$ números $x_1,x_2,...,x_n$, el promedio o media es 

$$\overline{x} = \frac{1}{n}\sum_{i=1}^{n} x_i = \frac{x_1 + x_2 + ... + x_n}{n}$$

**Desviación Estándar**

La varianza y la desviación estándar nos dan una idea de cuán "dispersos" están los valores con respecto a su promedio.

$$ Var = \frac{\sum_{i=1}^{n} (x_i -\overline{x})^2}{n - 1}$$

La desviación estándar es la raiz cuadrada de la varianza. En general se usa la letra griega $\sigma$ para representarla o las siglas $SD$:

$$ SD = \sqrt{\frac{\sum_{i=1}^{n} (x_i -\overline{x})^2}{n - 1}}$$

$$ SD = \sqrt{Var}$$


**Comentarios**:
1. Dado un conjunto de números, el promedio suele ser considerado el número más representativo de ese conjunto. Esto no siempre es así. Pensá o googleá por qué.
2. Al conjunto de números $x_1,...,x_n$ los pueden encontrar por el nombre de *población* o *muestra* (¡Ojo que no estamos diciendo que *población* y *muestra* sean lo mismo!).

### Challenge:

Vamos a utilizar de excusa la estadística descriptiva para hacer un desafío de programación:

Dadas la siguiente lista de números, escribir una rutina que calcule su promedio, su varianza y desviación estándar. **Pistas:**
* Probablemente te sea muy útil usar lo que hiciste para ejercicios anteriores.
* Para calcular la varianza y la desviación estándar, usa el resultado que obtuviste al calcular el promedio.

In [10]:
import numpy as np
import pandas as pd

x_s = [1,2,3,1,2,2,3,4,1,2,3,4,1,2,4]
# COMPLETAR
array = np.array(x_s)
print (array)

promedio = np.mean(array) #para sacar el promedio
print (promedio)

#forma larga
suma = sum(array)
print (suma)

promedio_formalarga = suma/len(array)
print (promedio_formalarga)

[1 2 3 1 2 2 3 4 1 2 3 4 1 2 4]
2.3333333333333335
35
2.3333333333333335


In [26]:
# COMPLETAR
#pacar varianza a la antigua
x_s = np.array([1,2,3,1,2,2,3,4,1,2,3,4,1,2,4])
suma = sum(array)
promedio_formalarga = suma/len(array)

suma_varianza = x_s - promedio_formalarga
print (suma_varianza)
suma_varianza_cuadrado = (suma_varianza)**2
print (suma_varianza_cuadrado)

suma_varianza_cuadrado = sum((suma_varianza)**2)
print (suma_varianza_cuadrado)

varianza = (suma_varianza_cuadrado)/ (len(x_s) - 1)  #si se quita el -1 quedan 0 grados de libertad ddof = 0

print (varianza)

#desviación estándar
desviación_estandar = varianza**(1/2)
print (desviación_estandar)

[-1.33333333 -0.33333333  0.66666667 -1.33333333 -0.33333333 -0.33333333
  0.66666667  1.66666667 -1.33333333 -0.33333333  0.66666667  1.66666667
 -1.33333333 -0.33333333  1.66666667]
[1.77777778 0.11111111 0.44444444 1.77777778 0.11111111 0.11111111
 0.44444444 2.77777778 1.77777778 0.11111111 0.44444444 2.77777778
 1.77777778 0.11111111 2.77777778]
17.333333333333336
1.2380952380952384
1.1126972805283737


¿Cómo te fue con el Challenge? Si no pudiste resolverlo, no te preocupes. ¡NumPy tiene funciones ya incorporadas que calcula algunos estadísticos sobre un arreglo!

### 1.2 Estadística con NumPy

Veamos cómo se calculan, en NumPy, el promedio, varianza y desviación estándar sobre un arreglo.

In [24]:
import numpy as np

x_s = np.array([1,2,3,1,2,2,3,4,1,2,3,4,1,2,4])

# Promedio
print(x_s.mean())

#ddof son los grados de libretad: Means Delta Degrees of Freedom. 
#The divisor used in calculations is N - ddof, where N represents the number of elements. By default ddof is zero.

# Varianza
print(x_s.var(ddof = 1))   

# Desviación estándar
print(x_s.std(ddof = 1))

#valores iguales a los obtenidos de manera larga sin restar el -1 de la varianza
# Varianza
print(x_s.var())

# Desviación estándar
print(x_s.std())

2.3333333333333335
1.238095238095238
1.1126972805283735
1.1555555555555554
1.0749676997731399


**Para investigar**: ¿qué es el parámetro `ddof` de esa función?¿Qué pasa si no lo usas? Esta pregunta es **difícil** y requiere cierto conocimiento previo. Pero intenta, de todas formas, averiguarlo.

NumPy también puede calcular percentilos (¡googlear!), cuantilos, mínimos y máximos:

In [25]:
#Los cuartiles, que dividen a la distribución en cuatro partes, corresponden a los cuantiles 0,25; 0,50 y 0,75 
#0,75 sería el tercer cuartil, 0,50 el segundo y 0,25 el primero
#Los quintiles, que dividen a la distribución en cinco partes, corresponden a los cuantiles 0,20; 0,40; 0,60 y 0,80

print(np.percentile(x_s,75)) #donde se corta el 75% de los datos
print(np.quantile(x_s,0.5))  #donde se corta el 50% de los datos (mediana)
print(np.min(x_s))
print(np.max(x_s))

3.0
2.0
1
4


**Para investigar**: ¿Cuál es la diferencia entre `np.percentile()` y `np.quantile()`?¿Cómo obtendrías los cuartiles a partir de ellos?

### 1.3 Generación de muestras al azar

Una cosa sumamente útil que podemos hacer con NumPy es generar muestras al azar. Esto no permite simular situaciones. Por ejemplo, las tiradas de dados que aparecen en el GIF de la bitácora. Estas funciones las encontramos dentro del paquete `random` de NumPy, cuya documentación pueden encontrar [aquí](https://docs.scipy.org/doc/numpy-1.15.0/reference/routines.random.html). Veamos cómo lo podemos hacer:

In [29]:
muestras_dado = np.random.randint(1,7, size = 15)
print(muestras_dado)

### También se puede
muestras_dado = np.random.choice([1,2,3,4,5,6], size = 15)
print(muestras_dado)

[3 3 5 3 1 5 4 6 1 1 2 6 2 5 4]
[1 1 6 5 6 2 4 2 5 2 1 5 3 3 5]


### Ejercitación

**Ejercicio 1:** ¿Cuál será el promedio de los valores obtenidos al tirar muchas veces un dado?¿Te animás a averiguar - o calcular - cuánto *debería dar* antes de hacerlo? Vamos a tratar de responder esta pregunta **simulando** un dado. Para ello:
* Obtener muestras al azar de un dado usando lo que vimos anteriormente.
* Calcular su promedio y desviación estándar.

¿A partir de qué cantidad de muestras el promedio se "estabiliza"?

In [170]:
# COMPLETAR
muestras_dado = np.random.choice([1,2,3,4,5,6], size = 100)
print(muestras_dado)

#promedio
print(muestras_dado.mean())

#desviación estándar
print(muestras_dado.std(ddof = 1))

[2 1 6 3 1 3 1 4 3 1 6 1 3 1 4 5 3 2 1 5 6 6 6 3 5 4 3 6 2 4 6 3 4 4 6 6 3
 3 4 1 4 2 3 1 3 2 6 5 5 2 3 1 2 6 3 1 1 1 1 5 5 3 3 3 4 6 4 6 4 5 1 6 4 4
 5 6 5 2 5 4 4 4 3 1 3 2 6 1 4 6 2 5 1 4 5 1 1 6 6 2]
3.5
1.760968512214259


**Ejercicio 2:** Simular un dado cargado para favorecer un valor de su elección. Por ejemplo, el seis. Para ello, consultar la ayuda de la función `np.random.choice`. ¿Cómo se modifica el promedio y la desviación estándar?

In [171]:
# COMPLETAR
muestras_dado = np.random.choice([1,2,3,4,5,6], size = 100, p=[0.1, 0.1, 0.1, 0.1, 0.1, 0.5])
print (muestras_dado)

print(muestras_dado.mean())
print(muestras_dado.std(ddof = 1))

[6 6 2 4 6 2 6 3 1 4 6 4 6 3 6 6 6 3 3 6 6 5 4 2 1 6 5 1 2 4 1 4 3 6 5 6 6
 6 6 6 2 2 3 6 3 2 3 6 5 6 3 4 6 6 2 6 6 6 6 6 6 6 3 6 4 6 3 6 6 6 6 4 2 6
 3 3 6 5 6 1 6 6 6 6 5 6 6 4 5 6 1 1 1 6 5 6 2 6 2 4]
4.47
1.7721470171814329


## 2. Pandas 

Pandas es la librería más conocida de Python para manipular y analizar datos. Está montada sobre NumPy, por lo cual muchas funcionalidades son similares. Utilizaremos Pandas para trabajar con datasets estructurados (y bueno, ¡bastante más!). 

Así como NumPy nos proveé de los *arreglos* y con ellos accedemos a muchas nuevas funcionalidades, Pandas nos provee de los *Data Frames* y las *Series*. Por lejos, el objeto más utilizados es el primero, los Data Frames. 


En esta sección empezaremos a:

1. Familiarizarnos con los Data Frames de Pandas, manipular sus funciones básicas y entender la lógica de las mismas (¡para después googlearlas!).
2. Empezar a trabajar con Datasets.

**¡Manos a la obra!**

### 2.1 Primeros pasos

Importamos la librería.

In [48]:
import pandas as pd

Vamos a crear nuestro propio dataset. Es decir, agarrar a mano los datos poblacionales de http://www.ign.gob.ar/nuestrasactividades/geografia/datosargentina/divisionpolitica y guardarlos en una variable `data_dic`.¿Qué tipo de variable es, desde el punto de vista de la programación?

**Nota**: la población está en número de habitantes y la superficie en km2.

In [50]:
data_dic = {"Jurisdiccion":["CABA","Buenos Aires","Catamarca","Chaco","Chubut","Córdoba","Jujuy","Mendoza","Misiones","Río Negro","Santa Cruz",
                           "Santa Fe"],"Poblacion":[2890151,15625084,367828,1055259,509108,3308876,673307,1738929,
                                                   1101593,638645,273964,3194537],"Superficie":
           [200,307521,102606,99633,509108,165321,53219,148827,29801,203013,243943,133007]}

print (data_dic)
print (type (data_dic))

{'Jurisdiccion': ['CABA', 'Buenos Aires', 'Catamarca', 'Chaco', 'Chubut', 'Córdoba', 'Jujuy', 'Mendoza', 'Misiones', 'Río Negro', 'Santa Cruz', 'Santa Fe'], 'Poblacion': [2890151, 15625084, 367828, 1055259, 509108, 3308876, 673307, 1738929, 1101593, 638645, 273964, 3194537], 'Superficie': [200, 307521, 102606, 99633, 509108, 165321, 53219, 148827, 29801, 203013, 243943, 133007]}
<class 'dict'>


Así como podemos crear arreglos a partir de listas, podemos crear Data Frames a partir de diccionarios.

In [52]:
# Creamos el DataFrame
data_pandas = pd.DataFrame(data_dic)
data_pandas

Unnamed: 0,Jurisdiccion,Poblacion,Superficie
0,CABA,2890151,200
1,Buenos Aires,15625084,307521
2,Catamarca,367828,102606
3,Chaco,1055259,99633
4,Chubut,509108,509108
5,Córdoba,3308876,165321
6,Jujuy,673307,53219
7,Mendoza,1738929,148827
8,Misiones,1101593,29801
9,Río Negro,638645,203013


**Ejercicio 1:** investigar las funciones que se implementan en la próxima celda. ¿Qué hacen? ¿Para qué piensan que pueden ser útiles?

In [54]:
#data_pandas.head()
#data_pandas.tail()
#data_pandas.count()
#data_pandas.shape

In [57]:
data_pandas.head(3) # Muestra primeras filas

Unnamed: 0,Jurisdiccion,Poblacion,Superficie
0,CABA,2890151,200
1,Buenos Aires,15625084,307521
2,Catamarca,367828,102606


In [59]:
data_pandas.tail(3) # Muestra últimas filas

Unnamed: 0,Jurisdiccion,Poblacion,Superficie
9,Río Negro,638645,203013
10,Santa Cruz,273964,243943
11,Santa Fe,3194537,133007


In [60]:
data_pandas.count() # Número de elementos

Jurisdiccion    12
Poblacion       12
Superficie      12
dtype: int64

In [61]:
data_pandas.shape # Número de filas y número de columnas

(12, 3)

**Ejercicio 2:** agregar al Dataset la información correspondiente a alguna jurisdicción faltante. Recuerden que, al tratarse de una nueva instancia, corresponde a una fila. Pista: googlear "add row to pandas dataframe" o similar. No hay una única forma de hacerlo.

In [81]:
# COMPLETAR
# Diccionario viejo

data_pandas = pd.DataFrame(data_dic)

# Primero crear dataframe que queremos agregar como un diccionario 
data_dic2 = {"Jurisdiccion":["San Juan","San Luis"],"Poblacion":[681055,432310],"Superficie":
           [89651,76748]}

In [79]:
# Visualizar el dataframe que se va a adicionar
data_pandas2 = pd.DataFrame(data_dic2)
data_pandas2

Unnamed: 0,Jurisdiccion,Poblacion,Superficie
0,San Juan,681055,89651
1,San Luis,432310,76748


In [83]:
# Agregar el dataframe

data_pandas.append(data_pandas2, ignore_index=True) 
#ignore_index=True para que el orden de las lineas adicionales no sea 0 y 1, si no 12 y 13 (los siguientes)

Unnamed: 0,Jurisdiccion,Poblacion,Superficie
0,CABA,2890151,200
1,Buenos Aires,15625084,307521
2,Catamarca,367828,102606
3,Chaco,1055259,99633
4,Chubut,509108,509108
5,Córdoba,3308876,165321
6,Jujuy,673307,53219
7,Mendoza,1738929,148827
8,Misiones,1101593,29801
9,Río Negro,638645,203013


**Ejercicio 3:** Investigar las funciones columns e index. ¿Qué hacen? ¿Qué tipo de dato es su salida?¿A qué tipo de dato conocido se parecen?

In [86]:
#data_pandas.columns
#data_pandas.index

data_pandas.columns
print (data_pandas.columns)
print(type(data_pandas.columns))

data_pandas.index
print(data_pandas.index)
print(type(data_pandas.index))  # Número del indice va de 0 a 13, de uno en uno

Index(['Jurisdiccion', 'Poblacion', 'Superficie'], dtype='object')
<class 'pandas.core.indexes.base.Index'>
RangeIndex(start=0, stop=12, step=1)
<class 'pandas.core.indexes.range.RangeIndex'>


**Ejercicio 4:** ¿Qué hacen las siguientes operaciones?

In [None]:
# data_pandas['Jurisdiccion']
# data_pandas[['Jurisdiccion','Poblacion']]
# data_pandas.Jurisdiccion
# 'Poblacion' in data_pandas

In [87]:
data_pandas['Jurisdiccion']

0             CABA
1     Buenos Aires
2        Catamarca
3            Chaco
4           Chubut
5          Córdoba
6            Jujuy
7          Mendoza
8         Misiones
9        Río Negro
10      Santa Cruz
11        Santa Fe
Name: Jurisdiccion, dtype: object

In [88]:
data_pandas[['Jurisdiccion','Poblacion']]

Unnamed: 0,Jurisdiccion,Poblacion
0,CABA,2890151
1,Buenos Aires,15625084
2,Catamarca,367828
3,Chaco,1055259
4,Chubut,509108
5,Córdoba,3308876
6,Jujuy,673307
7,Mendoza,1738929
8,Misiones,1101593
9,Río Negro,638645


In [89]:
data_pandas.Jurisdiccion

0             CABA
1     Buenos Aires
2        Catamarca
3            Chaco
4           Chubut
5          Córdoba
6            Jujuy
7          Mendoza
8         Misiones
9        Río Negro
10      Santa Cruz
11        Santa Fe
Name: Jurisdiccion, dtype: object

In [90]:
'Poblacion' in data_pandas

True

**Ejercicio 5:** Agregar una columna al dataframe que corresponda a la densidad de cada jurisdicción. Usar la información que **ya está** en el dataset.

In [94]:
# COMPLETAR
data_pandas['Densidad'] = data_pandas['Poblacion']/data_pandas['Superficie']
data_pandas

Unnamed: 0,Jurisdiccion,Poblacion,Superficie,Densidad
0,CABA,2890151,200,14450.755
1,Buenos Aires,15625084,307521,50.809811
2,Catamarca,367828,102606,3.584859
3,Chaco,1055259,99633,10.591461
4,Chubut,509108,509108,1.0
5,Córdoba,3308876,165321,20.014856
6,Jujuy,673307,53219,12.651628
7,Mendoza,1738929,148827,11.684231
8,Misiones,1101593,29801,36.964968
9,Río Negro,638645,203013,3.145833


### 2.2 Filtrado por máscara.

Lo que veremos a continuación es **muy importante**, ya que es una operación que haremos muchas veces. Su implementación es muy parecida tanto en NumPy como en Pandas, por lo que veremos cómo hacerlo primero en NumPy luego en Pandas.

Supongamos que hacemos 50 tiradas de un dado, como hicimos en la sección anterior, pero queremos seleccionar solamente aquellas tiradas que fueron menores que cuatro. ¿Cómo podemos hacerlo?

In [95]:
muestras_dado = np.random.randint(1,7, size = 50)
print(muestras_dado)

[1 1 4 6 6 1 3 5 1 3 2 6 5 6 2 6 6 2 6 2 6 2 6 4 4 4 3 2 3 1 6 5 3 2 6 3 2
 5 3 2 2 3 5 5 3 6 1 1 2 2]


Lo que podemos hacer es crear una máscara:

In [96]:
mascara = muestras_dado < 4
print(mascara)
print(type(mascara))

[ True  True False False False  True  True False  True  True  True False
 False False  True False False  True False  True False  True False False
 False False  True  True  True  True False False  True  True False  True
  True False  True  True  True  True False False  True False  True  True
  True  True]
<class 'numpy.ndarray'>


Notar que `mascara` es un arreglo de booleanos, con `True` en los valores que cumplen la condición y `False` donde no. Una vez que creamos la máscara, podemos usarla para seleccionar de nuestro arreglo aquellos elementos que queríamos:

In [97]:
print(muestras_dado[mascara])

[1 1 1 3 1 3 2 2 2 2 2 3 2 3 1 3 2 3 2 3 2 2 3 3 1 1 2 2]


Notar que con `mascara.sum()` podemos contar cuántas veces se cumple la condición que pedimos.

In [98]:
print(mascara.sum())

28


A veces, podemos hacerlo en una sola línea. Supongamos que queremos aquellas tiradas donde salió seis:

In [99]:
print(muestras_dado[muestras_dado == 6])

[6 6 6 6 6 6 6 6 6 6 6 6]


**En Pandas**

Supongamos que queremos seleccionar aquellas jurisdicciones cuya población sea mayor a un millón de habitantes. Podemos hacerlo de la siguiente forma:

In [100]:
data_pandas[data_pandas.Poblacion > 1000000]

Unnamed: 0,Jurisdiccion,Poblacion,Superficie,Densidad
0,CABA,2890151,200,14450.755
1,Buenos Aires,15625084,307521,50.809811
3,Chaco,1055259,99633,10.591461
5,Córdoba,3308876,165321,20.014856
7,Mendoza,1738929,148827,11.684231
8,Misiones,1101593,29801,36.964968
11,Santa Fe,3194537,133007,24.017811


¿Y si queremos seleccionar aquellas jurisdicciones cuya población sea mayor a un millón de habitantes **y** su superficie menor a cien mil km2?

In [101]:
### mascara = np.logical_and(data_pandas.Poblacion > 1000000, data_pandas.Superficie < 100000)
### data_pandas[mascara]

#es equivalente en Pandas
data_pandas[(data_pandas.Poblacion > 1000000) & (data_pandas.Superficie < 100000)]

Unnamed: 0,Jurisdiccion,Poblacion,Superficie,Densidad
0,CABA,2890151,200,14450.755
3,Chaco,1055259,99633,10.591461
8,Misiones,1101593,29801,36.964968


**Ejercicio:** seleccionar aquellas jurisdicciones cuya población sea menor a 500 mil habitantes **o** su superficie mayor a cien mil km2.

In [180]:
# COMPLETAR
data_pandas[(data_pandas.Poblacion < 500000) | (data_pandas.Superficie > 100000)] 

#and es: &, or es: |, not es: ~ 

Unnamed: 0,Jurisdiccion,Poblacion,Superficie,Densidad
1,Buenos Aires,15625084,307521,50.809811
2,Catamarca,367828,102606,3.584859
4,Chubut,509108,509108,1.0
5,Córdoba,3308876,165321,20.014856
7,Mendoza,1738929,148827,11.684231
9,Río Negro,638645,203013,3.145833
10,Santa Cruz,273964,243943,1.123066
11,Santa Fe,3194537,133007,24.017811


In [185]:
# Ordenar valores de menor a mayor
data_pandas.sort_values('Poblacion')

Unnamed: 0,Jurisdiccion,Poblacion,Superficie,Densidad
10,Santa Cruz,273964,243943,1.123066
2,Catamarca,367828,102606,3.584859
4,Chubut,509108,509108,1.0
9,Río Negro,638645,203013,3.145833
6,Jujuy,673307,53219,12.651628
3,Chaco,1055259,99633,10.591461
8,Misiones,1101593,29801,36.964968
7,Mendoza,1738929,148827,11.684231
0,CABA,2890151,200,14450.755
11,Santa Fe,3194537,133007,24.017811


In [188]:
data_pandas.groupby("Jurisdiccion").size()

Jurisdiccion
Buenos Aires    1
CABA            1
Catamarca       1
Chaco           1
Chubut          1
Córdoba         1
Jujuy           1
Mendoza         1
Misiones        1
Río Negro       1
Santa Cruz      1
Santa Fe        1
dtype: int64

## 2.3 Iris dataset

¿Pero siempre vamos a tener que crear un diccionario y luego pasarlo a un Data Frame? Evidentemente, esta opción no parece muy cómoda, en particular para conjuntos de datos de gran volumen. Veamos cómo trabajamos con un conjunto de datos preexistente.


**Aviso**: Esta sección es, en realidad, un ejercicio. Para hacerlo, debes ir googleando y consultando la documentación que consideres apropiada. Obviamente, también puedes consultar a tu mentor/a.

Vamos a trabajar con el Iris Dataset, probablemente uno de los conjuntos de datos más famosos, ya que muchos ejemplos se realizan con él. Es un dataset sencillo pero ilustrativo.


1. Abrir con Pandas el archivo 'DS_Bitácora_04_iris.csv' (¿Qué tipo de archivo es?) e imprimir sus primeros cinco elementos. Pista: `pd.read...()`.

In [115]:
# COMPLETAR
pd.read_csv ("DS_Bitácora_04_Iris.csv") 
# Abrir archivo en formato csv

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...,...
145,146,6.7,3.0,5.2,2.3,Iris-virginica
146,147,6.3,2.5,5.0,1.9,Iris-virginica
147,148,6.5,3.0,5.2,2.0,Iris-virginica
148,149,6.2,3.4,5.4,2.3,Iris-virginica


In [153]:
df_iris = pd.read_csv ("DS_Bitácora_04_Iris.csv")
df_iris

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...,...
145,146,6.7,3.0,5.2,2.3,Iris-virginica
146,147,6.3,2.5,5.0,1.9,Iris-virginica
147,148,6.5,3.0,5.2,2.0,Iris-virginica
148,149,6.2,3.4,5.4,2.3,Iris-virginica


2. ¿Cuántas columnas (features) tiene?¿Cuáles son sus nombres?¿Y cuántas filas (instancias)? Pistas: `shape`, `columns`.

In [154]:
# COMPLETAR
print(df_iris.shape)
print(df_iris.columns)

(150, 6)
Index(['Id', 'SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm',
       'Species'],
      dtype='object')


3. Obtener el valor medio y desviación estándar de cada columna. ¿Hay alguna función de Pandas que nos dé aún más estadísticos? Pistas: `describe`.

In [155]:
df_iris.describe () # Estadística descriptiva

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm
count,150.0,150.0,150.0,150.0,150.0
mean,75.5,5.843333,3.054,3.758667,1.198667
std,43.445368,0.828066,0.433594,1.76442,0.763161
min,1.0,4.3,2.0,1.0,0.1
25%,38.25,5.1,2.8,1.6,0.3
50%,75.5,5.8,3.0,4.35,1.3
75%,112.75,6.4,3.3,5.1,1.8
max,150.0,7.9,4.4,6.9,2.5


In [138]:
df_iris.mean

Id               75.500000
SepalLengthCm     5.843333
SepalWidthCm      3.054000
PetalLengthCm     3.758667
PetalWidthCm      1.198667
dtype: float64

In [139]:
df_iris.std ()

Id               43.445368
SepalLengthCm     0.828066
SepalWidthCm      0.433594
PetalLengthCm     1.764420
PetalWidthCm      0.763161
dtype: float64

4. ¿Creen que todas las columnas tienen información? *Tirar* la columna que crean que está demás. Dependiendo de la función que uses - hay más de una opción -, tal vez tengas que prestar **mucha** atención al argumento `inplace`. Pista: `drop`, `del`.

In [156]:
# COMPLETAR
del df_iris["Id"] 

In [174]:
# En vez de borrar, crear una dataframe con lo que quiero incluir
nuevo_df_iris=df_iris[["Species","PetalWidthCm","PetalLengthCm"]]
nuevo_df_iris

Unnamed: 0,Species,PetalWidthCm,PetalLengthCm
0,Iris-setosa,0.2,1.4
1,Iris-setosa,0.2,1.4
2,Iris-setosa,0.2,1.3
3,Iris-setosa,0.2,1.5
4,Iris-setosa,0.2,1.4
...,...,...,...
145,Iris-virginica,2.3,5.2
146,Iris-virginica,1.9,5.0
147,Iris-virginica,2.0,5.2
148,Iris-virginica,2.3,5.4


In [157]:
df_iris.describe ()

Unnamed: 0,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


5. ¿Para qué sirven `loc` e `iloc`? Crea algunos ejemplos.

In [164]:
df_iris.iloc [0:5, 2:5] 
# Seleccionar las primeras 5 filas
# Teniendo en cuenta las columnas de la 2 a la 5

Unnamed: 0,PetalLengthCm,PetalWidthCm,Species
0,1.4,0.2,Iris-setosa
1,1.4,0.2,Iris-setosa
2,1.3,0.2,Iris-setosa
3,1.5,0.2,Iris-setosa
4,1.4,0.2,Iris-setosa


In [168]:
df_iris.loc [0:5]

Unnamed: 0,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
5,5.4,3.9,1.7,0.4,Iris-setosa


In [172]:
print(df_iris.loc[:,["Species"]])

            Species
0       Iris-setosa
1       Iris-setosa
2       Iris-setosa
3       Iris-setosa
4       Iris-setosa
..              ...
145  Iris-virginica
146  Iris-virginica
147  Iris-virginica
148  Iris-virginica
149  Iris-virginica

[150 rows x 1 columns]
