# Pandas 
Esta notebook tiene dos objetivos:

1. El principal es familiarizarse con los DataFrames de Pandas, manipular sus funciones básicas y entender la lógica de las mismas (para después googlearlas!).
2. Empezar a trabajar con Datasets (más) reales.

### ¡Manos a la obra!
Primero, importamos las librerías necesarias y los comandos que son necesarios ejecutar una única vez.

In [2]:
import pandas as pd

Como primer paso, vamos a crear nuestro propio dataset. Es decir, agarrar a mano los datos poblacionales de http://www.ign.gob.ar/nuestrasactividades/geografia/datosargentina/divisionpolitica y guardarlos en una variable "data_dic".¿Qué tipo de variable es?

**Nota**: la población está en número de habitantes y la superficie en km2.

In [3]:
data_dic = {"Jurisdiccion":["CABA","Buenos Aires","Catamarca","Chaco","Chubut","Córdoba","Jujuy","Mendoza","Misiones","Río Negro","Santa Cruz",
                           "Santa Fe"],"Poblacion":[2890151,15625084,367828,1055259,99633,3308876,673307,1738929,
                                                   1101593,638645,273964,3194537],"Superficie":
           [200,307521,102606,99633,509108,165321,53219,148827,29801,203013,243943,133007]}

In [4]:
# Creamos el DataFrame
data_pandas = pd.DataFrame(data_dic)
data_pandas

Unnamed: 0,Jurisdiccion,Poblacion,Superficie
0,CABA,2890151,200
1,Buenos Aires,15625084,307521
2,Catamarca,367828,102606
3,Chaco,1055259,99633
4,Chubut,99633,509108
5,Córdoba,3308876,165321
6,Jujuy,673307,53219
7,Mendoza,1738929,148827
8,Misiones,1101593,29801
9,Río Negro,638645,203013


**Ejercicio 1:** Haciéndonos amigues de los DF.  
* ¿Qué tipo de variable es "data_dic"?
* Investigar las funciones que se implementan en la próxima celda. ¿Qué hacen? ¿Para qué piensan que pueden ser útiles?

In [5]:
data_pandas.head()# Retorna los primeros n elementos que tenga el dataset
data_pandas.tail()# Retorna los ultimos n elementos que tenta el dataset
data_pandas.count() # Retorna el conteo de todos los elementos existentes
data_pandas.shape # Retorna la dimencion del dataset

(12, 3)

**Ejercicio 2:** Agregar al Dataset la información correspondiente a alguna jurisdicción faltante. Recuerden que, al tratarse de una nueva instancia, corresponde a una fila. Pista: googlear "add row to pandas dataframe" o similar.

In [6]:
lista_valores = {"Jurisdiccion":"Santiago del Estero",
                 "Poblacion":223465,
                 "Superficie":29801}
data_valores_nuevos = pd.DataFrame(lista_valores, index=[data_pandas.shape[0]])
pd.concat([data_pandas,data_valores_nuevos], axis=0)
# data_pandas.append(data_valores_nuevos)

Unnamed: 0,Jurisdiccion,Poblacion,Superficie
0,CABA,2890151,200
1,Buenos Aires,15625084,307521
2,Catamarca,367828,102606
3,Chaco,1055259,99633
4,Chubut,99633,509108
5,Córdoba,3308876,165321
6,Jujuy,673307,53219
7,Mendoza,1738929,148827
8,Misiones,1101593,29801
9,Río Negro,638645,203013


**Ejercicio 3:** Investigar las funciones columns e index. ¿Qué hacen? ¿Qué tipo de variable es su salida?

In [7]:
data_pandas.columns # Retorna los valores de las columnas del dataset
data_pandas.index # Retorna la cantidad de indices que contiene el dataset

RangeIndex(start=0, stop=12, step=1)

**Ejercicio 4:** ¿Qué hacen las siguientes operaciones?

In [11]:
# data_pandas['Jurisdiccion'] # Filtra el dataset por la columna de Jurisdiccion.
# data_pandas[['Jurisdiccion','Poblacion']] # Filtra el dataset por las columnas de Jurisdiccion y Poblacion.
# data_pandas.Jurisdiccion # Filtra el dataset por la columna de Jurisdiccion.
# 'Poblacion' in data_pandas # Filtro booleano para comprobar si un dataset tiene determinada propiedad

True

**Ejercicio 5:** Filtrado por máscara. 
1. Seleccionar aquellas jurisdicciones cuya población sea mayor a un millón de habitantes.
2. Seleccionar aquellas jurisdicciones cuya población sea mayor a un millón de habitantes y su superficie menor a cien mil km2.

In [22]:
mask = data_pandas.Poblacion > 1000000
data_pandas.Jurisdiccion[mask]

0             CABA
1     Buenos Aires
3            Chaco
5          Córdoba
7          Mendoza
8         Misiones
11        Santa Fe
Name: Jurisdiccion, dtype: object

**Ejercicio 6:** Agregar una columna al dataframe que corresponda a la densidad de cada jurisdicción. Usar la información que ya está en el dataset.

## Iris dataset

Vamos a trabajar con el Iris Dataset, probablemente uno de los más famosos datasets. Es un dataset sencillo pero muy ilustrativo. Pueden encontrar un poco más de información en este [link](https://es.wikipedia.org/wiki/Conjunto_de_datos_flor_iris).


1. Abrir con Pandas el archivo 'DS_Clase_04_iris.csv' e imprimir sus primeros cinco elementos. Pista: pd.read...

In [45]:
data = pd.read_csv('../csv/iris.csv')
data

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...,...
145,146,6.7,3.0,5.2,2.3,Iris-virginica
146,147,6.3,2.5,5.0,1.9,Iris-virginica
147,148,6.5,3.0,5.2,2.0,Iris-virginica
148,149,6.2,3.4,5.4,2.3,Iris-virginica


2. ¿Cuántas columnas (features) tiene?¿Cuáles son sus nombres?¿Y cuántas filas (instancias)?

In [40]:
print("Columnas: ", data.columns, "Dimencion: ", data.shape, "Indices: ", data.index)

Columnas:  Index(['Id', 'SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm',
       'Species'],
      dtype='object') Dimencion:  (150, 6) Indices:  RangeIndex(start=0, stop=150, step=1)


3. Obtener el valor medio y desviación estándar de cada columna. ¿Hay alguna función de Pandas que nos dé aún más estadísticos?

In [44]:
print('Valor medio: ', data.mean(), '\n\nDesviacion estandard: ', data.std())

Valor medio:  Id               75.500000
SepalLengthCm     5.843333
SepalWidthCm      3.054000
PetalLengthCm     3.758667
PetalWidthCm      1.198667
dtype: float64 

Desviacion estandard:  Id               43.445368
SepalLengthCm     0.828066
SepalWidthCm      0.433594
PetalLengthCm     1.764420
PetalWidthCm      0.763161
dtype: float64


4. ¿Creen que todas las columnas tienen información? *Tirar* la columna que crean que está demás.

In [47]:
data.drop('Id', axis = 1)

Unnamed: 0,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
