## Pandas 

Pandas es la librería más conocida de Python para manipular y analizar datos. Está montada sobre NumPy, por lo cual muchas funcionalidades son similares. 

Pandas nos provee de los *Dataframes* y las *Series*. El objeto más utilizado es el primero, los Dataframes. 

### Primeros pasos

Importar la librería.

In [69]:
import pandas as pd

Abajo, declaramos la varible 'data_dic' en forma de diccionario para crear un dataset

**Nota**: Los datos son sacados de http://www.ign.gob.ar/nuestrasactividades/geografia/datosargentina/divisionpolitica

In [70]:
data_dic = {"Jurisdiccion":["CABA","Buenos Aires","Catamarca","Chaco","Chubut","Córdoba","Jujuy","Mendoza","Misiones","Río Negro","Santa Cruz",
                           "Santa Fe"],
            "Poblacion":[2890151,15625084,367828,1055259,509108,3308876,673307,1738929,
                        1101593,638645,273964,3194537],
            "Superficie":[200,307521,102606,99633,509108,165321,53219,148827,29801,203013,243943,133007]}

In [71]:
# Crear el Dataframe
df = pd.DataFrame(data_dic)
df

Unnamed: 0,Jurisdiccion,Poblacion,Superficie
0,CABA,2890151,200
1,Buenos Aires,15625084,307521
2,Catamarca,367828,102606
3,Chaco,1055259,99633
4,Chubut,509108,509108
5,Córdoba,3308876,165321
6,Jujuy,673307,53219
7,Mendoza,1738929,148827
8,Misiones,1101593,29801
9,Río Negro,638645,203013


###Funciones útiles

In [72]:
df.head()   #Muestra las primeras n filas del Dataframe. Se puede pasar n como argumento. (Por defecto, n = 5)

Unnamed: 0,Jurisdiccion,Poblacion,Superficie
0,CABA,2890151,200
1,Buenos Aires,15625084,307521
2,Catamarca,367828,102606
3,Chaco,1055259,99633
4,Chubut,509108,509108


In [73]:
df.tail()   #Muestra las últimas n filas del Dataframe. Se puede pasar n como argumento. (Por defecto, n = 5)

Unnamed: 0,Jurisdiccion,Poblacion,Superficie
7,Mendoza,1738929,148827
8,Misiones,1101593,29801
9,Río Negro,638645,203013
10,Santa Cruz,273964,243943
11,Santa Fe,3194537,133007


In [74]:
df.count()    #Cuenta las celdas que no sean NA por cada columna o fila

Jurisdiccion    12
Poblacion       12
Superficie      12
dtype: int64

In [75]:
df.shape      #Muestra la cantida de filas y columnas del Dataframe

(12, 3)

Para agregar una fila al Dataframe hay muchas formas de hacerlo, a continuación se muestra una de ellas pero se puede googlear "add row to dataframe" para buscar otras. Googlear la función df.concat()

In [76]:
df = df.append({'Jurisdiccion':'Entre Rios', 'Poblacion':1308000, 'Superficie':78771}, ignore_index=True) #Probar sacar el argumento ignore_index
df

Unnamed: 0,Jurisdiccion,Poblacion,Superficie
0,CABA,2890151,200
1,Buenos Aires,15625084,307521
2,Catamarca,367828,102606
3,Chaco,1055259,99633
4,Chubut,509108,509108
5,Córdoba,3308876,165321
6,Jujuy,673307,53219
7,Mendoza,1738929,148827
8,Misiones,1101593,29801
9,Río Negro,638645,203013


**Para mostrar las columnas**

In [77]:
df.columns

Index(['Jurisdiccion', 'Poblacion', 'Superficie'], dtype='object')

**Para mostrar el rango de indice**

In [78]:
df.index

RangeIndex(start=0, stop=13, step=1)

**Muestra los valores de la columna indicada**

NOTA: Buscar la diferencia entre df['columna'] y df.columna


In [79]:
df['Jurisdiccion']
# df[['Jurisdiccion','Poblacion']]
# df.Jurisdiccion
# 'Poblacion' in df   <<< Devuelve True si se encuentra en el Dataframe o False sino. 

0             CABA
1     Buenos Aires
2        Catamarca
3            Chaco
4           Chubut
5          Córdoba
6            Jujuy
7          Mendoza
8         Misiones
9        Río Negro
10      Santa Cruz
11        Santa Fe
12      Entre Rios
Name: Jurisdiccion, dtype: object

**Agregar columna 'Densidad'**


In [80]:
df['Densidad'] = 0 # Valor por defecto en 0.
df

Unnamed: 0,Jurisdiccion,Poblacion,Superficie,Densidad
0,CABA,2890151,200,0
1,Buenos Aires,15625084,307521,0
2,Catamarca,367828,102606,0
3,Chaco,1055259,99633,0
4,Chubut,509108,509108,0
5,Córdoba,3308876,165321,0
6,Jujuy,673307,53219,0
7,Mendoza,1738929,148827,0
8,Misiones,1101593,29801,0
9,Río Negro,638645,203013,0


In [81]:
for i in range(len(df)):
  df.loc[i, 'Densidad'] = int(df.loc[i, 'Poblacion'] / df.loc[i, 'Superficie'])
df  

Unnamed: 0,Jurisdiccion,Poblacion,Superficie,Densidad
0,CABA,2890151,200,14450
1,Buenos Aires,15625084,307521,50
2,Catamarca,367828,102606,3
3,Chaco,1055259,99633,10
4,Chubut,509108,509108,1
5,Córdoba,3308876,165321,20
6,Jujuy,673307,53219,12
7,Mendoza,1738929,148827,11
8,Misiones,1101593,29801,36
9,Río Negro,638645,203013,3


## Filtrado por máscara.

Las máscaras son **muy importantes** ya que te permiten filtrar los datos.

Notar que `mascara` es un arreglo de booleanos, con `True` en los valores que cumplen la condición y `False` donde no. Una vez que creamos la máscara, podemos usarla para seleccionar de nuestro arreglo aquellos elementos que queríamos:

Si necesitara seleccionar aquellas jurisdicciones (CABA...) cuya población sea mayor a un millón de habitantes. Podemos hacer esto:

In [82]:
df[df.Poblacion > 1000000]

Unnamed: 0,Jurisdiccion,Poblacion,Superficie,Densidad
0,CABA,2890151,200,14450
1,Buenos Aires,15625084,307521,50
3,Chaco,1055259,99633,10
5,Córdoba,3308876,165321,20
7,Mendoza,1738929,148827,11
8,Misiones,1101593,29801,36
11,Santa Fe,3194537,133007,24
12,Entre Rios,1308000,78771,16


Con `mascara.sum()` podemos contar cuántas veces se cumple la condición que pedimos.

In [None]:
(df.Poblacion > 1000000).sum()

8

**Usar máscaras con operadores lógicos**

In [83]:
df[(df.Poblacion > 1000000) & (df.Superficie < 100000)]

# Usando Numpy  >>>>  ¿?¿? Próximo cintutorial ¿?¿?

# import numpy 
# mascara = np.logical_and(df.Poblacion > 1000000, df.Superficie < 100000)
# df[mascara]

# or

# df[np.logical_and(df.Poblacion > 1000000, df.Superficie < 100000)]

Unnamed: 0,Jurisdiccion,Poblacion,Superficie,Densidad
0,CABA,2890151,200,14450
3,Chaco,1055259,99633,10
8,Misiones,1101593,29801,36
12,Entre Rios,1308000,78771,16


**Caso operador or:**

In [84]:
# Vamos a seleccionar las jurisdicciones cuya población sea menor a 500 mil habitantes o su superficie mayor a cien mil km2

df[(df.Poblacion < 500000) | (df.Superficie > 100000)]

Unnamed: 0,Jurisdiccion,Poblacion,Superficie,Densidad
1,Buenos Aires,15625084,307521,50
2,Catamarca,367828,102606,3
4,Chubut,509108,509108,1
5,Córdoba,3308876,165321,20
7,Mendoza,1738929,148827,11
9,Río Negro,638645,203013,3
10,Santa Cruz,273964,243943,1
11,Santa Fe,3194537,133007,24


## Iris dataset

Iris Dataset, es un conjunto de datos ya existe y posiblemente uno de los más famosos.

1. Abrir con Pandas el archivo 'iris.csv'. Utilizar: `pd.read_csv()`.

In [85]:
iris_data = pd.read_csv('iris.csv') #Cuando se ejecute local se debe especificar el PATH del archivo.
iris_data

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...,...
145,146,6.7,3.0,5.2,2.3,Iris-virginica
146,147,6.3,2.5,5.0,1.9,Iris-virginica
147,148,6.5,3.0,5.2,2.0,Iris-virginica
148,149,6.2,3.4,5.4,2.3,Iris-virginica


2. Con `shape` podemos saber cuantas filas y columnas tiene. Con `columns` podemos saber el nombre de las columnas.

In [86]:
print(iris_data.shape)
print(iris_data.columns)

(150, 6)
Index(['Id', 'SepalLengthCm', 'SepalWidthCm', 'PetalLengthCm', 'PetalWidthCm',
       'Species'],
      dtype='object')


3. Si tenemos columnas que no necesitemos podemos eliminarlas con `drop` o `del`.

NOTA: `drop` puede eliminar filas o columnas y con el argumento `inplace` puede devolver o no una copia. En cambio, `del` solo elimina columnas y trabaja sobre el objeto. 

In [87]:
iris_data.drop('Id', axis=1, inplace=True)
iris_data

Unnamed: 0,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


### "loc" e "iloc"

In [89]:
dfn = pd.DataFrame({'A':['Casa','Puerta','Ventanas','Techo','Piso']}, index=[9,6,5,1,3])
dfn

Unnamed: 0,A
9,Casa
6,Puerta
5,Ventanas
1,Techo
3,Piso


In [95]:
dfn.iloc[:3]  #Funciona por posicion

Unnamed: 0,A
9,Casa
6,Puerta
5,Ventanas


In [93]:
dfn.loc[:3]   #Funciona por etiqueta

Unnamed: 0,A
9,Casa
6,Puerta
5,Ventanas
1,Techo
3,Piso
