<img src="images/utfsm.png" alt="" width="200px" align="right"/>
# USM Numérica
## Libraría Pandas
### Objetivos
1. Conocer los principales comandos de la libería pandas
2. Utilizar pandas para limpieza y manipulación de datos.

## 0.1 Instrucciones
Las instrucciones de instalación y uso de un ipython notebook se encuentran en el siguiente [link](link).

Después de descargar y abrir el presente notebook, recuerden:
* Desarrollar los problemas de manera secuencial.
* Guardar constantemente con *`Ctr-S`* para evitar sorpresas.
* Reemplazar en las celdas de código donde diga *`FIX_ME`* por el código correspondiente.
* Ejecutar cada celda de código utilizando *`Ctr-Enter`*

## 0.2 Licenciamiento y Configuración
Ejecutar la siguiente celda mediante *`Ctr-Enter`*.

In [216]:
"""
IPython Notebook v4.0 para python 3.0
Librerías adicionales: numpy, scipy, matplotlib. (EDITAR EN FUNCION DEL NOTEBOOK!!!)
Contenido bajo licencia CC-BY 4.0. Código bajo licencia MIT. 
(c) Sebastian Flores, Christopher Cooper, Alberto Rubio, Pablo Bunout.
"""
# Configuración para recargar módulos y librerías dinámicamente
%reload_ext autoreload
%autoreload 2

# Configuración para graficos en línea
%matplotlib inline

# Configuración de estilo
from IPython.core.display import HTML
HTML(open("./style/style.css", "r").read())

## Aprender haciendo

Consideraremos el siguiente archivo `data.csv` que contiene datos incompletos:

In [217]:
%%bash
cat data/data.csv

diametro;altura;volumen;tipo_de_arbol
11.2;75;19.9;Cherrie Tree
11.3;79;24.2;Cherry Tree
11.4;76;21.0;Cherry Tree
11.4;76;21.4;Apple Tree
13.7;71;25.7;Cherry Tree
13.8;64;24.9;Cherry Tree
14.0;78;34.5;Cherrie Tree
14.2;80;31.7;Cherry Tree
;74;36.3;Apple Tree
16.0;72;38.3;Cherry Tree
16.3;77;42.6;Cherry Tree
17.3;81;55.4;Apple Tree
17.5;;55.7;Cherry Tree
17.9;80;58.3;Cherry Tree
18.0;80;51.5;Cherry Tree
18.0;;51.0;
20.6;;;Cherry Tree


## 1.- ¿Porqué utilizar pandas?

**Razón oficial**:
Porque en numpy no es posible mezclar tipos de datos, lo cual complica cargar, usar, limpiar y guardar datos mixtos.

**Razón personal**:
Porque habían cosas que en R eran más fáciles pero no pythonísticas. pandas es un excelente compromiso. 

In [218]:
import numpy as np
df = np.loadtxt("data/data.csv", delimiter=";", dtype=str)
print df

[['diametro' 'altura' 'volumen' 'tipo_de_arbol']
 ['11.2' '75' '19.9' 'Cherrie Tree']
 ['11.3' '79' '24.2' 'Cherry Tree']
 ['11.4' '76' '21.0' 'Cherry Tree']
 ['11.4' '76' '21.4' 'Apple Tree']
 ['13.7' '71' '25.7' 'Cherry Tree']
 ['13.8' '64' '24.9' 'Cherry Tree']
 ['14.0' '78' '34.5' 'Cherrie Tree']
 ['14.2' '80' '31.7' 'Cherry Tree']
 ['' '74' '36.3' 'Apple Tree']
 ['16.0' '72' '38.3' 'Cherry Tree']
 ['16.3' '77' '42.6' 'Cherry Tree']
 ['17.3' '81' '55.4' 'Apple Tree']
 ['17.5' '' '55.7' 'Cherry Tree']
 ['17.9' '80' '58.3' 'Cherry Tree']
 ['18.0' '80' '51.5' 'Cherry Tree']
 ['18.0' '' '51.0' '']
 ['20.6' '' '' 'Cherry Tree']]


In [229]:
import pandas as pd
df = pd.read_csv("data/data.csv", sep=";")
df

Unnamed: 0,diametro,altura,volumen,tipo_de_arbol
0,11.2,75.0,19.9,Cherrie Tree
1,11.3,79.0,24.2,Cherry Tree
2,11.4,76.0,21.0,Cherry Tree
3,11.4,76.0,21.4,Apple Tree
4,13.7,71.0,25.7,Cherry Tree
5,13.8,64.0,24.9,Cherry Tree
6,14.0,78.0,34.5,Cherrie Tree
7,14.2,80.0,31.7,Cherry Tree
8,,74.0,36.3,Apple Tree
9,16.0,72.0,38.3,Cherry Tree


In [220]:
#print df.columns
#print df.index
#print df["altura"]*2
print (3./4) * df["altura"]*df["diametro"]**2 / df.volumen **2

0     17.817732
1     12.918572
2     16.797551
3     16.175474
4     15.131936
5     14.743504
6      9.633270
7     12.039527
8           NaN
9      9.424020
10     8.454891
11     5.924053
12          NaN
13     5.656141
14     7.329626
15          NaN
16          NaN
dtype: float64


## 2. Lo básico de pandas
* Pandas imita los dataframes de R, pero en python. Todo lo que no tiene sentido es porque se parece demasiado a R.
* Pandas permite tener datos como en tablas de excel: datos en una columna pueden ser mixtos.
* La idea central es que la indexación es "a medida": las columnas y las filas (index) pueden ser enteros o floats, pero también pueden ser strings. Depende de lo que tenga sentido.
* Los elementos básicos de pandas son:
 * Series: Conjunto de valores con indexación variable.
 * DataFrames: Conjunto de Series

### 2.1 Series
Una serie es un conveniente conjunto de datos, como una columna de datos de excel, pero con indexación más genérica.

```
pd.Series(self, data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)
```

In [221]:
import pandas as pd
s1 = pd.Series([False, 1, 2., "3", 4 + 0j])
print s1

0     False
1         1
2         2
3         3
4    (4+0j)
dtype: object


In [222]:
# Casting a otros tipos
print list(s1)
print set(s1)
print np.array(s1)

[False, 1, 2.0, '3', (4+0j)]
set([False, 1, 2.0, (4+0j), '3'])
[False 1 2.0 '3' (4+0j)]


In [223]:
# Ejemplo de operatoria
s0 = pd.Series(range(6), index=range(6))
s1 = pd.Series([1,2,3], index=[1,2,3])
s2 = pd.Series([4,5,6], index=[4,5,6])
s3 = pd.Series([10,10,10], index=[1,4,6])

In [224]:
print s0 + s1
print s0 + s1 + s2

0   NaN
1     2
2     4
3     6
4   NaN
5   NaN
dtype: float64
0   NaN
1   NaN
2   NaN
3   NaN
4   NaN
5   NaN
6   NaN
dtype: float64


In [225]:
print s0.add(s1, fill_value=0)

0    0
1    2
2    4
3    6
4    4
5    5
dtype: float64


### 2.2 DataFrames

Un Dataframe es una colección de Series con una indexación común. Pensar en una planilla de excel.

## 3.1 Obteniendo datos
  1. **Manualmente**: dict, items, 
  2. **Archivo csv**: local o http.
  3. **Archivo json**: local o http.
  4. **Archivo de excel**: convertir a csv cuidadosamente (elegir un separador apropiado, no comentar strings).


In [226]:
# A mano

In [227]:
# Csv
df = pd.read_csv("data/data.csv", sep=";")
df

Unnamed: 0,diametro,altura,volumen,tipo_de_arbol
0,11.2,75.0,19.9,Cherrie Tree
1,11.3,79.0,24.2,Cherry Tree
2,11.4,76.0,21.0,Cherry Tree
3,11.4,76.0,21.4,Apple Tree
4,13.7,71.0,25.7,Cherry Tree
5,13.8,64.0,24.9,Cherry Tree
6,14.0,78.0,34.5,Cherrie Tree
7,14.2,80.0,31.7,Cherry Tree
8,,74.0,36.3,Apple Tree
9,16.0,72.0,38.3,Cherry Tree


In [231]:
df = pd.read_json("data/data.json")
df

Unnamed: 0,altura,diametro,tipo_de_arbol,volumen
1,79.0,11.3,Cherry Tree,24.2
10,77.0,16.3,Cherry Tree,42.6
12,,17.5,Cherry Tree,55.7
13,80.0,17.9,Cherry Tree,58.3
14,80.0,18.0,Cherry Tree,51.5
16,,20.6,Cherry Tree,
2,76.0,11.4,Cherry Tree,21.0
4,71.0,13.7,Cherry Tree,25.7
5,64.0,13.8,Cherry Tree,24.9
7,80.0,14.2,Cherry Tree,31.7


## 4.- Inspeccionando datos
 1. shape
 1. head, tail, describe
 1. histogram
 1. pd.scatter_matrix
 1. count_values

In [None]:
df.shape

In [None]:
df.head()

In [None]:
df.tail()

In [None]:
df.describe()

In [None]:
from matplotlib import pyplot as plt
df.hist(figsize=(8,8), layout=(3,1))
#df.hist(figsize=(8,8), layout=(3,1), by="tipo_de_arbol")
plt.show()

In [None]:
from matplotlib import pyplot as plt
pd.scatter_matrix(df, figsize=(8,8), range_padding=0.2)
plt.show()

In [None]:
df.tipo_de_arbol.value_counts()

## 5.- Manipulando DataFrames
   1. Agregando columnas
   2. Borrando columnas
   3. Agregando filas
   4. Borrando filas
   5. Mask
   6. Grouping
   7. Imputación de datos
   8. Apply
   9. Merge (a la SQL)
   10. Accesamiento

### 5.1 Agregando columnas

In [None]:
df = pd.read_csv("data/data.csv", sep=";")
df["radio"] = .5 * df.diametro
df.area = np.pi * df.radio **2

In [None]:
df

### 5.2 Renombrando columnas

In [None]:
print df.columns
df.columns = ["RaDiO","AlTuRa","VoLuMeN","TiPo_De_ArBoL"]

In [None]:
print df.columns

In [None]:
df.columns = [col.lower() for col in df.columns]
print df.columns

### 5.3 Borrando columnas

In [None]:
print df.columns

In [None]:
df = df[["tipo_de_arbol","radio","volumen","altura",]]

In [None]:
df

In [None]:
df = df.drop("tipo_de_arbol", axis=1)

In [None]:
df

### 5.4 Agregando filas (indices)

In [None]:
df = pd.read_csv("data/data.csv", sep=";")

### 5.5 Renombrando filas (índices)

In [None]:
print df.index

In [None]:
df.index = df.index + 10
print df.index

In [None]:
df.index = ["i_%d"%idx for idx in df.index]
print df.index

### 5.6 Borrando indices

In [None]:
print df.index

In [None]:
df = df.drop(["i_11","i_13","i_19"], axis=0)
df

In [None]:
df = df.drop(["i_24","i_25","i_26"], axis=0)
df

In [None]:
df = df[-5:]
print df

**Observación**
```python
df[col] # selecciona la columna col, regresa una serie
df[[col1,col2,.., coln]] # selecciona las columnas col1, col2, ..., coln, regresa dataframe
df[inicio:(inicio+1)] # selecciona solo el indice indicio, regresa un dataframe
df[inicio:fin:salto] # selecciona los indices en notacion, regresa un dataframe
```

### 5.7 Masking

In [None]:
df = pd.read_csv("data/data.csv", sep=";")
vol_mean = df.volumen.mean()
vol_std = df.volumen.std()

In [None]:
mask_1 = df.altura < .99*df.altura.max()
mask_2 =  df.volumen <= vol_mean + vol_std
df1 = df[ mask_1 & mask_2 ]
df1

In [None]:
# Si se hace dinamicamente, utilizar suficientes parentesis
#df2 = df[ ((vol_mean - vol_std) <= df.volumen) & (df.volumen <= (vol_mean + vol_std) ) ]
df2 = df[ (df.volumen >=(vol_mean - vol_std)) & (df.volumen <= (vol_mean + vol_std) ) ]
df2

In [None]:
# A veces para simplificar numpy ayuda
mask_1 = df.volumen >= (vol_mean - vol_std)
mask_2 = df.volumen <= (vol_mean + vol_std)
mask = np.logical_and(mask_1, mask_2)
df3 = df[np.logical_not(mask)]
df3

### 5.8.- Grouping

In [None]:
df = pd.read_csv("data/data.csv", sep=";")
df.columns

In [None]:
g = df.groupby("tipo_de_arbol")
print g

In [None]:
print g.count()

In [None]:
print g.sum() # .mean(), .std()

In [None]:
# Ejemplo real
df[["tipo_de_arbol","diametro", "altura"]].groupby("tipo_de_arbol").mean()

### 5.9.- Imputación de datos

In [None]:
df = pd.read_csv("data/data.csv", sep=";")
print df.shape
df.describe()

In [None]:
df["tipo_de_arbol"][df.tipo_de_arbol=="Cherrie Tree"] = "Cherry Tree"
df

In [None]:
df = pd.read_csv("data/data.csv", sep=";")
index_mask = (df.tipo_de_arbol=="Cherrie Tree")
df.loc[index_mask, "tipo_de_arbol"] = "Cherry Tree" # .loc es esencial
df

In [None]:
df = pd.read_csv("data/data.csv", sep=";")
df1 = df.fillna(df.mean())
df1

In [None]:
df2 = df.fillna(0)
df2

In [None]:
df3 = df.dropna()
df3

### Apply

In [None]:
df = pd.read_csv("data/data.csv", sep=";")
df1 = df.diametro.apply(lambda x: x*2)
df1

In [None]:
df2 = df["tipo_de_arbol"].apply(str.upper) # Error
df2

In [None]:
df2 = df["tipo_de_arbol"].apply(lambda s: str(s).upper() )
df2

In [None]:
df3 = df.apply(lambda x: x*2)
df3

**Atajo**
Para usar las operaciones de string en una columna de strings, es posible utilizar la siguiente notación para ahorrar espacio.

In [None]:
df.tipo_de_arbol.str.upper()

In [None]:
df.tipo_de_arbol.str.len()

In [None]:
df.tipo_de_arbol.str[3:-3]

### Merge

In [None]:
df1 = pd.read_csv("data/data.csv", sep=";")
df1

In [None]:
df2 = pd.DataFrame(data={"tipo_de_arbol":["Cherry Tree", "Apple Tree", "Pear Tree"], 
                         "fruto":["guinda","manzana", "pera"], 
                         "precio_pesos_por_kg":[500, 2000, np.nan]})

In [None]:
df3 = df1.merge(df2, how="left", on="tipo_de_arbol")
df3

In [None]:
df3 = df1.merge(df2, how="right", on="tipo_de_arbol")
df3

In [None]:
df3 = df1.merge(df2, how="inner", on="tipo_de_arbol")
df3

In [None]:
df3 = df1.merge(df2, how="outer", on="tipo_de_arbol")
df3

## Guardando datos
  2. **csv**
  3. **json**
  4. **excel**

  Lo más importante es tener cuidado de cómo se guarda los nombres de las columnas (header), y el indice (index). 
  
  Depende de la utilización, pero mi recomendación es guardar el header explícitamente y guardar el index como una columna.

In [None]:
# csv
df = pd.read_csv("data/data.csv", sep=";")
df = df[df.tipo_de_arbol=="Cherry Tree"]
df.to_csv("data/output.csv", sep="|", index=True) # header=True by default
df

In [None]:
df2 = pd.read_csv("data/output.csv", sep="|", index_col=0) # get index from first column
df2

In [None]:
%%bash
cat data/output.csv

In [None]:
# json
df = pd.read_csv("data/data.csv", sep=";")
df = df[df.tipo_de_arbol=="Cherry Tree"]
df.to_json("data/output.json")
df

In [None]:
df2 = pd.read_json("data/output.json")
df2

In [None]:
%%bash
cat data/output.json

## Other topics
 * Changing column names
 * Changing row names
 * `str` for string operations

In [None]:
df.Tipoarbol.str[:5]

In [None]:
df.Tipoarbol.str.title()

In [None]:
df.Altura.str[:4]

In [None]:
df.Altura.apply(str).str[:4]