# Procesamiento de datos con [*pandas*](https://pandas.pydata.org/) <a class="tocSkip">


Es una librería para **leer, manipular y procesar datos** con lenguaje Python 

Pandas provee
- Dos estructuras de datos: *DataFrame* y *Series*
- Herramientas de análisis de datos que operan sobre estas estructuras
    
Pandas se combina bien con NumPy y Matplotlib 

### Instalación  <a class="tocSkip">
    
Activa tu ambiente de conda y luego

    conda install pandas
    

In [2]:
%matplotlib notebook
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
print("Versión de pandas "+pd.__version__)

Versión de pandas 1.0.3


In [7]:
ventas = {
    'platanos': [0, 0, 2, 4, 5, 0],
    'naranjas': [4, 4, 3, 5, 0, 0],
    'manzanas': [2, 3, 6, 6, 1, 5],
    'peras': [0, 0, 3, 3, 5, 5]    
}
clientes = ['Pablo', 'Marianna', 'Matthieu', 'Luis', 'Eliana', 'Cristobal']

In [8]:
pd.DataFrame(data=ventas, index=clientes)

Unnamed: 0,platanos,naranjas,manzanas,peras
Pablo,0,4,2,0
Marianna,0,4,3,0
Matthieu,2,3,6,3
Luis,4,5,6,3
Eliana,5,0,1,5
Cristobal,0,0,5,5


## Estructuras de datos de *pandas*

pandas ofrece dos estructuras de datos

El principal es `pandas.DataFrame` 

Un *DataFrame* es un arreglo bi-dimensional que representa una tabla

Las filas y columnas de la tabla 

Las columnas pueden tener tipos distintos



Data structure also contains labeled axes (rows and columns). Arithmetic operations align on both row and column labels. Can be thought of as a dict-like container for Series objects. The primary pandas data structure.

### `pandas.Series` 

Es un arreglo unidmensional

One-dimensional ndarray with axis labels (including time series).

Labels need not be unique but must be a hashable type. The object supports both integer- and label-based indexing and provides a host of methods for performing operations involving the index. Statistical methods from ndarray have been overridden to automatically exclude missing data (currently represented as NaN).

Operations between Series (+, -, /, , *) align values based on their associated index values– they need not be the same length. The result index will be the sorted union of the two indexes.

Se usa para representar secuencias con una columna de datos


Un DataFrame es similar a un 

## Dataframes

- Un *dataframe* es una tabla
- Es un conjunto de *series* que comparten índice de fila
- Cada serie es una columna del *dataframe*
- El ambiente jupyter imprime un dataframe como una tabla markdown de forma automática


A diferencia 
- Las filas y las columnas están etiquetadas con **índices**
- Por defecto el índice es número entero que parte de cero pero podemos especificarlo como queramos
- Soportan múltiples tipos y NaNs (missing data)



Por ejemplo una [serie](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html):

In [None]:
s = pd.Series(["asd", 4521, 24.2142])
print(s)
[type(x) for x in s]

In [None]:
s = pd.Series([3.124, 5.124, 2.1416, 10.])
print(s)
[type(x) for x in s]

In [None]:
# Atributos index y values
display(s.index, 
        s.values, 
        s.describe())

In [None]:
display(s[:2], # slicing
        s[-2:], 
        s[[0, 2, 3]], # fancy-indexing
        s[s>5]) # mascaras

En los ejemplos anteriores el índice se creo de forma automática pero podemos especificarlo con

In [None]:
s = pd.Series([3.124, 5.124, 2.1416, 10.], index=[1, 0, 2, 40])
display(s, s[40])

**IMPORTANTE** El índice no tiene que ser númerico

Idealmente el índice debería ser informativo por si mismo, por ejemplo:

In [None]:
s_IPSA = pd.Series([0.36, -0.31, -0.6, 0.0], 
                   index=["AGUAS-A", "BSANTANDER", "CMPC", "ENTEL"],
                   name='% variación')
display(s_IPSA)

In [None]:
# A diferencia de un diccionario de Python, la serie soporta slicing (tiene orden)
display(s_IPSA["BSANTANDER":"CMPC"])
# E indexación con otro arreglo
display(s_IPSA[["CMPC", "AGUAS-A"]])

In [None]:
# Se puede construir una serie a partir de escalares, listas, diccioanrios y ndarray

display(pd.Series(2.14159, index=np.arange(5)), 
        pd.Series([4, 3, 2, 1, 0]),
        pd.Series(np.random.randn(5)),
        pd.Series({'Valdivia': 143207, 'Santiago': 5614000}))

¿Qué podemos hacer con la [serie](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html)?

In [None]:
pd.Series([0.124], index=["SOPROLE"])

In [None]:
# Agregar un elemento
s_IPSA["SOPROLE"] = 0.124
display(s_IPSA)
# Eliminar un elemento
popped_value = s_IPSA.pop("SOPROLE")
#s_IPSA = s_IPSA.drop("SOPROLE")
display(s_IPSA)

In [None]:
display(s_IPSA)
print("Aritmética:")
display(s_IPSA+2, s_IPSA*2, s_IPSA**2)

In [None]:
print("Reducciones y estadísticos:")
display(s_IPSA.sum(), s_IPSA.cumsum().values, 
        s_IPSA.mean(), s_IPSA.std(), 
        s_IPSA.min(), s_IPSA.idxmin())

In [None]:
print("Operaciones lógicas:")
display(s_IPSA<0, # Equivalente a s.lt(0)
        (s_IPSA>-0.5) & (s_IPSA<0.2))

También podemos graficarlo

In [None]:
fig, ax = plt.subplots(figsize=(5, 4), tight_layout=True)
ax.set_ylabel(s_IPSA.name);

s_IPSA.plot(ax=ax, kind='bar')
#ax.bar(x=s.index, height=s.values)

# kind = {line, bar, barh, hist, box, kde, area, pie}

## Dataframes

- Un *dataframe* es una tabla
- Es un conjunto de *series* que comparten índice de fila
- Cada serie es una columna del *dataframe*
- El ambiente jupyter imprime un dataframe como una tabla markdown de forma automática


### Creando un dataframe

A partir de una serie

In [None]:
df = pd.DataFrame(s_IPSA)
df

In [None]:
# Atributos informativos
print(df.dtypes)
print("")
print(df.info())

A partir de múltiples series

In [None]:
s2 = pd.Series([1653, 3531, 5998, 1408], 
              index=s_IPSA.index,
              name='Monto M$')
s3 = pd.Series(["CL0000000035", "CLP1506A1070", "CL0000001314", "CLP37115105"], 
              index=s_IPSA.index,
              name='ISIN')

df_IPSA = pd.concat([s_IPSA, s2, s3], axis=1)
df_IPSA

A partir de un ndarray bidimensional

In [None]:
pd.DataFrame(np.eye(3), columns=["a", "b", "c"])

O de una lista de diccionarios

In [None]:
d = [{'nombre': nombre, 'apellido': apellido} for nombre, apellido in zip(["pablo", "fulano"], ["huijse", "de tal"])]
pd.DataFrame(d)

### Indices

- Un dataframe tiene dos sets de índices: fila y columna
- Ambos puede ser enteros o etiquetas

Podemos recuperarlos con

In [None]:
mis_columnas = df_IPSA.columns
mis_filas = df_IPSA.index
display(mis_columnas, mis_filas)

Podemos manipularlos como ndarrays

In [None]:
display(mis_columnas[0], 
        mis_columnas[::-1], 
        mis_filas[::2], 
        mis_filas.shape)

Los índices son tipos inmutables

In [None]:
# mis_columnas[0] = "asd"

Los [índices](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Index.html) soportan operaciones lógicas (tipo Set)

In [None]:
# Nota: idx1 es equivalente a 
# pd.Index(np.arange(10)) y pd.Index([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) pero ahorra memoria
idx1 = pd.Index(range(10))
idx2 = pd.Index(range(0, 20, 2))
# display(idx1, idx2)
display(idx1.intersection(idx2),  # Equivalente a: idx1 & idx2
        idx1.union(idx2), # TEquivalente a: idx1 | idx2
        idx1.symmetric_difference(idx2), # Equivalente a: idx1 ^ idx2
        idx1.difference(idx2),
        idx2.difference(idx1)) 

### Slicing e indexación  de dataframes

Podemos obtener una serie a partir de una columna

In [None]:
df_IPSA["ISIN"]
# También se puede llamar como atributo df.ISIN pero esto es menos recomendable

Podemos obtener una sub-tabla seleccionando columnas

In [None]:
display(df_IPSA[["ISIN"]], 
        df_IPSA[["Monto M$", "% variación"]])

Podemos extraer una o más filas usando los atributos `loc[]` o `iloc[]`

`loc[]` acepta etiquetas, `iloc[]` acepta el índice "interno" (entero)

Cuando extraemos sólo una fila se obtiene una serie, de lo contrario se obtiene un dataframe

In [None]:
display(df_IPSA.loc["CMPC"],
        df_IPSA.loc[["CMPC", "AGUAS-A"]],
        df_IPSA.loc["AGUAS-A":"CMPC"])

In [None]:
display(df_IPSA.iloc[2], 
        df_IPSA.iloc[[2, 0]],
        df_IPSA.iloc[:3])

No confundirse con `iloc[]` y `loc[]`

In [None]:
np.random.seed(0)
stupid_dataframe = pd.DataFrame(np.random.permutation(16).reshape(4, 4), 
                  index=[2, 0, 3, 1])

display(stupid_dataframe, 
        stupid_dataframe.loc[2],
        stupid_dataframe.iloc[2])

También podemos recuperar simultaneamente un sub-conjunto de filas y columnas

    df.loc[filas, columnas]
    
Se pueden hacer slicing, fancy-indexing, máscaras, etc

In [None]:
display(df_IPSA.loc["CMPC", "Monto M$"],
        df_IPSA.iloc[2, 1],
        df_IPSA.loc[:"CMPC", "Monto M$":], 
        df_IPSA.iloc[:3, 1:],
        df_IPSA.loc[["ENTEL", "CMPC"], ["Monto M$", "% variación"]], 
        df_IPSA.loc[df_IPSA["Monto M$"] > 2000, "Monto M$":])

Notemos la diferencia de tiempo entre

In [None]:
%timeit -n10 df_IPSA.loc["AGUAS-A":"CMPC"][["Monto M$", "ISIN"]]
%timeit -n10 df_IPSA[["Monto M$", "ISIN"]].loc["AGUAS-A":"CMPC"]
%timeit -n10 df_IPSA.loc["AGUAS-A":"CMPC", "Monto M$":] 
%timeit -n10 df_IPSA.iloc[:2, 1:] 

Si quieres una columna completa no uses `loc`/`iloc`

In [None]:
%timeit -n10 df_IPSA["ISIN"]
%timeit -n10  df_IPSA.loc[:, "ISIN"]
%timeit -n10  df_IPSA.iloc[:, 2]

#### Evitar posible confusión

In [None]:
# Esto se puede hacer
display(df_IPSA["Monto M$"])
# pero esto no: 
#display(df_IPSA["Monto M$":])

# Esto se puede hacer
display(df_IPSA["BSANTANDER":])
# y es equivalente a df_IPSA.loc["BSANTANDER":]
# Pero esto no: 
#df_IPSA["BSANTANDER"]

## Operaciones sobre [dataframes](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html)

Convertir a ndarray:

In [None]:
df_IPSA.to_numpy() # Equivalente a df_IPSA.values

Intercambiar filas y columnas (trasponer):

In [None]:
df_IPSA.T

### Aritmética sobre dataframes

Podemos hacer operaciones aritméticas simples y/o aplicar funciones de NumPy

Notemos que no se pueden operar strings de forma directa:
- Podemos usar [`select_dtypes`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.select_dtypes.html) para obtener un subconjunto de datos de tipo númerico
- Podemos usar *parsear* el atributo string a numérico (más adelante detallaremos esto)

In [None]:
df_numeric = df_IPSA.select_dtypes(np.number)
display(df_numeric,
        df_numeric + 2, # Equivalente a df_numeric.add(2)
        df_numeric*2, # Equivalente a df_numeric.multiply(2)
        np.log(np.abs(df_numeric)+1e-10))

**Alineamiento:** Las operaciones entre columnas se guian por el índice

- Si un índice no es compartido por ambos operandos se retorna un NaN
- Podemos evitar que esto ocurre seteando el `fill_value`

In [None]:
df1 = df_IPSA.loc["BSANTADER":, "Monto M$"]
df2 = df_IPSA.loc[:"CMPC", "% variación"]
display(df1,
        df2,
        df1/df2, # Equivalente a df1.divide(df2)
        df1.divide(df2, fill_value=1))

### Manejando *missing values* (NaNs)

Missing values se refiere al caso de tablas de datos incompletas

Una fila o columna incompleta es rellenada por pandas con la palabra **NaN**, que puede provenir de un `None` o un tipo `np.nan`

Pandas provee funciones para detectar, eliminar o rellenar los NaNs antes de operar

In [None]:
df = pd.DataFrame([[1, 2, 3, None, 5], 
                   [np.nan, 1.154, 5.12, 403, "asd"], 
                   [x for x in range(5)]])
display(df,
        df.dropna(),  # Elimina filas y columnas con NaN
        df.dropna(axis='columns', how='any'),
        df.fillna(0), # Rellena NaN
        df.notnull()) # Mascara booleana, también existe isnull()

### Reducciones

Las atributos de reducción que vimos para *Series* también se pueden usar con *DataFrames*

In [None]:
display(df_IPSA.count(),
        df_IPSA.sum(),
        df_numeric.sum(),
        df_numeric.prod(),
        df_numeric.std(), 
        df_numeric.max(),  
        df_numeric.idxmax())  

### Combinando dataframes

Podemos pegar las filas de un dataframe al final de otro usando el atributo `append`

In [None]:
df1 = pd.DataFrame(np.random.randn(3, 3))
df2 = pd.DataFrame(np.random.randn(3, 3))
df1.append(df2, ignore_index=False, verify_integrity=False) # Esto retorna un nuevo dataframe

Se queremos más flexibilidad podemos usar la función `concat`

In [None]:
display(pd.concat([df1, df2], axis=0), # concatena en filas, similar a append
        pd.concat([df1, df2], axis=1, ignore_index=True), # concatena en columnas
        pd.concat([df1, df2], axis=1, keys=['df1', 'df2']))  # Crea un multi-índice

Se pueden concatenar dataframes que comparten sólo algunos de sus índices

Por defecto los valores que no se alinean se rellenan con NaN

Podemos forzar que solo se preserven las filas que tienen en común usando los argumento `join` y/o `join_axes`

In [None]:
df1 = pd.DataFrame(np.random.randn(5, 2), columns=['a', 'b'])
df2 = pd.DataFrame(np.random.randn(5, 2), columns=['a', 'c'])
# display(df1)
# display(df2)
display(pd.concat([df1, df2], sort=False, join='outer'))
display(pd.concat([df1, df2], sort=False, join='inner'))
display(pd.concat([df1, df2], sort=False, join_axes=[df1.columns]))

Para combinar dataframes de acuerdo a sus contenidos usamos la función/atributo [`merge`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html#pandas.DataFrame.merge)

In [None]:
df1 = pd.DataFrame({'Alumno': ['Pablo', 'Sebastian', 'Enrique', 'Daniela'], 
                    'Curso': ['INFO335', 'INFO147', 'INFO147', 'INFO185'],
                    'NotaP1': [4., 5., 6., 7.]})
df2 = pd.DataFrame({'Alumno': ['Enrique', 'Sebastian', 'Pablo', 'Felipe'], 
                    'Curso': ['INFO147', 'INFO147', 'INFO335', 'INFO335'],
                    'NotaP2': [6., 5., 4., 3.]})
display(df1, df2)

In [None]:
pd.merge(df1, df2) # df1.merge(df2)

El argumento `on` nos permite especificar la columna que actua como llave

In [None]:
pd.merge(df1, df2, on='Alumno', suffixes=["_1", "_2"])

El argumento `how` nos permite especificar en mayor detalle como unimos los dataframes

In [None]:
display(pd.merge(df1, df2, how='outer'), # El valor por defecto es inner
        pd.merge(df1, df2, how='left')) 

Merge soporta uniones con distinto número de columnas 

In [None]:
# muchos-a-uno
df3 = pd.DataFrame({'Curso': ['INFO335', 'INFO147'], 
                    'Profesor': ['Cristobal', 'Pablo']})
pd.merge(df1, df3)

In [None]:
# muchos-a-muchos
df3 = pd.DataFrame({'Curso': ['INFO335', 'INFO147', 'INFO147'], 
                    'Profesor': ['Cristobal', 'Pablo', 'ProfesorX']})
pd.merge(df1, df3)

### Ordenando dataframes

Se puede ordernar un dataframes según sus valores usando el atributo `sort_values`

El argumento `by` recibe un string o una lista de strings

Esto retorna un nuevo dataframe a menos de que se especifique `inplace=True`

In [None]:
df1.sort_values(by="Alumno")

Podemos seleccionar el orden y donde van los NaN

In [None]:
pd.merge(df1, df2, how='left').sort_values(by='NotaP2', ascending=False, na_position='first')

También se puede ordenar en los índices (fila o columna) con el atributo  `sort_index`

In [None]:
df1.sort_index(axis=1, ascending=False).sort_index(axis=0, ascending=False)

### Gráficos

Se pueden usar gráficos sencillos directamente de un [DataFrame](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.html)

In [None]:
fig, ax = plt.subplots(figsize=(7, 4), tight_layout=True)
df_IPSA.plot(x=None, y=["Monto M$", "% variación"], 
             ax=ax, kind='line', subplots=True);