# Procesamiento de datos con [*pandas*](https://pandas.pydata.org/)


Es una librería para **leer, manipular y procesar datos** con lenguaje Python 

Pandas provee
- Dos estructuras de datos *Dataframe* y *Series*
- Herramientas eficientes de análisis de datos que trabajan sobre estas estructuras

Pandas se combina bien con NumPy y Matplotlib 

Instala pandas si aun no lo haz hecho:

    conda install pandas
    
    pip install pandas --user
    
    sudo pacman -S python-pandas

In [None]:
import pandas as pd
print("Versión de pandas "+pd.__version__)
import numpy as np
%matplotlib notebook
import matplotlib.pyplot as plt

## Estructuras de datos de pandas

- *Series* se usa para representar secuencias: Una columna de datos
- *Dataframe* se usa para representar tablas: Múltiples columnas de datos
- Las filas y las columnas están etiquetadas
- La etiqueta de las filas se llama **indice**
- Por defecto el índice es número entero que parte de cero pero podemos especificarlo como queramos
- Estas estructuras pueden soportan múltiples tipos y NaNs (missing data)

Por ejemplo una [serie](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html):

In [None]:
s = pd.Series(["asd", 4521, 24.2142])
print(s)
print([type(x) for x in s])
s = pd.Series([3.124, 5.124, 2.1416, 10.])
print(s)
print([type(x) for x in s])

In [None]:
# Atributos index y values
print(s.index)
print(s.values)

In [None]:
# Soporta slicing e indexación con arreglo de índices
print(s[0:2])
print(s[-2:])
print(s[[0, 2, 1, 3]])

El índice no tiene que ser númerico

Idealmente el índice debería ser informativo por si mismo, por ejemplo:

In [None]:
s = pd.Series([0.36, -0.31, -0.6, 0.0], 
              index=["AGUAS-A", "BSANTANDER", "CMPC", "ENTEL"],
              name='% variación')
print(s)

In [None]:
# A diferencia de un diccionario de Python, la serie soporta slicing (tiene orden)
print(s["BSANTANDER":"CMPC"])
# E indexación con otro arreglo
print(s[["CMPC", "AGUAS-A"]])

In [None]:
# Se puede construir una serie a partir de escalares, listas, diccioanrios y ndarray

print(pd.Series(2.14159, index=np.arange(5)))

print(pd.Series([4, 3, 2, 1, 0]))

print(pd.Series(np.random.randn(5)))

print(pd.Series({'Valdivia': 143207, 'Santiago': 5614000}))

¿Qué podemos hacer con la [serie](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html)?

In [None]:
print(s)
print("\nReducciones y estadísticos:")
print(s.sum())
print(s.cumsum().values)  # Suma acumulada
print(s.mean())  # Media
print(s.std())  # Desviación estándar
print(s.quantile(q=0.5))  # Mediana
print(s.min())
print(s.idxmin())
print("\nOperaciones lógicas:")
print(s<0) # Equivalente a s.lt(0)
print((s>-0.5) & (s<0.2))
print("\nResumen:")
print(s.describe())

También podemos graficarlo

In [None]:
fig, ax = plt.subplots(figsize=(5, 5), tight_layout=True)
s.plot(ax=ax, kind='bar')
ax.set_ylabel(s.name);

# kind = {line, bar, barh, hist, box, kde, area, pie}

### Dataframe

- Un *dataframe* es una tabla
- Es un conjunto de *series* que comparten índice
- Cada serie es una columna del *dataframe*

Un dataframe se puede crear a partir de una serie

In [None]:
df = pd.DataFrame(s)
df

In [None]:
# Atributos para acceder al índice de columna y fila
print(df.columns)
print(df.index)

In [None]:
# Atributos informativos
print(df.dtypes)
print(df.info())

O más de una serie

In [None]:
s2 = pd.Series([1653, 3531, 5998, 1408], 
              index=["AGUAS-A", "BSANTANDER", "CMPC", "ENTEL"],
              name='Monto M$')
df = pd.concat([s, s2], axis=1)
df

O una ndarray bidimensional

In [None]:
pd.DataFrame(np.eye(2), columns=["a", "b"], index=["1", "2"])

O de una lista de diccionarios

In [None]:
pd.DataFrame([{'nombre': nombre, 'apellido': apellido} for nombre, apellido in zip(["pablo", "fulano"], ["huijse", "de tal"])])

Podemos recuperar una columna completa con

In [None]:
print(df["Monto M$"])
print(df["% variación"])

Podemos recuperar una fila completa usando el atributo `loc` o `iloc`

In [None]:
print(df.loc["CMPC"])
print(df.loc[["CMPC", "AGUAS-A"]])
print(df.loc["AGUAS-A":"CMPC"])

In [None]:
print(df.iloc[2])
print(df.iloc[[2, 0]])
print(df.iloc[:3])

In [None]:
df.loc["CMPC"]["Monto M$"]

In [None]:
df["Monto M$"].loc["CMPC"]