<img src="images\crisil_logo.png" align="right" border="0"><br>


# Capacitación en Python 06b - Pandas

En el siguiente cuaderno se presenta una introducción a la librería Pandas. Lea atentamente el cuaderno y corra el código en cada celda para visualizar su salida. Un aviso, es necesario estar conectado a internet para poder correr las celdas con métodos de lectura de tablas HTML.

---
## Pandas

<img src="images\pandas.png" align="left" width="390" border="0"><br>


Pandas es una biblioteca ampliamente utilizada en el analisis de datos, desarrollada específicamente para su extracción y preparacion. 

Proporciona estructuras de datos de alto nivel y una gran variedad de herramientas para el analisis de datos. Tambien proporciona muchos metodos incorporados para combinar y filtrar datos.

En el cuaderno se discute sobre los siguientes temas:

1. Series
2. DataFrames
3. Entrada y salida de datos

---
## Series
La primer estructura de datos de Pandas a aprender son los `Series`. Una serie es muy similar a un array de NumPy (de hecho, está construida sobre el objeto array de NumPy). Lo que diferencia el array de NumPy de un objeto Series es que las series pueden tener etiquetas de eje (*labels*), lo que significa que pueden ser indexadas por una etiqueta, en lugar de solo una ubicación numérica. Tampoco necesita contener datos numéricos, puede contener cualquier objeto arbitratio de Python.

In [None]:
import pandas as pd #se importa pandas de manera similar a Numpy, por convención su alias es "pd"
import numpy as np # es común utilizarla en conjunto con pandas

### Creando Series

Es posible convertir una lista, un array de NumPy, o un diccionario a un objeto Series:
\

In [None]:
labels_example = ['a','b','c']
list_example = [10,20,30]
dictionary_example = {'a':10,'b':20,'c':30}
arr_example = np.array([10,20,30])

**Listas**

In [None]:
pd.Series(data=list_example) # sin especificar etiquetas

In [None]:
pd.Series(data=list_example,index=labels_example) # Las etiquetas se ingresan con el argumento 'index'

In [None]:
pd.Series(list_example,labels_example) #ingresando argumentos por orden

**Arreglos de NumPy**

In [None]:
pd.Series(arr_example)

In [None]:
pd.Series(arr_example,labels_example)

**Diccionarios**

In [None]:
pd.Series(dictionary_example)

### Tipos de datos en  Series

Un objeto `Series` tiene la capacidad de contener una variedad de tipos de datos.

In [None]:
pd.Series(data=labels_example) # ahora utilizo las etiquetas como mis datos

In [None]:
# Inclusive funciones ( aunque es poco probable utilizar esto)
pd.Series([print,len])

### Utilizando índices

Pandas utiliza índices para recuperar y operar sobre valores de estructuras de datos. Hace uso de estos números, o de los valores de los índices, para una recuperación y operación rápida de datos contenidos en objetos Series. 

En el siguiente ejemplo se crean dos objetos Series:

In [None]:
series1 = pd.Series([1,2,3,4],index = ['A','B','C','D'])  
series2 = pd.Series([1,2,5,4],index = ['B','C','D','E'])

In [None]:
series1

In [None]:
series2

In [None]:
# Recupero por índice
series1[1]

Las operaciones también se realizan índice a índice.

In [None]:
series1 - series2 #series1 no tiene índice E y series2 no tiene índice A, en esos casos la operación retorna NaN

In [None]:
series1 + series2

In [None]:
series1 * series2

---
## DataFrames

Un `DataFrame` es una estructura de datos etiquetados bidimensionales con columnas de tipos potencialmente diferentes. Se puede pensar como una hoja de cálculo, una tabla SQL, o un diccionario de objetos `Series`. Generalmente es el objeto Pandas más utilizado. Al igual que Series, DataFrame acepta muchos tipos diferentes de datos de entrada:

In [None]:
from numpy.random import randn #librería para generar números aleatorios
np.random.seed(55) # seteo una semilla para obtener siempre los mismos resultados

La función `DataFrame()`  tiene la capacidad de crear un elemento DataFrame desde un array de NumPy (entre otras cosas), por ejemplo: 

In [None]:
 # además de índices tiene un argumento para agregar columnas
df = pd.DataFrame(randn(4,5),index=['P','Q','R','S'],columns=['A','B','C','D','E'])

In [None]:
df # se despliega el DataFrame escribiendo el nombre 

### Indexación y selección 

Existen varios métodos de selección de datos en objetos del tipo DataFrame.

In [None]:
df['A'] #selecciono la columna 'A'

In [None]:
# Paso las columnas a seleccionar como una lista
df[['A','B']]

Las columnas no son más que objetos Series.

In [None]:
type(df['A'])

**Creando filas y columnas nuevas**

Crear columnas nuevas resulta sencillo.

In [None]:
df['F'] = df['A'] + df['B']

Si bien no es usual crear filas nuevas en Pandas, ya que está ideado para trabajar con datasets completos, es posible realizar esto de la siguiente manera.

In [None]:
fila_nueva=pd.DataFrma(randn(1,6)),index 
fila_nueva= pd.DataFrame(randn(1,6),index = ['T'], columns=list(df.columns)) #df.columns devuelve las etiquetas de columnas
df = pd.concat([df, fila_nueva]) #es posible que existan maneras más eficientes en términos de cómputo
df # buscar también sobre el método append, es un caso específico de concat (menos flexibilidad)

**Removiendo filas y columnas**

El método `drop()` elimina filas o columnas y devuelve una copia del DataFrame original. El primer argumento es la etiqueta del índice o columna, el segundo indica la dirección a eliminar (fila es axis=0, columna es axis=1).

In [None]:
df.drop('F',axis=1) #axis=1 devuelve error, pandas no encuentra dirección horizontal para 'F'

In [None]:
df # el DataFrame original se encuentra intacto, hay que reasignar df=df.drop(...) para mantener cambios

In [None]:
df.drop('F',axis=1,inplace=True) # el argumento inplace=True reasigna automaticamente

In [None]:
df

Ahora con una fila:

In [None]:
df.drop('P',axis=0,inplace=True)
df

**Métodos de selección**

Las métodos de selección más utilizadas son `loc` e `iloc`. A continuación se presentan un par de ejemplos:

In [None]:
df.loc['Q'] # iloc selecciona en función de la etiqueta

In [None]:
df.iloc[0] # loc selecciona en función del índice

In [None]:
# Selecciono TODO
df.iloc[:]

In [None]:
# Selecciono todo menos la última columna
df.iloc[:,:-1]

In [None]:
#Selecciono subconjunto de filas Q y R también subconjunto de columnas B y C
df.iloc[:2,1:3]

In [None]:
# Para subconjuntos mediante etiquetas utilizo loc
df.loc['Q','A']

In [None]:
#las filas y columnas seleccionados no tienen que ser adyacentes
df.loc[['Q','S'],['B','D']] 

### Selección condicional

Una característica importante de pandas es la selección condicional usando notación de corchetes, muy similar a NumPy. Debajo se muestran varios ejemplos ilustrativos.

In [None]:
df

In [None]:
df>0

In [None]:
#Retorna los valores donde el valor > 0, caso contrario devuelve NaN
df[df>0]

In [None]:
#Devuelve las filas y columnas completas donde los valores de la columna A son > 0
df[df['A']>0]

Para utilizar condiciones múltiples se utiliza | e & con paréntesis:

In [None]:
df[(df['A']>0) & (df['B'] > 0)]

In [None]:
df # el DataFrame sigue sin modificaciones, para cambios permanentes reasignar df

### Diferentes operaciones

Existen infidad acciones y operaciones posibles a realizar con DataFrames, a continuación se presentan los casos más comunes.

In [None]:
# Creo un dataframe mediante un diccionario, cada clave es una etiqueta de columna, cada valor una lista
df = pd.DataFrame({'col1':[10,11,12,13],'col2':[300,200,100,300],'col3':['abc','def','ghi','xyz']})
df.head()

**unique()**

In [None]:
df['col2'].unique() # devuelve valores que no se repiten en el orden de aparición

**nunique()**

In [None]:
df['col2'].nunique() # número de valores únicos encontrados

**value_counts()**

In [None]:
df['col2'].value_counts() # presenta los valores distintos encontrados y la cantidad de veces que aparecen

**sum()**

In [None]:
df['col1'].sum() # sumo sobre elementos de la columna

**Remover columnas de forma permanente**

In [None]:
del df['col1']

In [None]:
df

**Obtener nombres de filas y columnas**

In [None]:
df.columns # devuelve las etiquetas de las columnas, como se vió en el ej. para agregar una fila

In [None]:
df.index #los devuelve como un rango

**Ordenar DataFrames**

In [None]:
df

In [None]:
df.sort_values(by='col2') #el argumento inplace por defecto es False, por lo que no se modifica el df original 

### Aplicando funciones

El método `apply()` permite aplicar una función a todos los elementos seleccionados de un DataFrame. Los resultados pueden reasignarse al DataFrame o agregarse como columnas o filas nuevas.

In [None]:
def cuadrado(valor):
    return valor**2

In [None]:
df['col2']

In [None]:
# calculo el cuadrado a toda la columna 1
df['col2'].apply(cuadrado)

In [None]:
# equivalente con expresión lambda
df['col2'].apply(lambda x:x**2)

---
## Entrada y salida de datos

Pandas posee la capacidad de leer varios tipos de archivos para incorporar sus datos en el entorno de trabajo mediante los métodos `pd.read_`. También tiene la capacidad de escribir los resultados obtenidos luego de una sesión de análisis en otros formatos.

### Importación desde archivos CSV

Para poder trabajar con información contenida en archivos CSV, sólo es necesario llamar al método de lectura correspondiente. Se asigna el archivo leído a un DataFrame.

In [None]:
import os # modulo para manejar rutas 
nombre_dataset='customers.csv' 
nombre_carpeta='datasets'
ruta_relativa=os.path.join(nombre_carpeta,nombre_dataset) #uso os.path.join() para crear la ruta
# de esta manera evito problemas con símbolos separadores para distintos sistemas operativos
dataframe = pd.read_csv(ruta_relativa) 

### Exportación hacia archivos CSV

Una vez creado el DataFrame, para desplegar el contenido de las primeras filas se utiliza el método `head()`.

In [None]:
dataframe.head()

Como se nota a continuación, un DataFrame es en sí mismo un tipo de objeto de pandas.

In [None]:
type(dataframe)

Luego de realizar análisis y operaciones sobre el conjunto de datos, es posible guardar los resultados en un CSV nuevo mediante el método de dataframes `.to_csv()`.

In [None]:
nombre_exportacion='new_customers'
ruta_relativa=os.path.join(nombre_carpeta,nombre_exportacion)
# el segundo argumento evita copiar los índices a la izquieda del DataFrame                                                 
dataframe.to_csv(ruta_relativa ,index=False)  #revise la carpeta datasets para encontrar el archivo nuevo  

### Importación desde archivos Excel 

La única diferencia es que en este caso el método a utilizar se llama `read_excel()`.

In [None]:
nombre_dataset='sample.xlsx'
ruta_relativa=os.path.join(nombre_carpeta,nombre_dataset)
df=pd.read_excel(ruta_relativa,sheet_name='Sample') # 2do argumento selecciona la tabla dentro del archivo 
df.head()

In [None]:
type(df) # el objeto obtenido sigue siendo un DataFrame de Pandas

### Exportación a Excel

De igual manera, puedo guardar mis resultados en un archivo nuevo.

In [None]:
nombre_exportacion='new_sample.xlsx'
ruta_relativa=os.path.join(nombre_carpeta,nombre_exportacion)
df.to_excel(ruta_relativa,sheet_name='Sheet1')

### Importación desde SAS

El método `read_sas()` permite leer archivos con extensión `.xport` y `.sas7bdat`.

In [None]:
nombre_dataset='airline.sas7bdat'
ruta_relativa=os.path.join(nombre_carpeta,nombre_dataset)
df=pd.read_sas(ruta_relativa) 
df.head()

### Entrada desde HTML 

Una herramienta extremadamente útil es la lectura desde código HTML en páginas web. El método de pandas `read_html()` permite esta acción. Por ejemplo: 

In [None]:
df = pd.read_html('http://www.fdic.gov/bank/individual/failed/banklist.html')

In [None]:
df[0].head()

Obtengamos desde la documentación oficial, las posibles opciones de lectura y escritura que Pandas tiene incorporadas.

In [None]:
df = pd.read_html('https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html')
df = df[0].replace(np.nan, '', regex=True)
df

Hay varias cosas para discutir sobre este ejemplo.

* Pandas no tiene métodos de escritura para todos los formatos de archivo, esto se evidencia en los métodos faltantes en la columna "Writer".

* La sentencia `df[0]` se debe a que `read_html` devuelve una lista con todas las tablas en formato HTML encontradas en la dirección url. Al escribir `df[0]` selecciono el primer elemento de la lista, que en este caso es la tabla de interés.

* Existen otras opciones si no encuentra en la tabla un formato de archivo con el que suele trabajar. Aunque se encuentren defecto en Anaconda Distribution, existen librerías que permiten la importación de otros formatos a dataframes de pandas.  

Probablemente los métodos de lectura más utilizados en la capacitación sean `read_csv()`, `read_excel()` y `read_sas()`. Esto dependerá de como evolucione el curso. Accediendo a https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html se puede interactuar con la tabla original para obtener información de cada método en específico. Los argumentos de entrada pueden variar entre tipos de formato.

Aunque parezca trivial, es importante aclarar que los métodos de lectura y escritura son independientes. Es posible leer de un formato de archivo y escribir a otro. El punto de encuentro siempre es el objeto dataframe.