# Sesión 9: Librería Pandas

 La librería Pandas desarrollada para el análisis. Fue desarrollada en NumPy. La librería Pandas trae la riqueza de R al mundo de Python. Tiene eficiente estructuras de datos para procesar los datos, unir datos y leerlos de varias fuentes.


## Series

Una **serie** en Pandas es un vector unidimensional con un índice que puede especificarse o no.

In [None]:
# Importar la librería Pandas desde Python.
import pandas as pd
import numpy as np

In [None]:
# Creación de una serie a partir de 5 números aleatorios.
pd.Series(np.random.randn(5))

In [None]:
ser_1 = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])

In [None]:
ser_1

In [None]:
ser_1['c']

In [None]:
ser_1[2]

In [None]:
ser_1[1:4]

## Data Frames

Un **DataFrame** son estructuras bidimensionales donde las columnas está etiquetadas con su valor y pueden ser de tipos distintos. Una analogía a un Dataframe podria ser una hoja de cálculo Excel o una tabla de una base de datos.

De forma opcional un Dataframe puede tener un ínidce. Ese ínidce será el nombre de las filas.

In [None]:
# Data Frames que provienen de diccionarios de series.
d = {'c1': pd.Series(['A', 'B', 'C']),'c2': pd.Series([1., 2., 3., 4.])}
data1 = pd.DataFrame(d)
data1

In [None]:
# Data Frames que provienen de diccionarios de listas.
d = {'c1': ['A', 'B', 'C', 'D'],'c2': [1.0, 2.0, 3.0, 4.0]}
data2 = pd.DataFrame(d)
display(data2)
print(type(data2))

In [None]:
#date_range genera una lista de fechas.
dates = pd.date_range('20130101',periods=6)
print(dates)

In [None]:
#index=> es el índice y indica el nombre de cada fila. en este caso metemos
#el array de dates del paso anterior. Columns identifica la etiqueta de las
#columnas.
df = pd.DataFrame(np.random.randn(6,4),index=dates,columns=list('ABCD'))
df

In [None]:
#También lo podemos imprimir más bonito (solamente en Jupyter)
display(df)

Los tipos de datos de un dataframe pueden ser diferentes. Es la misma idea que una tabla de la base de datos. Cada columna puede ser de un tipo diferente.

In [None]:
serie = pd.Series(42,index=list(range(4)))
display(serie)

In [None]:

df2 = pd.DataFrame({'A':1.0,
                    'B':pd.Timestamp('20130102'),
                    'C':pd.Series(42,index=list(range(4)),dtype='float32'),
                    'D':2,
                    'E':pd.Categorical(['test','train','test','train']),
                    'F': "foo" 
                   })
display(df2)
print(df2.dtypes)

Veamos algunas funciones útiles:
* pd.Timestamp(): genera una campo de tipo timestamp.
* pd.Series() Genera una serie de números. El index es el índice de la serie que es de tipo entero. Range genera los 4 primeros números.
* pd.Categorical() genera una lista de categorías.

A continuación se muestran diversas funciones útiles para acceder a las 
características de un DataFrame

In [None]:
print(df.index)
print('----------------------------------------')
print(df.columns)
print('----------------------------------------')
print(df.values)
print('----------------------------------------')
display(df)
print("=========================================")
print(df.describe())    #principales estadisticos de un dataframe

In [None]:
df

In [None]:
#dataframe transpuesto
display(df.T)

## Ordenación

In [None]:
#Ordenar por índices
display(df)
display(df.sort_index(axis=0,ascending=False)) # ordena las filas (axis 0)
display(df.sort_index(axis=1,ascending=False)) # ordena las columnas (axis 1)

In [None]:
#Ordenar por columnas
display(df)
display(df.sort_values(by=['C'],ascending=False)) 
# selecciona la columna que utilizaremos como criterio de ordenación

Las funciones head y tail nos muestran los primeros y últimos elementos respectivamente. Útiles para resumir el dataframe cuanod estos son muy grandes.

In [None]:
display(df.head(3))
display(df.tail(3))

#### Acceder a una columna.

In [None]:
display(df[['B']])
display(df.B) # Ojo con los nombres de las columnas que sea palabras con espacio

#### Acceder a una fila.

In [None]:
display(df[1:4])
display(df['2013-01-02':'2013-01-04']) # selección por filas con un rango de numpy

La función **loc()** define una selección a traves de un indice. Selecciona por filas en función del indice

In [None]:
display(df)
display(df.loc[[dates[1]]])   #el doble corchete convierte la salida en un dataframe
display(df.loc[['2013-01-02']])
display(df.loc[:,['A','B']]) #selecciona todas las filas y las columnas A y B
display(df.loc['2013-01-01':'2013-01-02',['A','B']]) #selecciona las filas '2013-01-01' a '2013-01-02' y las columnas A y B

**iloc()** es similar, pero utiliza enteros en vez de los nombres de los campos (podemos aplicar indexing y slicing).

In [None]:
display(df.iloc[3])    # devuelve como resultado una serie
display(df.iloc[[3]])    # devuelve como resultado un dataframe
display(df.iloc[0:2,0:2])
display(df.iloc[[1,2,4],[0,2,3]])
display(df.iloc[:,[0,2,3]])
display(df.iloc[[0,2,4],:])

**Filtrado condicional:** Similar a select where condition de sql. Permite consular solo los valores que cumplan con la condición.

In [None]:
display(df)
display(df[df.B > 0]) # muestra los valores de la tabla en cuya columna B su valor sea mayor que 0
display(df[df > 0]) # muestra los elementos de la tabla que sean mayores que cero. El resto serán NaN

**Cruzado de datos (merge)** similar a la que se puede hacer en BBDD con join.

In [None]:
tabla1 = pd.DataFrame({'key1' : ['A','B','C','D'], 'lval':[1,2,3,4]})
tabla2 = pd.DataFrame({'key2' : ['C','D','E','F'], 'rval':[5,6,7,8]})
display(tabla1)
display(tabla2)
new1 = pd.merge(tabla1,tabla2,left_on='key1',right_on='key2', how="left")  
# si el campo para fusionar se llam igual en ambas tablas, basta con poner on=" "
#how : forma en la que combinamos con una intersección o con una unión, 
#sólo con la izquierda o sólo con la tabla de la derecha
#left, right, inner o outher.
display(new1)
new2 = pd.merge(tabla1,tabla2,left_on='key1',right_on='key2', how="inner") 
display(new2)
new3 = pd.merge(tabla1,tabla2,left_on='key1',right_on='key2', how="right") 
display(new3)

Para hacer agrupaciones, podemos usar **groupby**

In [None]:
f = pd.DataFrame({'A' : ['foo', 'bar'] * 12,
                   'B' : ['one', 'two', 'three']*8,
                   'val1' : np.random.rand(24),
                   'val2' : np.random.rand(24)})
display(f)

In [None]:
group = f.groupby(['A','B'])
print("-------------")
display(group)

In [None]:
# los grupos no se pueden mostrar, 
# group está pensado para ejecutar posteriormente una acción
# por ejemplo sumar
print("-----suma agrupada------")
display(group.sum())
print("-----estadisticos agrupados------")
display(group.describe())

Una agrupación directa:

In [None]:
f.groupby(['A','B']).sum()

Ahora aplicamos un filtro sobre una agrupación (similar al having de SQL):

In [None]:
agrup = f.groupby(['A','B']).sum()
agrup[agrup.val1 > 2]

Pero veo que existe un método llamado **join()**. ¿Tienen la misma funcionalidad?

In [None]:
tabla1.set_index('key1').join(tabla2.set_index('key2'))

In [None]:
tabla1.set_index('key1').join(tabla2.set_index('key2'),how="inner")

Pues la respuesta es que **`No`**. El método `join()` se usa cuando se quiere cruzar dos DataFrames en base a sus índices o en base al(a los) índice(s) de un DataFrame con la(s) columna(s) de la otra.

¿Te acuerdas de las tablas dinámicas de Excel? Pues, DataFrame tiene una funcionalidad parecida.

In [None]:
f

In [None]:
f.pivot_table(index="A", columns="B", values="val1", aggfunc="mean", margins=True, margins_name='Total')

### Programación Funcional con Pandas
Las funciones `lambda`, `map` y `filter` vistas en los notebooks anteriores, son utilizadas por los DataFrames.

##### Lambda

In [None]:
# Defino una función lambda para poder sumar una unidad a un valor
potencia = lambda x: x**2

In [None]:
# Sumar una unidad a una columna
f["val1"].apply(potencia)

¿Puedo hacer operaciones con más de una columna?

In [None]:
fraccion = lambda row: round(row["val1"] / row["val2"], 2) if row["val2"] > 0 else 0

In [None]:
f["fraccion"] = f.apply(fraccion, axis=1)
f

##### Map
Nos permite asociar un valor con otro

In [None]:
f["B"].unique().tolist()

In [None]:
ingreso_rng_dict = {v: k for k, v in enumerate(f["B"].unique().tolist())}
ingreso_rng_dict

In [None]:
f["B_COD"] = f["B"].map(ingreso_rng_dict)
f

##### Filter
Nos permite filtrar en base a los índices en cualquiera de los axis.

In [None]:
f.filter(items=["A", "B"], axis=1)

In [None]:
# Filtrar solo las columnas que empiecen con B
f.filter(like="B", axis=1)

### SQL - WHERE column_name LIKE '%o%'

In [None]:
f[f['B'].str.contains('o')]

### SQL - WHERE column_name LIKE 'o%'

In [None]:
f[f['B'].str.startswith('o')]

### SQL - WHERE column_name LIKE '%e'

In [None]:
f[f['B'].str.endswith('e')]

## Importar y exportar datos en formato csv y txt

In [None]:
# Importar datos en formato csv.
d_students = pd.read_csv('data/students.csv', sep=',')

In [None]:
# Leer los primeros registros
d_students.head(3)

In [None]:
# Importar datos en formato txt.
d_txt = pd.read_csv('data/students.txt', sep='|')

In [None]:
d_txt.head(3)

### Exportar datos de un data frame a un csv y txt

In [None]:
display(f)

In [None]:
f.to_csv('prueba.csv', sep=',', index=False)

In [None]:
f.to_csv('prueba.txt', sep='|', index=False)

### Ejemplo de uso de **read_csv** con *parse_dates*

In [None]:
dateparse = lambda x: pd.datetime.strptime(x, '%Y %m') # depende del formato que tenga la fecha en tu archivo
data = pd.read_csv("data/AirPassengers_2012_2016_2.csv", parse_dates= {'yearmonth':['Year', 'Month']}, date_parser=dateparse,index_col='yearmonth')
data.head()

### Valores como cabeceras de las columnas en lugar de nombres de variables  

In [None]:
import pandas as pd
incomes_per_religion = pd.read_csv("data/religion_income.csv")
incomes_per_religion.head()

In [None]:
incomes_per_religion_tidy = pd.melt(incomes_per_religion, 
    id_vars=['religion'], var_name='income', value_name='frequency')
incomes_per_religion_tidy.set_index('religion',inplace=True)
incomes_per_religion_tidy.sort_index().head(10)

## Importar y exportar datos en formato xls

In [None]:
# Importar datos en formato xls.
d = pd.read_excel('data/students.xls')

In [None]:
# ordenando por algún campo específico
d.sort_values('AREA NAME', ascending=False).head(3)

In [None]:
billboard = pd.read_excel("data/billboard.xlsx")
billboard.head(10)

In [None]:
songs_cols = ["year", "artist.inverted", "track", "time", "genre"]
songs = billboard[songs_cols].drop_duplicates() # Eliminamos posibles duplicados
songs = songs.reset_index(drop=True) # Se reinicia el índice eliminando el antiguo
songs["song_id"] = songs.index
songs.head()

### Exportar datos de un data frame a formato Excel

In [None]:
songs.to_excel("data/canciones.xlsx")

## Importar datos en formato JSON

In [None]:
# Importar el paquete JSON.
import json

In [None]:
json_data = open('data/students.json')

In [None]:
data = json.load(json_data)

In [None]:
data

In [None]:
json_data.close()

### Juntar varias tablas con nombres consecutivos

In [None]:
df1 = pd.read_csv('data/religion_income_1.csv')
df1

In [None]:
df2 = pd.read_csv('data/religion_income_2.csv')
df2

In [None]:
from glob import glob

#permite juntar varias tablas con nombres consecutivos
filenames = glob('data/religion_income_*.csv')
dataframes = []
dataframes = [pd.read_csv(f) for f in filenames]
df3 = pd.concat(dataframes)
df3

In [None]:
df3.reset_index(inplace=True)
df3

# Data Cleansing

## Valores perdidos

In [None]:
# Identificar a los valores perdidos.
d_students['REGION'].isnull().value_counts()

In [None]:
# Identificar a los valores no perdidos.
d_students['PCT OVERWEIGHT'].notnull().value_counts()

In [None]:
# Cuantificar a los valores perdidos.
d_students['PCT OVERWEIGHT'].isnull().value_counts()

In [None]:
# Cuantificar a los valores no perdidos.
d_students['PCT OVERWEIGHT'].notnull().value_counts()

In [None]:
# Eliminar a los valores perdidos.
d_students['PCT OVERWEIGHT'].dropna().head(20)

In [None]:
d_students.head(20)

In [None]:
# Eliminar a cualquier registro que tenga por lo menos un campo con valor perdido: how='any'
# Para eliminar filas completas con valores todos los valores vacíos: how='all'
d = d_students.dropna(how='any')

In [None]:
d.head(20)

In [None]:
# Cuantificar a los valores perdidos.
d['PCT OVERWEIGHT'].isnull().value_counts()

## Imputar Valores Perdidos

In [None]:
# Crear un data frame en base a números aleatorios.
df = pd.DataFrame(np.random.randn(5, 3), index=['a0', 'a10','a20', 'a30', 'a40'],columns=['X', 'Y', 'Z'])
df

In [None]:
# Crear índices adicionales al data frame.
df2 = df.reindex(['a0', 'a1', 'a10', 'a11', 'a20', 'a21','a30', 'a31', 'a40', 'a41'])
df2

In [None]:
# Completar los valores perdidos con ceros.
df3 = df2.fillna(0)
df3

In [None]:
# Completar los valores con valores diferentes por variable mediante un diccionario
values = {'X': 10, 'Y': 20, 'Z': 30}
df4 = df2.fillna(values)
df4

In [None]:
# Completar los valores perdidos con el método “forward propagation”. Se va completar con el valor previo al nulo.
df5 = df2.fillna(method='pad')
df5

In [None]:
# Completar los valores perdidos con el promedio de la variable.
df6 = df2.fillna(df2.mean())
df6

In [None]:
# Completar los valores perdidos con la mediana de determinadas variables.
df7 = df2[['X','Y']].fillna(df2[['X','Y']].median())
df7

# Extra 1: 

## Trabajando con un DataFrame

In [None]:
# Importar un archivo csv y leer los 5 primeros casos.
df = pd.read_csv('data/students.csv')
df['AREA NAME'][0:5]

In [None]:
df[['GRADE LEVEL']]

In [None]:
df['GRADE LEVEL'] == 'ELEMENTARY'

In [None]:
# Filtrar casos específicos.
df[(df['GRADE LEVEL'] == 'ELEMENTARY') & (df['COUNTY'] == 'YATES')]

In [None]:
df[['COUNTY','AREA NAME']][0:5]

In [None]:
# Convertir a mayúsculas.
df['AREA NAME'][0:5].str.upper()

In [None]:
# Convertir a minúsculas.
df['AREA NAME'][0:5].str.lower()

In [None]:
# Convertir a minúsculas.
df['AREA NAME'][0:5].str.title()

In [None]:
# Cuantificar la cantidad de caracteres de cada elemento.
df['AREA NAME'][0:5].str.len()

In [None]:
# Cortar en base a espacios en blanco.
df['AREA NAME'][0:5].str.split(' ')

In [None]:
# Cortar en base a espacios en blanco.
df['AREA NAME'][0:5].str.split(' ').str.get(0)

In [None]:
# Reemplazar
df['AREA NAME'][0:5].str.replace('DISTRICT$', 'DIST')

In [None]:
df['AREA NAME'][0:5].str.strip()

In [None]:
help(df['AREA NAME'][0:5].str)

# Extra 2:

## Concatenación de DataFrames

In [None]:
# Seleccionamos los 5 primeros registros de 2 campos.
d[['AREA NAME', 'COUNTY']][0:5]

In [None]:
# Partir los datos en dos grupos. Concatenarlos por posición.
p1 = d[['AREA NAME', 'COUNTY']][0:2] 
p1

In [None]:
p2 = d[['AREA NAME', 'COUNTY']][2:5]
p2

In [None]:
pd.concat([p1,p2])

In [None]:
# Concatenar datos en base a una llave.
concatenated = pd.concat([p1,p2], keys = ['p1','p2'])
concatenated.head()

In [None]:
# Seleccionar la data agregada en base a una llave.
concatenated.loc['p1']

In [None]:
# Seleccionamos un subconjunto de elementos y promediamos.
data = df[df['GRADE LEVEL'] == 'ELEMENTARY']
data.head()

In [None]:
data.mean()

In [None]:
df.info()

In [None]:
df['ZIP CODE'] = df['ZIP CODE'].astype(str)

In [None]:
df.info()

In [None]:
data['NO. OBESE'].mean()

In [None]:
data['NO. OBESE'].median()

In [None]:
# La suma total.
data['NO. OBESE'].sum()

In [None]:
# Valor máximo.
data['NO. OBESE'].max()

In [None]:
# Valor mínimo.
data['NO. OBESE'].min()

In [None]:
# Desviación Estándar.
data['NO. OBESE'].std()

In [None]:
# Conteo.
data = df[(df['GRADE LEVEL'] == 'ELEMENTARY') &(df['COUNTY'] == 'DELAWARE')]
data['COUNTY'].count()

In [None]:
data[['CITY','LOCATION CODE']]

In [None]:
data.count()

In [None]:
# Crear datos
grade_lookup = {'GRADE LEVEL': pd.Series(['ELEMENTARY','MIDDLE/HIGH', 'MISC']),'LEVEL': pd.Series([1, 2, 3])}
grade_lookup

In [None]:
grade_lookup2 = pd.DataFrame(grade_lookup)
grade_lookup2

In [None]:
# Primeros 5 elementos del campo GRADE LEVEL
df['GRADE LEVEL'].unique()

In [None]:
df


In [None]:
# Inner Join
d_sub = df.join(grade_lookup2.set_index(['GRADE LEVEL']), on=['GRADE LEVEL'], how='inner')
d_sub

In [None]:
#Left Join.
d_sub = df.join(grade_lookup2.set_index(['GRADE LEVEL']), on=['GRADE LEVEL'], how='left')
d_sub

In [None]:
#Full Outer Join.
d_sub = df.join(grade_lookup2.set_index(['GRADE LEVEL']),on=['GRADE LEVEL'], how='outer')
d_sub

In [None]:
#Método merge
d_sub = pd.merge(df, grade_lookup2, on=['GRADE LEVEL'], how='outer')
d_sub

In [None]:
d_sub = pd.merge(df, grade_lookup2, left_on=['GRADE LEVEL'], right_on=['GRADE LEVEL'], how='inner')
d_sub

In [None]:
d_sub = pd.merge(df, grade_lookup2.set_index(['GRADE LEVEL']), left_on=['GRADE LEVEL'], right_index=True, how='inner')
d_sub

In [None]:
d_sub = pd.merge(df.set_index(['GRADE LEVEL']), grade_lookup2, left_index=True, right_on=['GRADE LEVEL'], how='inner')
d_sub

In [None]:
d_sub = pd.merge(df.set_index(['GRADE LEVEL']), grade_lookup2.set_index(['GRADE LEVEL']), left_index=True, right_index=True, how='inner')
d_sub

# Extra 3:

## Agrupaciones en un DataFrame

In [None]:
# Group By
df.groupby('GRADE LEVEL')['NO. OBESE'].sum()

In [None]:
df.groupby('GRADE LEVEL')['NO. OBESE'].mean()

In [None]:
df.groupby('GRADE LEVEL')['NO. OBESE'].std()

In [None]:
df.groupby('GRADE LEVEL')['NO. OBESE'].aggregate(sum)

In [None]:
df.groupby('GRADE LEVEL')['NO. OBESE'].agg(sum)

In [None]:
df.groupby('GRADE LEVEL')['NO. OBESE'].agg(suma = sum)

In [None]:
df.groupby(['COUNTY','GRADE LEVEL'])['NO. OBESE'].agg(suma = sum)

In [None]:
df.groupby('GRADE LEVEL').agg(suma_NO_OBESES = ('NO. OBESE', sum),
                              count_NO_OBESES = ('NO. OVERWEIGHT', len))

In [None]:
df.groupby(['COUNTY','GRADE LEVEL']).agg(suma_NO_OBESES = ('NO. OBESE', sum),
                                         count_NO_OBESES = ('NO. OVERWEIGHT', len))