# Tutorial : Pandas - parte I

**C03 : Visualización Científica y Narrativas**

**RAUGM 2021: Geociencias e inclusión**

This tutotial by Luis M. de la Cruz Salas is licensed under <a href="https://creativecommons.org/licenses/by-nc-nd/4.0?ref=chooser-v1">Attribution-NonCommercial-NoDerivatives 4.0 International</a>

In [None]:
from seaborn import load_dataset

In [None]:
df = load_dataset("tips")
df

## Función `iloc`

In [None]:
df.iloc[0] # renglón cero

In [None]:
df.iloc[0,0] # Primer elemento del primer renglón

In [None]:
df.iloc[:,0] # Todos los elementos de la primera columna

In [None]:
df.iloc[:,0:3] # Las primeras 3 columnas

In [None]:
df.iloc[[0,2,3]] # Se eligen algunos renglones específicos

In [None]:
df.iloc[:,[1,3]] # Se eligen algunas columnas específicas

## Función `loc`

In [None]:
df.loc[:,'smoker'] # Se puede usar el nombre de la columna

In [None]:
df.loc[:,['sex', 'day']] # Se puede usar el nombre de la columna

In [None]:
is_male = df.loc[:,'sex'] == 'Male'
is_male

In [None]:
df_male = df.loc[is_male]

In [None]:
df_male

In [None]:
total_up_10 = df.loc[:,'total_bill'] > 9
df[total_up_10]

## Operaciones de agrupación 

In [None]:
import pandas as pd
import numpy as np

In [None]:
df = pd.DataFrame({'key1' : ['a', 'a', 'b', 'b', 'a'], 
                   'key2' : ['one', 'two', 'one', 'two', 'one'],
                   'data1': [1.0, 2.0, 3.0, 4.0, 5.0],
                   'data2': [6.0, 7.0, 8.0, 9.0, 10.0]}
                 )

df

In [None]:
grupo = df['data1'].groupby(df['key1'])
print(type(grupo))
pd.DataFrame(grupo)

### Función `describe`

In [None]:
grupo.describe()

### Otras funciones

In [None]:
grupo.mean()

In [None]:
paises = np.array(['México', 'México', 'USA', 'USA', 'México'])
años = np.array([2005, 2005, 2006, 2005, 2006])

In [None]:
grupo2 = df['data1'].groupby([paises])
grupo2.describe()

In [None]:
grupo3 = df['data1'].groupby([años])
grupo3.describe()

In [None]:
grupo4 = df['data1'].groupby([paises, años])
grupo4.describe()

In [None]:
grupo4.mean()

In [None]:
df

In [None]:
df.groupby('key1').mean()

In [None]:
for name, group in df.groupby('key1'):
    print(name)
    print(group)

In [None]:
for (k1,k2), group in df.groupby(['key1', 'key2']):
    print((k1,k2))
    print(group)

In [None]:
grupo5 = df.groupby(['key1', 'key2'])['data2']
grupo5.describe()

In [None]:
grupo5.mean()

In [None]:
people = pd.DataFrame(np.random.rand(5,5),
                     columns = ['a', 'b', 'c', 'd', 'e'],
                     index = ['L', 'M', 'N', 'O', 'P'])
people

In [None]:
people.iloc[1:3,[1,2]] = np.nan
people

In [None]:
mapea_color = {'a':'Azul', 'b':'Azul', 
               'c':'Amarillo', 'd':'Amarillo', 'e':'Violeta', 'f':'Amarillo'}

In [None]:
grupo6 = people.groupby(mapea_color, axis=1)
grupo6.describe()

In [None]:
grupo6.sum()

In [None]:
mapea_color_serie = pd.Series(mapea_color)
mapea_color_serie

In [None]:
people.groupby(mapea_color_serie, axis=1).count()

## Ejemplo
Realizar un análisis de los datos *tips*:
- Agregar una columna al DataFrame con el porcentaje de propina con respecto de la cuenta total.
- Agrupar por `day` y `smoker` y calcular la media.
- Agrupar por `sex` y obtener el primer renglón de cada clase.
- Agrupar por `tip` y obtener las que son iguales a $1.0$.
- Agrupar por `sex` y `day`, obtener el primer renglón de cada clase.
- Ordenar el DataFrame por el total de la cuenta en orden descendente.

In [None]:
tips = load_dataset("tips")
tips

In [None]:
tips['tip_pct'] = tips['tip'] * 100/ tips['total_bill']

In [None]:
tips

In [None]:
tips.groupby(['day','smoker']).mean()

Ordenar por sexo y mostra solo primera línea de cada agrupación

In [None]:
test1 = tips.groupby('sex')
test1.first()

Ordenamos por propina y obtenemos solo las propinas que son igual 1.0

In [None]:
test2 = tips.groupby('tip')
test2.get_group(1.00)

Ordenar por sexo y día y mostrar solo el primer elemento de cada agrupación

In [None]:
test3 = tips.groupby(['sex', 'day'])
test3.first()

Ordenar por los valores más altos de la cuenta total

In [None]:
test4 = tips.sort_values('total_bill', axis=0, ascending = False)
test4