# Group By

O método groupby é o primeiro passo para fazer algum tipo de agregação de dados.

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('../Database/drinks.csv')

In [3]:
df.groupby(by="continent")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001CFF6E8D400>

In [4]:
df.groupby(by="continent").sum()

Unnamed: 0_level_0,country,beer_servings,wine_servings,total_litres_of_pure_alcohol
continent,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AF,AlgeriaAngolaBeninBotswanaBurkina FasoBurundiC...,3258,878,0.75.91.15.44.36.34.04.05.83.80.40.11.72.31.10...
AS,AfghanistanBahrainBangladeshBhutanBruneiCambod...,1332,457,02.00.00.40.62.25.02.20.10.00.22.57.00.56.80.0...
EU,AlbaniaAndorraArmeniaAustriaAzerbaijanBelarusB...,8705,6057,4.912.43.89.71.314.410.54.610.310.28.211.810.4...
OC,AustraliaFijiKiribatiMarshall IslandsMicronesi...,1247,537,10.42.01.00.02.31.09.36.91.52.61.21.11.00.9
SA,ArgentinaBoliviaBrazilChileColombiaEcuadorGuya...,2101,820,8.33.87.27.64.24.27.17.36.15.66.67.7


In [5]:
df.groupby(by="continent")["wine_servings"].sum()

continent
AF     878
AS     457
EU    6057
OC     537
SA     820
Name: wine_servings, dtype: int64

In [7]:
numeric_columns = df.select_dtypes(include=[int, float]).columns

In [9]:
std_by_continent = df.groupby(by="continent")[numeric_columns].std()

In [10]:
std_by_continent

Unnamed: 0_level_0,beer_servings,wine_servings
continent,Unnamed: 1_level_1,Unnamed: 2_level_1
AF,80.231505,38.143812
AS,38.178838,27.872709
EU,99.42282,97.071578
OC,97.024552,66.897864
SA,65.242845,86.640672


In [12]:
df.loc[:,"Serve_Cerveja"] = df.beer_servings > 0
df

Unnamed: 0,country,beer_servings,wine_servings,total_litres_of_pure_alcohol,continent,Serve_Cerveja
0,Afghanistan,0,0,0,AS,False
1,Albania,89,54,4.9,EU,True
2,Algeria,25,14,0.7,AF,True
3,Andorra,245,312,12.4,EU,True
4,Angola,217,45,5.9,AF,True
...,...,...,...,...,...,...
187,Venezuela,333,3,7.7,SA,True
188,Vietnam,111,1,2.0,AS,True
189,Yemen,6,0,0.1,AS,True
190,Zambia,32,19,2.5,AF,True


# Apply

O método apply aplica uma função a cada item do eixo especificado.

In [14]:
df["country"]

0      Afghanistan
1          Albania
2          Algeria
3          Andorra
4           Angola
          ...     
187      Venezuela
188        Vietnam
189          Yemen
190         Zambia
191       Zimbabwe
Name: country, Length: 192, dtype: object

In [15]:
df["beer_servings"] + 1

0        1
1       90
2       26
3      246
4      218
      ... 
187    334
188    112
189      7
190     33
191     65
Name: beer_servings, Length: 192, dtype: int64

In [16]:
def exemplo(row):
    if row.continent == "EU":
        row.beeer_servings = - 1
    return row

df.apply(exemplo, axis=1)

Unnamed: 0,country,beer_servings,wine_servings,total_litres_of_pure_alcohol,continent,Serve_Cerveja
0,Afghanistan,0,0,0,AS,False
1,Albania,89,54,4.9,EU,True
2,Algeria,25,14,0.7,AF,True
3,Andorra,245,312,12.4,EU,True
4,Angola,217,45,5.9,AF,True
...,...,...,...,...,...,...
187,Venezuela,333,3,7.7,SA,True
188,Vietnam,111,1,2.0,AS,True
189,Yemen,6,0,0.1,AS,True
190,Zambia,32,19,2.5,AF,True


In [18]:
def exemplo(row):
    if row.continent == "EU":
        row["beeer_servings2"] = - 1
    return row

df.apply(exemplo, axis=1)

Unnamed: 0,Serve_Cerveja,beeer_servings2,beer_servings,continent,country,total_litres_of_pure_alcohol,wine_servings
0,False,,0,AS,Afghanistan,0,0
1,True,-1.0,89,EU,Albania,4.9,54
2,True,,25,AF,Algeria,0.7,14
3,True,-1.0,245,EU,Andorra,12.4,312
4,True,,217,AF,Angola,5.9,45
...,...,...,...,...,...,...,...
187,True,,333,SA,Venezuela,7.7,3
188,True,,111,AS,Vietnam,2.0,1
189,True,,6,AS,Yemen,0.1,0
190,True,,32,AF,Zambia,2.5,19


In [19]:
df["country"].apply(lambda x: x.upper())

0      AFGHANISTAN
1          ALBANIA
2          ALGERIA
3          ANDORRA
4           ANGOLA
          ...     
187      VENEZUELA
188        VIETNAM
189          YEMEN
190         ZAMBIA
191       ZIMBABWE
Name: country, Length: 192, dtype: object

# Lambda Functions

Uma função Lambda é uma função anônima que recebe alguns parâmetros e executa apenas uma operação.

Uso:

lambda param_1, ..., param_n: operação

In [20]:
lambda  x:x ** 2

<function __main__.<lambda>(x)>

Mesmo a função sendo anônima, é possível atribuir seu valor a uma variável. Desta forma é possível executá-la. Entretanto, se é necessário executar a função normalmente, é recomendado criar a função de maneira tradicional, com def.

In [21]:
f = lambda  x:x ** 2
f(5)

25

In [22]:
df.head()

Unnamed: 0,country,beer_servings,wine_servings,total_litres_of_pure_alcohol,continent,Serve_Cerveja
0,Afghanistan,0,0,0.0,AS,False
1,Albania,89,54,4.9,EU,True
2,Algeria,25,14,0.7,AF,True
3,Andorra,245,312,12.4,EU,True
4,Angola,217,45,5.9,AF,True


# Usando o apply com uma função lambda:

In [24]:
df.beer_servings.apply(lambda x: x ** 2)

0           0
1        7921
2         625
3       60025
4       47089
        ...  
187    110889
188     12321
189        36
190      1024
191      4096
Name: beer_servings, Length: 192, dtype: int64

In [23]:
def soma(x, y):
    return x + y

df.beer_servings.apply(lambda x: soma(x, 5))

0        5
1       94
2       30
3      250
4      222
      ... 
187    338
188    116
189     11
190     37
191     69
Name: beer_servings, Length: 192, dtype: int64

In [25]:
df.loc[:, "normed_beer_servings"] = df.beer_servings.apply(lambda x: soma(x, 5))
df.head()

Unnamed: 0,country,beer_servings,wine_servings,total_litres_of_pure_alcohol,continent,Serve_Cerveja,normed_beer_servings
0,Afghanistan,0,0,0.0,AS,False,5
1,Albania,89,54,4.9,EU,True,94
2,Algeria,25,14,0.7,AF,True,30
3,Andorra,245,312,12.4,EU,True,250
4,Angola,217,45,5.9,AF,True,222


# Tratamento de exceções

Uma exceção é resultante de um erro durante a execução de um código Python. O tratamento de exceções permite que a execução de um código siga por um caminho alternativo, evitando que a execução "quebre" por conta de erros.

O fluxo de tratamento de exceções em Python segue o racional:

    try:
        pass
    except:
        pass
    finally:    # instrução opcional
        pass

O bloco try contém o código que pode gerar alguma exceção.

O bloco except realiza a tratativa da exceção. Esse bloco pode ou não especificar um erro. A vantagem de tratarmos os erros esperados individualmente é flexibilizar os caminhos de execução alternativos.

O bloco finally é opcional ao usarmos try/except e é executado sempre ao final dos demais blocos, ou seja, é executado independentemente se houve ou não uma exceção naquela execução.

In [26]:
def inverte(x):
    return 1 / x

df.beer_servings.apply(inverte)

ZeroDivisionError: division by zero

In [27]:
def inverte(x):
    try:
        return 1 / x
    except ZeroDivisionError:
        return 0

df.beer_servings.apply(inverte)

0      0.000000
1      0.011236
2      0.040000
3      0.004082
4      0.004608
         ...   
187    0.003003
188    0.009009
189    0.166667
190    0.031250
191    0.015625
Name: beer_servings, Length: 192, dtype: float64

## Cuidado com erros que deveriam ser erros:

In [29]:
df.continent.apply(inverte)

TypeError: unsupported operand type(s) for /: 'int' and 'str'

Podemos ser um tanto **precisos**, para evitar capturas de erros diferentes:

In [30]:
def inverte(x):
    try:
        return 1 / x
    except ZeroDivisionError:
        return 0

df.beer_servings.astype(str).apply(inverte)

TypeError: unsupported operand type(s) for /: 'int' and 'str'

In [32]:
def inverte(x):
    try:
        return 1 / x
    except ZeroDivisionError:
        return 999

df.beer_servings.astype(str).apply(inverte)

TypeError: unsupported operand type(s) for /: 'int' and 'str'

In [33]:
df.beer_servings.apply(inverte)

0      999.000000
1        0.011236
2        0.040000
3        0.004082
4        0.004608
          ...    
187      0.003003
188      0.009009
189      0.166667
190      0.031250
191      0.015625
Name: beer_servings, Length: 192, dtype: float64

# Applymap

O método applymap aplica uma função a todos os elementos de um dataaframe

In [34]:
def mult_10(x):
    if isinstance(x, float) or isinstance(x, int):
        return x * 10
    elif isinstance(x, str):
        return x.upper()
    else:
        return x

df.applymap(mult_10)

  df.applymap(mult_10)


Unnamed: 0,country,beer_servings,wine_servings,total_litres_of_pure_alcohol,continent,Serve_Cerveja,normed_beer_servings
0,AFGHANISTAN,0,0,0,AS,0,50
1,ALBANIA,890,540,4.9,EU,10,940
2,ALGERIA,250,140,0.7,AF,10,300
3,ANDORRA,2450,3120,12.4,EU,10,2500
4,ANGOLA,2170,450,5.9,AF,10,2220
...,...,...,...,...,...,...,...
187,VENEZUELA,3330,30,7.7,SA,10,3380
188,VIETNAM,1110,10,2.0,AS,10,1160
189,YEMEN,60,0,0.1,AS,10,110
190,ZAMBIA,320,190,2.5,AF,10,370


# Combinando Dataframes

No Pandas existem 4 tipos de operações para combinar dataframes:

   - merge
   - join
   - concat
   - append

merge e join possuem basicamente o mesmo funcionamento. Da mesma maneira, concat e append também são redundantes.

Vamos falar com mais detalhe do fucnionamento do merge e concat.

## Importando os dados

In [35]:
import numpy as np
import pandas as pd

In [41]:
df = pd.read_csv('../Database/tips.csv')

In [42]:
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Female,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


# Merge

A função merge é usada para executar combinações complexas de colunas da mesma forma que o SQL.

Para fazer o merge, precisamos de dois dataframes:

In [46]:
tips = df.groupby(by=["sex", "smoker"])[["tip"]].sum()
bills = df.groupby(by=["sex", "smoker"])[["total_bill"]].sum()

In [47]:
tips

Unnamed: 0_level_0,Unnamed: 1_level_0,tip
sex,smoker,Unnamed: 2_level_1
Female,No,13.01
Male,No,11.87


In [48]:
bills

Unnamed: 0_level_0,Unnamed: 1_level_0,total_bill
sex,smoker,Unnamed: 2_level_1
Female,No,107.18
Male,No,65.41


Ao executar o comando abaixo, podemos ver o que o merge tem diversos parâmetros. Todos eles são úteis, e vamos olhar com mais detalhe os mais importantes.

   - left: o dataframe que estará à esquerda no join.
   - right: o dataframe que estará à direita no join.
   - how: a maneira como será feito o join (inner, left, right, outer).
   - on: as colunas onde estão as chaves do join.
   - left_on: 