# Continação Pandas

Nessa aula vamos continuar vendo sobre a biblioteca Pandas e mais algumas das suas utilidades. 

## Sumário
- [Tipos de dados em tabelas](#Tipos-de-dados-em-tabelas)
    * [Strings](#Strings)
    * [Datetime e Timedelta](#Datetime-e-Timedelta)
- [Query](#Query)
- [Merge](#Merge)
- [Group By](#Group-By)
- [Conclusão](#Conclusão)

## Importando a biblioteca e lendo os dados 

Nessa aula usaremos três datasets:

- WorldCup: contém informações sobre as copas do mundo, como sede, ano, campeão e quantidade de gols
- WorldCupMatches: contém informações sobre todas as partidas que ocorreram em cada uma das copas, como data, estádio, placar e quantidade de gols
- WorldCupPlayers: contém informações sobre os jogadores que já participaram de uma copa do mundo, como nome, seleção, camisa e posição

Vamos ver um pouco mais sobre cada uma das tabelas abaixo.

In [1]:
import pandas as pd

cups = pd.read_csv('WorldCups.csv')
matches = pd.read_csv('WorldCupMatches.csv')
players = pd.read_csv('WorldCupPlayers.csv')

### Overview da tabela de copas

In [2]:
cups.head()

Unnamed: 0,Year,Country,Winner,Runners-Up,Third,Fourth,GoalsScored,QualifiedTeams,MatchesPlayed,Attendance
0,1930,Uruguay,Uruguay,Argentina,USA,Yugoslavia,70,13,18,590.549
1,1934,Italy,Italy,Czechoslovakia,Germany,Austria,70,16,17,363.000
2,1938,France,Italy,Hungary,Brazil,Sweden,84,15,18,375.700
3,1950,Brazil,Uruguay,Brazil,Sweden,Spain,88,13,22,1.045.246
4,1954,Switzerland,Germany FR,Hungary,Austria,Uruguay,140,16,26,768.607


In [3]:
cups.dtypes

Year               int64
Country           object
Winner            object
Runners-Up        object
Third             object
Fourth            object
GoalsScored        int64
QualifiedTeams     int64
MatchesPlayed      int64
Attendance        object
dtype: object

### Overview da tabela de partidas

In [4]:
matches.head()

Unnamed: 0,Year,Datetime,Stage,Stadium,City,Home Team Name,Home Team Goals,Away Team Goals,Away Team Name,Win conditions,Attendance,Half-time Home Goals,Half-time Away Goals,Referee,Assistant 1,Assistant 2,RoundID,MatchID,Home Team Initials,Away Team Initials
0,1930.0,13 Jul 1930 - 15:00,Group 1,Pocitos,Montevideo,France,4.0,1.0,Mexico,,4444.0,3.0,0.0,LOMBARDI Domingo (URU),CRISTOPHE Henry (BEL),REGO Gilberto (BRA),201.0,1096.0,FRA,MEX
1,1930.0,13 Jul 1930 - 15:00,Group 4,Parque Central,Montevideo,USA,3.0,0.0,Belgium,,18346.0,2.0,0.0,MACIAS Jose (ARG),MATEUCCI Francisco (URU),WARNKEN Alberto (CHI),201.0,1090.0,USA,BEL
2,1930.0,14 Jul 1930 - 12:45,Group 2,Parque Central,Montevideo,Yugoslavia,2.0,1.0,Brazil,,24059.0,2.0,0.0,TEJADA Anibal (URU),VALLARINO Ricardo (URU),BALWAY Thomas (FRA),201.0,1093.0,YUG,BRA
3,1930.0,14 Jul 1930 - 14:50,Group 3,Pocitos,Montevideo,Romania,3.0,1.0,Peru,,2549.0,1.0,0.0,WARNKEN Alberto (CHI),LANGENUS Jean (BEL),MATEUCCI Francisco (URU),201.0,1098.0,ROU,PER
4,1930.0,15 Jul 1930 - 16:00,Group 1,Parque Central,Montevideo,Argentina,1.0,0.0,France,,23409.0,0.0,0.0,REGO Gilberto (BRA),SAUCEDO Ulises (BOL),RADULESCU Constantin (ROU),201.0,1085.0,ARG,FRA


In [5]:
matches.dtypes

Year                    float64
Datetime                 object
Stage                    object
Stadium                  object
City                     object
Home Team Name           object
Home Team Goals         float64
Away Team Goals         float64
Away Team Name           object
Win conditions           object
Attendance              float64
Half-time Home Goals    float64
Half-time Away Goals    float64
Referee                  object
Assistant 1              object
Assistant 2              object
RoundID                 float64
MatchID                 float64
Home Team Initials       object
Away Team Initials       object
dtype: object

### Overview da tabela de jogadores

In [6]:
players.head()

Unnamed: 0,RoundID,MatchID,Team Initials,Coach Name,Line-up,Shirt Number,Player Name,Position,Event
0,201,1096,FRA,CAUDRON Raoul (FRA),S,0,Alex THEPOT,GK,
1,201,1096,MEX,LUQUE Juan (MEX),S,0,Oscar BONFIGLIO,GK,
2,201,1096,FRA,CAUDRON Raoul (FRA),S,0,Marcel LANGILLER,,G40'
3,201,1096,MEX,LUQUE Juan (MEX),S,0,Juan CARRENO,,G70'
4,201,1096,FRA,CAUDRON Raoul (FRA),S,0,Ernest LIBERATI,,


In [7]:
players.dtypes

RoundID           int64
MatchID           int64
Team Initials    object
Coach Name       object
Line-up          object
Shirt Number      int64
Player Name      object
Position         object
Event            object
dtype: object

## Tipos de dados em tabelas
Além dos tipos de dados que já vimos, é possível lidar com alguns outros tipo bem úteis em tabelas, como strings e datetimes.

### Strings

Lidar com strings em Dataframes ou em Series é, na verdade, bem simples. Basta selecionar os dados e utilizar '.str' em seguida. Assim é possível tratar os dados como se fossem uma string só e, então, utilizar os metódos conhecidos para strings.

Por exemplo, vimos na tabela de jogadores que os seus nomes e dos técnios estão escritos com o nome em letras minúsculas e o sobrenome em letras maiúsculas. Digamos que gostaríamos de mudar isso para que tenhamos apenas a primeira letra de cada nome maiúscula.

In [8]:
players['Coach Name'] = players['Coach Name'].str.title()
players['Player Name'] = players['Player Name'].str.title()

In [9]:
players.head()

Unnamed: 0,RoundID,MatchID,Team Initials,Coach Name,Line-up,Shirt Number,Player Name,Position,Event
0,201,1096,FRA,Caudron Raoul (Fra),S,0,Alex Thepot,GK,
1,201,1096,MEX,Luque Juan (Mex),S,0,Oscar Bonfiglio,GK,
2,201,1096,FRA,Caudron Raoul (Fra),S,0,Marcel Langiller,,G40'
3,201,1096,MEX,Luque Juan (Mex),S,0,Juan Carreno,,G70'
4,201,1096,FRA,Caudron Raoul (Fra),S,0,Ernest Liberati,,


Agora temos um problema: o país do técnico deveria estar em letras maiúsculas. Vamos aproveitar para criar uma nova coluna para esse nome. 

Para isso vamos dividir o nome do técnico nos espaços e pegar o útlimo valor. Em seguida vamos retirar os parênteses e transformar as letras em maiúsculas.

In [10]:
players['Coach County'] = players['Coach Name'].str.split(' ').str[-1]
players['Coach County'] = players['Coach County'].str.replace('(', '')
players['Coach County'] = players['Coach County'].str.replace(')', '')
players['Coach County'] = players['Coach County'].str.upper()

In [11]:
players.head()

Unnamed: 0,RoundID,MatchID,Team Initials,Coach Name,Line-up,Shirt Number,Player Name,Position,Event,Coach County
0,201,1096,FRA,Caudron Raoul (Fra),S,0,Alex Thepot,GK,,FRA
1,201,1096,MEX,Luque Juan (Mex),S,0,Oscar Bonfiglio,GK,,MEX
2,201,1096,FRA,Caudron Raoul (Fra),S,0,Marcel Langiller,,G40',FRA
3,201,1096,MEX,Luque Juan (Mex),S,0,Juan Carreno,,G70',MEX
4,201,1096,FRA,Caudron Raoul (Fra),S,0,Ernest Liberati,,,FRA


Essa são apenas algumas das utilidades de strings em tabelas, [aqui](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.capitalize.html) é possível ver mais algumas delas.

### [Datetime e Timedelta](https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html)

Esses tipos de dados, como os nomes sugerem, são utilizados para lidar com marcações de tempo.

Um datetime consiste de um dia, horário e fuso horário específicos. Enquanto isso, um timedelta é uma duração de tempo.

Na tabela de partidas, por exemplo, temos um atributo chamado Datetime, que consiste da data e horário em que a partida teve início. Primeiramente precisamos transformar os dados no tipo Datetime de fato e para isso é preciso especificar o formato da data.

In [12]:
matches['Datetime'] = matches['Datetime'].str.replace('June', 'Jun').str.replace('July', 'Jul')
matches['Datetime'] = pd.to_datetime(matches['Datetime'], format = '%d %b %Y - %H:%M ')

Já existe uma coluna com o ano da partida, mas utilizando o datetime, podemos criar colunas com o respectivo dia e o mês de ocorrência.

Analogamente ao acesso de strings, precisamos utilizar '.dt' para indicar que estamos lidando com um datetime e, assim, acessar seus métodos e atributos.

In [13]:
matches['Day'] = matches['Datetime'].dt.day
matches['Month'] = matches['Datetime'].dt.month

In [14]:
matches[['Day', 'Month']].head()

Unnamed: 0,Day,Month
0,13.0,7.0
1,13.0,7.0
2,14.0,7.0
3,14.0,7.0
4,15.0,7.0


## Query

Na [primeira aula de Pandas](https://github.com/icmc-data/Intro-DS-2020.1/blob/master/Aula2/introducao_pandas.ipynb) foi explicado como utilizar indexação booleana para acessar apenas partes de uma tabela. Vamos ver agora como utilizar a função query, que também tem como finalidade realizar acessos. Essa função é mais eficiente e em geral mais legível do que a indexação booleana.

Para utilizá-la, é passado como parâmetro a expressão utilizada para filtrar a tabela. Nessa expressão são utilizados os nomes dos atributos, os operadores de comparação (>, >=, <, <=, ==) e os valores desejados e, caso o nome do atributo tenha espaços, ele deve ser escrito entre crases.

Um exemplo seria selecionar todos os jogos da seleção brasileira:

In [15]:
# Com indexação binária
matches[(matches['Home Team Name'] == 'Brazil') | (matches['Away Team Name'] == 'Brazil')]

Unnamed: 0,Year,Datetime,Stage,Stadium,City,Home Team Name,Home Team Goals,Away Team Goals,Away Team Name,Win conditions,...,Half-time Away Goals,Referee,Assistant 1,Assistant 2,RoundID,MatchID,Home Team Initials,Away Team Initials,Day,Month
2,1930.0,1930-07-14 12:45:00,Group 2,Parque Central,Montevideo,Yugoslavia,2.0,1.0,Brazil,,...,0.0,TEJADA Anibal (URU),VALLARINO Ricardo (URU),BALWAY Thomas (FRA),201.0,1093.0,YUG,BRA,14.0,7.0
11,1930.0,1930-07-20 13:00:00,Group 2,Estadio Centenario,Montevideo,Brazil,4.0,0.0,Bolivia,,...,0.0,BALWAY Thomas (FRA),MATEUCCI Francisco (URU),VALLEJO Gaspar (MEX),201.0,1091.0,BRA,BOL,20.0,7.0
23,1934.0,1934-05-27 16:30:00,Preliminary round,Luigi Ferraris,Genoa,Spain,3.0,1.0,Brazil,,...,0.0,BIRLEM Alfred (GER),CARMINATI Ettore (ITA),IVANCSICS Mihaly (HUN),204.0,1111.0,ESP,BRA,27.0,5.0
40,1938.0,1938-06-05 17:30:00,First round,Stade de la Meinau,Strasbourg,Brazil,6.0,5.0,Poland,Brazil win after extra time,...,0.0,EKLIND Ivan (SWE),POISSANT Louis (FRA),KISSENBERGER Ernest (FRA),206.0,1150.0,BRA,POL,5.0,6.0
44,1938.0,1938-06-12 17:00:00,Quarter-finals,Stade du Parc Lescure,Bordeaux,Brazil,1.0,1.0,Czechoslovakia,,...,0.0,VON HERTZKA Pal (HUN),SCARPI Giuseppe (ITA),DE LA SALLE Charles (FRA),429.0,1152.0,BRA,TCH,12.0,6.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
827,2014.0,2014-07-12 17:00:00,Play-off for third place,Estadio Nacional,Brasilia,Brazil,0.0,3.0,Netherlands,,...,2.0,HAIMOUDI Djamel (ALG),ACHIK Redouane (MAR),ETCHIALI Abdelhak (ALG),255957.0,300186502.0,BRA,NED,12.0,7.0
836,2014.0,2014-06-28 13:00:00,Round of 16,Estadio Mineirao,Belo Horizonte,Brazil,1.0,1.0,Chile,Brazil win on penalties (3 - 2),...,0.0,WEBB Howard (ENG),MULLARKEY Michael (ENG),Darren CANN (ENG),255951.0,300186487.0,BRA,CHI,28.0,6.0
845,2014.0,2014-07-04 17:00:00,Quarter-finals,Estadio Castelao,Fortaleza,Brazil,2.0,1.0,Colombia,,...,0.0,Carlos VELASCO CARBALLO (ESP),ALONSO FERNANDEZ Roberto (ESP),YUSTE Juan (ESP),255953.0,300186461.0,BRA,COL,4.0,7.0
848,2014.0,2014-07-08 17:00:00,Semi-finals,Estadio Mineirao,Belo Horizonte,Brazil,1.0,7.0,Germany,,...,5.0,RODRIGUEZ Marco (MEX),TORRENTERA Marvin (MEX),QUINTERO Marcos (MEX),255955.0,300186474.0,BRA,GER,8.0,7.0


In [16]:
# Com Query
matches.query('(`Home Team Name` == "Brazil") or (`Away Team Name` == "Brazil")')

Unnamed: 0,Year,Datetime,Stage,Stadium,City,Home Team Name,Home Team Goals,Away Team Goals,Away Team Name,Win conditions,...,Half-time Away Goals,Referee,Assistant 1,Assistant 2,RoundID,MatchID,Home Team Initials,Away Team Initials,Day,Month
2,1930.0,1930-07-14 12:45:00,Group 2,Parque Central,Montevideo,Yugoslavia,2.0,1.0,Brazil,,...,0.0,TEJADA Anibal (URU),VALLARINO Ricardo (URU),BALWAY Thomas (FRA),201.0,1093.0,YUG,BRA,14.0,7.0
11,1930.0,1930-07-20 13:00:00,Group 2,Estadio Centenario,Montevideo,Brazil,4.0,0.0,Bolivia,,...,0.0,BALWAY Thomas (FRA),MATEUCCI Francisco (URU),VALLEJO Gaspar (MEX),201.0,1091.0,BRA,BOL,20.0,7.0
23,1934.0,1934-05-27 16:30:00,Preliminary round,Luigi Ferraris,Genoa,Spain,3.0,1.0,Brazil,,...,0.0,BIRLEM Alfred (GER),CARMINATI Ettore (ITA),IVANCSICS Mihaly (HUN),204.0,1111.0,ESP,BRA,27.0,5.0
40,1938.0,1938-06-05 17:30:00,First round,Stade de la Meinau,Strasbourg,Brazil,6.0,5.0,Poland,Brazil win after extra time,...,0.0,EKLIND Ivan (SWE),POISSANT Louis (FRA),KISSENBERGER Ernest (FRA),206.0,1150.0,BRA,POL,5.0,6.0
44,1938.0,1938-06-12 17:00:00,Quarter-finals,Stade du Parc Lescure,Bordeaux,Brazil,1.0,1.0,Czechoslovakia,,...,0.0,VON HERTZKA Pal (HUN),SCARPI Giuseppe (ITA),DE LA SALLE Charles (FRA),429.0,1152.0,BRA,TCH,12.0,6.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
827,2014.0,2014-07-12 17:00:00,Play-off for third place,Estadio Nacional,Brasilia,Brazil,0.0,3.0,Netherlands,,...,2.0,HAIMOUDI Djamel (ALG),ACHIK Redouane (MAR),ETCHIALI Abdelhak (ALG),255957.0,300186502.0,BRA,NED,12.0,7.0
836,2014.0,2014-06-28 13:00:00,Round of 16,Estadio Mineirao,Belo Horizonte,Brazil,1.0,1.0,Chile,Brazil win on penalties (3 - 2),...,0.0,WEBB Howard (ENG),MULLARKEY Michael (ENG),Darren CANN (ENG),255951.0,300186487.0,BRA,CHI,28.0,6.0
845,2014.0,2014-07-04 17:00:00,Quarter-finals,Estadio Castelao,Fortaleza,Brazil,2.0,1.0,Colombia,,...,0.0,Carlos VELASCO CARBALLO (ESP),ALONSO FERNANDEZ Roberto (ESP),YUSTE Juan (ESP),255953.0,300186461.0,BRA,COL,4.0,7.0
848,2014.0,2014-07-08 17:00:00,Semi-finals,Estadio Mineirao,Belo Horizonte,Brazil,1.0,7.0,Germany,,...,5.0,RODRIGUEZ Marco (MEX),TORRENTERA Marvin (MEX),QUINTERO Marcos (MEX),255955.0,300186474.0,BRA,GER,8.0,7.0


Vamos ver quantos desses jogos o Brasil ganhou, ou seja, em quantos dos jogos era mandante e o mandante fez mais gols ou era convidado e o convidado fez mais gols:

In [17]:
matches.query('(`Home Team Name` == "Brazil" and `Home Team Goals` > `Away Team Goals`) or  \
              (`Away Team Name` == "Brazil" and `Away Team Goals` > `Home Team Goals`)')

Unnamed: 0,Year,Datetime,Stage,Stadium,City,Home Team Name,Home Team Goals,Away Team Goals,Away Team Name,Win conditions,...,Half-time Away Goals,Referee,Assistant 1,Assistant 2,RoundID,MatchID,Home Team Initials,Away Team Initials,Day,Month
11,1930.0,1930-07-20 13:00:00,Group 2,Estadio Centenario,Montevideo,Brazil,4.0,0.0,Bolivia,,...,0.0,BALWAY Thomas (FRA),MATEUCCI Francisco (URU),VALLEJO Gaspar (MEX),201.0,1091.0,BRA,BOL,20.0,7.0
40,1938.0,1938-06-05 17:30:00,First round,Stade de la Meinau,Strasbourg,Brazil,6.0,5.0,Poland,Brazil win after extra time,...,0.0,EKLIND Ivan (SWE),POISSANT Louis (FRA),KISSENBERGER Ernest (FRA),206.0,1150.0,BRA,POL,5.0,6.0
48,1938.0,1938-06-14 18:00:00,Quarter-finals,Stade du Parc Lescure,Bordeaux,Brazil,2.0,1.0,Czechoslovakia,,...,1.0,CAPDEVILLE Georges (FRA),MARENCO Paul (FRA),KISSENBERGER Ernest (FRA),429.0,1153.0,BRA,TCH,14.0,6.0
51,1938.0,1938-06-19 17:00:00,Match for third place,Stade du Parc Lescure,Bordeaux,Brazil,4.0,2.0,Sweden,,...,2.0,LANGENUS Jean (BEL),OLIVE D. (FRA),VALPREDE Ferdinand (FRA),3488.0,1151.0,BRA,SWE,19.0,6.0
53,1950.0,1950-06-24 15:00:00,Group 1,Maracan� - Est�dio Jornalista M�rio Filho,Rio De Janeiro,Brazil,4.0,0.0,Mexico,,...,0.0,READER George (ENG),GRIFFITHS Benjamin (WAL),MITCHELL George (SCO),208.0,1187.0,BRA,MEX,24.0,6.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
761,2010.0,2010-06-28 20:30:00,Round of 16,Ellis Park Stadium,Johannesburg,Brazil,3.0,0.0,Chile,,...,0.0,WEBB Howard (ENG),Darren CANN (ENG),MULLARKEY Michael (ENG),249717.0,300061500.0,BRA,CHI,28.0,6.0
772,2014.0,2014-06-12 17:00:00,Group A,Arena de Sao Paulo,Sao Paulo,Brazil,3.0,1.0,Croatia,,...,1.0,NISHIMURA Yuichi (JPN),SAGARA Toru (JPN),NAGI Toshiyuki (JPN),255931.0,300186456.0,BRA,CRO,12.0,6.0
806,2014.0,2014-06-23 17:00:00,Group A,Estadio Nacional,Brasilia,Cameroon,1.0,4.0,Brazil,,...,2.0,ERIKSSON Jonas (SWE),KLASENIUS Mathias (SWE),WARNMARK Daniel (SWE),255931.0,300186472.0,CMR,BRA,23.0,6.0
824,2014.0,2014-07-04 17:00:00,Quarter-finals,Estadio Castelao,Fortaleza,Brazil,2.0,1.0,Colombia,,...,0.0,Carlos VELASCO CARBALLO (ESP),ALONSO FERNANDEZ Roberto (ESP),YUSTE Juan (ESP),255953.0,300186461.0,BRA,COL,4.0,7.0


## Merge

Essa função tem como objetivo juntar tabelas. Existem algumas maneiras de fazer isso, uma vez que nem sempre todos os dados serão compatíveis.

![Tipos de merge](./src/merge.jpg)

- Left: todos os valores da tabela da esquerda são trazidos, mas da tabela da direita são selecionados apenas aqueles que tem um *match* na tabela da esquerda
- Right: todos os valores da tabela da direita são trazidos, mas da tabela da esqurda são selecionados apenas aqueles que tem um *match* na tabela da direita
- Inner: são selecionadas apenas os valores que estão tanto na tabela da esquerda quanto na da direita
- Outer: todos os valores são selecionados, mesmo se não houver um *match*

Estamos lidando nesse notebook com três datasets separados, mas podemos juntá-los de alguma maneira. Não precisamos nos preocupar muito com a forma (left, right, inner ou outer) que será feito o merge, pois temos garantia de que os dados são consistentes, uma vez que todo jogador da tabela players participou de uma partida válida da tabela matches e todas essas partidas pertencem a uma copa identificada na tabela cups. Isso significa que para todos as linhas de uma tabela haverá um match na outra.

Vamos começar juntando a tabela das copas com a tabela de partidas. Para isso, podemos utilizar o atributo 'ano' que ambas tem em comum.

In [18]:
matches_cups = pd.merge(matches, cups, on='Year')

In [19]:
matches_cups.head()

Unnamed: 0,Year,Datetime,Stage,Stadium,City,Home Team Name,Home Team Goals,Away Team Goals,Away Team Name,Win conditions,...,Month,Country,Winner,Runners-Up,Third,Fourth,GoalsScored,QualifiedTeams,MatchesPlayed,Attendance_y
0,1930.0,1930-07-13 15:00:00,Group 1,Pocitos,Montevideo,France,4.0,1.0,Mexico,,...,7.0,Uruguay,Uruguay,Argentina,USA,Yugoslavia,70,13,18,590.549
1,1930.0,1930-07-13 15:00:00,Group 4,Parque Central,Montevideo,USA,3.0,0.0,Belgium,,...,7.0,Uruguay,Uruguay,Argentina,USA,Yugoslavia,70,13,18,590.549
2,1930.0,1930-07-14 12:45:00,Group 2,Parque Central,Montevideo,Yugoslavia,2.0,1.0,Brazil,,...,7.0,Uruguay,Uruguay,Argentina,USA,Yugoslavia,70,13,18,590.549
3,1930.0,1930-07-14 14:50:00,Group 3,Pocitos,Montevideo,Romania,3.0,1.0,Peru,,...,7.0,Uruguay,Uruguay,Argentina,USA,Yugoslavia,70,13,18,590.549
4,1930.0,1930-07-15 16:00:00,Group 1,Parque Central,Montevideo,Argentina,1.0,0.0,France,,...,7.0,Uruguay,Uruguay,Argentina,USA,Yugoslavia,70,13,18,590.549


Podemos selecionar agora o time que ficou com a quinta posição em cada uma das copas. Para isso temos que descobrir que time perdeu para o campeão nas quartas de final.

In [20]:
fifth_away = matches_cups.query('Stage == "Quarter-finals" and (`Home Team Name` == Winner)')

In [21]:
fifth_away = fifth_away[['Year', 'Away Team Name']]
fifth_away

Unnamed: 0,Year,Away Team Name
28,1934.0,Spain
30,1934.0,Spain
47,1938.0,France
95,1954.0,Yugoslavia
128,1958.0,Wales
161,1962.0,England
192,1966.0,Argentina
226,1970.0,Peru
407,1986.0,England
458,1990.0,Czechoslovakia


Note que na query acima temos linhas duplicadas que não nos interessam, então podemos retirar uma delas utilizando a função **drop_duplicates**

In [22]:
fifth_away = fifth_away.drop_duplicates(['Year', 'Away Team Name'])

In [23]:
fifth_home = matches_cups.query('Stage == "Quarter-finals" and `Away Team Name` == Winner')

In [24]:
fifth_home = fifth_home[['Year', 'Home Team Name']]
fifth_home

Unnamed: 0,Year,Home Team Name
509,1994.0,Netherlands
572,1998.0,Italy
636,2002.0,England
767,2010.0,Paraguay
825,2014.0,France
844,2014.0,France


Podemos juntar as duas tabelas utilizando a função **concat**:

In [25]:
pd.concat([fifth_away, fifth_home])

Unnamed: 0,Year,Away Team Name,Home Team Name
28,1934.0,Spain,
47,1938.0,France,
95,1954.0,Yugoslavia,
128,1958.0,Wales,
161,1962.0,England,
192,1966.0,Argentina,
226,1970.0,Peru,
407,1986.0,England,
458,1990.0,Czechoslovakia,
701,2006.0,Ukraine,


Outro exemplo de junção de tabelas é utilizando as partidas e os jogadores. Essas tabelas tem em comum o atributo 'MatchID':

In [26]:
matches_players = pd.merge(players, matches, on='MatchID')

In [27]:
matches_players.head()

Unnamed: 0,RoundID_x,MatchID,Team Initials,Coach Name,Line-up,Shirt Number,Player Name,Position,Event,Coach County,...,Half-time Home Goals,Half-time Away Goals,Referee,Assistant 1,Assistant 2,RoundID_y,Home Team Initials,Away Team Initials,Day,Month
0,201,1096,FRA,Caudron Raoul (Fra),S,0,Alex Thepot,GK,,FRA,...,3.0,0.0,LOMBARDI Domingo (URU),CRISTOPHE Henry (BEL),REGO Gilberto (BRA),201.0,FRA,MEX,13.0,7.0
1,201,1096,MEX,Luque Juan (Mex),S,0,Oscar Bonfiglio,GK,,MEX,...,3.0,0.0,LOMBARDI Domingo (URU),CRISTOPHE Henry (BEL),REGO Gilberto (BRA),201.0,FRA,MEX,13.0,7.0
2,201,1096,FRA,Caudron Raoul (Fra),S,0,Marcel Langiller,,G40',FRA,...,3.0,0.0,LOMBARDI Domingo (URU),CRISTOPHE Henry (BEL),REGO Gilberto (BRA),201.0,FRA,MEX,13.0,7.0
3,201,1096,MEX,Luque Juan (Mex),S,0,Juan Carreno,,G70',MEX,...,3.0,0.0,LOMBARDI Domingo (URU),CRISTOPHE Henry (BEL),REGO Gilberto (BRA),201.0,FRA,MEX,13.0,7.0
4,201,1096,FRA,Caudron Raoul (Fra),S,0,Ernest Liberati,,,FRA,...,3.0,0.0,LOMBARDI Domingo (URU),CRISTOPHE Henry (BEL),REGO Gilberto (BRA),201.0,FRA,MEX,13.0,7.0


## Group By

Esse tipo de operação é utilizado para agrupar dados. Com ela podemos responder, por exemplo, as seguintes perguntas:

- Qual a média de gols por copa?
- Para cada time, qual a média de gols por copa como visitante? E como mandante?
- Para cada jogador, quantos gols foram feitos em jogos em que ele participou?
- Quantos jogos aconteceram em cada mês?

Na prática sua utilização é a seguinte: seleciona-se o atributo da tabela que será utilizado para agrupar os dados e em seguida a operação (soma, média, desvio padrão...) e as colunas nas quais será feita na agregação.

Qual a média de gols por copa?


In [28]:
matches.groupby('Year')[['Home Team Goals', 'Away Team Goals']].mean()

Unnamed: 0_level_0,Home Team Goals,Away Team Goals
Year,Unnamed: 1_level_1,Unnamed: 2_level_1
1930.0,3.277778,0.611111
1934.0,2.823529,1.294118
1938.0,3.388889,1.277778
1950.0,3.136364,0.863636
1954.0,4.192308,1.192308
1958.0,2.514286,1.085714
1962.0,2.15625,0.625
1966.0,2.15625,0.625
1970.0,2.25,0.71875
1974.0,1.342105,1.210526


Para cada time, qual a média de gols por copa como mandante?


In [29]:
matches.groupby(['Year', 'Home Team Name'])[['Home Team Goals']].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Home Team Goals
Year,Home Team Name,Unnamed: 2_level_1
1930.0,Argentina,4.0
1930.0,Brazil,4.0
1930.0,Chile,2.0
1930.0,France,4.0
1930.0,Paraguay,1.0
...,...,...
2014.0,Spain,0.5
2014.0,Switzerland,2.0
2014.0,USA,1.0
2014.0,Uruguay,1.5


Para cada time, qual a média de gols por copa como visitante?

In [30]:
matches.groupby(['Year', 'Away Team Name'])[['Away Team Goals']].mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Away Team Goals
Year,Away Team Name,Unnamed: 2_level_1
1930.0,Argentina,2.000000
1930.0,Belgium,0.000000
1930.0,Bolivia,0.000000
1930.0,Brazil,1.000000
1930.0,Chile,1.000000
...,...,...
2014.0,Spain,3.000000
2014.0,Switzerland,1.000000
2014.0,USA,1.333333
2014.0,Uruguay,0.333333


Para cada jogador, quantos gols foram feitos em jogos em que ele participou no time visitante?

In [31]:
matches_players.groupby(['Player Name'])[['Player Name', 'Away Team Goals']].sum()

Unnamed: 0_level_0,Away Team Goals
Player Name,Unnamed: 1_level_1
?Uri?I?,3.0
A Bautista,5.0
A Cole,12.0
A Guardado,5.0
A Medina,5.0
...,...
�Igi?,3.0
�Stenstad,5.0
�Uler,4.0
�Unji?,2.0


Para cada jogador, quantos gols foram feitos em jogos em que ele participou no time mandante?

matches_players.groupby(['Player Name'])[['Player Name', 'Home Team Goals']].sum()

Para cada jogador, quantos gols foram feitos em jogos em que ele participou em geral

In [33]:
matches_players.groupby(['Player Name'])[['Home Team Goals', 'Away Team Goals']].sum().sum(axis = 1)

Player Name
?Uri?I?        5.0
A Bautista     9.0
A Cole        25.0
A Guardado     9.0
A Medina       9.0
              ... 
�Igi?          5.0
�Stenstad     10.0
�Uler          6.0
�Unji?         8.0
�Zil          82.0
Length: 7660, dtype: float64

Quantos jogos aconteceram em cada mês?

Nesse caso podemos utilizar a função **value counts**. Ela conta, para cada um dos valores existentes, a sua frequência na tabela, que é justamente o que queremos.

In [34]:
matches['Month'].value_counts()

6.0    683
7.0    146
5.0     23
Name: Month, dtype: int64

## Conclusão

Por hoje é isso, galera. Sempre bom aprender um pouco mais de Pandas e das coisas que podemos fazer utilizando-a. Recomendo dar uma olhada não só nos assuntos abordados aqui, mas em outras funções dessa biblioteca.

Além disso, recomendo fazer os exercícios disponibilizados. Qualquer dúvida é só entrar em contato =D