# Data Cleaning
Aqui vamos realizar toda a etapa de limpeza dos dados para nossa analise de dados



# Importando bibliotecas


In [39]:
# bibliotecas
import numpy as np
import pandas as pd
import datetime

pd.set_option('display.max_rows', 1000)
pd.set_option('display.max_columns', 1000)

import matplotlib.pyplot as plt
import matplotlib.colors as mcolors
import altair as alt

import seaborn as sns
#sns.set_style('white')
plt.style.use('seaborn-white')


# Importar os conjuntos de dados

In [40]:
# importar os conjuntos de dados

# game: Reúne os registros de cada jogo no conjunto de dados
game = pd.read_csv("nhl_datasets/game.csv")

# game_golie_stats: As estatísticas dos goleiros que participaram dos jogos
game_golie_stats = pd.read_csv("nhl_datasets/game_goalie_stats.csv")

# game_teams_stats: As estatísticas básicas das equipes. Cada jogo terá duas entradas nesta tabela, uma para cada equipe
game_teams_stats = pd.read_csv("nhl_datasets/game_teams_stats.csv")

# player_info: Informações sobre os jogadores
player_info = pd.read_csv("nhl_datasets/player_info.csv")

# team_info: informação sobre as equipes
team_info = pd.read_csv("nhl_datasets/team_info.csv")


## Primeiras entradas

In [41]:
game.head(3)

Unnamed: 0,game_id,season,type,date_time,date_time_GMT,away_team_id,home_team_id,away_goals,home_goals,outcome,home_rink_side_start,venue,venue_link,venue_time_zone_id,venue_time_zone_offset,venue_time_zone_tz
0,2011030221,20112012,P,2012-04-29,2012-04-29T19:00:00Z,1,4,3,4,home win OT,right,Wells Fargo Center,/api/v1/venues/null,America/New_York,-4,EDT
1,2011030222,20112012,P,2012-05-01,2012-05-01T23:30:00Z,1,4,4,1,away win REG,right,Wells Fargo Center,/api/v1/venues/null,America/New_York,-4,EDT
2,2011030223,20112012,P,2012-05-03,2012-05-03T23:30:00Z,4,1,3,4,home win OT,left,Prudential Center,/api/v1/venues/null,America/New_York,-4,EDT


In [42]:
game.dtypes

game_id                    int64
season                     int64
type                      object
date_time                 object
date_time_GMT             object
away_team_id               int64
home_team_id               int64
away_goals                 int64
home_goals                 int64
outcome                   object
home_rink_side_start      object
venue                     object
venue_link                object
venue_time_zone_id        object
venue_time_zone_offset     int64
venue_time_zone_tz        object
dtype: object

In [43]:
team_info.head(3)

Unnamed: 0,team_id,franchiseId,shortName,teamName,abbreviation,link
0,1,23,New Jersey,Devils,NJD,/api/v1/teams/1
1,4,16,Philadelphia,Flyers,PHI,/api/v1/teams/4
2,26,14,Los Angeles,Kings,LAK,/api/v1/teams/26


In [44]:
team_info.dtypes

team_id          int64
franchiseId      int64
shortName       object
teamName        object
abbreviation    object
link            object
dtype: object

In [45]:
game_teams_stats.head(3)

Unnamed: 0,game_id,team_id,HoA,won,settled_in,head_coach,goals,shots,hits,pim,powerPlayOpportunities,powerPlayGoals,faceOffWinPercentage,giveaways,takeaways
0,2011030221,1,away,False,OT,Peter DeBoer,3,26,31,12,3,1,44.9,6,7
1,2011030221,4,home,True,OT,Peter Laviolette,4,36,27,6,6,1,55.1,13,4
2,2011030222,1,away,True,REG,Peter DeBoer,4,35,32,12,4,0,50.9,8,7


In [46]:
game_teams_stats.dtypes

game_id                     int64
team_id                     int64
HoA                        object
won                          bool
settled_in                 object
head_coach                 object
goals                       int64
shots                       int64
hits                        int64
pim                         int64
powerPlayOpportunities      int64
powerPlayGoals              int64
faceOffWinPercentage      float64
giveaways                   int64
takeaways                   int64
dtype: object

In [47]:
player_info.head()

Unnamed: 0,player_id,firstName,lastName,nationality,birthCity,primaryPosition,birthDate,link
0,8467412,Alexei,Ponikarovsky,UKR,Kiev,LW,1980-04-09,/api/v1/people/8467412
1,8468501,Anton,Volchenkov,RUS,Moscow,D,1982-02-25,/api/v1/people/8468501
2,8459670,Kimmo,Timonen,FIN,Kuopio,D,1975-03-18,/api/v1/people/8459670
3,8471233,Travis,Zajac,CAN,Winnipeg,C,1985-05-13,/api/v1/people/8471233
4,8455710,Martin,Brodeur,CAN,Montreal,G,1972-05-06,/api/v1/people/8455710


In [48]:
player_info.dtypes

player_id           int64
firstName          object
lastName           object
nationality        object
birthCity          object
primaryPosition    object
birthDate          object
link               object
dtype: object

In [49]:
game_golie_stats.head()

Unnamed: 0,game_id,player_id,team_id,timeOnIce,assists,goals,pim,shots,saves,powerPlaySaves,shortHandedSaves,evenSaves,shortHandedShotsAgainst,evenShotsAgainst,powerPlayShotsAgainst,decision,savePercentage,powerPlaySavePercentage,evenStrengthSavePercentage
0,2011030221,8455710,1,3876,0,0,0,36,32,7,0,25,0,28,8,L,88.888889,87.5,89.285714
1,2011030221,8468524,4,3876,0,0,0,26,23,4,5,14,5,16,5,W,88.461538,80.0,87.5
2,2011030222,8455710,1,3599,0,0,0,20,19,1,3,15,3,16,1,W,95.0,100.0,93.75
3,2011030222,8468524,4,3559,0,0,0,34,31,6,0,25,0,28,6,L,91.176471,100.0,89.285714
4,2011030223,8468524,4,4623,0,0,0,31,27,1,1,25,1,28,2,L,87.096774,50.0,89.285714


In [50]:
game_golie_stats.dtypes

game_id                         int64
player_id                       int64
team_id                         int64
timeOnIce                       int64
assists                         int64
goals                           int64
pim                             int64
shots                           int64
saves                           int64
powerPlaySaves                  int64
shortHandedSaves                int64
evenSaves                       int64
shortHandedShotsAgainst         int64
evenShotsAgainst                int64
powerPlayShotsAgainst           int64
decision                       object
savePercentage                float64
powerPlaySavePercentage       float64
evenStrengthSavePercentage    float64
dtype: object

Os conjuntos de dados `game_skater_stats`, `game_plays`, `game_plays_players` são bem grandes cerca de 400mil, 2 milhões e 5 milhões de observações respectivamente. Por isso, vamos utilizar o parâmetro *chunksize* quando formos importá-los com a função *pd.read_csv()* isso vai fazer com que o pandas leia nosso conjunto de dados em blocos, este definido pelo usuário, assim não sobrecarregando nossa memória. Depois vamos iterar sobre cada bloco e concatenar em um único DataFrame.


In [51]:
# importando game_skater_stats
game_skater_stats = pd.read_csv("nhl_datasets/game_skater_stats.csv", chunksize=5000)

chunk_list = []  # lista que vai armazenar os blocos

# iterar sobre os blocos
for chunk in game_skater_stats:
    
    # armazenando os blocos
    chunk_list.append(chunk)

# concatenando os blocos
game_skater_stats = pd.concat(chunk_list)

In [52]:
# carregando conjunto de dados game_plays
game_plays = pd.read_csv("nhl_datasets/game_plays.csv", chunksize=5000)

chunk_list = []  # lista que vai armazenar os blocos

# iterar sobre os blocos
for chunk in game_plays:
    
    # armazenando os blocos
    chunk_list.append(chunk)

# concatenando os blocos
game_plays = pd.concat(chunk_list)


In [53]:
# carregando conjunto de dados game_plays_players
game_plays_players = pd.read_csv("nhl_datasets/game_plays_players.csv", chunksize=5000)

chunk_list = []  # lista que vai armazenar os blocos

# iterar sobre os blocos
for chunk in game_plays_players:
    
    # armazenando os blocos
    chunk_list.append(chunk)

# concatenando os blocos
game_plays_players = pd.concat(chunk_list)

Nosso objetivo nesta etapa é preparar os conjuntos de dados para a análise exploratória de dados. Algumas acoes que vamos realizar:
* Relacionar os conjuntos de dados `game` com `game_team_stats` e `game_plays` com `game_plays_players`.
* Mapear os valores dos conjuntos de dados `player_info` e `team_info` e utilizar para deixar os outros conjuntos de dados mais legiveis.
* Excluir features desnecessárias.
* Criar novas features
* Exportar os conjuntos de dados.

***English Version***

Our goal at this stage is to prepare the data sets for exploratory data analysis. Some actions that we will perform:
* Relate the `game` data sets to `game_team_stats` and `game_plays` to `game_plays_players`.
* Map the values of `player_info` and `team_info` data sets and use it to make the other data sets more readable.
* Exclude unnecessary features.
* Create new features
* Export the data sets.


# Ralacionando os conjuntos de dados
Os conjuntos de dados `game` e `game_team_stats` podem ser combinados utilizando a variável `game_id`. Vamos nomear esse novo conjunto de `nhl_eda`. Ele vai ser o conjunto de dados que usaremos para analisar os times em relação ao número de jogos, vitórias, gols entre outras variáveis. Outro conjunto de dados que vamos criar e o `plays` ele vai ser a juncao dos conjuntos de dados `game_plays` e `game_plays_players` utilizando a variável `play_id`. O utilizaremos para extrair informações e gerar visualizações sobre os eventos ocorridos nos jogos como, faltas, gols, golpes(*hits*) entre outros. Os conjuntos de dados `game_skater_stats` e `game_golie_stats` vao servir paras as análises individuais a respeito dos jogadores como, por exemplo, pontos, gols, assistências e etc.

**Para combinar os conjuntos de dados utilizaremos a função do pandas *.merge()* onde passamos os conjuntos de dados que vamos unir e em qual coluna/variável queremos que esse *merge* aconteça**.

In [54]:
# merge game com game_teams_stats
nhl_eda = pd.merge(game, game_teams_stats, on='game_id')

In [55]:
# visualizando as primeiras entradas
nhl_eda.head()

Unnamed: 0,game_id,season,type,date_time,date_time_GMT,away_team_id,home_team_id,away_goals,home_goals,outcome,home_rink_side_start,venue,venue_link,venue_time_zone_id,venue_time_zone_offset,venue_time_zone_tz,team_id,HoA,won,settled_in,head_coach,goals,shots,hits,pim,powerPlayOpportunities,powerPlayGoals,faceOffWinPercentage,giveaways,takeaways
0,2011030221,20112012,P,2012-04-29,2012-04-29T19:00:00Z,1,4,3,4,home win OT,right,Wells Fargo Center,/api/v1/venues/null,America/New_York,-4,EDT,1,away,False,OT,Peter DeBoer,3,26,31,12,3,1,44.9,6,7
1,2011030221,20112012,P,2012-04-29,2012-04-29T19:00:00Z,1,4,3,4,home win OT,right,Wells Fargo Center,/api/v1/venues/null,America/New_York,-4,EDT,4,home,True,OT,Peter Laviolette,4,36,27,6,6,1,55.1,13,4
2,2011030222,20112012,P,2012-05-01,2012-05-01T23:30:00Z,1,4,4,1,away win REG,right,Wells Fargo Center,/api/v1/venues/null,America/New_York,-4,EDT,1,away,True,REG,Peter DeBoer,4,35,32,12,4,0,50.9,8,7
3,2011030222,20112012,P,2012-05-01,2012-05-01T23:30:00Z,1,4,4,1,away win REG,right,Wells Fargo Center,/api/v1/venues/null,America/New_York,-4,EDT,4,home,False,REG,Peter Laviolette,1,20,24,32,5,0,49.1,9,6
4,2011030223,20112012,P,2012-05-03,2012-05-03T23:30:00Z,4,1,3,4,home win OT,left,Prudential Center,/api/v1/venues/null,America/New_York,-4,EDT,4,away,False,OT,Peter Laviolette,3,28,28,4,5,1,50.8,2,1


In [56]:
# merge game_plays e game_plays_players
plays = pd.merge(game_plays, game_plays_players[['player_id', 'play_id']], on='play_id')

# visualizando primeiras 5 entradas
plays.head()

Unnamed: 0,play_id,game_id,play_num,team_id_for,team_id_against,event,secondaryType,x,y,period,periodType,periodTime,periodTimeRemaining,dateTime,goals_away,goals_home,description,st_x,st_y,rink_side,player_id
0,2011030221_4,2011030221,4,4.0,1.0,Faceoff,,0.0,0.0,1,REGULAR,0,1200,2012-04-29 19:20:13,0,0,Sean Couturier faceoff won against Patrik Elias,0.0,0.0,right,8476461
1,2011030221_4,2011030221,4,4.0,1.0,Faceoff,,0.0,0.0,1,REGULAR,0,1200,2012-04-29 19:20:13,0,0,Sean Couturier faceoff won against Patrik Elias,0.0,0.0,right,8460542
2,2011030221_5,2011030221,5,4.0,1.0,Giveaway,,28.0,24.0,1,REGULAR,21,1179,2012-04-29 19:21:02,0,0,Giveaway by Kimmo Timonen,-28.0,-24.0,right,8459670
3,2011030221_6,2011030221,6,4.0,1.0,Blocked Shot,,52.0,28.0,1,REGULAR,26,1174,2012-04-29 19:21:07,0,0,Max Talbot blocked shot from Patrik Elias,-52.0,-28.0,right,8470171
4,2011030221_6,2011030221,6,4.0,1.0,Blocked Shot,,52.0,28.0,1,REGULAR,26,1174,2012-04-29 19:21:07,0,0,Max Talbot blocked shot from Patrik Elias,-52.0,-28.0,right,8460542


# Preparando os dados
As variáveis: `away_team_id`, `home_team_id`, `team_id`, `player_id` categorizam os times e os jogadores através de números únicos (*id*) como mostrado nos conjuntos de dados [`team_info`, `player_info`]. Isso deixa nossas análises menos legíveis porque sempre vamos precisar recorrer a estes conjuntos de dados para identificar seus valores. Uma alternativa para essa questão e mapear esses números identificadores aos respectivos valores e substitui-los no conjunto de dados que vamos utilizar para nossa análise exploratória.

Existem diversas formas de abordar essa questão. No meu caro criarei um dicionário com a função `to_dict()`. Onde nossa chave (*key*) será o número identificador (*id*) e os valores (*value*) o nome do time ou jogador. Para substituir os valores vamos selecionar a coluna no conjunto de dados e chamar a função `replace()` passando como parâmetro nosso dicionário.

Para o dicionário que vai conter o nome dos jogadores, vamos criar uma coluna no conjunto de dados denominada `full_name` que vai ser a junção da variável `firstName` e `lastName`. Assim nosso o número identificador vai ficar associado ao nome completo do jogador. Realizaremos esse procedimento para evitar sobrenomes (`lastName`) iguais.


**Obs:. Para não criar confusão vamos trabalhar em um conjunto de dados por vez**

## Mapeando valores

In [57]:
# Dicionário dos times
team_dict = team_info.set_index('team_id')['teamName'].to_dict()

# visualizando dicionario team_dict
team_dict

{1: 'Devils',
 4: 'Flyers',
 26: 'Kings',
 14: 'Lightning',
 6: 'Bruins',
 3: 'Rangers',
 5: 'Penguins',
 17: 'Red Wings',
 28: 'Sharks',
 18: 'Predators',
 23: 'Canucks',
 16: 'Blackhawks',
 9: 'Senators',
 8: 'Canadiens',
 30: 'Wild',
 15: 'Capitals',
 19: 'Blues',
 24: 'Ducks',
 27: 'Coyotes',
 2: 'Islanders',
 10: 'Maple Leafs',
 13: 'Panthers',
 7: 'Sabres',
 20: 'Flames',
 21: 'Avalanche',
 25: 'Stars',
 29: 'Blue Jackets',
 52: 'Jets',
 22: 'Oilers',
 54: 'Golden Knights',
 12: 'Hurricanes',
 53: 'Coyotes',
 11: 'Thrashers'}

In [58]:
# criando coluna que vai conter o primeiro e o ultimo nome
player_info['player_name'] = player_info['firstName'] + " " + player_info['lastName']

# dict onde key=player-id e value=nome
player_dict = player_info.set_index('player_id')['player_name'].to_dict()

# visualizando dicionario player_dict
player_dict

{8467412: 'Alexei Ponikarovsky',
 8468501: 'Anton Volchenkov',
 8459670: 'Kimmo Timonen',
 8471233: 'Travis Zajac',
 8455710: 'Martin Brodeur',
 8475640: 'Erik Gustafsson',
 8476177: 'Matt Read',
 8464977: 'Dainius Zubrus',
 8474190: 'Wayne Simmonds',
 8464975: 'Daniel Briere',
 8468534: 'Andreas Lilja',
 8475603: 'Ben Holmstrom',
 8472410: 'Stephen Gionta',
 8474037: 'James van Riemsdyk',
 8473542: 'Tom Sestito',
 8476457: 'Adam Larsson',
 8474631: 'Marc-Andre Bourdon',
 8472382: 'Andy Greene',
 8474641: 'Adam Henrique',
 8474161: 'Jakub Voracek',
 8475972: 'Tyler Brown',
 8476461: 'Sean Couturier',
 8460720: 'Eric Boulton',
 8469454: 'Ilya Kovalchuk',
 8475170: 'Brayden Schenn',
 8468524: 'Ilya Bryzgalov',
 8470609: 'Steve Bernier',
 8465210: 'Pavel Kubina',
 8471816: 'Mark Fayne',
 8468486: 'Scott Hartnell',
 8470123: 'Cam Janssen',
 8470640: 'Matt Carle',
 8473512: 'Claude Giroux',
 8475775: 'Tye McGinn',
 8470920: 'David Clarkson',
 8470601: 'Braydon Coburn',
 8475342: 'Oliver Lau

Vamos criar DataFrames para as nacionalidades e as posições. Usando a variável `player_id` como índice 

In [59]:
# nationality game_skater_stats
nation_dict = player_info.set_index('player_id')['nationality'].to_frame()
# Visualizando dicionario natio_dict
print(nation_dict.head())
# position game_skater_stats
position = player_info.set_index('player_id')['primaryPosition'].to_frame()
# Visualizando posicoes
print(f"\n{position.head()}")

          nationality
player_id            
8467412           UKR
8468501           RUS
8459670           FIN
8471233           CAN
8455710           CAN

          primaryPosition
player_id                
8467412                LW
8468501                 D
8459670                 D
8471233                 C
8455710                 G


Agora vamos trabalhar nos conjuntos de dados

## Conjunto de Dados `nhl_eda`

### Substituindo valores

In [60]:
# Substituindo valores 
nhl_eda['team_id'].replace(team_dict, inplace=True)
nhl_eda['away_team_id'].replace(team_dict, inplace=True)
nhl_eda['home_team_id'].replace(team_dict, inplace=True)


### Excluir colunas desnecessárias
Algumas colunas não serão necessárias para as nossas análises por serem redundantes. Vamos excluí-las

In [61]:
# selecionando colunas que seram excluidas
cols_drop = ['date_time_GMT', 'outcome', 'home_rink_side_start', 'venue', 'venue_link', 'venue_time_zone_id',
             'venue_time_zone_offset', 'venue_time_zone_tz']

# excluindo colunas 
nhl_eda = nhl_eda.drop(labels=cols_drop, axis=1)

### Mudando tipo dos dados

Outro ajuste interessante a se fazer diz respeito a coluna `date_time`. Isso porque o quando o carregamos os dados para o DataFrame o pandas pode interpretar os dados de forma incorreta. O pandas interpretou nossa coluna `data_time` como sendo do tipo *object*. Para convertê-las e poder usar as funções de séries temporais vamos utilizar a biblioteca *datetime*.

In [62]:
# mudando tipo da variavel date_time
for column in ['date_time']:
    nhl_eda[column] = pd.to_datetime(nhl_eda[column], errors='coerce')
    

### Criando novas colunas/variáveis (*features*)

Vamos adicionar a coluna `outcome` ao nosso conjunto de dados nhl_eda que vai mapear e os dados da coluna `won`  e vai substituir `False` por `Lose` e `True` para `Win`. Depois vamos excluir a coluna `won`.

In [63]:
# criando coluna resultado
nhl_eda['outcome'] = nhl_eda['won'].map({False:'Lose', True:'Win'})

# excluindo coluna redundante
nhl_eda.drop('won', axis=1, inplace=True)

Outra coluna que adicionaremos é a dos gols tomados (`GA`). Para isso, vamos filtrar em nosso conjunto de dados os gols que os times tomaram quando jogaram como visitante e mandante. Depois vamos concatenar o resultado ao nosso conjunto de dados `nhl_eda`.


In [64]:
# lista que vai conter nome dos times
team_list = nhl_eda['team_id'].unique()

# dicionario que vai armezenar nossos resultados
series = dict()

# laço for para iterar sobre cada valor da lista
for name in team_list:
    # cria o subset em cima do nome
    goals_filtered = nhl_eda[nhl_eda['team_id'] == name ]
    
    # filtrando gols tomados por times mandantes e criando um series orientado pelo indice
    gols_tomados_times_mandantes = goals_filtered[(goals_filtered['team_id'] == name ) & (goals_filtered['HoA'] == 'away') & 
                                           (goals_filtered['away_team_id']== name )]['home_goals']
    
    # filtrando gols tomados por times visitantes e criando um series orientado pelo indice
    gols_tomados_times_visitantes = goals_filtered[(goals_filtered['HoA']=='home') & (goals_filtered['team_id']== name) & 
                                            (goals_filtered['home_team_id']== name)]['away_goals']
    
    # concatenando as series criadas e convertando em DataFrame
    GA = pd.concat([gols_tomados_times_mandantes, gols_tomados_times_visitantes]).to_frame(name='GA')
    
    # armazenando testeGA ao nosso dict 
    series[name] = GA


    
list_values = list()
for values in series.values():
    list_values.append(values)
    
    
GA = pd.concat(list_values)


# combinando nosso conjunto de dados ao do gols tomados
nhl_eda = pd.concat([nhl_eda, GA], axis=1)

Com isso podemos excluir as colunas `'away_team_id','home_team_id','away_goals', 'home_goals'` pois as mesma ficaram redudantes.

In [65]:
# excluindo colunas redundantes
nhl_eda.drop(['away_team_id','home_team_id','away_goals', 'home_goals'], axis=1, inplace=True)

In [66]:
# reordenando e renomeando colunas
nhl_eda = nhl_eda[['game_id', 'season', 'type', 'date_time', 'team_id','goals', 'GA',
                   'HoA','outcome','settled_in', 'head_coach', 'shots', 'hits', 'pim',
                   'powerPlayOpportunities', 'powerPlayGoals', 'faceOffWinPercentage','giveaways',
                   'takeaways']].rename(columns={'team_id':'team_name',
                                                 'goals':'GF'})

Vamos ver como ficou nosso novo conjunto de dados apos todas a mudancas

In [67]:
nhl_eda.head()

Unnamed: 0,game_id,season,type,date_time,team_name,GF,GA,HoA,outcome,settled_in,head_coach,shots,hits,pim,powerPlayOpportunities,powerPlayGoals,faceOffWinPercentage,giveaways,takeaways
0,2011030221,20112012,P,2012-04-29,Devils,3,4,away,Lose,OT,Peter DeBoer,26,31,12,3,1,44.9,6,7
1,2011030221,20112012,P,2012-04-29,Flyers,4,3,home,Win,OT,Peter Laviolette,36,27,6,6,1,55.1,13,4
2,2011030222,20112012,P,2012-05-01,Devils,4,1,away,Win,REG,Peter DeBoer,35,32,12,4,0,50.9,8,7
3,2011030222,20112012,P,2012-05-01,Flyers,1,4,home,Lose,REG,Peter Laviolette,20,24,32,5,0,49.1,9,6
4,2011030223,20112012,P,2012-05-03,Flyers,3,4,away,Lose,OT,Peter Laviolette,28,28,4,5,1,50.8,2,1


## Exportando novo conjunto de dados

In [68]:
nhl_eda_cleaned = nhl_eda.to_csv('datasets/nhl_eda.csv', header=True, index=False)

In [69]:
# criando df com game_id e o ano
season_df = nhl_eda[['game_id','season']]
season_df.head()

Unnamed: 0,game_id,season
0,2011030221,20112012
1,2011030221,20112012
2,2011030222,20112012
3,2011030222,20112012
4,2011030223,20112012


Obs:
* Nos Gols Tomados estao incluidos as derrotas no shoot-out, mas apenas o numero de derrotas e nao o numero de gols tomados. 

## Conjunto de Dados `game_golie_stats`

In [76]:
game_golie_stats.shape[0]/2

24646.0

### Substituindo valores

In [72]:
# substituindo valores da coluna team_id 
game_golie_stats['team_id'].replace(team_dict, inplace=True)

# substituindo valores da coluna player_id
game_golie_stats['player_id'].replace(player_dict, inplace=True)

### Criando novas coluna (*feature*)
Vamos estar adicionando a coluna de gols tomados. Que vai ser o numero de tiros recebidos (*shots*) menos o numero de defesas (*safes*). Outra coluna que vamos estar inserindo e a `season`.

In [73]:
# add coluna com o numero de gols tomados
game_golie_stats['GA'] = game_golie_stats['shots'] - game_golie_stats['saves']

# add coluna season
game_golie_stats = pd.merge(left=game_golie_stats, right=season_df, how='left', left_on='game_id', right_on='game_id')

Ao adicionar a coluna `season` nosso conjunto de dados duplicou as linhas. Para resolver essa questao vamos estar excluindo essa colunas repetidas utilizando a funcao `pd.iloc[]` onde vamos pular os dados repetidos.


In [78]:
# retirando valores iguais
game_golie_stats = game_golie_stats.iloc[::2]

In [81]:
# reordenando e renomeando as colunas
game_golie_stats = game_golie_stats[['game_id','season','team_id','player_id','timeOnIce',
                                     'assists','goals','pim','shots','saves','GA','powerPlaySaves',
                                     'shortHandedSaves','evenSaves','shortHandedShotsAgainst',
                                     'evenShotsAgainst','powerPlayShotsAgainst','savePercentage',
                                     'powerPlaySavePercentage','evenStrengthSavePercentage','decision'
                                    ]].rename(columns={'goals':'GF', 'team_id':'team_name',
                                                      'player_id':'golie_name'})

In [82]:
# DF final
game_golie_stats.head()

Unnamed: 0,game_id,season,team_name,golie_name,timeOnIce,assists,GF,pim,shots,saves,GA,powerPlaySaves,shortHandedSaves,evenSaves,shortHandedShotsAgainst,evenShotsAgainst,powerPlayShotsAgainst,savePercentage,powerPlaySavePercentage,evenStrengthSavePercentage,decision
0,2011030221,20112012,Devils,Martin Brodeur,3876,0,0,0,36,32,4,7,0,25,0,28,8,88.888889,87.5,89.285714,L
2,2011030221,20112012,Flyers,Ilya Bryzgalov,3876,0,0,0,26,23,3,4,5,14,5,16,5,88.461538,80.0,87.5,W
4,2011030222,20112012,Devils,Martin Brodeur,3599,0,0,0,20,19,1,1,3,15,3,16,1,95.0,100.0,93.75,W
6,2011030222,20112012,Flyers,Ilya Bryzgalov,3559,0,0,0,34,31,3,6,0,25,0,28,6,91.176471,100.0,89.285714,L
8,2011030223,20112012,Flyers,Ilya Bryzgalov,4623,0,0,0,31,27,4,1,1,25,1,28,2,87.096774,50.0,89.285714,L


## Exportando conjunto de dados preparado

In [83]:
game_golie_stats_cleaned = game_golie_stats.to_csv('datasets/game_goalie_stats_cleaned.csv', header=True, index=False)

## Conjunto de Dados `game_skater_stats`


### Unindo conjuntos de dados

In [None]:
# junto os cnjunto de dados
game_skater_stats = pd.merge(game_skater_stats, nation_dict, on='player_id')
game_skater_stats = pd.merge(game_skater_stats, position, on='player_id')
game_skater_stats = pd.merge(left=game_skater_stats, right=season_df, how='left', left_on='game_id', right_on='game_id')

In [None]:
# retirando valores iguais
game_skater_stats = game_skater_stats.iloc[::2]

### Substituindo valores

In [None]:
# substituindo ids pelos nomes
game_skater_stats['team_id'].replace(team_dict, inplace=True)
game_skater_stats['player_id'].replace(player_dict, inplace=True)

In [None]:
game_skater_stats.shape

In [None]:
game_skater_stats.head()

### Adicionando novas colunas (*features*)

In [None]:
# add coluna power play points. soma dos gols e assistencias no power play
game_skater_stats['PPP'] = game_skater_stats['powerPlayGoals'] + game_skater_stats['powerPlayAssists']

# add coluna points. soma dos gols e assistencias
game_skater_stats['points'] = game_skater_stats['goals'] + game_skater_stats['assists']

In [None]:
# reordenando e renomeando colunas
game_skater_stats = game_skater_stats[['game_id','season','team_id', 'player_id','nationality','primaryPosition',
                                      'timeOnIce','goals', 'assists', 'points','shots', 'hits', 'powerPlayGoals',
                                      'powerPlayAssists','PPP', 'penaltyMinutes','faceOffWins', 'faceoffTaken',
                                      'takeaways', 'giveaways','shortHandedGoals', 'shortHandedAssists',
                                      'blocked', 'plusMinus', 'evenTimeOnIce', 'shortHandedTimeOnIce',
                                      'powerPlayTimeOnIce',
                                     ]].rename(columns={'team_id':'team_name',
                                                       'player_id':'player_name'})

In [None]:
game_skater_stats.sample(5)

### Functions


# Conjunto de dados *game_plays* e *game_plays_players*

In [None]:
# carregando conjunto de dados em blocos
game_plays = pd.read_csv("nhl_datasets/game_plays.csv", chunksize=5000)

chunk_list = []  # lista que vai armazenar os blocos

# iterar sobre os blocos
for chunk in game_plays:
    
    # armazenando os blocos
    chunk_list.append(chunk)

# concatenando os blocos
game_plays = pd.concat(chunk_list)


In [None]:
# carregando conjunto de dados em blocos
game_plays_players = pd.read_csv("nhl_datasets/game_plays_players.csv", chunksize=5000)

chunk_list = []  # lista que vai armazenar os blocos

# iterar sobre os blocos
for chunk in game_plays_players:
    
    # armazenando os blocos
    chunk_list.append(chunk)

# concatenando os blocos
game_plays_players = pd.concat(chunk_list)

## Relacionando os conjunto de dados
Vamos unir os dois conjuntos de dados na variavel comum `play_id`

In [None]:
plays = pd.merge(game_plays, game_plays_players[['player_id', 'play_id']], on='play_id')

In [None]:
# visualizando o conjunto de dados
plays.sample(3)