# Introduction to Pandas

In [None]:
import pandas as pd # pandas: python data analysis
import numpy as np  # numpy: numerical analysis

## _EN Pandas Series
## _PT Série Pandas

In [None]:
lst = ['a', 'b', 'c', 'd']
print('lista:')
print(lst)

## _EN creating a series from a list
## _PT criando uma série a partir de uma lista

ser = pd.Series(lst)
print('series:')
print(ser)

In [None]:
## _EN getting a month's name from its number
## _PT obtendo o nome de um mês a partir do seu número

import calendar as cal
monthNums = [i for i in range(1,13)]
print(monthNums)

monthNames = [cal.month_name[i] for i in monthNums]
print(monthNames)

In [None]:
## _EN creating a series with element names
## _PT criando uma série com nomes de elementos

months = pd.Series(monthNums, index=monthNames, name='meses')
print(months)

In [None]:
# _EN element names
# _PT nomes dos elementos

months.index

In [None]:
# _EN creating a series from a dictionary
# _PT criando série a partir de um dicionário

stockPricesDict = {'GOOG': 1345, 'FB': 543, 'TWTR': 125.3, 'AAPL': 420}

stockPricesSer = pd.Series(stockPricesDict)
stockPricesSer

In [None]:
print(stockPricesDict) 

# _EN creating a series from a dictionary,
# _EN specifying keys to be included
# _PT criando série a partir de um dicionário, 
# _PT especificando as chaves a serem incluídas

stockPricesSer = pd.Series(stockPricesDict, 
                           index=['GOOG', 'FB', 'TWTR'])
stockPricesSer

In [None]:
# _EN creating a series from dictionary with specific element names
# _EN (completing with NaN when a specified name is not a key in the dictionary)
# _PT criando uma série a partir de um dicionário, com nomes de elementos específicos
# _PT (completando com NaN quando o nome especificado não for chave do dicionário)

stockPricesSer = pd.Series(stockPricesDict, 
                           index=['AAPL', 'AMZN', 'FB', 
                                  'GOOG', 'TWTR'],
                           name='stockPrices')
stockPricesSer

In [None]:
# _EN accessing a value indexed by its name
# _PT acessando um valor indexado pelo seu nome

stockPricesSer['AMZN']

In [None]:
# _EN to check whether a value is NaN,
# _EN check if it is equal to itself
# _PT para verificar se um valor é NaN,
# _PT verifique se é igual a ele mesmo

stockPricesSer['AMZN'] == stockPricesSer['AMZN']

In [None]:
# _EN to check whether a value is NaN,
# _EN you may use np.isnan from the numpy package
# _PT para verificar se um valor é NaN,
# _PT pode-se usar np.isnan do pacote numpy

np.isnan(stockPricesSer['AMZN'])

In [None]:
print(stockPricesSer)

# _EN changing a series element indexed by its key
# _PT mudando um elemento de série indexado pela sua chave

stockPricesSer['AMZN'] = 1456
stockPricesSer

In [None]:
# _EN indexing with a that doesn't belong to the series issues an error
# _PT indexar com um elemento que não pertence à série gera erro

stockPricesSer['MSFT']

In [None]:
'MSFT' in stockPricesSer

In [None]:
'AMZN' in stockPricesSer

In [None]:
# _EN adding a new element to the series (using a new key)
# _PT acrescentando um elemento à série (usando uma nova chave)

stockPricesSer['MSFT'] = 3987
stockPricesSer

### _EN Operations with Series Elements
### _PT Operações com Elementos de Série

In [None]:
# _EN calculating with series elements
# _PT fazendo cálculos com elementos de uma série
stockPricesSer * 1.1

In [None]:
# _EN we can use numpy functions with pandas series
# _PT podemos usar funções do numpy com séries de pandas

np.mean(stockPricesSer)

### _EN Slicing a Series
### _PT Fatiando uma Série

In [None]:
print(stockPricesSer)

# _EN accessing a range of elements
# _PT acessando uma faixa de elementos

stockPricesSer[1:3]

In [None]:
print(stockPricesSer)

# _EN accessing a range of elements
# _PT acessando uma faixa de elementos

stockPricesSer[3:-1]

## _EN Pandas DataFrame
## _PT DataFrame Pandas

In [None]:
moviesDict = [
    { 'title': 'Avatar', 'gross': 2787965087, 'year': 2009},
    { 'title': 'Titanic', 'gross': 2187463944, 'year': 1997},
    { 'title': 'Star Wars: The Force Awakens', 'gross': 2068223624, 'year': 2015},
    { 'title': 'Jurassic World', 'gross': 1671713208, 'year': 2015},
    { 'title': 'The Avengers', 'gross': 1518812988, 'year': 2012}
]

# _EN creating a dataframe from a dictionary
# _PT criando um dataframe a partir de um dicionário

moviesDF = pd.DataFrame(moviesDict, columns=['year', 'title', 'gross'])
moviesDF

In [None]:
# _EN dataframe dimensions (rows, columns)
# _PT dimensões do dataframe (linhas, colunas)

moviesDF.shape

In [None]:
# _EN dataframe row names
# _PT nomes das linhas do dataframe

moviesDF.index

In [None]:
# _EN dataframe column names
# _PT nomes das colunas do dataframe

moviesDF.columns

In [None]:
# _EN dataframe column data types
# _PT tipos de dados das colunas do dataframe

moviesDF.dtypes

In [None]:
# _EN basic dataframe info
# _PT informações básicas sobre o dataframe

moviesDF.info()

In [None]:
# _EN some basic descriptive stats of the dataframe
# _PT algumas estatísticas descritivas básicas do dataframe

moviesDF.describe()

In [None]:
# _EN dataframe column values
# _PT valores de uma coluna do dataframe

moviesDF['title']

In [None]:
moviesDF.title

### _EN Adding and removing columns
### _PT Acrescentando e removendo colunas

In [None]:
# _EN inserting a column in a dataframe, in a specific position
# _PT inserindo uma coluna no dataframe, numa posição específica

moviesDF.insert(2, 'director',
                ['James Cameron', 'James Cameron', 'J. J. Abrams', 
                 'Colin Trevorrow', 'Joss Whedom'])
moviesDF

In [None]:
# _EN extracting a column of a dataframe
# _PT extraindo uma coluna de um dataframe

directors = moviesDF.pop('director')
directors

In [None]:
# _EN the popped column is removed from the dataframe
# _PT a coluna utilizada no pop() é removida do dataframe

moviesDF

### _EN Filtering dataframe rows
### _PT Filtrando linhas de um dataframe

In [None]:
# _EN evaluating a logical expression for every element in a column
# _PT avaliando uma expressão lógica para cada elemento em uma coluna

moviesDF['year'] > 2010

In [None]:
# _EN filtering rows of a dataframe using a logical expression as a mask
# _PT filtrando linhas de um dataframe usando uma expressão lógica como máscara

moviesDF[moviesDF['year'] > 2010]

In [None]:
# _EN filtering rows of a dataframe using a list of values
# _PT filtrando linhas de um dataframe usando uma lista de valores

moviesDF[moviesDF.year.isin([2009, 2015])]

In [None]:
# _EN filtering rows of a dataframe using where
# _PT filtrando linhas de um dataframe usando where

moviesDF.where(moviesDF.year.isin([2009, 2015]))

## _EN Reading dataframe from local CSV file
## _PT Lendo dataframe de um arquivo CSV local

In [None]:
## _EN reading local CSV file into a pandas dataframe
## _PT lendo arquivo CSV local para um dataframe pandas

gdpRaw = pd.read_csv('in.data/us_gdp_1947_2017.csv')

In [None]:
## _EN If loading the file takes a lot of time, it may be useful to work on a copy
## _PT Se carregar o arquivo leva muito tempo, pode ser útil trabalhar em uma cópia
gdp = gdpRaw
gdp.shape

In [None]:
# _EN examine first 5 rows of dataframe
# _PT examine as 5 primeiras linhas do dataframe

gdp.head()

In [None]:
# _EN examine last 5 rows of dataframe
# _PT examine as 5 últimas linhas do dataframe

gdp.tail()

Antes de examinar os valores de um dataframe, é bom conferir os nomes das colunas.

In [None]:
# _EN column values (w ERROR)
# _PT valores de uma coluna (com ERRO)

gdp['Value']

In [None]:
gdp.columns

In [None]:
## _EN renaming a column using a dictionary
## _PT alterando o nome de uma coluna usando um dicionário

gdp.rename(columns = {'Date': 'date', 'Value ': 'value'}, inplace=True)
gdp.head()

In [None]:
## _EN renaming a column using a list
## _PT alterando o nome de uma coluna usando uma lista

gdp.columns = ['data', 'valor']
gdp.head()

In [None]:
# _EN column values
# _PT valores de uma coluna

gdp['valor'].head()

In [None]:
# _EN column values using dot operator
# _PT valores de uma coluna usando ponto

gdp.valor.head()

### _EN Adjusting data types
### _PT Ajustando os tipos de dados

In [None]:
## _EN dataframe columns' data types
## _PT tipos de dados das colunas de um dataframe

gdp.dtypes

In [None]:
## _EN converting a column's  data types to datetime
## _PT convertendo os tipos de dados de uma coluna para datetime

gdp.data = pd.to_datetime(gdp.data)
gdp.data.head()

In [None]:
## _EN converting a column's  data types to numeric (w ERROR)
## _PT convertendo os tipos de dados de uma coluna para numérico (com ERRO)

pd.to_numeric(gdp.valor).head()

_EN What caused the error?

_PT Por que deu erro?

In [None]:
## _EN examining values
## _PT examinando valores

gdp.valor.head()

In [None]:
## _EN replacing text in a dataframe column
## _PT substituindo texto em uma coluna de dataframe

import re

def stripComma (a):
    return re.sub(r',', '', str(a))

gdp.valor = gdp.valor.apply(stripComma)
print(gdp.valor.dtype)
gdp.head()

In [None]:
gdp.dtypes

In [None]:
## _EN converting a column's  data types to float
## _PT convertendo os tipos de dados de uma coluna para float

gdp.valor = gdp.valor.astype(float)
print(gdp.valor.dtype)
gdp.head()

### _EN Slicing a Dataframe
### _PT Fatiando um Dataframe

In [None]:
# _EN range of rows
# _PT faixa de linhas

gdp[0:2]

In [None]:
# _EN rows from 10 to 10, starting in the second row
# _PT linhas de 10 em 10, começando na segunda linha

gdp[1::10]

### _EN Operations on a columns
### _PT Operações sobre uma coluna

In [None]:
## _EN basic stats of a column
## _PT estatísticas básicas de uma coluna

gdp.valor.describe()

In [None]:
## _EN obtain specific stats of a column
## _PT obtando estatísticas específicas de uma coluna

gdp.valor.describe()['mean']

In [None]:
## _EN calculating the mean of a column's values
## _PT calculando a média dos valores de uma coluna

np.mean(gdp.valor)

# _EN Example - PIB Brasil (Censo 2010)
# _PT Exemplo - PIB Brasil (Censo 2010)

### _EN Reading dataframe from remote CSV file
### _PT Lendo dataframe de um arquivo CSV remoto

In [None]:
## _EN reading remote CSV file into a pandas dataframe (w ERROR)
## _PT lendo arquivo CSV remoto para um dataframe pandas (com ERRO)

pib = pd.read_csv('http://www.geoservicos.ibge.gov.br/geoserver/wms?service=WFS&version=1.0.0&request=GetFeature&typeName=CGEO:vw_pib_percapita&outputFormat=CSV')

In [None]:
## _EN reading remote CSV file into a pandas dataframe (with latin1 encoding)
## _PT lendo arquivo CSV remoto para um dataframe pandas (com encoding latin1)

pibRaw = pd.read_csv('http://www.geoservicos.ibge.gov.br/geoserver/wms?service=WFS&version=1.0.0&request=GetFeature&typeName=CGEO:vw_pib_percapita&outputFormat=CSV',
                   encoding='latin1')

In [None]:
## _EN dataframe dimensions (rows, columns)
## _PT dimensões do dataframe (linhas, colunas)

pibRaw.shape

In [None]:
## _EN dataframe columns
## _PT colunas do dataframe

pibRaw.columns

In [None]:
## _EN copy dataframe (specific columns, in the specified order)
## _PT copia dataframe (colunas específicas, na ordem especificada)

pib = pibRaw[['UF', 'nome', 'PIB_percapita', 'Pop_est_2009', 'Censo']]
pib.head()

In [None]:
## _EN create list of unique UF values
## _PT cria lista com valores de UF únicos

ufs = sorted(list(set(pib.UF)))
ufs

In [None]:
regiaoUF = pd.read_csv('in.data/uf_regiao.csv')
display(regiaoUF.head())

In [None]:
print(pib.columns)
print(regiaoUF.columns)

## _EN merge two dataframes according to shared columns
## _EN (in this case, UF)
## _PT junta dois dataframes conforme colunas compartilhadas
## _PT (neste caso, UF)

pib = pd.merge(pib, regiaoUF)
pib.head()

In [None]:
## _EN get unique values (set) of Censo values
## _PT obtém valores únicos (conjunto) de valores de Censo

set(pib.Censo)

In [None]:
## _EN How many rows with NaN values are there?
## _PT Quantas linhas contêm valores NaN?

print(pib[pib.Censo.isnull()].shape)

In [None]:
## _EN examine NaN values
## _PT examina valores nulos

pib[pib.Censo.isnull()]

In [None]:
## _EN examine NaN values (using np.isnan)
## _PT examina valores nulos (usando np.isnan)

pib[np.isnan(pib.Censo)]

In [None]:
## _EN How many rows with non null values?
## _PT Quantas linhas com valores não nulos?

## _EN Using isnull
## _PT Usando isnull

print(pib[pib.Censo.isnull() == False].shape)

## _EN Using np.isnan
## _PT Usando np.isnan

print(pib[np.isnan(pib.Censo) == False].shape)

In [None]:
## _EN Filtering dataframe to include only rows with non-null values
## _PT Filtrando um dataframe para incluir apenas linhas com valores não nulos

pib = pib[np.isnan(pib.Censo) == False]
pib.shape

In [None]:
## _EN Check that Censo NaN values were removed
## _PT Verifica que os valores NaN do Censo foram removidos

set(pib.Censo)

In [None]:
pib.Censo = pib.Censo.apply(int)
pib.head()

In [None]:
## _EN How many data points from 2007?
## _PT Quantos dados são de 2007?

pib[pib.Censo == 2007].shape

In [None]:
## _EN As there are few, we can examine them all
## _PT Como são poucos, podemos ver todos

pib[pib.Censo == 2007]

_EN Why are there so few data points from 2007?
_EN Hypothesis: Maybe they couldn't collect data in 2010 from those places.

_PT Por que há tão poucos dados de 2007?
_PT Hipótese: Talvez não tenham conseguido coletar dados desses locais em 2010.

In [None]:
## _EN check whether there are also 2010 values for these cities
## _PT verifica se também há dados de 2010 para esses municípios

## _EN create list of cities with 2007 data
## _PT cria lista de cidades com dados de 2007

cit = list(pib[pib.Censo == 2007].nome)
print(cit)

## _EN subset dataframe with data about those cities
## _PT obtém fração do dataframe com dados dessas cidades
pib_cit = pib[pib.nome.isin(cit)]

## _EN examine size of resulting dataframe and of 2010 data
## _PT examina tamanho do dataframe resultante e dos dados de 2010
print(pib_cit.shape)
print(pib_cit[pib_cit.Censo == 2010].shape)


## _EN examine resulting dataframe
## _PT examina dataframe resultante
pib_cit

### _EN Multi-index
### _PT Multi-índice

In [None]:
# _EN select columns to use as index
# _PT seleciona colunas para utilizar como índice
pibmi = pib.set_index(['regiao', 'UF', 'nome'])

# _EN define index order
# _PT define ordenação dos índices
pibmi = pibmi.sort_index(level=['regiao','UF', 'nome'])

pibmi.head()

In [None]:
## _EN How many cities are there in the SE region?
## _PT Quantas cidades há na região SE?

pibmi.loc['SE'].shape

### _EN Filtering dataframe rows
### _PT Filtrando linhas de um dataframe

In [None]:
## _EN Which cities have the highest GDP per capita?
## _PT Quais cidades têm o maior PIB per capita?

pibmi[pibmi.PIB_percapita >= 100000]

In [None]:
## _EN Which cities have the lowest GDP per capita?
## _PT Quais cidades têm o menor PIB per capita?

pibmi[pibmi.PIB_percapita < 2500]

### _EN Using multi-indices to access data
### _PT Usando multi-índices para acessar dados

In [None]:
# _EN Acessing dataframe rows through indices
# _PT Acessando linhas do dataframe por índices

pibmi.loc[['NE','CO']]

In [None]:
# _EN Acessing dataframe rows and columns through indices and column names
# _PT Acessando linhas e colunas do dataframe por índices

sum(pibmi.loc[['SE']]['PIB_percapita'])

## _EN Acessing through row and column ranges
## _PT Acessando por faixas de linhas e colunas

In [None]:
# _EN last 10 rows, first 2 columns
# _PT últimas 10 linhas, primeiras 2 colunas

pibmi.iloc[-10:, :2]

### _EN Cross sections
### _PT Seccionamentos (Cortes)

In [None]:
# _EN getting a fraction of a dataframe using an intermediate index
# _PT obtendo uma fração de dataframe usando um dos índicoes

gdpRJ = pibmi.xs('RIO DE JANEIRO', level='UF')
print(gdpRJ.shape)
gdpRJ.head()

In [None]:
# _EN getting a fraction of a dataframe using an intermediate index
# _PT obtendo uma fração de dataframe usando um dos índicoes

pibmi.xs('Rio Claro', level='nome')

### _EN Transforming indices into columns
### _PT Transformando índices em colunas

In [None]:
# _EN transform all indices to columns
# _PT transforma todos os índices em colunas

pibmi.reset_index().head() # transform indices into columns

_EN Back to the original dataframe, without multi-index

_PT De volta ao dataframe anterior, sem multi-índice

In [None]:
pib.head()

In [None]:
# _EN group by a column
# _PT agrupa por uma coluna

pib_pib_grp_UF = pib[['UF','PIB_percapita']].groupby('UF')
pib_pib_grp_UF

In [None]:
# _EN examine the grouping
# _PT examina o agrupamento

print(len(pib_pib_grp_UF.groups))
pib_pib_grp_UF.groups

In [None]:
# _EN number of cities per state
# _PT número de cidades por estado

pib_pib_grp_UF.size().sort_values(ascending = False)

### _EN Aggregating columns
### _PT Agregando colunas

_EN Goal: create a dataframe with median PIB_percapita and sum of population of each state

_PT Objetivo: criar um dataframe com mediana de PIB_percapita e soma da população de cada estado

In [None]:
# _EN mean of the column values, by UF
# _PT média dos valores das colunas, por UF

pib_pib_grp_UF.mean().head()

In [None]:
# _EN calculate the median PIB
# _PT calcula a mediana do PIB

pib_mediana_pib_UF = pib_pib_grp_UF.aggregate(np.median)
pib_mediana_pib_UF.columns=['median_PIB_percapita']
pib_mediana_pib_UF.head()

In [None]:
# _EN calculate the total population of each UF
# _PT calcula o total da população de cada UF

pib_pop_grp_UF = pib[['UF','Pop_est_2009']].groupby('UF')
pip_soma_pop_UF = pib_pop_grp_UF.aggregate(np.sum)
pip_soma_pop_UF.columns=['total_state_pop_2009']
pip_soma_pop_UF.head()

In [None]:
# _EN join the two dataframes (median PIB per capita and total population)
# _PT junta os dois dataframes (mediana do PIB e total da população)

pib_agg = pib_mediana_pib_UF.join(pip_soma_pop_UF)
pib_agg.head()

### _EN Aggregating with multiple functions
### _PT Agregando com múltiplas funções

In [None]:
# _EN aggregate a grouped dataframe using multiple functions
# _PT agrega um dataframe agrupado usando múltiplas funções

pib_pib_grp_UF.aggregate([np.min, np.median, np.mean, np.max, np.std]).head()

# Example - Premier League Season 2016_2017

In [None]:
# _EN read CSV file from the Web
# _PT lê arquivo CSV da Web

premierLeague2016_2017Raw = pd.read_csv('http://www.football-data.co.uk/mmz4281/1617/E0.csv')

# _EN check the dataframe dimensions
# _PT verifica as dimensões do dataframe

premierLeague2016_2017Raw.shape

In [None]:
# _EN examine first few rows
# _PT examina as primeiras linhas

premierLeague2016_2017Raw.head()

In [None]:
# _EN create a dataframe with selected columns
# _PT cria um dataframe com colunas selecionadas

pl = premierLeague2016_2017Raw.loc[ : , 'Date':'FTR']
pl.head()

In [None]:
# _EN examine the column data types
# _PT examina os tipos de dados das colunas

pl.dtypes

In [None]:
# _EN convert dates to datetime
# _PT converte as datas para datetime

pl.Date = pd.to_datetime(pl.Date)
pl.Date.head()

In [None]:
pl.Date.tail()

In [None]:
# _EN How many matches?
# _PT Quantas partidas?

pl.shape[0]

In [None]:
# _EN How many teams?
# _PT Quantos times?

allTeams = list(set(pl['HomeTeam'].append(pl['AwayTeam'])))
print(len(allTeams))
sorted(allTeams)[0:5]

In [None]:
# _EN How long (in days) is the championship?
# _PT Quantos dias dura o campeonato?

duracaoErro = max(pl['Date']) - min(pl['Date'])
print(duracaoErro)
print(duracaoErro.days)
print('certo')
pl.Date.iloc[-1]-pl.Date.iloc[0]

In [None]:
# _EN create a sequential number for the match
# _PT cria um número sequencial para partidas

pl['Match'] = range(1, pl.shape[0]+1)

# _EN create column with winner's name, if any
# _PT cria coluna com o nome do vencedor, se houver

pl['Winner']= ''
pl['Winner'] = pl.apply(
    lambda row: row['HomeTeam'] if row['FTR'] == 'H' else row['Winner'], axis=1
)
pl['Winner'] = pl.apply(
    lambda row: row['AwayTeam'] if row['FTR'] == 'A' else row['Winner'], axis=1
)

# _EN create column with goal difference
# _PT cria coluna com saldo de gols

pl['GoalDiff'] = abs(pl['FTHG']-pl['FTAG'])

pl.head()

In [None]:
# _EN sort rows in descending order by goal difference and ascending order by winner's name
# _PT ordena linhas por saldo de gols (maior para o menor) e nome do vencedor (em ordem alfabética)

pl.sort_values(['GoalDiff','Winner'], ascending=[False,True]).head()

In [None]:
# _EN group by winner
# _PT agrupa por vencedor

plWinners = pl.groupby(['Winner'])
plWinners.groups

In [None]:
# _EN How many victories per team? Which team had the most victories?
# _PT Quantas vitórias por time? Qual time teve mais vitórias?

victoryCount = plWinners.size().sort_values(ascending = False)
victoryCount

In [None]:
# _EN create a dataframe with victory count
# _PT cria um dataframe com contagem de vitórias

plWin = pd.DataFrame(victoryCount, columns=['victories'])
plWin.head()

In [None]:
# _EN calculate goal differences stats for each team
# _PT calcula estatísticas de saldo de gols para cada time

plWinners[['GoalDiff']].aggregate([np.min, np.median, np.mean, np.max])

### Melt

In [None]:
# _EN melt dataframe to long format
# _PT remodela dataframe para formato "longo"

plLong = pd.melt(pl, id_vars=['Match','Date','HomeTeam', 'AwayTeam', 'Winner'], 
            value_vars=['FTHG', 'FTAG'], var_name='GoalPlace', value_name='GoalNum')
plLong.sort_values(['Match']).head()

In [None]:
# _EN rename columns
# _PT altera nomes de colunas

plLong.columns = ['Match', 'Date', 'Home', 'Away', 'Winner', 'GoalPlace', 'GoalNum']
plLong['Location'] = plLong.Home
plLong.head()

In [None]:
# _EN melt again
# _PT remodela novamente

plLong2 = pd.melt(plLong, 
                  id_vars = ['Match', 'Date', 'Location', 'Winner', 'GoalPlace', 'GoalNum'], 
            value_vars=['Home', 'Away'], var_name='Place', value_name='Team')
# _EN 
# _PT 

plLong2.sort_values(['Match','Place'], ascending=[True, False], inplace=True)

# _EN 
# _PT 

plLong2[['Match','Date', 'Location', 'Team','Place','GoalNum','GoalPlace','Winner']].head()

In [None]:
# _EN 
# _PT 

plLong2.dtypes

In [None]:
# _EN eliminate senseless rows ((Home and FTAG) or (Away and FTHG))
# _PT elimina linhas que não fazem sentido ((Home e FTAG) ou (Away e FTHG))

plLongOK = plLong2[((plLong2.Place=='Home') & (plLong2.GoalPlace=='FTHG'))|((plLong2.Place=='Away') & (plLong2.GoalPlace=='FTAG'))]
plLongOK = plLongOK[['Match', 'Date', 'Location', 'Team', 'Place', 'GoalNum']]
plLongOK.head()

In [None]:
# _EN create a pivot dataframe with multi-index (w ERROR)
# _EN (original dataframe is not complete; needs filling)
# _PT cria dataframe pivot com multi-índice (com ERRO)
# _PT (dataframe original não está completo; precisa preencher)

plLongOK.pivot(index=['Match', 'Date', 'Location', 'Team'], columns='Place', values='GoalNum')

In [None]:
pl.head()

In [None]:
# _EN create a pivot dataframe with multi-index, filling with 0
# _PT cria dataframe pivot com multi-índice, preenchendo com 0

plPivot = pd.pivot_table(plLongOK, 
                         index=['Match', 'Date', 'Location', 'Team'],
                         columns=['Place'], values='GoalNum', fill_value=0)
plPivot.head()

_EN Does plPivot make sense? No, because the Away/Home columns are mutually exclusive.

_PT O dataframe plPivot faz sentido? Não, porque as colunas Away/Home são mutuamente exclusivas.

In [None]:
# _EN create column with number of goals
# _PT cria coluna com número de goals

plPivot['Goals'] = plPivot.apply(lambda x: max(x['Away'], x['Home']), axis=1)
plPivot.head()

In [None]:
# _EN eliminate redundant columns
# _PT elimina colunas redundantes

plPivot = plPivot[['Goals']]
plPivot.head()

In [None]:
# _EN remove index
# _PT remove índice

plPivot = plPivot.reset_index()
plPivot.head()

In [None]:
# _EN Why is the index column named Place?
# _PT Por que a coluna de índice está com nome Place?

plPivot.columns

In [None]:
# _EN changing the name of the index coiumn
# _PT alterando o nome da coluna de índice
col = plPivot.columns
col.name = ''
plPivot.columns = col

plPivot.head()

_EN Exercise 1.3: generate the dataframe above following a better procedure

_PT Exercício 1.3: gere o dataframe acima seguindo um procedimento melhor