> Projeto Desenvolve <br>
Programação Intermediária com Python <br>
Profa. Camila Laranjeira (mila@projetodesenvolve.com.br) <br>

# Pandas

A biblioteca Pandas é uma ferramenta para a análise e manipulação de dados em Python. Ela permite trabalhar com grandes volumes de dados de maneira eficiente, organizando-os em estruturas chamadas `DataFrames`, que são semelhantes a tabelas de bancos de dados ou planilhas. Com Pandas, você pode carregar, limpar, explorar e transformar seus dados.

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/600px-Pandas_logo.svg.png" height=200><br>

Antes de continuar, baixe os arquivos do dataset que usaremos de exemplo.




In [None]:
!wget https://raw.githubusercontent.com/camilalaranjeira/python-intermediario/main/fifa-wc/matches_1930_2022.csv
!wget https://raw.githubusercontent.com/camilalaranjeira/python-intermediario/main/fifa-wc/matches_1991_2023.csv

--2024-09-05 18:29:46--  https://raw.githubusercontent.com/camilalaranjeira/python-intermediario/main/fifa-wc/matches_1930_2022.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.110.133, 185.199.109.133, 185.199.108.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.110.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 707938 (691K) [text/plain]
Saving to: ‘matches_1930_2022.csv’


2024-09-05 18:29:47 (3.57 MB/s) - ‘matches_1930_2022.csv’ saved [707938/707938]

--2024-09-05 18:29:47--  https://raw.githubusercontent.com/camilalaranjeira/python-intermediario/main/fifa-wc/matches_1991_2023.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.110.133, 185.199.109.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 277844 (271K) [text/plain]
Savi

## DataFrames

DataFrame é uma estrutura de dados de duas dimensões alinhada em formato
de tabela com linhas e colunas. É bem parecida com uma tabela SQL, ou mesmo, uma planilha. Enquanto as colunas são os nomes de cada atributo (cada *feature*) do nosso conjunto de dados, os índices servem para identificar exclusivamente cada linha. Eles podem ser números inteiros sequenciais, rótulos personalizados ou até uma coluna específica do DataFrame.

O primeiro comando que aprenderemos é o [`pd.read_csv()`](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html), responsável por carregar um arquivo formatado de acordo com a extensão `.csv` como um objeto do tipo `DataFrame`.

```python
import pandas as pd
df = pd.read_csv(filename, delimiter=',', header=0, index_col=False, names=Sequence)
```
* `delimiter=','`: Especifica o delimitador usado no arquivo CSV, que neste caso é uma vírgula.
* `header=0`: Indica que a primeira linha do arquivo CSV contém os nomes das colunas. Você pode usar `header=None` se o arquivo não apresentar um cabeçalho.
* `names=Sequence`: Permite definir manualmente uma sequência de nomes de colunas, caso o arquivo CSV não tenha um cabeçalho ou se quiser sobrescrever os nomes das colunas.
* `index_col=False`: Indica que o DataFrame deve usar um índice padrão (0, 1, 2, ...). Caso você forneça o nome de uma coluna `index_col=<col_name>`, os valores dessa coluna serão os índices.



In [None]:
import pandas as pd
import numpy as np

pd.set_option('display.max_columns',6)
pd.set_option('display.max_rows',5)

fifa_women_df = pd.read_csv('matches_1991_2023.csv')
print(type(fifa_women_df))
display(fifa_women_df)

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,home_team,away_team,home_score,...,away_yellow_card_long,home_substitute_in_long,away_substitute_in_long
0,Spain,England,1,...,['55’|1:0|Lauren Hemp'],"['60’|1:0|Oihane Hernández|for Alba Redondo', ...","['46’|1:0|Lauren James|for Alessia Russo', '46..."
1,Sweden,Australia,2,...,['45+1’|1:0|Katrina Gorry'],['67’|2:0|Rebecka Blomqvist|for Stina Blackste...,"['60’|1:0|Cortnee Vine|for Hayley Raso', '60’|..."
...,...,...,...,...,...,...,...
346,Denmark,New Zealand,3,...,,"['54’|3:0|Annette Thychosen|for Hanne Nissen',...","['41’|2:0|Terry McCahill|for Cinnamon Chaney',..."
347,China PR,Norway,4,...,,"['47’|2:0|Shui Qingxia|for Wu Weiying', '70’|3...",['59’|3:0|Ellen Scheel Aalbu|for Birthe Hegsta...


In [None]:
## Atributos
fifa_women_df.info()
# fifa_women_df.shape
# fifa_women_df.columns # nome das colunas
# fifa_women_df.index   # nome dos índices
# fifa_women_df.dtypes

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 348 entries, 0 to 347
Data columns (total 44 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   home_team                        348 non-null    object 
 1   away_team                        348 non-null    object 
 2   home_score                       348 non-null    int64  
 3   home_xg                          116 non-null    float64
 4   home_penalty                     11 non-null     float64
 5   away_score                       348 non-null    int64  
 6   away_xg                          116 non-null    float64
 7   away_penalty                     11 non-null     float64
 8   home_manager                     168 non-null    object 
 9   home_captain                     168 non-null    object 
 10  away_manager                     168 non-null    object 
 11  away_captain                     168 non-null    object 
 12  Attendance            

## `dtype`

Temos a seguir os principais tipos de dados que as colunas de um DataFrame podem ter. Você pode ver a lista completa [na documentação](https://pandas.pydata.org/docs/user_guide/basics.html#dtypes).

* Inteiro: `Int8`, `Int16`, `Int32`, `Int64`, `UInt8`, `UInt16`, `UInt32`, `UInt64`
* Float: `Float32`, `Float64`
* String: `string`
* Booleano: `bool`
* Datetime: `datetime64`
* Categórico: `category`
* Interavalos: `Interval[numpy_dtype ou datetime]`

O NumPy dá suporte aos tipos `float`, `int`, `bool`, `timedelta64` e `datetime64`. Outros tipos exclusivos do Pandas são convertidos para um desses tipos quando extraímos o array Numpy de alguma série.

Ao ler um arquivo, o Pandas tenta inferir o tipo de dados, mas caso não consiga a coluna é considerada do tipo genérico `object`. Em geral temos que resolver/converter essas colunas para o tipo de dado adequado. Conversões podem ser feitas de algumas maneiras:
* **Método genérico** `pd.Series.astype(nome_do_tipo)` aplicado a séries. Recebe como parâmetro o nome do tipo para o qual se deseja converter.
* **Métodos específicpos** de conversão, exemplo `pd.to_datetime(pd.Series)`, `pd.to_numeric(pd.Series)`. Recebem como parâmetro a série a ser convertida.



In [None]:
print('--------- Tipos originais ---------')
print(fifa_women_df['home_team'][:4])
print(fifa_women_df['home_score'][:4])
print(fifa_women_df['Date'][:4], '\n')

print('--------- Algumas conversões ---------')
print(fifa_women_df['home_team'][:4].astype("string"))
print(pd.to_datetime(fifa_women_df['Date'][:4]), '\n')

print('--------- select_dtypes() ---------')
fifa_women_df.select_dtypes(include=["number"], exclude=["object"])

--------- Tipos originais ---------
0        Spain
1       Sweden
2    Australia
3        Spain
Name: home_team, dtype: object
0    1
1    2
2    1
3    2
Name: home_score, dtype: int64
0    2023-08-20
1    2023-08-19
2    2023-08-16
3    2023-08-15
Name: Date, dtype: object 

--------- Algumas conversões ---------
0        Spain
1       Sweden
2    Australia
3        Spain
Name: home_team, dtype: string
0   2023-08-20
1   2023-08-19
2   2023-08-16
3   2023-08-15
Name: Date, dtype: datetime64[ns] 

--------- select_dtypes() ---------


Unnamed: 0,home_score,home_xg,home_penalty,away_score,away_xg,away_penalty,Attendance,Year
0,1,2.1,,0,0.5,,75784,2023
1,2,1.8,,0,0.8,,49461,2023
2,1,1.4,,3,1.3,,75784,2023
3,2,1.6,,1,0.9,,43217,2023
4,0,1.6,7.0,0,2.0,6.0,49461,2023
...,...,...,...,...,...,...,...,...
343,0,,,1,,,14000,1991
344,0,,,5,,,11000,1991
345,2,,,3,,,14000,1991
346,3,,,0,,,14000,1991


In [None]:
## hierarquia de tipos suportados pelo Numpy
import numpy as np
def subdtypes(dtype):
    subs = dtype.__subclasses__()
    if not subs:
        return dtype
    return [dtype, [subdtypes(dt) for dt in subs]]

subdtypes(np.generic)

[numpy.generic,
 [[numpy.number,
   [[numpy.integer,
     [[numpy.signedinteger,
       [numpy.int8,
        numpy.int16,
        numpy.int32,
        numpy.int64,
        numpy.longlong,
        numpy.timedelta64]],
      [numpy.unsignedinteger,
       [numpy.uint8,
        numpy.uint16,
        numpy.uint32,
        numpy.uint64,
        numpy.ulonglong]]]],
    [numpy.inexact,
     [[numpy.floating,
       [numpy.float16, numpy.float32, numpy.float64, numpy.longdouble]],
      [numpy.complexfloating,
       [numpy.complex64, numpy.complex128, numpy.clongdouble]]]]]],
  [numpy.flexible,
   [[numpy.character, [numpy.bytes_, numpy.str_]],
    [numpy.void, [numpy.record]]]],
  numpy.bool_,
  numpy.datetime64,
  numpy.object_]]

Mas calma! Usaremos essa tabela só mais à frente dessa aula. Vamos começar entendendo como criar dataframes a partir de outras estruturas com o seguinte comando:
```python
df = pd.DataFrame(data, index, columns, dtype)
```

O parâmetro `data` pode ser dos tipos:
* `list`: Uma lista de valores, ou lista de listas, onde cada sub-lista representa uma linha do DataFrame.
* `dict`: Um dicionário de arrays, listas ou séries, onde as chaves são usadas como os rótulos das colunas.
* `pd.Series`: Uma série do pandas, onde os valores da série se tornam uma coluna do DataFrame.
* Numpy `ndarray`: Um array Numpy multidimensional, onde cada linha do array se torna uma linha do DataFrame.
* Outro DataFrame: Um DataFrame já existente, que será copiado ou modificado.

Os parâmetros `index` e `columns` são opcionais e podem ser fornecidos para preencher os identificadores das linhas e colunas. Caso nada seja fornecido, os índices serão um intervalo sequencial de inteiros de 0 a N, e as colunas podem ser inferidas a partir de alguns tipos de estruturas, como veremos a seguir.

Já `dtype` permite definir o tipo de dados que todas as colunas devem ter. Se não for especificado, o pandas tentará inferir o tipo de dados de cada coluna.


In [None]:
# Exemplo 1 DataFrame a partir de lista
data = [1,2,3,4,5]
df = pd.DataFrame(data)
display(df)
print(df.info())

# Exemplo 2 DataFrame a partir de Lista
data = [['Bibi',10],['Vivi',12],['Lili',13]]
df = pd.DataFrame(data,columns=['Nome','Idade'])
display(df)
print(df.info())

Unnamed: 0,0
0,1
1,2
2,3
3,4
4,5


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   0       5 non-null      int64
dtypes: int64(1)
memory usage: 168.0 bytes
None


Unnamed: 0,Nome,Idade
0,Bibi,10
1,Vivi,12
2,Lili,13


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Nome    3 non-null      object
 1   Idade   3 non-null      int64 
dtypes: int64(1), object(1)
memory usage: 176.0+ bytes
None


In [None]:
# Exemplo 3 DataFrame a partir de dicionário
data = {'Idade':[31,37,29,35],
        'Curso': ['Python', 'No Code', 'Banco de Dados', 'Web']}
df = pd.DataFrame(data, index=['Mila', 'Vivi', 'Livia', 'Joao'])
display(df)
print(df.info())

#Exemplo 4 DataFrame a partir de lista de dicionários
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data)
display(df)
print(df.info())

Unnamed: 0,Idade,Curso
Mila,31,Python
Vivi,37,No Code
Livia,29,Banco de Dados
Joao,35,Web


<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, Mila to Joao
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Idade   4 non-null      int64 
 1   Curso   4 non-null      object
dtypes: int64(1), object(1)
memory usage: 96.0+ bytes
None


Unnamed: 0,a,b,c
0,1,2,
1,5,10,20.0


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   a       2 non-null      int64  
 1   b       2 non-null      int64  
 2   c       1 non-null      float64
dtypes: float64(1), int64(2)
memory usage: 176.0 bytes
None


## `pd.Series`

Cada coluna de um `DataFrame`é um objeto do tipo `Series`, o qual envolve dois componentes:
* Valores (*values*): Tipo `numpy.ndarray`
* Índice nomeado (*index*): Tipo `Index` (ou `RangeIndex` para índices numéricos)

In [None]:
df = pd.DataFrame()

# criando novos objetos pd.Series
nomes = pd.Series(['Mila', 'Vivi', 'Livia', 'Joao'])
print(type(nomes))
print(nomes.values, type(nomes.values))
print(nomes.index, '\n')
df['Nomes']  = nomes

idades = pd.Series([31,37,29,35])
print(type(idades))
print(idades.values, type(idades.values))
print(idades.index, '\n')
df['Idade'] = idades

display(df)
print(df.info())

print('\n######################\n')

df.index = df['Nomes'] # atribuo a coluna nomes aos índices
df.drop('Nomes', axis=1, inplace=True) # removo a coluna do DF

# Pegando um objeto pd.Series do DataFrame
df['Ano_Nasc'] = 2024 - df['Idade']
print(type(df['Idade']))
print(df['Idade'].values, type(df['Idade'].values))
print(df['Idade'].index, '\n')

display(df)
print(df.info())

<class 'pandas.core.series.Series'>
['Mila' 'Vivi' 'Livia' 'Joao'] <class 'numpy.ndarray'>
RangeIndex(start=0, stop=4, step=1) 



Unnamed: 0,Nomes
0,Mila
1,Vivi
2,Livia
3,Joao


<class 'pandas.core.series.Series'>
[31 37 29 35] <class 'numpy.ndarray'>
RangeIndex(start=0, stop=4, step=1) 



Unnamed: 0,Nomes,Idade
0,Mila,31
1,Vivi,37
2,Livia,29
3,Joao,35


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Nomes   4 non-null      object
 1   Idade   4 non-null      int64 
dtypes: int64(1), object(1)
memory usage: 192.0+ bytes
None

######################

<class 'pandas.core.series.Series'>
[31 37 29 35] <class 'numpy.ndarray'>
Index(['Mila', 'Vivi', 'Livia', 'Joao'], dtype='object', name='Nomes') 



Unnamed: 0_level_0,Idade,Ano_Nasc
Nomes,Unnamed: 1_level_1,Unnamed: 2_level_1
Mila,31,1993
Vivi,37,1987
Livia,29,1995
Joao,35,1989


<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, Mila to Joao
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype
---  ------    --------------  -----
 0   Idade     4 non-null      int64
 1   Ano_Nasc  4 non-null      int64
dtypes: int64(2)
memory usage: 96.0+ bytes
None


### `.to_numpy()`

Já que os valores de uma `pd.Series` são internamente arrays Numpy, é intuitivo ter uma função que converte entre os tipos. Dada uma série qualquer, podemos invocar o método `.to_numpy()` sobre essa série para realizar essa conversão. Se todo o DataFrame for de tipo similar, também é possível converter todo o DataFrame através do mesmo método.

In [None]:
idades = df.Idade.to_numpy()
print(type(idades), idades, idades.dtype)

dados = df.to_numpy()
print(type(dados), '\n', dados)

<class 'numpy.ndarray'> [31 37 29 35] int64
<class 'numpy.ndarray'> 
 [[  31 1993]
 [  37 1987]
 [  29 1995]
 [  35 1989]]


## Indexando com `.loc`, `.iloc`

Apesar do objeto `pd.Series` ser fortemente relacionado com o Numpy, a indexação de Dataframes e Series possui particularidades. Por se tratar de um objeto com dimensões nomeadas (colunas e índices), o acesso a elementos pode explorar tanto índices numéricos quanto as chaves que nomeiam cada dimensão.
Vamos começar pela indexação com o operador `[ ]` para em seguida conhecer os recursos exclusivos do Pandas.

* Operador `[ ]`
    * `df[coluna], df[[c1, c2, c3]]`: Permite acessar colunas de um DataFrame pelo nome da coluna ou uma lista de nomes de colunas.
    * `df[inico:fim:step]`: Permite acessar linhas de um DataFrame através de fatiamento numérico, assim como em listas.
    * `series[inico:fim:step]`: Se aplicado a um objeto `pd.Series` podemos fatiar numericamente, assim como dataframes.
    * `series[indice]`: Assim como os dataframes podem ser indexados pelo nome da coluna, séries são indexadas pelo **nome dos índices**. Apesar de em muitos casos os índices serem numéricos, não se confunda, eles nomeiam cada observação assim como chaves de um dicionário.
    




In [None]:
## Operador [ ]

print('------ Indexação de dataframe por nome de coluna ------')
home_team = fifa_women_df['home_team']
print(type(home_team))
teams = fifa_women_df[['home_team', 'away_team']]
print(type(teams), '\n')

print('------ Indexação de dataframe por fatia ------')
selecao_linhas = teams[10:15]
display(selecao_linhas)
display(selecao_linhas[0::2])

print('\n------ Indexação de séries ------')
print(home_team[0], '\n')
print(home_team[:2], '\n')

print(selecao_linhas['home_team'][:2])
print(selecao_linhas['home_team'][[10,11]])
print(selecao_linhas['home_team'][0]) # vai lançar erro

------ Indexação de dataframe por nome de coluna ------
<class 'pandas.core.series.Series'>
<class 'pandas.core.frame.DataFrame'> 

------ Indexação de dataframe por fatia ------


Unnamed: 0,home_team,away_team
10,England,Nigeria
11,Australia,Denmark
12,Netherlands,South Africa
13,Sweden,United States
14,Switzerland,Spain


Unnamed: 0,home_team,away_team
10,England,Nigeria
12,Netherlands,South Africa
14,Switzerland,Spain



------ Indexação de séries ------
Spain 

0     Spain
1    Sweden
Name: home_team, dtype: object 

10      England
11    Australia
Name: home_team, dtype: object
10      England
11    Australia
Name: home_team, dtype: object


KeyError: 0

Dando continuidade aos operadores de indexação, o Pandas possui dois principais métodos. O uso desses métodos é muito recomendado, já que resolve quaisquer confusões que possam surgir quando usamos o operador `[ ]` (*será que estou acessando rótulos ou índices numéricos?*)

* `.loc[ ]`: Indexação baseada em rótulos.
* `.iloc[ ]`: Indexação baseada em posições numéricas.

> Existe uma diferença crucial entre os operadores `[ ]` e `.loc`. O operador `[ ]` pode retornar uma visualização (cópia superficial) do DataFrame, o que dispara *warnings* ao tentar modificar os dados. Já o operador `.loc` garante que as modificações são aplicadas diretamente ao DataFrame. Para evitar *warnings*, **use `.loc` para modificar valores e `[ ]` para consultar**. Use explicitamente o método `.copy()` caso deseje fazer modificações em uma cópia sem afetar o DataFrame original.


In [None]:
selecao_linhas = fifa_women_df[120:131]
# display(selecao_linhas)

display(selecao_linhas.loc[[120, 125, 130], ['home_team', 'away_team']])
display(selecao_linhas.iloc[[0, 5, 10], [0,1]])

Unnamed: 0,home_team,away_team
120,Australia,Japan
125,Norway,England
130,Germany,Sweden


Unnamed: 0,home_team,away_team
120,Australia,Japan
125,Norway,England
130,Germany,Sweden


### `.reset_index()`

É muito comum filtrar dataframes para selecionar linhas específicas de interesse. Quando fazemos isso, os índices das linhas selecionadas mantêm os valores originais, sejam eles rótulos nomeados ou índices numéricos. Se preferirmos trabalhar com índices numéricos sequenciais após a filtragem, podemos redefinir os índices do dataframe com o método `.reset_index()`. O parâmetro opcional `drop` estabelece se você deseja excluir os índices originais (`True`) ou transformá-los numa nova coluna (`False`).

In [None]:
display(selecao_linhas.reset_index(drop=True))

Unnamed: 0,home_team,away_team,home_score,home_xg,home_penalty,away_score,away_xg,away_penalty,home_manager,home_captain,away_manager,away_captain,Attendance,Venue,Officials,Round,Date,Score,Referee,Notes,Host,Year,home_goal,away_goal,home_goal_long,away_goal_long,home_own_goal,away_own_goal,home_penalty_goal,away_penalty_goal,home_penalty_miss_long,away_penalty_miss_long,home_penalty_shootout_goal_long,away_penalty_shootout_goal_long,home_penalty_shootout_miss_long,away_penalty_shootout_miss_long,home_red_card,away_red_card,home_yellow_red_card,away_yellow_red_card,home_yellow_card_long,away_yellow_card_long,home_substitute_in_long,away_substitute_in_long
0,Australia,Japan,0,,,1,,,Alen Stajcic,Lisa De Vanna,Norio Sasaki,Aya Miyama,19814,"Commonwealth Stadium, Edmonton",Kateryna Monzul (Referee) · Natalia Rachynska ...,Quarter-finals,2015-06-27,0–1,Kateryna Monzul,,Canada,2015,,Mana Iwabuchi · 87’,,['87’|0:1|Mana Iwabuchi|Assist:|Azusa Iwashimi...,,,,,,,,,,,,,,,,['27’|0:0|Azusa Iwashimizu'],"['67’|0:0|Larissa Crummer|for Lisa De Vanna', ...","['72’|0:0|Mana Iwabuchi|for Shinobu Ohno', '90..."
1,England,Canada,2,,,1,,,Mark Sampson,Steph Houghton,John Herdman,Christine Sinclair,54027,"BC Place, Vancouver",Claudia Umpiérrez (Referee) · Luciana Mascarañ...,Quarter-finals,2015-06-27,2–1,Claudia Umpiérrez,,Canada,2015,Jodie Taylor · 11’|Lucy Bronze · 14’,Christine Sinclair · 42’,"['11’|1:0|Jodie Taylor', '14’|2:0|Lucy Bronze|...",['42’|2:1|Christine Sinclair'],,,,,,,,,,,,,,,['63’|2:1|Jade Moore'],['90+3’|2:1|Lauren Sesselmann'],['52’|2:1|Siobhan Chamberlain|for Karen Bardsl...,"['62’|2:1|Diana Matheson|for Rhian Wilkinson',..."
2,Germany,France,1,,5.0,1,,4.0,Silva Neid,Nadine Angerer,Philippe Bergeroo,Wendie Renard,24859,"Olympic Stadium, Montréal",Carol-Anne Chenard (Referee) · Marie-Josée Cha...,Quarter-finals,2015-06-26,(5) 1–1 (4),Carol-Anne Chenard,Germany won on penalty kicks following extra time,Canada,2015,,Louisa Cadamuro · 64’,,['64’|0:1|Louisa Cadamuro'],,,Célia Šašić (P) · 84’,,,,"['1|1:0|Melanie Behringer', '3|2:1|Simone Laud...","['2|1:1|Gaëtane Thiney', '4|2:2|Camille Abily'...",,['10|5:4|Claire Lavogez'],,,,,"['37’|0:0|Anja Mittag', '68’|0:1|Lena Goeßling...","['55’|0:0|Marie-Laure Delie', '57’|0:0|Laura G...","['46’|0:0|Dzsenifer Marozsán|for Anja Mittag',...","['69’|0:1|Claire Lavogez|for Élodie Thomis', '..."
3,China PR,United States,0,,,1,,,Hao Wei,Wu Haiyan,Jill Ellis,Carli Lloyd,24141,"TD Place Stadium, Ottawa",Carina Vitulano (Referee) · Michelle O'Neill (...,Quarter-finals,2015-06-26,0–1,Carina Vitulano,,Canada,2015,,Carli Lloyd · 51’,,['51’|0:1|Carli Lloyd|Assist:|Julie Ertz'],,,,,,,,,,,,,,,['50’|0:0|Wu Haiyan'],,"['35’|0:0|Wang Shuang|for Lou Jiahui', '58’|0:...","[""61’|0:1|Christen Press|for Kelley O'Hara"", ""..."
4,Japan,Netherlands,2,,,1,,,Norio Sasaki,Aya Miyama,Roger Reijners,Mandy van den Berg,28717,"BC Place, Vancouver",Lucila Venegas (Referee) · Mayte Chávez (AR1) ...,Round of 16,2015-06-23,2–1,Lucila Venegas,,Canada,2015,Saori Ariyoshi · 10’|Mizuho Sakaguchi · 78’,Kirsten van de Ven · 90+2’,"['10’|1:0|Saori Ariyoshi', '78’|2:0|Mizuho Sak...",['90+2’|2:1|Kirsten van de Ven|Assist:|Manon M...,,,,,,,,,,,,,,,['50’|1:0|Saori Ariyoshi'],,"['66’|1:0|Mana Iwabuchi|for Shinobu Ohno', '80...",['53’|1:0|Kirsten van de Ven|for Daniëlle van ...
5,Norway,England,1,,,2,,,Even Pellerud,Trine Rønning,Mark Sampson,Steph Houghton,19829,"TD Place Stadium, Ottawa",Esther Staubli (Referee) · Ella De Vries (AR1)...,Round of 16,2015-06-22,1–2,Esther Staubli,,Canada,2015,Solveig Gulbrandsen · 54’,Steph Houghton · 61’|Lucy Bronze · 76’,['54’|1:0|Solveig Gulbrandsen|Assist:|Lene Myk...,['61’|1:1|Steph Houghton|Assist:|Fara Williams...,,,,,,,,,,,,,,,,,['46’|0:0|Maria Thorisdottir|for Trine Rønning...,"['54’|1:0|Jill Scott|for Fran Kirby', '63’|1:1..."
6,United States,Colombia,2,,,0,,,Jill Ellis,Abby Wambach,Fabián Taborda,Natalia Gaitán,19412,"Commonwealth Stadium, Edmonton",Stéphanie Frappart (Referee) · Manuela Nicolos...,Round of 16,2015-06-22,2–0,Stéphanie Frappart,,Canada,2015,Alex Morgan · 53’,,['53’|1:0|Alex Morgan|Assist:|Carli Lloyd'],,,,Carli Lloyd (P) · 66’,,['50’|0:0|Abby Wambach|Penalty Miss'],,,,,,,Catalina Pérez · 47’,,,"['17’|0:0|Lauren Holiday', '41’|0:0|Megan Rapi...",['65’|1:0|Angela Clavijo'],"['69’|2:0|Morgan Gautrat|for Abby Wambach', '7...","['49’|0:0|Stefany Castaño|for Ingrid Vidal', '..."
7,Brazil,Australia,0,,,1,,,Vadão,Marta,Alen Stajcic,Lisa De Vanna,12054,"Moncton Stadium, Moncton",Teodora Albon (Referee) · Petruța Iugulescu (A...,Round of 16,2015-06-21,0–1,Teodora Albon,,Canada,2015,,Kyah Simon · 80’,,['80’|0:1|Kyah Simon'],,,,,,,,,,,,,,,"['14’|0:0|Fabiana da Silva Simões', '81’|0:1|M...",,"['83’|0:1|Beatriz|for Thaisa', '83’|0:1|Raquel...","['64’|0:0|Kyah Simon|for Michelle Heyman', '72..."
8,Canada,Switzerland,1,,,0,,,John Herdman,Christine Sinclair,Martina Voss-Tecklenburg,Caroline Abbé,53855,"BC Place, Vancouver",Anna-Marie Keighley (Referee) · Sarah Walker (...,Round of 16,2015-06-21,1–0,Anna-Marie Keighley,,Canada,2015,Josée Bélanger · 52’,,['52’|1:0|Josée Bélanger|Assist:|Christine Sin...,,,,,,,,,,,,,,,,"['13’|0:0|Christine Sinclair', '74’|1:0|Kadeis...",['46’|0:0|Selina Kuster'],['69’|1:0|Jonelle Filigno|for Melissa Tancredi...,"['61’|1:0|Vanessa Bürki|for Selina Kuster', '7..."
9,France,Korea Republic,3,,,0,,,Philippe Bergeroo,Wendie Renard,Yoon Deok-yeo,Cho So-hyun,15518,"Olympic Stadium, Montréal",Salomé Di Iorio (Referee) · María Rocco (AR1) ...,Round of 16,2015-06-21,3–0,Salomé Di Iorio,,Canada,2015,Marie-Laure Delie · 4’|Élodie Thomis · 8’|Mari...,,['4’|1:0|Marie-Laure Delie|Assist:|Laure Boull...,,,,,,,,,,,,,,,,['80’|3:0|Kheira Hamraoui'],"['33’|2:0|Lee Eun-mi', '85’|3:0|Lee Geum-min']",['74’|3:0|Gaëtane Thiney|for Eugénie Le Sommer...,"['55’|3:0|Yoo Young-a|for Park Eun-sun', '60’|..."


## Iterando em um DataFrame

A maneira mais simples de iterar em um DataFrame é através de um loop `for`, que, por padrão, itera pelas colunas.

```python
for col in selecao_colunas: # equivale a `for col in selecao_colunas.columns`
    print(col)
```

No entanto, existem métodos específicos:

* `items()`: itera pelas colunas, retornando uma tupla (`str`,`pd.Series`), respectivamente o nome da coluna e os seus valores.
* `iterrows()`: itera pelas linhas, retornando uma tupla (`index`,`pd.Series`), sendo o primeiro o índice da linha selecionada, e o segundo uma nova série criada, onde os índices são os nomes das colunas e os valores são os respectivos elementos.
* `itertuples()`: itera pelas linhas como `namedtuples`. É criada uma tupla com os valores da linha, que pode ser acessado por chaves correspondentes ao nome da coluna. Note que neste caso não é retornado o índice da linha selecionada.

In [None]:
selecao_colunas = fifa_women_df[['home_team', 'away_team', 'home_score', 'away_score', 'Attendance',
                                 'home_red_card', 'away_red_card', 'home_yellow_card_long', 'away_yellow_card_long']]

print('----- for col in selecao_colunas -----')
for col in selecao_colunas:
    print(col, end=', ')

print('\n')
print('----- for col in selecao_colunas.items() -----')
for chave, valor in selecao_colunas.items():
    print(type(chave), type(valor))
    print(chave)
    print(valor[:3])
    break

print('\n')
print('----- for item in selecao_colunas.iterrows() -----')
for indice, linha in selecao_colunas.iterrows():
    print(type(indice), type(linha),'\n')

    print('Índice da linha', indice)
    print('Indices da linha:', linha.index)   # nomes das colunas
    print('Valores da linha:', linha.values) # valores da linha selecionada
    print('Selecionando um valor:', linha['home_team'])
    break

print('\n')
print('----- for item in selecao_colunas.itertuples() -----')
for linha in selecao_colunas.itertuples():
    print(linha)
    print('Selecionando um valor:', linha.home_team)
    break

----- for col in selecao_colunas -----
home_team, away_team, home_score, away_score, Attendance, home_red_card, away_red_card, home_yellow_card_long, away_yellow_card_long, 

----- for col in selecao_colunas.items() -----
<class 'str'> <class 'pandas.core.series.Series'>
home_team
0        Spain
1       Sweden
2    Australia
Name: home_team, dtype: object


----- for item in selecao_colunas.iterrows() -----
<class 'int'> <class 'pandas.core.series.Series'> 

Índice da linha 0
Indices da linha: Index(['home_team', 'away_team', 'home_score', 'away_score', 'Attendance',
       'home_red_card', 'away_red_card', 'home_yellow_card_long',
       'away_yellow_card_long'],
      dtype='object')
Valores da linha: ['Spain' 'England' 1 0 75784 nan nan "['78’|1:0|Salma Paralluelo']"
 "['55’|1:0|Lauren Hemp']"]
Selecionando um valor: Spain


----- for item in selecao_colunas.itertuples() -----
Pandas(Index=0, home_team='Spain', away_team='England', home_score=1, away_score=0, Attendance=75784, home_

## Funções do Pandas
O Pandas é uma biblioteca com MUITOS métodos, organizados [na documentação](http://pandas.pydata.org/docs/reference/) pela classe a qual pertence (`pd.DataFrame`, `pd.Series`) ou por funcionalidade (agrupamento, amostragem, plots etc). O que veremos a seguir é um conjunto minúsculo de possibilidades. Vamos expandir um pouco nosso conhecimento nos exercícios, mas será uma longa jornada até conhecer uma boa parte (dificilmente tudo) do que o Pandas pode proporcionar.


### Resumos estatísticos
Uma das funções mais usadas para resumir estatísticamente nossos dados é a `describe()`, que gera estatísticas descritivas de um DataFrame ou Series. Ela fornece informações como contagem, média, desvio padrão, valores mínimos, máximos, e percentis.

A função `describe()` possui um parâmetro `include` que pode ser usado para especificar o tipo de colunas a serem incluídas no resumo. Esse parâmetro pode ser:
   * `number`: Resume as colunas numéricas (padrão)
   * `object`: Resume colunas não-numéricas
   * `all`: Resume todas as colunas juntas



In [None]:
pd.set_option('display.max_columns',5)
pd.set_option('display.max_rows',8)

selecao_colunas = fifa_women_df[['home_team', 'away_team', 'home_score', 'away_score', 'Attendance', 'Year',
                                 'home_red_card', 'away_red_card', 'home_yellow_card_long', 'away_yellow_card_long']]
# print(selecao_colunas.describe())
display(selecao_colunas.describe(include='all'))

Unnamed: 0,home_team,away_team,...,home_yellow_card_long,away_yellow_card_long
count,348,348,...,213,230
unique,44,44,...,213,230
top,United States,Sweden,...,['78’|1:0|Salma Paralluelo'],['55’|1:0|Lauren Hemp']
freq,33,25,...,1,1
...,...,...,...,...,...
25%,,,...,,
50%,,,...,,
75%,,,...,,
max,,,...,,


Essas e outras métricas podem ser acessíveis individualmente através de métodos como os apresentados a seguir. Essas funções podem ser aplicadas diretamente a um DataFrame ou Series, e permitem análises detalhadas dos dados.

| Function     | Description |
| :--------    | :----------- |
| `count()`    |	Number of non-null observations
| `sum()`      |	Sum of values
| `mean()`     |	Mean of Values
| `median()`   |	Median of Values
| `mode()`     |	Mode of values
| `std()`      |	Standard Deviation of the Values
| `min()`      |	Minimum Value
| `max()`      |	Maximum Value
| `abs()`      |	Absolute Value
| `prod()`     |	Product of Values
| `cumsum()`   |	Cumulative Sum
| `cumprod()`  |  Cumulative Product

Essas funções possuem o parâmetro `axis`, que permite especificar a dimensão ao longo da qual a operação será realizada. O valor axis=0 indica que a operação deve ser aplicada ao longo das colunas, ou seja, agregando os valores de cada coluna (o padrão). Já axis=1 indica que a operação deve ser aplicada ao longo das linhas, agregando os valores de cada linha.

In [None]:
print('Média e desvio padrão de comparecimento:',
      selecao_colunas['Attendance'].mean().round(2),
      selecao_colunas['Attendance'].std().round(2))

# Uso do parâmetro axis para definir a dimensão da operação
print('Soma de todos os gols da história das copas')
print(selecao_colunas[['home_score', 'away_score']].sum(axis=0))

Média e desvio padrão de comparecimento: 23989.19 17683.64
Soma de todos os gols da história das copas
home_score    651
away_score    427
dtype: int64


### `groupby()`

Talvez você já conheça o `groupby` de banco de dados, como no exemplo apresentado a seguir. Esse tipo de operação separa os dados em grupos, onde cada grupo são as amostras associadas a um valor único da coluna selecionada. Quaisquer transformações adicionais da consulta são aplicadas individualmente em cada grupo.

```sql
SELECT sum(home_score)
FROM selecao_colunas
GROUP BY Year
```

Em Pandas, o método `groupby` retorna um objeto cujo atributo principal é `groups`, um dicionário onde as chaves são os valores únicos da coluna selecionada, e os valores são os índices associados àquele valor.

In [None]:
group_year = selecao_colunas.groupby('Year')
group_year.groups

{1991: [322, 323, 324, 325, 326, 327, 328, 329, 330, 331, 332, 333, 334, 335, 336, 337, 338, 339, 340, 341, 342, 343, 344, 345, 346, 347], 1995: [296, 297, 298, 299, 300, 301, 302, 303, 304, 305, 306, 307, 308, 309, 310, 311, 312, 313, 314, 315, 316, 317, 318, 319, 320, 321], 1999: [264, 265, 266, 267, 268, 269, 270, 271, 272, 273, 274, 275, 276, 277, 278, 279, 280, 281, 282, 283, 284, 285, 286, 287, 288, 289, 290, 291, 292, 293, 294, 295], 2003: [232, 233, 234, 235, 236, 237, 238, 239, 240, 241, 242, 243, 244, 245, 246, 247, 248, 249, 250, 251, 252, 253, 254, 255, 256, 257, 258, 259, 260, 261, 262, 263], 2007: [200, 201, 202, 203, 204, 205, 206, 207, 208, 209, 210, 211, 212, 213, 214, 215, 216, 217, 218, 219, 220, 221, 222, 223, 224, 225, 226, 227, 228, 229, 230, 231], 2011: [168, 169, 170, 171, 172, 173, 174, 175, 176, 177, 178, 179, 180, 181, 182, 183, 184, 185, 186, 187, 188, 189, 190, 191, 192, 193, 194, 195, 196, 197, 198, 199], 2015: [116, 117, 118, 119, 120, 121, 122, 123, 124,

Uma vez agrupados, podemos aplicar inúmeras funções aos grupos. Falando primeiro de resumos estatísticos, temos duas opções:
* Invocar diretamente o método de resumo estatístico que desejamos calcular;
* Invocar o método genérico `.agg([])` que recebe como parâmetro a lista de métodos que desejamos aplicar.

Podemos também selecionar colunas específicas onde desejamos aplicar as funções de agregação. Caso contrário, os métodos serão aplicados em todas as colunas do DataFrame.

In [None]:
display(group_year[['home_score', 'away_score']].sum())
display(group_year[['home_score', 'away_score']].agg([np.sum, np.max, np.min]))

Unnamed: 0_level_0,home_score,home_score,...,away_score,away_score
Unnamed: 0_level_1,sum,max,...,max,min
Year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
1991,52,7,...,8,0
1995,66,8,...,6,0
1999,76,7,...,5,0
2003,64,7,...,7,0
...,...,...,...,...,...
2011,48,4,...,4,0
2015,92,10,...,5,0
2019,86,13,...,5,0
2023,96,6,...,7,0


Note que agregações múltiplas produzem um DataFrame indexado como `MultiIndex`, com múltiplos níveis de indexação na dimensão das colunas. Combinando os métodos [`unstack`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.unstack.html) com `reset_index` podemos transformar as multidimensões em novas colunas categóricas da nossa base.

In [None]:
multi_index = group_year[['home_score', 'away_score']].agg([np.sum, np.max, np.min])
display(multi_index['home_score'])
print(multi_index['home_score']['sum'].to_numpy())

display(multi_index.unstack().reset_index())

Unnamed: 0_level_0,sum,max,min
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1991,52,7,0
1995,66,8,0
1999,76,7,0
2003,64,7,0
2007,71,11,0
2011,48,4,0
2015,92,10,0
2019,86,13,0
2023,96,6,0


[52 66 76 64 71 48 92 86 96]


Unnamed: 0,level_0,level_1,Year,0
0,home_score,sum,1991,52
1,home_score,sum,1995,66
2,home_score,sum,1999,76
3,home_score,sum,2003,64
4,home_score,sum,2007,71
...,...,...,...,...
49,away_score,min,2007,0
50,away_score,min,2011,0
51,away_score,min,2015,0
52,away_score,min,2019,0


### `apply`

Também temos a função genérica `apply` que aplica transformações a um subconjunto dos dados (seja uma coluna, um agrupamento, etc.).

In [None]:
def extrair_nomes(valor):
    ret = ""
    for item in valor.split(','):
        ret += item.split('|')[-1][:-2] + ','
    return ret[:-1]

#### Uso do .apply() para filtrar dados de uma coluna
jogadoras_cartao_amarelo = selecao_colunas['home_yellow_card_long'].dropna().apply(extrair_nomes)

selecao_colunas['home_players_yellow_card'] = jogadoras_cartao_amarelo
display(selecao_colunas)

selecao_colunas.drop('home_players_yellow_card', axis=1, inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  selecao_colunas['home_players_yellow_card'] = jogadoras_cartao_amarelo


Unnamed: 0,home_team,away_team,home_score,away_score,Attendance,Year,home_red_card,away_red_card,home_yellow_card_long,away_yellow_card_long,home_players_yellow_card
0,Spain,England,1,0,75784,2023,,,['78’|1:0|Salma Paralluelo'],['55’|1:0|Lauren Hemp'],Salma Paralluelo
1,Sweden,Australia,2,0,49461,2023,,,"['88’|2:0|Elin Rubensson', '90+5’|2:0|Lina Hur...",['45+1’|1:0|Katrina Gorry'],"Elin Rubensso,Lina Hurtig"
2,Australia,England,1,3,75784,2023,,,,"['10’|0:0|Alex Greenwood', '90+5’|1:3|Chloe Ke...",
3,Spain,Sweden,2,1,43217,2023,,,,,
4,Australia,France,0,0,49461,2023,,,['92’|0:0|Katrina Gorry'],,Katrina Gorry
...,...,...,...,...,...,...,...,...,...,...,...
343,Japan,Brazil,0,1,14000,1991,,,,"['58’|0:1|Maria Lucia Lima', '67’|0:1|Elane Re...",
344,Chinese Taipei,Italy,0,5,11000,1991,,,,['59’|0:4|Silvia Fiorini'],
345,Sweden,United States,2,3,14000,1991,,,['64’|0:3|Helen Johansson'],['24’|0:0|Mia Hamm'],Helen Johansson
346,Denmark,New Zealand,3,0,14000,1991,,,,,


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  selecao_colunas.drop('home_players_yellow_card', axis=1, inplace=True)


In [None]:
# apply sendo usado no retorno de um groupby
group_year['Attendance'].apply(list)

Year
1991    [63000, 20000, 16000, 20000, 12000, 12000, 130...
1995    [17158, 4335, 2893, 3693, 3756, 4655, 2317, 75...
1999    [90185, 90185, 73123, 28986, 54642, 54642, 214...
2003    [26137, 25253, 27623, 27623, 20021, 20021, 251...
2007    [32068, 31000, 47818, 53819, 52000, 35061, 372...
2011    [48817, 25515, 25676, 45434, 24605, 25598, 263...
2015    [53341, 21483, 31467, 51176, 19814, 54027, 248...
2019    [57900, 20316, 48452, 53512, 22600, 25301, 455...
2023    [75784, 49461, 75784, 43217, 49461, 75784, 320...
Name: Attendance, dtype: object

## Exemplo real - Copa do mundo! ⚽

Para trazer um exemplo real, selecionei trechos de uma das muitas análises de dados que você encontra no Kaggle. [Clique aqui para ver a original](https://www.kaggle.com/code/linhvuu/world-cup-eda). Mas aqui a gente vai usar bases de dados mais arrumadinhas, também retiradas do Kaggle:
* Football - FIFA World Cup, 1930 - 2022:<br>https://www.kaggle.com/datasets/piterfm/fifa-football-world-cup?select=matches_1930_2022.csv
* Football - FIFA Women's World Cup, 1991 - 2023:<br>https://www.kaggle.com/datasets/piterfm/football-fifa-womens-world-cup-1991-2023

A análise vai seguir o processo padrão da ciência de dados, que consiste em:
* Inspeção da base
* Limpeza (dados faltantes, inconsistentes, transformações, etc.)
* Visualizações


In [None]:
import pandas as pd
pd.set_option('display.max_columns',None)
pd.set_option('display.max_rows',12)

wcwomen_df = pd.read_csv('matches_1991_2023.csv')
wcmen_df   = pd.read_csv('matches_1930_2022.csv')
wc = pd.concat((wcwomen_df,wcmen_df)).reset_index()

In [None]:
nomes_traduzidos = {'home_team': 'time_1', 'away_team': 'time_2', 'home_score': 'gols_1', 'away_score': 'gols_2',
                    'Date': 'data', 'Year': 'ano', 'Host': 'país_sede', 'Attendance': 'comparecimento',
                    'Score': 'resultado', 'Round': 'rodada', 'home_goal': 'gols_1_detalhes', 'away_goal': 'gols_2_detalhes',
                    'home_own_goal': 'gols_1_contra', 'away_own_goal': 'gols_2_contra',
                    'home_penalty_goal': 'gols_1_penalti', 'away_penalty_goal': 'gols_2_penalti',
                    'home_red_card': 'cartao_vermelho_1', 'away_red_card': 'cartao_vermelho_2',
                    'home_yellow_card_long': 'cartao_amarelo_1', 'away_yellow_card_long': 'cartao_amarelo_2'}

wc = wc.loc[:, nomes_traduzidos.keys()]
wc.columns = nomes_traduzidos.values()

copa = wc['ano'].apply( lambda x: 'Masculina' if x % 2 == 0 else 'Feminina').astype('string')
wc['copa'] = copa
display(wc)
print(wc.shape)

Unnamed: 0,time_1,time_2,gols_1,gols_2,data,ano,país_sede,comparecimento,resultado,rodada,gols_1_detalhes,gols_2_detalhes,gols_1_contra,gols_2_contra,gols_1_penalti,gols_2_penalti,cartao_vermelho_1,cartao_vermelho_2,cartao_amarelo_1,cartao_amarelo_2,copa
0,Spain,England,1,0,2023-08-20,2023,"Australia, New Zealand",75784,1–0,Final,Olga Carmona · 29’,,,,,,,,['78’|1:0|Salma Paralluelo'],['55’|1:0|Lauren Hemp'],Feminina
1,Sweden,Australia,2,0,2023-08-19,2023,"Australia, New Zealand",49461,2–0,Third-place match,Kosovare Asllani · 62’,,,,Fridolina Rolfö (P) · 30’,,,,"['88’|2:0|Elin Rubensson', '90+5’|2:0|Lina Hur...",['45+1’|1:0|Katrina Gorry'],Feminina
2,Australia,England,1,3,2023-08-16,2023,"Australia, New Zealand",75784,1–3,Semi-finals,Sam Kerr · 63’,Ella Toone · 36’|Lauren Hemp · 71’|Alessia Rus...,,,,,,,,"['10’|0:0|Alex Greenwood', '90+5’|1:3|Chloe Ke...",Feminina
3,Spain,Sweden,2,1,2023-08-15,2023,"Australia, New Zealand",43217,2–1,Semi-finals,Salma Paralluelo · 81’|Olga Carmona · 89’,Rebecka Blomqvist · 88’,,,,,,,,,Feminina
4,Australia,France,0,0,2023-08-12,2023,"Australia, New Zealand",49461,(7) 0–0 (6),Quarter-finals,,,,,,,,,['92’|0:0|Katrina Gorry'],,Feminina
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1307,Argentina,France,1,0,1930-07-15,1930,Uruguay,23409,1–0,Group stage,Luis Monti · 81,,,,,,,,,,Masculina
1308,Yugoslavia,Brazil,2,1,1930-07-14,1930,Uruguay,24059,2–1,Group stage,Aleksandar Tirnanić · 21|Ivan Bek · 30,Preguinho · 62,,,,,,,,,Masculina
1309,Romania,Peru,3,1,1930-07-14,1930,Uruguay,2549,3–1,Group stage,Adalbert Deșu · 1|Constantin Stanciu · 79|Nico...,Luis de Souza Ferreira · 75,,,,,,Plácido Galindo · 70,,,Masculina
1310,United States,Belgium,3,0,1930-07-13,1930,Uruguay,18346,3–0,Group stage,Bart McGhee · 23|Tom Florie · 45|Bert Patenaud...,,,,,,,,,,Masculina


(1312, 21)


In [None]:
wc.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1312 entries, 0 to 1311
Data columns (total 21 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   time_1             1312 non-null   object
 1   time_2             1312 non-null   object
 2   gols_1             1312 non-null   int64 
 3   gols_2             1312 non-null   int64 
 4   data               1312 non-null   object
 5   ano                1312 non-null   int64 
 6   país_sede          1312 non-null   object
 7   comparecimento     1312 non-null   int64 
 8   resultado          1312 non-null   object
 9   rodada             1312 non-null   object
 10  gols_1_detalhes    970 non-null    object
 11  gols_2_detalhes    771 non-null    object
 12  gols_1_contra      57 non-null     object
 13  gols_2_contra      30 non-null     object
 14  gols_1_penalti     170 non-null    object
 15  gols_2_penalti     119 non-null    object
 16  cartao_vermelho_1  59 non-null     object


> Sobre formatação de datas: https://docs.python.org/3/library/datetime.html#strftime-and-strptime-behavior

In [None]:
## conversões de tipo
wc[['time_1', 'time_2', 'país_sede', 'resultado']] = wc[['time_1', 'time_2', 'país_sede', 'resultado']].astype("string")
wc['rodada'] = wc['rodada'].astype("category")
wc['data'] = pd.to_datetime(wc['data'], format='%Y-%m-%d')

print(wc.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1312 entries, 0 to 1311
Data columns (total 21 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   time_1             1312 non-null   string        
 1   time_2             1312 non-null   string        
 2   gols_1             1312 non-null   int64         
 3   gols_2             1312 non-null   int64         
 4   data               1312 non-null   datetime64[ns]
 5   ano                1312 non-null   int64         
 6   país_sede          1312 non-null   string        
 7   comparecimento     1312 non-null   int64         
 8   resultado          1312 non-null   string        
 9   rodada             1312 non-null   category      
 10  gols_1_detalhes    970 non-null    object        
 11  gols_2_detalhes    771 non-null    object        
 12  gols_1_contra      57 non-null     object        
 13  gols_2_contra      30 non-null     object        
 14  gols_1_p

In [None]:
display(wc.describe().round(2))
wc.describe(include='object')

Unnamed: 0,gols_1,gols_2,data,ano,comparecimento
count,1312.0,1312.0,1312,1312.0,1312.0
mean,1.8,1.09,1995-04-17 16:50:51.219512192,1994.78,39936.47
min,0.0,0.0,1930-07-13 00:00:00,1930.0,0.0
25%,1.0,0.0,1982-06-20 00:00:00,1982.0,22087.0
50%,1.0,1.0,1999-06-28 12:00:00,1999.0,38666.5
75%,3.0,2.0,2014-06-22 06:00:00,2014.0,53355.75
max,13.0,8.0,2023-08-20 00:00:00,2023.0,173850.0
std,1.69,1.19,,23.17,23522.17


Unnamed: 0,gols_1_detalhes,gols_2_detalhes,gols_1_contra,gols_2_contra,gols_1_penalti,gols_2_penalti,cartao_vermelho_1,cartao_vermelho_2,cartao_amarelo_1,cartao_amarelo_2
count,970,771,57,30,170,119,59,65,834,857
unique,969,771,57,30,170,119,59,65,833,855
top,Salem Al-Dawsari · 90+5,Ella Toone · 36’|Lauren Hemp · 71’|Alessia Rus...,Laia Codina (OG) · 11’,Aurelle Awona (OG) · 80’,Fridolina Rolfö (P) · 30’,Filippa Angeldahl (P) · 51’,Lauren James · 87’,Sofia Harrison · 67’,['1&rsquor;|0:0|Franz Beckenbauer'],['1&rsquor;|0:0|Andranik Eskandarian']
freq,2,1,1,1,1,1,1,1,2,2


In [None]:
# Algumas perguntas que vale fazer

# tem linhas duplicadas?
print('Numero de duplicatas:', wc.duplicated().sum(), '\n')
if wc.duplicated().sum() > 0:
    wc.drop_duplicates(inplace=True)


# dados faltantes - precisa intervir? remover amostras, etc.
print('Percentual de dados nulos (nan)')
with pd.option_context('display.max_rows', None):
    print( (wc.isnull().sum() / len(wc)).sort_values(ascending=False))

Numero de duplicatas: 0 

Percentual de dados nulos (nan)
gols_2_contra        0.977134
gols_1_contra        0.956555
cartao_vermelho_1    0.955030
cartao_vermelho_2    0.950457
gols_2_penalti       0.909299
gols_1_penalti       0.870427
gols_2_detalhes      0.412348
cartao_amarelo_1     0.364329
cartao_amarelo_2     0.346799
gols_1_detalhes      0.260671
time_1               0.000000
time_2               0.000000
rodada               0.000000
resultado            0.000000
comparecimento       0.000000
país_sede            0.000000
ano                  0.000000
data                 0.000000
gols_2               0.000000
gols_1               0.000000
copa                 0.000000
dtype: float64


In [None]:
## Ao inspecionar colunas, percebi inconsistências em "resultado"
print(wc['resultado'].unique())

display(wc[wc['resultado'] == '(4) 0–0 (2)'])
display(wc[wc['resultado'] == '10–1\xa0'])

['1–0' '2–0' '1–3' '2–1' '(7) 0–0 (6)' '1–2' '4–0' '(4) 0–0 (2)'
 '(5) 0–0 (4)' '1–5' '3–1' '1–1' '3–2' '0–2' '0–0' '3–6' '0–7' '1–6' '0–4'
 '0–1' '6–0' '5–0' '2–2' '2–3' '3–0' '0–5' '0–3' '(4) 1–1 (1)' '3–3' '1–4'
 '5–1' '13–0\xa0' '5–2' '(5) 1–1 (4)' '4–1' '10–1\xa0' '10–0\xa0'
 '(3) 2–2 (1)' '(3) 2–2 (5)' '(3) 1–1 (4)' '2–4' '7–2' '11–0\xa0' '7–0'
 '1–7' '(4) 0–0 (5)' '4–3' '7–1' '4–2' '8–0' '0–8' '(4) 3–3 (2)'
 '(4) 1–1 (2)' '(3) 2–2 (4)' '(3) 0–0 (0)' '6–1' '(1) 1–1 (3)' '6–2'
 '(3) 1–1 (2)' '(2) 0–0 (4)' '(4) 0–0 (3)' '(5) 1–1 (3)' '2–5'
 '(5) 0–0 (3)' '(1) 0–0 (3)' '(0) 0–0 (3)' '(3) 0–0 (5)' '(3) 0–0 (4)'
 '(4) 2–2 (3)' '(3) 0–0 (2)' '(4) 2–2 (5)' '(4) 1–1 (3)' '(2) 0–0 (3)'
 '(4) 1–1 (5)' '(4) 0–0 (1)' '3–4' '(5) 3–3 (4)' '9–0' '5–3' '4–4' '6–3'
 '7–3' '5–7' '8–3' '6–5']


Unnamed: 0,time_1,time_2,gols_1,gols_2,data,ano,país_sede,comparecimento,resultado,rodada,gols_1_detalhes,gols_2_detalhes,gols_1_contra,gols_2_contra,gols_1_penalti,gols_2_penalti,cartao_vermelho_1,cartao_vermelho_2,cartao_amarelo_1,cartao_amarelo_2,copa
10,England,Nigeria,0,0,2023-08-07 00:00:00,2023,"Australia, New Zealand",49461,(4) 0–0 (2),Round of 16,,,,,,,Lauren James · 87’,,,,Feminina


Unnamed: 0,time_1,time_2,gols_1,gols_2,data,ano,país_sede,comparecimento,resultado,rodada,gols_1_detalhes,gols_2_detalhes,gols_1_contra,gols_2_contra,gols_1_penalti,gols_2_penalti,cartao_vermelho_1,cartao_vermelho_2,cartao_amarelo_1,cartao_amarelo_2,copa
149,Switzerland,Ecuador,10,1,2015-06-12 00:00:00,2015,Canada,31441,10–1,Group stage,Eseosa Aigbogun · 45+2’|Fabienne Humm · 47’|Fa...,,Angie Ponce (OG) · 24’|Angie Ponce (OG) · 71’,,Ramona Bachmann (P) · 60’,Angie Ponce (P) · 64’,,,,['72’|8:1|Denise Pesántes'],Feminina
999,Hungary,El Salvador,10,1,1982-06-15 00:00:00,1982,Spain,23000,10–1,First group stage,Tibor Nyilasi · 4|Gábor Pölöskei · 11|László F...,Luis Ramírez Zapata · 64,,,,,,,"['1&rsquor;|0:0|Tibor Nyilasi', '32&rsquor;|3:...",,Masculina


In [None]:
import unicodedata
wc['final_penalti'] = wc['resultado'].str.contains('\(')
display(wc[wc['final_penalti'] == True].tail(2))

def process_resultado(res):
    res = unicodedata.normalize("NFKD", res)
    if '(' not in res:
        res = res.split(chr(8211))
        return f'{res[0]}-{res[-1].rstrip()}'
    return f'{res[1]}-{res[-2]}'

wc.loc[:, 'resultado'] = wc['resultado'].apply(process_resultado)
display(wc[wc['final_penalti'] == True].tail(2))

Unnamed: 0,time_1,time_2,gols_1,gols_2,data,ano,país_sede,comparecimento,resultado,rodada,gols_1_detalhes,gols_2_detalhes,gols_1_contra,gols_2_contra,gols_1_penalti,gols_2_penalti,cartao_vermelho_1,cartao_vermelho_2,cartao_amarelo_1,cartao_amarelo_2,copa,final_penalti
907,West Germany,Mexico,0,0,1986-06-21 00:00:00,1986,Mexico,41700,(4) 0–0 (1),Quarter-finals,,,,,,,Thomas Berthold · 65,Javier Aguirre · 100,"['27&rsquor;|0:0|Klaus Allofs', '56&rsquor;|0:...","['20&rsquor;|0:0|Javier Aguirre', '27&rsquor;|...",Masculina,True
955,West Germany,France,3,3,1982-07-08 00:00:00,1982,Spain,70000,(5) 3–3 (4),Semi-finals,Pierre Littbarski · 17|Karl-Heinz Rummenigge ·...,Marius Trésor · 92|Alain Giresse · 98,,,,Michel Platini (P) · 26,,,['46&rsquor;|1:1|Bernd Förster'],"['35&rsquor;|1:1|Alain Giresse', '40&rsquor;|1...",Masculina,True


Unnamed: 0,time_1,time_2,gols_1,gols_2,data,ano,país_sede,comparecimento,resultado,rodada,gols_1_detalhes,gols_2_detalhes,gols_1_contra,gols_2_contra,gols_1_penalti,gols_2_penalti,cartao_vermelho_1,cartao_vermelho_2,cartao_amarelo_1,cartao_amarelo_2,copa,final_penalti
907,West Germany,Mexico,0,0,1986-06-21 00:00:00,1986,Mexico,41700,4-1,Quarter-finals,,,,,,,Thomas Berthold · 65,Javier Aguirre · 100,"['27&rsquor;|0:0|Klaus Allofs', '56&rsquor;|0:...","['20&rsquor;|0:0|Javier Aguirre', '27&rsquor;|...",Masculina,True
955,West Germany,France,3,3,1982-07-08 00:00:00,1982,Spain,70000,5-4,Semi-finals,Pierre Littbarski · 17|Karl-Heinz Rummenigge ·...,Marius Trésor · 92|Alain Giresse · 98,,,,Michel Platini (P) · 26,,,['46&rsquor;|1:1|Bernd Förster'],"['35&rsquor;|1:1|Alain Giresse', '40&rsquor;|1...",Masculina,True


In [None]:
print(wc['resultado'].unique())

['1-0' '2-0' '1-3' '2-1' '7-6' '1-2' '4-0' '4-2' '5-4' '1-5' '3-1' '1-1'
 '3-2' '0-2' '0-0' '3-6' '0-7' '1-6' '0-4' '0-1' '6-0' '5-0' '2-2' '2-3'
 '3-0' '0-5' '0-3' '4-1' '3-3' '1-4' '5-1' '13-0' '5-2' '10-1' '10-0'
 '3-5' '3-4' '2-4' '7-2' '11-0' '7-0' '1-7' '4-5' '4-3' '7-1' '8-0' '0-8'
 '6-1' '6-2' '5-3' '2-5' '9-0' '4-4' '6-3' '7-3' '5-7' '8-3' '6-5']


In [None]:
import numpy as np
## checar inconsistências visíveis no resumo

## comparecimento = 0
## France x Brazil	2019-06-23: https://www.youtube.com/watch?v=Sy-wy02LaGc
display(wc[wc['comparecimento'] < 1].sort_values('data'))

wc['comparecimento'].replace(0, np.nan, inplace=True)
display(wc[wc['comparecimento'].isna()])

Unnamed: 0,time_1,time_2,gols_1,gols_2,data,ano,país_sede,comparecimento,resultado,rodada,gols_1_detalhes,gols_2_detalhes,gols_1_contra,gols_2_contra,gols_1_penalti,gols_2_penalti,cartao_vermelho_1,cartao_vermelho_2,cartao_amarelo_1,cartao_amarelo_2,copa,final_penalti
199,Germany,Canada,2,1,2011-06-26 00:00:00,2011,Germany,0,2-1,Group stage,Kerstin Garefrekes · 10’|Célia Šašić · 42’,Christine Sinclair · 82’,,,,,,,"['81’|2:0|Simone Laudehr', '90’|2:1|Annike Kra...",,Feminina,False
198,Nigeria,France,0,1,2011-06-26 00:00:00,2011,Germany,0,0-1,Group stage,,Marie-Laure Delie · 56’,,,,,,,,,Feminina,False
197,Mexico,England,1,1,2011-06-27 00:00:00,2011,Germany,0,1-1,Group stage,Mónica Ocampo · 33’,Fara Williams · 21’,,,,,,,['87’|1:1|Alina Garciamendez'],['88’|1:1|Casey Stoney'],Feminina,False
196,Japan,New Zealand,2,1,2011-06-27 00:00:00,2011,Germany,0,2-1,Group stage,Yūki Nagasato · 6’|Aya Miyama · 68’,Amber Hearn · 12’,,,,,,,,"['45+1’|1:1|Katie Bowen', '67’|1:1|Rebecca Smi...",Feminina,False
195,United States,Korea DPR,2,0,2011-06-28 00:00:00,2011,Germany,0,2-0,Group stage,Lauren Holiday · 54’|Rachel Van Hollebeke · 76’,,,,,,,,,,Feminina,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
178,Korea DPR,Colombia,0,0,2011-07-06 00:00:00,2011,Germany,0,0-0,Group stage,,,,,,,,,,,Feminina,False
177,Equatorial Guinea,Brazil,0,3,2011-07-06 00:00:00,2011,Germany,0,0-3,Group stage,,Érika · 49’|Cristiane · 54’,,,,Cristiane (P) · 90+3’,,,"['9’|0:0|Dulce', '60’|0:2|Blessing Diala', '90...","['74’|0:2|Francielle', '77’|0:2|Kóki']",Feminina,False
176,Australia,Norway,2,1,2011-07-06 00:00:00,2011,Germany,0,2-1,Group stage,Kyah Simon · 57’|Kyah Simon · 87’,Elise Thorsnes · 56’,,,,,,,"['45+2’|0:0|Kim Carroll', '68’|1:1|Heather Gar...",['90+2’|2:1|Hedda Strand Gardsjord'],Feminina,False
79,Norway,Australia,1,1,2019-06-22 00:00:00,2019,France,0,4-1,Round of 16,Isabell Herlovsen · 31’,Elise Kellond-Knight · 83’,,,,,,Alanna Kennedy · 104’,"['53’|1:0|Kristine Minde', '96’|1:1|Lisa-Marie...",,Feminina,True


Unnamed: 0,time_1,time_2,gols_1,gols_2,data,ano,país_sede,comparecimento,resultado,rodada,gols_1_detalhes,gols_2_detalhes,gols_1_contra,gols_2_contra,gols_1_penalti,gols_2_penalti,cartao_vermelho_1,cartao_vermelho_2,cartao_amarelo_1,cartao_amarelo_2,copa,final_penalti
77,France,Brazil,2,1,2019-06-23 00:00:00,2019,France,,2-1,Round of 16,Valérie Gauvin · 52’|Amandine Henry · 106’,Thaisa · 63’,,,,,,,['36’|0:0|Wendie Renard'],"['45+2’|0:0|Tamires', '70’|1:1|Formiga', '83’|...",Feminina,False
79,Norway,Australia,1,1,2019-06-22 00:00:00,2019,France,,4-1,Round of 16,Isabell Herlovsen · 31’,Elise Kellond-Knight · 83’,,,,,,Alanna Kennedy · 104’,"['53’|1:0|Kristine Minde', '96’|1:1|Lisa-Marie...",,Feminina,True
176,Australia,Norway,2,1,2011-07-06 00:00:00,2011,Germany,,2-1,Group stage,Kyah Simon · 57’|Kyah Simon · 87’,Elise Thorsnes · 56’,,,,,,,"['45+2’|0:0|Kim Carroll', '68’|1:1|Heather Gar...",['90+2’|2:1|Hedda Strand Gardsjord'],Feminina,False
177,Equatorial Guinea,Brazil,0,3,2011-07-06 00:00:00,2011,Germany,,0-3,Group stage,,Érika · 49’|Cristiane · 54’,,,,Cristiane (P) · 90+3’,,,"['9’|0:0|Dulce', '60’|0:2|Blessing Diala', '90...","['74’|0:2|Francielle', '77’|0:2|Kóki']",Feminina,False
178,Korea DPR,Colombia,0,0,2011-07-06 00:00:00,2011,Germany,,0-0,Group stage,,,,,,,,,,,Feminina,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
195,United States,Korea DPR,2,0,2011-06-28 00:00:00,2011,Germany,,2-0,Group stage,Lauren Holiday · 54’|Rachel Van Hollebeke · 76’,,,,,,,,,,Feminina,False
196,Japan,New Zealand,2,1,2011-06-27 00:00:00,2011,Germany,,2-1,Group stage,Yūki Nagasato · 6’|Aya Miyama · 68’,Amber Hearn · 12’,,,,,,,,"['45+1’|1:1|Katie Bowen', '67’|1:1|Rebecca Smi...",Feminina,False
197,Mexico,England,1,1,2011-06-27 00:00:00,2011,Germany,,1-1,Group stage,Mónica Ocampo · 33’,Fara Williams · 21’,,,,,,,['87’|1:1|Alina Garciamendez'],['88’|1:1|Casey Stoney'],Feminina,False
198,Nigeria,France,0,1,2011-06-26 00:00:00,2011,Germany,,0-1,Group stage,,Marie-Laure Delie · 56’,,,,,,,,,Feminina,False


In [None]:
## checar inconsistências visíveis no resumo

# gols = 13 # esse rolou mesmo!!!
with pd.option_context('display.max_rows', None):
    print(wc['gols_1'].value_counts().sort_index())
    print(wc['gols_2'].value_counts().sort_index())

    display(wc[wc['gols_1'] >= 10].sort_values('gols_1'))
    display(wc[wc['gols_2'] >= 7].sort_values('gols_2'))

gols_1
0     292
1     374
2     303
3     178
4      84
5      28
6      25
7      16
8       5
9       2
10      3
11      1
13      1
Name: count, dtype: int64
gols_2
0    481
1    459
2    235
3     85
4     28
5     13
6      5
7      5
8      1
Name: count, dtype: int64


Unnamed: 0,time_1,time_2,gols_1,gols_2,data,ano,país_sede,comparecimento,resultado,rodada,gols_1_detalhes,gols_2_detalhes,gols_1_contra,gols_2_contra,gols_1_penalti,gols_2_penalti,cartao_vermelho_1,cartao_vermelho_2,cartao_amarelo_1,cartao_amarelo_2,copa,final_penalti
149,Switzerland,Ecuador,10,1,2015-06-12 00:00:00,2015,Canada,31441.0,10-1,Group stage,Eseosa Aigbogun · 45+2’|Fabienne Humm · 47’|Fa...,,Angie Ponce (OG) · 24’|Angie Ponce (OG) · 71’,,Ramona Bachmann (P) · 60’,Angie Ponce (P) · 64’,,,,['72’|8:1|Denise Pesántes'],Feminina,False
165,Germany,Côte d'Ivoire,10,0,2015-06-07 00:00:00,2015,Canada,20953.0,10-0,Group stage,Célia Šašić · 3’|Célia Šašić · 14’|Anja Mittag...,,,,,,,,,"['36’|5:0|Rita Akaffou', '40’|5:0|Dominique Th...",Feminina,False
999,Hungary,El Salvador,10,1,1982-06-15 00:00:00,1982,Spain,23000.0,10-1,First group stage,Tibor Nyilasi · 4|Gábor Pölöskei · 11|László F...,Luis Ramírez Zapata · 64,,,,,,,"['1&rsquor;|0:0|Tibor Nyilasi', '32&rsquor;|3:...",,Masculina,False
231,Germany,Argentina,11,0,2007-09-10 00:00:00,2007,China PR,28098.0,11-0,Group stage,Melanie Behringer · 12’|Kerstin Garefrekes · 1...,,,,,,,,"['60’|8:0|Simone Laudehr', '86’|10:0|Saskia Ba...","['16’|1:0|Rosana Gómez', '20’|2:0|Gabriela Chá...",Feminina,False
106,United States,Thailand,13,0,2019-06-11 00:00:00,2019,France,18591.0,13-0,Group stage,Alex Morgan · 12’|Rose Lavelle · 20’|Lindsey H...,,,,,,,,,['72’|7:0|Taneekarn Dangda'],Feminina,False


Unnamed: 0,time_1,time_2,gols_1,gols_2,data,ano,país_sede,comparecimento,resultado,rodada,gols_1_detalhes,gols_2_detalhes,gols_1_contra,gols_2_contra,gols_1_penalti,gols_2_penalti,cartao_vermelho_1,cartao_vermelho_2,cartao_amarelo_1,cartao_amarelo_2,copa,final_penalti
22,Vietnam,Netherlands,0,7,2023-08-01 00:00:00,2023,"Australia, New Zealand",8215.0,0-7,Group stage,,Lieke Martens · 8’|Katja Snoeijs · 11’|Esmee B...,,,,,,,['83’|0:6|Dương Thị Vân'],,Feminina,False
245,Korea Republic,Norway,1,7,2003-09-27 00:00:00,2003,United States,14356.0,1-7,Group stage,Kim Jin-hee · 75’,Solveig Gulbrandsen · 5’|Dagny Mellgren · 24’|...,,,,,,,,,Feminina,False
479,Brazil,Germany,1,7,2014-07-08 00:00:00,2014,Brazil,58141.0,1-7,Semi-finals,Oscar · 90,Thomas Müller · 11|Miroslav Klose · 23|Toni Kr...,,,,,,,['68&rsquor;|0:5|Dante'],,Masculina,False
1064,Haiti,Poland,0,7,1974-06-19 00:00:00,1974,Germany,25300.0,0-7,First round,,Grzegorz Lato · 17|Kazimierz Deyna · 18|Andrze...,,,,,,,['1&rsquor;|0:0|Pierre Bayonne'],,Masculina,False
1218,Switzerland,Austria,5,7,1954-06-26 00:00:00,1954,Switzerland,35000.0,5-7,Quarter-finals,Robert Ballaman · 16|Josef Hügi · 17|Josef Hüg...,Theodor Wagner · 25|Alfred Körner · 26|Theodor...,,,,,,,,,Masculina,False
340,Japan,Sweden,0,8,1991-11-19 00:00:00,1991,China PR,14000.0,0-8,Group stage,,Lena Videkull · 1’|Lena Videkull · 11’|Anneli ...,,Sayuri Yamaguchi (OG) · 70’,,,,,['55’|0:6|Sayuri Yamaguchi'],,Feminina,False


## Análises

In [None]:
pd.options.plotting.backend = "plotly"

In [None]:
def get_campeoes(df):
    mask = df['resultado'].apply(lambda x: x.split('-')[0]>x.split('-')[1])
    campeoes = pd.DataFrame(columns=['copa', 'campeao'])
    campeoes['copa'] = df['copa']
    campeoes['campeao'] = df['time_2'].copy()
    campeoes.loc[mask, 'campeao'] = df[mask]['time_1']
    return campeoes

finais = wc[wc['rodada'] == 'Final'].sort_values('data')
campeoes = get_campeoes(finais)
campeoes.plot(kind='hist', x='campeao', color='copa', title='Campeões em copas do mundo') \
        .update_xaxes(categoryorder='total descending')

In [None]:
campeoes = get_campeoes(wc)
campeoes.plot(kind='hist', x='campeao', color='copa', title='Quantos jogos cada time ganhou?') \
        .update_xaxes(categoryorder='total descending')

In [None]:
# Em quantos jogos cada um desses eventos aconteceu?
# a contagem com .count() ignora não-valores (nan)
with pd.option_context('display.max_rows', None):
    display(wc.groupby('ano')[['gols_1_contra',	'gols_2_contra',
                               'gols_1_penalti', 'gols_2_penalti',
                               'cartao_vermelho_1', 'cartao_vermelho_2',
                               'cartao_amarelo_1', 'cartao_amarelo_2']].count())

Unnamed: 0_level_0,gols_1_contra,gols_2_contra,gols_1_penalti,gols_2_penalti,cartao_vermelho_1,cartao_vermelho_2,cartao_amarelo_1,cartao_amarelo_2
ano,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1930,1,0,0,1,0,1,0,0
1934,0,0,1,2,0,1,0,0
1938,1,1,1,2,1,2,0,0
1950,1,0,0,3,0,0,1,0
1954,3,1,5,1,1,1,0,0
1958,0,0,3,4,0,3,0,0
1962,0,0,5,3,2,3,1,0
1966,2,0,4,3,0,4,11,7
1970,1,0,5,0,0,0,14,17
1974,2,1,3,2,2,3,25,26


In [None]:
wc[['ano', 'copa']].plot(kind='hist', x='ano', facet_col='copa', nbins=50, title='Número de jogos')

## Outras perguntas que você pode responder

* Qual o jogo com maior audiência da história? (fácil)
* Qual time tomou mais cartões amarelos somando todas as copas? (médio, tem dicas nesse documento)
* Qual o top10 jogadores com mais gols em copa? Considere gols em jogo e gols de pênalti. (difícil)

Para responder as questões 2 e 3 você precisará processar as strings das colunas correspondentes para extrair as informações relevantes. Deixei umas colheres de chá na célula abaixo para a terceira pergunta do enunciado.

In [None]:
print(wc['gols_1_detalhes'])

listas = wc['gols_1_detalhes'].astype("string").dropna().apply(lambda x: x.split('|'))
print(listas)
print(listas[0], type(listas[0]))
print(' '.join(listas[0][0].split()[:2]))

0                                      Olga Carmona · 29’
1                                  Kosovare Asllani · 62’
2                                          Sam Kerr · 63’
3               Salma Paralluelo · 81’|Olga Carmona · 89’
4                                                     NaN
                              ...                        
1307                                      Luis Monti · 81
1308               Aleksandar Tirnanić · 21|Ivan Bek · 30
1309    Adalbert Deșu · 1|Constantin Stanciu · 79|Nico...
1310    Bart McGhee · 23|Tom Florie · 45|Bert Patenaud...
1311    Lucien Laurent · 19|Marcel Langiller · 40|Andr...
Name: gols_1_detalhes, Length: 1312, dtype: object
0                                    [Olga Carmona · 29’]
1                                [Kosovare Asllani · 62’]
2                                        [Sam Kerr · 63’]
3            [Salma Paralluelo · 81’, Olga Carmona · 89’]
5              [Lauren Hemp · 45+6’, Alessia Russo · 63’]
                     

# Referências

* Documentação oficial: [Pandas em 10 minutos](https://pandas.pydata.org/docs/user_guide/10min.html)

* Tutoriais do Real Python:
    * [Using pandas and Python to Explore Your Dataset](https://realpython.com/pandas-python-explore-dataset/#understanding-series-objects)
    * [The pandas DataFrame: Make Working With Data Delightful](https://realpython.com/pandas-dataframe/)