## Análise Estatística das Copas do Mundo

**PUC-Rio**

**MVP da Disciplina Engenharia de Dados**

**Aluno:** Leandro Ribeiro de Castro

## Objetivo

Esta análise tem como objetivo examinar de forma sistemática um conjunto de dados que reúne informações detalhadas acerca das edições da Copa do Mundo da FIFA de 1930 à 2014. Por meio dessa abordagem exploratória, pretende-se extrair insights significativos que possibilitem uma compreensão do torneio ao longo do tempo.

A análise visa, ainda, responder a um conjunto de métricas-chave, com o intuito de identificar padrões históricos, bem como evidenciar o desempenho de seleções e jogadores. Com isso, busca-se não apenas a descrição dos dados, mas também a geração de conhecimento da Copa do Mundo no cenário esportivo global. A partir dessa análise, deseja-se responder as seguintes métricas-chave:

- **Desempenho das Seleções:** Identificar quais seleções tiveram o maior número de vitórias e derrotas.
- **Artilheiros Destacados:** Destacar os jogadores com maior número de gols ao longo da história do torneio.
- **Fair Play:** Analisar dados relacionados a cartões amarelos e vermelhos para identificar quais jogadores foram mais agressivos.
- **Top 5 Maiores Campeões:** Identificar as seleções com mais títulos conquistados.
- **Top 5 Países com Mais Troféus:** Identificar as seleções com mais troféus conquistados (primeiro, segundo e terceiro lugar).
- **Maior Público Geral:** Identificar a edição com o maior total de público acumulado.
- **Top 5 Maiores Públicos em uma Partida:** Listar os maiores públicos registrados em jogos únicos.
- **País que Mais Sediou a Copa:** Verificar qual país foi sede da Copa do Mundo mais vezes.
- **Top 5 Recordes de Gols em Edições:** Edições com maior número de gols marcados no total.
- **Top 10 Maiores Artilheiros da História das Copas:** Ranking dos jogadores com mais gols somados em diferentes edições.
- **Top 5 Países com Mais Gols Marcados:** Seleções que mais balançaram as redes ao longo das Copas.
- **Top 5 Países com Mais Gols Sofridos:** Seleções que mais sofreram gols.
- **Top 10 Árbitros com Mais Jogos Apitados:** Principais árbitros com mais atuações em partidas de Copa do Mundo.
- **Top 5 Países com Mais Árbitros Principais Representados:** Analisar a presença de árbitros principais por país.

Essas análises fornecerão uma visão abrangente e detalhada da história da Copa do Mundo, revelando padrões, curiosidades e destaques que marcaram o maior torneio de futebol do planeta.

## Coleta dos Dados

O conjunto dados brutos foram obtidos atráves da plataforma Kaggle, de forma gratuita, o mesmo foi disponibilizado pelo usuário [Andre Becklas no Kaggle](https://www.kaggle.com/datasets/abecklas/fifa-world-cup), e é estruturado em 3 tabelas:

- **WorldCups** - CSV com dados gerais sobre cada edição da Copa do Mundo da FIFA de 1930 à 2014.
- **WorldCupMatches** - CSV com dados dos jogos de cada edição da Copa do Mundo da FIFA de 1930 à 2014.
- **WorldCupPlayers** - CSV com dados dos jogadores e eventos relacionados em cada jogo da Copa do Mundo da FIFA de 1930 à 2014.

Foi utilizado a biblioteca python [kagglehub](https://pypi.org/project/kagglehub/) que contém nativamente uma API para consumo dos dados público da plataforma Kaggle.


## Modelagem

Foi construído um modelo de dados baseado em Esquema Estrela, organizado em três camadas: bronze, silver e gold.

Na camada bronze, foi necessário renomear campos que continham caracteres especiais e converter dados do tipo double para integer, a fim de evitar erros na criação das tabelas e garantir a padronização dos dados brutos.

Na camada silver, foi realizada a etapa de tratamento e validação da qualidade dos dados (data quality). Identificou-se que a tabela worldcupmatches continha 3.720 linhas nulas, o que poderia comprometer a qualidade das análises. Essas linhas, juntamente com registros duplicados, foram removidas por meio de modelagem, assegurando dados mais consistentes.

Ainda nesta camada, foi conduzida uma análise detalhada dos campos string, com foco em encontrar valores inválidos ou nomes não amigáveis. Foram encontradas inconsistências resultantes de problemas de codificação nos arquivos de origem, com caracteres não reconhecidos. Como a simples conversão de encoding não foi suficiente, optou-se por uma modelagem direta para substituir os nomes incorretos.

Além disso, na tabela worldcupmatches, foi criada uma nova coluna chamada RefereeCountry, extraída a partir da identificação do país presente no campo Referee. Já na tabela worldcupplayers, o campo Event — que contém a descrição dos eventos da partida por jogador — foi processado para extrair informações específicas sobre gols, cartões amarelos e cartões vermelhos. Os dados extraídos foram armazenados em novos campos: Goals, YellowCards e RedCards, respectivamente. Foram também excluídas as linhas em que todas essas três colunas apresentavam valores iguais a zero, por não contribuírem com informações relevantes para análise. Por fim, as colunas foram renomeadas para evitar ambiguidade entre os nomes durante os joins.

Na camada gold, foram realizadas as validações finais e integradas as tabelas da camada silver por meio de joins, consolidando os dados tratados e prontos para análise.

**Catálogo dos dados da Tabela "wcstats"**

| CAMPO           | DESCRIÇÃO                                     | TIPO    | DOMÍNIO / OBSERVAÇÕES                                               |
|-----------------|-----------------------------------------------|---------|---------------------------------------------------------------------|
| MatchID         | Identificador único do jogo                   | integer | Ex: 1, 2, 3...                                                      |
| Year            | Ano da Copa do Mundo da FIFA / Jogo           | integer | Mínimo: 1930 - Máximo: 2014                                         |
| CountryCup      | Nome do País sede da Copa do Mundo da FIFA    | string  | Ex: Brasil, Argentina, Alemanha...                                  |
| WinnerCup       | Nome do País campeão da Copa                  | string  | Ex: Brasil, Argentina, Alemanha...                                  |
| RunnersUpCup    | Nome do País com a segunda colocação da Copa  | string  | Ex: Brasil, Argentina, Alemanha...                                  |
| ThirdCup        | Nome do País com a terceira colocação da Copa | string  | Ex: Brasil, Argentina, Alemanha...                                  |
| GoalsScoredCup  | Total de gols da Copa do Mundo da FIFA        | integer | Ex: 1, 2, 3...                                                      |
| AttendanceCup   | Total de público da Copa do Mundo da FIFA     | integer | Ex: 1, 2, 3...                                                      |
| HomeTeamName    | Nome do time mandante do jogo                 | string  | Ex: Brasil, Argentina, Alemanha...                                  |
| HomeTeamGoals   | Total de gols do time mandante                | integer | Ex: 1, 2, 3...                                                      |
| AwayTeamGoals   | Total de gols do time visitante               | integer | Ex: 1, 2, 3...                                                      |
| AwayTeamName    | Nome do time visitante do jogo                | string  | Ex: Brasil, Argentina, Alemanha...                                  |
| AttendanceMatch | Total de público do jogo                      | integer | Ex: 1, 2, 3...                                                      |
| Referee         | Nome do árbitro principal                     | string  | Ex: BAERT Louis (BEL), QUINIOU Joel (FRA), COLLINA Pierluigi (ITA)  |
| RefereeCountry  | Nomeclatura do País do árbitro principal      | string  | Ex: BRA, ARG, GER...                                                |
| TeamInitials    | Nomeclatura do país defendido                 | string  | Ex: BRA, ARG, GER...                                                |
| PlayerName      | Nome do jogador                               | string  | Ex: Tom FLORIE, Bert PATENAUDE, Bart McGHEE                         |
| Goals           | Total de gols                                 | integer | Ex: 1, 2, 3...                                                      |
| YellowCards     | Total de cartões amarelos                     | integer | Ex: 1, 2, 3...                                                      |
| RedCards        | Total de cartões vermelhos                    | integer | Ex: 1, 2, 3...                                                      |


## Análise

**Instalando dependências necessárias**

In [0]:
# Instalando as dependências
%pip install kagglehub[pandas-datasets]

Python interpreter will be restarted.
Python interpreter will be restarted.


**Importando bibliotecas necessárias**

In [0]:
# Importando a biblioteca kagglehub para coleta dos conjuntos de dados 
import kagglehub
from kagglehub import KaggleDatasetAdapter

# Importando biblioteca re para suporte de expressões regulares (regex), necessárias manipulações em strings
import re

# Importando funções definidas do PySpark manipulações em DataFrames
from pyspark.sql.functions import col, expr, length, regexp_replace


**Criando e carregando o dataframe worldcups bronze e exibindo primeiras 5 linhas**

In [0]:
# Carregando e criando o dataframe df_worldcups_bronze
df_worldcups_bronze = kagglehub.dataset_load(
    KaggleDatasetAdapter.PANDAS,
    "abecklas/fifa-world-cup/versions/5",
    "WorldCups.csv",
)

# Convertendo em spark
df_worldcups_bronze = spark.createDataFrame(df_worldcups_bronze)

# Exibindo as 5 primeiras linhas
df_worldcups_bronze.show(5, truncate=False)

+----+-----------+----------+--------------+-------+----------+-----------+--------------+-------------+----------+
|Year|Country    |Winner    |Runners-Up    |Third  |Fourth    |GoalsScored|QualifiedTeams|MatchesPlayed|Attendance|
+----+-----------+----------+--------------+-------+----------+-----------+--------------+-------------+----------+
|1930|Uruguay    |Uruguay   |Argentina     |USA    |Yugoslavia|70         |13            |18           |590.549   |
|1934|Italy      |Italy     |Czechoslovakia|Germany|Austria   |70         |16            |17           |363.000   |
|1938|France     |Italy     |Hungary       |Brazil |Sweden    |84         |15            |18           |375.700   |
|1950|Brazil     |Uruguay   |Brazil        |Sweden |Spain     |88         |13            |22           |1.045.246 |
|1954|Switzerland|Germany FR|Hungary       |Austria|Uruguay   |140        |16            |26           |768.607   |
+----+-----------+----------+--------------+-------+----------+---------

**Estrutura dos dados do dataframe worldcups bronze - Tipo de Dados**

In [0]:
# Exibindo tipo de dados no dataframe
df_worldcups_bronze.printSchema()

root
 |-- Year: long (nullable = true)
 |-- Country: string (nullable = true)
 |-- Winner: string (nullable = true)
 |-- Runners-Up: string (nullable = true)
 |-- Third: string (nullable = true)
 |-- Fourth: string (nullable = true)
 |-- GoalsScored: long (nullable = true)
 |-- QualifiedTeams: long (nullable = true)
 |-- MatchesPlayed: long (nullable = true)
 |-- Attendance: string (nullable = true)



**Renomeando colunas e convertendo tipo de dados do dataframe worldcups bronze**

In [0]:
# Renomear colunas para um formato amigável
df_worldcups_bronze = df_worldcups_bronze.withColumnRenamed("Runners-Up", "RunnersUp")

# Convertendo tipo de dados
df_worldcups_bronze = df_worldcups_bronze.withColumn("Year", col("Year").cast("int"))
df_worldcups_bronze = df_worldcups_bronze.withColumn("GoalsScored", col("GoalsScored").cast("int"))
df_worldcups_bronze = df_worldcups_bronze.withColumn("QualifiedTeams", col("QualifiedTeams").cast("int"))
df_worldcups_bronze = df_worldcups_bronze.withColumn("MatchesPlayed", col("MatchesPlayed").cast("int"))

# Convertendo coluna em string para inteiro
df_worldcups_bronze = df_worldcups_bronze.withColumn("Attendance", regexp_replace("Attendance", r"[.]", ""))
df_worldcups_bronze = df_worldcups_bronze.withColumn("Attendance", col("Attendance").cast("int"))

# Exibindo tipo de dados no dataframe com colunas renomeadas
df_worldcups_bronze.printSchema()

root
 |-- Year: integer (nullable = true)
 |-- Country: string (nullable = true)
 |-- Winner: string (nullable = true)
 |-- RunnersUp: string (nullable = true)
 |-- Third: string (nullable = true)
 |-- Fourth: string (nullable = true)
 |-- GoalsScored: integer (nullable = true)
 |-- QualifiedTeams: integer (nullable = true)
 |-- MatchesPlayed: integer (nullable = true)
 |-- Attendance: integer (nullable = true)



**Criando e carregando o dataframe worldcupmatches bronze exibindo primeiras 5 linhas**

In [0]:
# Carregando e criando o dataframe df_worldcupmatches_bronze
df_worldcupmatches_bronze = kagglehub.dataset_load(
    KaggleDatasetAdapter.PANDAS,
    "abecklas/fifa-world-cup/versions/5",
    "WorldCupMatches.csv",
)

# Convertendo em spark
df_worldcupmatches_bronze = spark.createDataFrame(df_worldcupmatches_bronze)

# Exibindo as 5 primeiras linhas
df_worldcupmatches_bronze.show(5, truncate=False)

+------+--------------------+-------+--------------+-----------+--------------+---------------+---------------+--------------+--------------+----------+--------------------+--------------------+----------------------+------------------------+--------------------------+-------+-------+------------------+------------------+
|Year  |Datetime            |Stage  |Stadium       |City       |Home Team Name|Home Team Goals|Away Team Goals|Away Team Name|Win conditions|Attendance|Half-time Home Goals|Half-time Away Goals|Referee               |Assistant 1             |Assistant 2               |RoundID|MatchID|Home Team Initials|Away Team Initials|
+------+--------------------+-------+--------------+-----------+--------------+---------------+---------------+--------------+--------------+----------+--------------------+--------------------+----------------------+------------------------+--------------------------+-------+-------+------------------+------------------+
|1930.0|13 Jul 1930 - 15:00 

**Estrutura dos dados do dataframe worldcupmatches bronze - Tipo de Dados**

In [0]:
# Exibindo tipo de dados no dataset
df_worldcupmatches_bronze.printSchema()

root
 |-- Year: double (nullable = true)
 |-- Datetime: string (nullable = true)
 |-- Stage: string (nullable = true)
 |-- Stadium: string (nullable = true)
 |-- City: string (nullable = true)
 |-- Home Team Name: string (nullable = true)
 |-- Home Team Goals: double (nullable = true)
 |-- Away Team Goals: double (nullable = true)
 |-- Away Team Name: string (nullable = true)
 |-- Win conditions: string (nullable = true)
 |-- Attendance: double (nullable = true)
 |-- Half-time Home Goals: double (nullable = true)
 |-- Half-time Away Goals: double (nullable = true)
 |-- Referee: string (nullable = true)
 |-- Assistant 1: string (nullable = true)
 |-- Assistant 2: string (nullable = true)
 |-- RoundID: double (nullable = true)
 |-- MatchID: double (nullable = true)
 |-- Home Team Initials: string (nullable = true)
 |-- Away Team Initials: string (nullable = true)



**Renomeando colunas e convertendo tipo de dados do dataframe worldcupmatches bronze**

In [0]:
# Renomear colunas para um formato amigável
df_worldcupmatches_bronze = df_worldcupmatches_bronze.withColumnRenamed("Home Team Name", "HomeTeamName") \
    .withColumnRenamed("Home Team Goals", "HomeTeamGoals") \
    .withColumnRenamed("Away Team Goals", "AwayTeamGoals") \
    .withColumnRenamed("Away Team Name", "AwayTeamName") \
    .withColumnRenamed("Win conditions", "WinConditions") \
    .withColumnRenamed("Half-time Home Goals", "HalfTimeHomeGoals") \
    .withColumnRenamed("Half-time Away Goals", "HalfTimeAwayGoals") \
    .withColumnRenamed("Assistant 1", "Assistant1") \
    .withColumnRenamed("Assistant 2", "Assistant2") \
    .withColumnRenamed("Home Team Initials", "HomeTeamInitials") \
    .withColumnRenamed("Away Team Initials", "AwayTeamInitials")

# Convertendo tipo de dados
df_worldcupmatches_bronze = df_worldcupmatches_bronze.withColumn("Year", col("Year").cast("int"))
df_worldcupmatches_bronze = df_worldcupmatches_bronze.withColumn("HomeTeamGoals", col("HomeTeamGoals").cast("int"))
df_worldcupmatches_bronze = df_worldcupmatches_bronze.withColumn("AwayTeamGoals", col("AwayTeamGoals").cast("int"))
df_worldcupmatches_bronze = df_worldcupmatches_bronze.withColumn("Attendance", col("Attendance").cast("int"))
df_worldcupmatches_bronze = df_worldcupmatches_bronze.withColumn("HalfTimeHomeGoals", col("HalfTimeHomeGoals").cast("int"))
df_worldcupmatches_bronze = df_worldcupmatches_bronze.withColumn("HalfTimeAwayGoals", col("HalfTimeAwayGoals").cast("int"))
df_worldcupmatches_bronze = df_worldcupmatches_bronze.withColumn("RoundID", col("RoundID").cast("int"))
df_worldcupmatches_bronze = df_worldcupmatches_bronze.withColumn("MatchID", col("MatchID").cast("int"))

# Exibindo tipo de dados no dataset com colunas renomeadas
df_worldcupmatches_bronze.printSchema()

root
 |-- Year: integer (nullable = true)
 |-- Datetime: string (nullable = true)
 |-- Stage: string (nullable = true)
 |-- Stadium: string (nullable = true)
 |-- City: string (nullable = true)
 |-- HomeTeamName: string (nullable = true)
 |-- HomeTeamGoals: integer (nullable = true)
 |-- AwayTeamGoals: integer (nullable = true)
 |-- AwayTeamName: string (nullable = true)
 |-- WinConditions: string (nullable = true)
 |-- Attendance: integer (nullable = true)
 |-- HalfTimeHomeGoals: integer (nullable = true)
 |-- HalfTimeAwayGoals: integer (nullable = true)
 |-- Referee: string (nullable = true)
 |-- Assistant1: string (nullable = true)
 |-- Assistant2: string (nullable = true)
 |-- RoundID: integer (nullable = true)
 |-- MatchID: integer (nullable = true)
 |-- HomeTeamInitials: string (nullable = true)
 |-- AwayTeamInitials: string (nullable = true)



**Criando e carregando o dataframe worldcupplayers bronze e exibindo primeiras 5 linhas**

In [0]:
# Carregando e criando o dataframe df_worldcupplayers_bronze
df_worldcupplayers_bronze = kagglehub.dataset_load(
    KaggleDatasetAdapter.PANDAS,
    "abecklas/fifa-world-cup/versions/5",
    "WorldCupPlayers.csv",
)

# Convertendo em spark
df_worldcupplayers_bronze = spark.createDataFrame(df_worldcupplayers_bronze)

# Exibindo as 5 primeiras linhas
df_worldcupplayers_bronze.show(5, truncate=False)

+-------+-------+-------------+-------------------+-------+------------+----------------+--------+-----+
|RoundID|MatchID|Team Initials|Coach Name         |Line-up|Shirt Number|Player Name     |Position|Event|
+-------+-------+-------------+-------------------+-------+------------+----------------+--------+-----+
|201    |1096   |FRA          |CAUDRON Raoul (FRA)|S      |0           |Alex THEPOT     |GK      |null |
|201    |1096   |MEX          |LUQUE Juan (MEX)   |S      |0           |Oscar BONFIGLIO |GK      |null |
|201    |1096   |FRA          |CAUDRON Raoul (FRA)|S      |0           |Marcel LANGILLER|null    |G40' |
|201    |1096   |MEX          |LUQUE Juan (MEX)   |S      |0           |Juan CARRENO    |null    |G70' |
|201    |1096   |FRA          |CAUDRON Raoul (FRA)|S      |0           |Ernest LIBERATI |null    |null |
+-------+-------+-------------+-------------------+-------+------------+----------------+--------+-----+
only showing top 5 rows



**Estrutura dos dados do dataframe worldcupplayers bronze - Tipo de Dados**

In [0]:
# Exibindo tipo de dados no dataset
df_worldcupplayers_bronze.printSchema()

root
 |-- RoundID: long (nullable = true)
 |-- MatchID: long (nullable = true)
 |-- Team Initials: string (nullable = true)
 |-- Coach Name: string (nullable = true)
 |-- Line-up: string (nullable = true)
 |-- Shirt Number: long (nullable = true)
 |-- Player Name: string (nullable = true)
 |-- Position: string (nullable = true)
 |-- Event: string (nullable = true)



**Renomeando colunas e convertendo tipo de dados do dataframe worldcupplayers bronze**

In [0]:
# Renomear colunas para um formato amigável
df_worldcupplayers_bronze = df_worldcupplayers_bronze.withColumnRenamed("Team Initials", "TeamInitials") \
    .withColumnRenamed("Coach Name", "CoachName") \
    .withColumnRenamed("Line-up", "LineUp") \
    .withColumnRenamed("Shirt Number", "ShirtNumber") \
    .withColumnRenamed("Player Name", "PlayerName")

# Convertendo tipo de dados
df_worldcupplayers_bronze = df_worldcupplayers_bronze.withColumn("RoundID", col("RoundID").cast("int"))
df_worldcupplayers_bronze = df_worldcupplayers_bronze.withColumn("MatchID", col("MatchID").cast("int"))
df_worldcupplayers_bronze = df_worldcupplayers_bronze.withColumn("ShirtNumber", col("ShirtNumber").cast("int"))

# Exibindo tipo de dados no dataset com colunas renomeadas
df_worldcupplayers_bronze.printSchema()

root
 |-- RoundID: integer (nullable = true)
 |-- MatchID: integer (nullable = true)
 |-- TeamInitials: string (nullable = true)
 |-- CoachName: string (nullable = true)
 |-- LineUp: string (nullable = true)
 |-- ShirtNumber: integer (nullable = true)
 |-- PlayerName: string (nullable = true)
 |-- Position: string (nullable = true)
 |-- Event: string (nullable = true)



**Deletando o database 'bronze', caso ele exista**

In [0]:
%sql DROP DATABASE IF EXISTS bronze CASCADE

**Criando o database 'bronze'**

In [0]:
%sql CREATE DATABASE bronze;

**Criando as tabelas 'bronze'**

In [0]:
# Criando a tabela worldcups
df_worldcups_bronze.write.mode("overwrite").saveAsTable("bronze.worldcups")

# Criando a tabela worldcupmatches
df_worldcupmatches_bronze.write.mode("overwrite").saveAsTable("bronze.worldcupmatches")

# Criando a tabela worldcupplayers
df_worldcupplayers_bronze.write.mode("overwrite").saveAsTable("bronze.worldcupplayers")

**Analisando a tabela bronze.worldcups**

In [0]:
%sql SELECT * FROM bronze.worldcups LIMIT 100

Year,Country,Winner,RunnersUp,Third,Fourth,GoalsScored,QualifiedTeams,MatchesPlayed,Attendance
1930,Uruguay,Uruguay,Argentina,USA,Yugoslavia,70,13,18,590549
1934,Italy,Italy,Czechoslovakia,Germany,Austria,70,16,17,363000
1938,France,Italy,Hungary,Brazil,Sweden,84,15,18,375700
1950,Brazil,Uruguay,Brazil,Sweden,Spain,88,13,22,1045246
1954,Switzerland,Germany FR,Hungary,Austria,Uruguay,140,16,26,768607
1958,Sweden,Brazil,Sweden,France,Germany FR,126,16,35,819810
1962,Chile,Brazil,Czechoslovakia,Chile,Yugoslavia,89,16,32,893172
1966,England,England,Germany FR,Portugal,Soviet Union,89,16,32,1563135
1970,Mexico,Brazil,Italy,Germany FR,Uruguay,95,16,32,1603975
1974,Germany,Germany FR,Netherlands,Poland,Brazil,97,16,38,1865753


**Data Quality da tabela bronze.worldcups**

In [0]:
%sql
SELECT 
    COUNT(CASE WHEN Year IS NULL THEN 1 END) AS null_year,
    COUNT(CASE WHEN Country IS NULL THEN 1 END) AS null_country,
    COUNT(CASE WHEN Winner IS NULL THEN 1 END) AS null_winner
FROM bronze.worldcups;

null_year,null_country,null_winner
0,0,0


**Criando dataframe worldcups silver, excluindo colunas não utilizadas e linhas duplicadas/nulas**

In [0]:
# Criando dataframe df_worldcups_silver
df_worldcups_silver = spark.sql("SELECT * FROM bronze.worldcups")

# Excluindo colunas não utilizadas para análise
df_worldcups_silver = df_worldcups_silver.drop("Fourth", "QualifiedTeams", "MatchesPlayed")

# Removendo linha nulas em "Year" ,"Country" e "Winner"
df_worldcups_silver = df_worldcups_silver.na.drop(subset=["Year" ,"Country", "Winner"])

# Excluindo duplicadas
df_worldcups_silver = df_worldcups_silver.dropDuplicates()

**Listando nomes para correção do dataframe worldcups silver**

In [0]:
# Copiando dataset
df_worldcups_silver_copy = df_worldcups_silver.selectExpr("*")

# Coluna Country
df_worldcups_silver_copy.groupBy("Country").count().show(100, truncate=False)

# Coluna Winner
df_worldcups_silver_copy.groupBy("Winner").count().show(100, truncate=False)

# Coluna RunnersUp
df_worldcups_silver_copy.groupBy("RunnersUp").count().show(100, truncate=False)

# Coluna Third
df_worldcups_silver_copy.groupBy("Third").count().show(100, truncate=False)

+------------+-----+
|Country     |count|
+------------+-----+
|Sweden      |1    |
|Germany     |2    |
|France      |2    |
|Argentina   |1    |
|Korea/Japan |1    |
|Chile       |1    |
|Italy       |2    |
|Spain       |1    |
|USA         |1    |
|Uruguay     |1    |
|Mexico      |2    |
|Switzerland |1    |
|Brazil      |2    |
|England     |1    |
|South Africa|1    |
+------------+-----+

+----------+-----+
|Winner    |count|
+----------+-----+
|Germany   |1    |
|France    |1    |
|Argentina |2    |
|Italy     |4    |
|Spain     |1    |
|Uruguay   |2    |
|Brazil    |5    |
|England   |1    |
|Germany FR|3    |
+----------+-----+

+--------------+-----+
|RunnersUp     |count|
+--------------+-----+
|Sweden        |1    |
|Germany       |1    |
|France        |1    |
|Argentina     |3    |
|Czechoslovakia|2    |
|Italy         |2    |
|Brazil        |2    |
|Germany FR    |3    |
|Hungary       |2    |
|Netherlands   |3    |
+--------------+-----+

+-----------+-----+
|Third   

**Refinando e modelando os dados do dataframe worldcups silver**

In [0]:
# Corrigindo nomes incorretos/não amigáveis
old_name = ['Germany FR', 'USA']
new_name = ['Germany', 'United States']
for index, wr in enumerate(old_name):
    df_worldcups_silver = df_worldcups_silver.replace(old_name[index], new_name[index])

# Renomeando colunas para evitar ambiguidade
df_worldcups_silver = df_worldcups_silver.withColumnRenamed("Country", "CountryCup") \
        .withColumnRenamed("Winner", "WinnerCup") \
        .withColumnRenamed("RunnersUp", "RunnersUpCup") \
        .withColumnRenamed("Third", "ThirdCup") \
        .withColumnRenamed("GoalsScored", "GoalsScoredCup") \
        .withColumnRenamed("Attendance", "AttendanceCup")

# Exibindo primeiras linhas e tipo de dados no dataset com coluna convertida
df_worldcups_silver.show(5, truncate=False)
df_worldcups_silver.printSchema()

+----+------------+---------+--------------+--------+--------------+-------------+
|Year|CountryCup  |WinnerCup|RunnersUpCup  |ThirdCup|GoalsScoredCup|AttendanceCup|
+----+------------+---------+--------------+--------+--------------+-------------+
|1990|Italy       |Germany  |Argentina     |Italy   |115           |2516215      |
|1958|Sweden      |Brazil   |Sweden        |France  |126           |819810       |
|2010|South Africa|Spain    |Netherlands   |Germany |145           |3178856      |
|1934|Italy       |Italy    |Czechoslovakia|Germany |70            |363000       |
|1970|Mexico      |Brazil   |Italy         |Germany |95            |1603975      |
+----+------------+---------+--------------+--------+--------------+-------------+
only showing top 5 rows

root
 |-- Year: integer (nullable = true)
 |-- CountryCup: string (nullable = true)
 |-- WinnerCup: string (nullable = true)
 |-- RunnersUpCup: string (nullable = true)
 |-- ThirdCup: string (nullable = true)
 |-- GoalsScoredCup

**Analisando a tabela bronze.worldcupmatches**

In [0]:
%sql SELECT * FROM bronze.worldcupmatches LIMIT 100

Year,Datetime,Stage,Stadium,City,HomeTeamName,HomeTeamGoals,AwayTeamGoals,AwayTeamName,WinConditions,Attendance,HalfTimeHomeGoals,HalfTimeAwayGoals,Referee,Assistant1,Assistant2,RoundID,MatchID,HomeTeamInitials,AwayTeamInitials
1930,13 Jul 1930 - 15:00,Group 1,Pocitos,Montevideo,France,4,1,Mexico,,4444,3,0,LOMBARDI Domingo (URU),CRISTOPHE Henry (BEL),REGO Gilberto (BRA),201,1096,FRA,MEX
1930,13 Jul 1930 - 15:00,Group 4,Parque Central,Montevideo,USA,3,0,Belgium,,18346,2,0,MACIAS Jose (ARG),MATEUCCI Francisco (URU),WARNKEN Alberto (CHI),201,1090,USA,BEL
1930,14 Jul 1930 - 12:45,Group 2,Parque Central,Montevideo,Yugoslavia,2,1,Brazil,,24059,2,0,TEJADA Anibal (URU),VALLARINO Ricardo (URU),BALWAY Thomas (FRA),201,1093,YUG,BRA
1930,14 Jul 1930 - 14:50,Group 3,Pocitos,Montevideo,Romania,3,1,Peru,,2549,1,0,WARNKEN Alberto (CHI),LANGENUS Jean (BEL),MATEUCCI Francisco (URU),201,1098,ROU,PER
1930,15 Jul 1930 - 16:00,Group 1,Parque Central,Montevideo,Argentina,1,0,France,,23409,0,0,REGO Gilberto (BRA),SAUCEDO Ulises (BOL),RADULESCU Constantin (ROU),201,1085,ARG,FRA
1930,16 Jul 1930 - 14:45,Group 1,Parque Central,Montevideo,Chile,3,0,Mexico,,9249,1,0,CRISTOPHE Henry (BEL),APHESTEGUY Martin (URU),LANGENUS Jean (BEL),201,1095,CHI,MEX
1930,17 Jul 1930 - 12:45,Group 2,Parque Central,Montevideo,Yugoslavia,4,0,Bolivia,,18306,0,0,MATEUCCI Francisco (URU),LOMBARDI Domingo (URU),WARNKEN Alberto (CHI),201,1092,YUG,BOL
1930,17 Jul 1930 - 14:45,Group 4,Parque Central,Montevideo,USA,3,0,Paraguay,,18306,2,0,MACIAS Jose (ARG),APHESTEGUY Martin (URU),TEJADA Anibal (URU),201,1097,USA,PAR
1930,18 Jul 1930 - 14:30,Group 3,Estadio Centenario,Montevideo,Uruguay,1,0,Peru,,57735,0,0,LANGENUS Jean (BEL),BALWAY Thomas (FRA),CRISTOPHE Henry (BEL),201,1099,URU,PER
1930,19 Jul 1930 - 12:50,Group 1,Estadio Centenario,Montevideo,Chile,1,0,France,,2000,0,0,TEJADA Anibal (URU),LOMBARDI Domingo (URU),REGO Gilberto (BRA),201,1094,CHI,FRA


**Data Quality da tabela bronze.worldcupmatches**

In [0]:
%sql
SELECT 
    COUNT(CASE WHEN Year IS NULL THEN 1 END) AS null_year,
    COUNT(CASE WHEN MatchID IS NULL THEN 1 END) AS null_matchID,
    COUNT(CASE WHEN Referee IS NULL THEN 1 END) AS null_referee
FROM bronze.worldcupmatches;

null_year,null_matchID,null_referee
3720,3720,3720


**Criando dataframe worldcupmatches silver, excluindo colunas não utilizadas e linhas duplicadas/nulas**

In [0]:
# Criando dataframe df_worldcupmatches_silver
df_worldcupmatches_silver = spark.sql("SELECT * FROM bronze.worldcupmatches")

# Excluindo colunas não utilizadas na análise
df_worldcupmatches_silver = df_worldcupmatches_silver.drop("Datetime", "Stage", "Stadium", "City", "WinConditions", \
                                                          "HalfTimeHomeGoals", "HalfTimeAwayGoals", "Assistant1", "Assistant2", 
                                                          "HomeTeamInitials", "AwayTeamInitials", "RoundID")

# Removendo linha nulas em "Year", "MatchID" e "Referee"
df_worldcupmatches_silver = df_worldcupmatches_silver.na.drop(subset=["Year" , "MatchID", "Referee"])

# Excluindo duplicadas
df_worldcupmatches_silver = df_worldcupmatches_silver.dropDuplicates()

**Listando nomes para correção do dataframe worldcupmatches silver**

In [0]:
# Coluna HomeTeamName
df_worldcupmatches_silver_copy = df_worldcupmatches_silver.selectExpr("*")
df_worldcupmatches_silver_copy.filter(col("HomeTeamName").rlike("�|ï¿½|\\?|>")).groupBy("HomeTeamName").count().show(100, truncate=False)

# Coluna AwayTeamName
df_worldcupmatches_silver_copy = df_worldcupmatches_silver.selectExpr("*")
df_worldcupmatches_silver_copy.filter(col("AwayTeamName").rlike("�|ï¿½|\\?|>")).groupBy("AwayTeamName").count().show(100, truncate=False)

# Coluna Referee
df_worldcupmatches_silver_copy = df_worldcupmatches_silver.selectExpr("*")
df_worldcupmatches_silver_copy.filter(col("Referee").rlike("�|ï¿½|\\?|>")).groupBy("Referee").count().show(100, truncate=False)


+--------------------------+-----+
|HomeTeamName              |count|
+--------------------------+-----+
|rn">Trinidad and Tobago   |1    |
|rn">United Arab Emirates  |1    |
|rn">Serbia and Montenegro |1    |
|rn">Bosnia and Herzegovina|1    |
|rn">Republic of Ireland   |5    |
|C�te d'Ivoire             |3    |
+--------------------------+-----+

+--------------------------+-----+
|AwayTeamName              |count|
+--------------------------+-----+
|rn">United Arab Emirates  |2    |
|rn">Trinidad and Tobago   |2    |
|rn">Serbia and Montenegro |2    |
|rn">Bosnia and Herzegovina|2    |
|rn">Republic of Ireland   |8    |
|C�te d'Ivoire             |6    |
+--------------------------+-----+

+--------------------------+-----+
|Referee                   |count|
+--------------------------+-----+
|Bj�rn KUIPERS (NED)       |3    |
|C�neyt �AKIR (TUR)        |3    |
|Oleg�rio BENQUEREN�A (POR)|3    |
|St�phane LANNOY (FRA)     |2    |
+--------------------------+-----+



**Refinando e modelando os dados do dataframe worldcupmatches silver**

In [0]:
# Corrigindo nomes incorretos/não amigáveis de países
old_name_teams = ['IR Iran', "C�te d'Ivoire", 'rn">Republic of Ireland', 'rn">Bosnia and Herzegovina', 'Korea DPR', 'German DR', \
            'rn">Trinidad and Tobago', 'rn">United Arab Emirates', 'China PR', 'rn">Serbia and Montenegro', 'Germany FR']
new_name_teams = ['Iran', "Cote d'Ivoire", 'Republic of Ireland', 'Bosnia and Herzegovina', 'North Korea', 'Germany', \
            'Trinidad and Tobago', 'United Arab Emirates', 'China', 'Serbia and Montenegro', 'Germany']

# Corrigindo nomes incorretos/não amigáveis de arbritos
old_name_referee = ['C�neyt �AKIR', 'Oleg�rio BENQUEREN�A', 'Bj�rn KUIPERS', 'St�phane LANNOY']
new_name_referee = ['Cuneyt CAKIR', 'Olegário BENQUERENCA', 'Bjorn KUIPERS', 'Stephane LANNOY']

# Alterando nomes nas colunas HomeTeamName e AwayTeamName
for index, n in enumerate(old_name_teams):
    df_worldcupmatches_silver = df_worldcupmatches_silver.withColumn("HomeTeamName", regexp_replace("HomeTeamName", old_name_teams[index], new_name_teams[index]))
    df_worldcupmatches_silver = df_worldcupmatches_silver.withColumn("AwayTeamName", regexp_replace("AwayTeamName", old_name_teams[index], new_name_teams[index]))

# Alterando nomes na coluna Referee
for index, n in enumerate(old_name_referee):
    df_worldcupmatches_silver = df_worldcupmatches_silver.withColumn("Referee", regexp_replace("Referee", old_name_referee[index], new_name_referee[index]))

# Extraindo o país da coluna Referee do dataset - Extraindo os últimos 5 caracteres, removendo os parenteses e adicionando em uma nova coluna RefereeCountry
df_worldcupmatches_silver = df_worldcupmatches_silver.withColumn("RefereeCountry",expr("substring(Referee, length(Referee) - 4, 5)")).withColumn("RefereeCountry", regexp_replace("RefereeCountry", r"[()]", ""))

# Renomeando colunas para evitar ambiguidade
df_worldcupmatches_silver = df_worldcupmatches_silver.withColumnRenamed("Attendance", "AttendanceMatch")

# Exibindo as 5 primeiras linhas do dataframe para conferência
df_worldcupmatches_silver.show(10, truncate=False)

+----+--------------+-------------+-------------+--------------+---------------+--------------------------+---------+--------------+
|Year|HomeTeamName  |HomeTeamGoals|AwayTeamGoals|AwayTeamName  |AttendanceMatch|Referee                   |MatchID  |RefereeCountry|
+----+--------------+-------------+-------------+--------------+---------------+--------------------------+---------+--------------+
|1962|Czechoslovakia|1            |0            |Hungary       |11690          |LATYCHEV Nikolaj (URS)    |1525     |URS           |
|1994|Colombia      |1            |3            |Romania       |91856          |AL SHARIF Jamal (SYR)     |3053     |SYR           |
|2002|Germany       |0            |2            |Brazil        |69029          |COLLINA Pierluigi (ITA)   |43950064 |ITA           |
|2006|Japan         |0            |0            |Croatia       |41000          |DE BLEECKERE Frank (BEL)  |97410028 |BEL           |
|2014|Uruguay       |1            |3            |Costa Rica    |58679

**Analisando a tabela bronze.worldcupplayers**

In [0]:
%sql SELECT * FROM bronze.worldcupplayers LIMIT 100

RoundID,MatchID,TeamInitials,CoachName,LineUp,ShirtNumber,PlayerName,Position,Event
201,1096,FRA,CAUDRON Raoul (FRA),S,0,Alex THEPOT,GK,
201,1096,MEX,LUQUE Juan (MEX),S,0,Oscar BONFIGLIO,GK,
201,1096,FRA,CAUDRON Raoul (FRA),S,0,Marcel LANGILLER,,G40'
201,1096,MEX,LUQUE Juan (MEX),S,0,Juan CARRENO,,G70'
201,1096,FRA,CAUDRON Raoul (FRA),S,0,Ernest LIBERATI,,
201,1096,MEX,LUQUE Juan (MEX),S,0,Rafael GARZA,C,
201,1096,FRA,CAUDRON Raoul (FRA),S,0,Andre MASCHINOT,,G43' G87'
201,1096,MEX,LUQUE Juan (MEX),S,0,Hilario LOPEZ,,
201,1096,FRA,CAUDRON Raoul (FRA),S,0,Etienne MATTLER,,
201,1096,MEX,LUQUE Juan (MEX),S,0,Dionisio MEJIA,,


**Data Quality tabela bronze.worldcupplayers**

In [0]:
%sql
SELECT 
    COUNT(CASE WHEN MatchID IS NULL THEN 1 END) AS null_matchID,
    COUNT(CASE WHEN TeamInitials IS NULL THEN 1 END) AS null_teamInitials,
    COUNT(CASE WHEN PlayerName IS NULL THEN 1 END) AS null_playerName
FROM bronze.worldcupplayers;

null_matchID,null_teamInitials,null_playerName
0,0,0


**Criando dataframe worldcupplayers silver, excluindo colunas não utilizadas e linhas duplicadas/nulas**

In [0]:
# Criando dataframe df_worldcupplayers_silver
df_worldcupplayers_silver = spark.sql("SELECT * FROM bronze.worldcupplayers")

# Excluindo colunas não utilizadas na análise
df_worldcupplayers_silver = df_worldcupplayers_silver.drop("RoundID", "CoachName", "LineUp", "ShirtNumber", "Position")

# Removendo linha nulas em "MatchID", "TeamInitials" e "PlayerName"
df_worldcupplayers_silver = df_worldcupplayers_silver.na.drop(subset=["MatchID" , "TeamInitials", "PlayerName"])

# Excluindo duplicados
df_worldcupplayers_silver = df_worldcupplayers_silver.dropDuplicates()

**Listando nomes para correção do dataframe worldcupplayers silver**

In [0]:
# Coluna PlayerName
df_worldcupplayers_silver_copy = df_worldcupplayers_silver.selectExpr("*")
df_worldcupplayers_silver_copy.filter(col("PlayerName").rlike("�|ï¿½|\\?|>")).groupBy("PlayerName").count().show(1000, truncate=False)

+----------------------------------+-----+
|PlayerName                        |count|
+----------------------------------+-----+
|Z� ROBERTO                        |12   |
|GUTI�RREZ                         |4    |
|F. COENTR�O                       |7    |
|JOSU�                             |5    |
|BE�I?                             |3    |
|LAM�                              |3    |
|CH. AR�NGUIZ                      |4    |
|ETAM�                             |3    |
|JO�O RICARDO                      |3    |
|SUBA�I?                           |3    |
|�STENSTAD                         |4    |
|M�LLER                            |24   |
|SU�I?                             |3    |
|ACU�A                             |7    |
|JOKI?                             |3    |
|R. MU�OZ                          |4    |
|LUKOVI?                           |3    |
|GROD�S                            |4    |
|PE?NIK                            |3    |
|BOLA�O                            |3    |
|Hugo S�NCH

**Refinando e modelando os dados do dataframe worldcupplayers silver**

In [0]:
# Corrigindo nomes incorretos/não amigáveis de jogadores
old_name = ['VI�?A', 'GUTI�RREZ', 'MATTH�US', 'VER�N', '�ULER', 'AKW�', 'IBI�EVI?', '�ZIL',\
    'VRANJE�', 'C. ZU�IGA', 'MILIJA�', 'ALVB�GE', 'JOKI?', 'LUKOVI?', 'SIM�O', 'PE?NIK',\
    'F. COENTR�O', 'M�RIO', 'ZUBERB�HLER', 'RADOSAVLJEVI?', 'D�INI?', 'SUBA�I?', '�DER', 'G�TZE',\
    'W�RNS', 'LJUBIJANKI?', 'BE�I?', 'DEDI?', 'REBI?', 'BJ�RNEBYE', 'FL�VIO', 'LUIS�O',\
    'BI?AK?I?', 'HAJROVI?', 'BOLA�O', 'Z� KALANGA', 'FILEKOVI?', 'NU�EZ V.', 'VUKOJEVI?', '�ELIGA',\
    'KJ�R', 'C�CERES', 'WOM�', 'STANKOVI?', 'JELAVI?', 'MISIMOVI?', 'SALIHOVI?', 'NINKOVI?',\
    'KOLA�INAC', 'KUZMANOVI?', 'CABA�AS', 'JO�O RICARDO', 'OBRADOVI?', 'PERI�I?', 'KIE�LING', 'LAM�',\
    'SUBOTI?', 'ETAM�', 'MATAV�', 'J�RGENSEN', 'PRANJI?', 'VIDI?', 'KA?AR', 'PJANI?',\
    'BOLA�OS C.', 'SCH�R', 'FEJZI?', 'CH. AR�NGUIZ', 'LAZOVI?', 'KOVA?I?', 'HANDANOVI? S.', 'RAKITI?',\
    'K�LLSTR�M', 'SOLSKJ�R', 'ALLB�CK', 'ISAILOVI?', 'NOVAKOVI?', 'KAK�', 'H�WEDES', 'W�LFLI',\
    'STOJKOVI?', 'STEVANOVI?', 'NU�EZ', 'KRASI?', 'IBRI?I?', 'HANDANOVI? J.', 'MUJD�A', 'SU�I?',\
    'PEL� (Edson Arantes do Nascimento)', 'BEGOVI?', 'ROM�RIO (Rom�rio de Souza Faria)', 'M�LLER', 'ACU�A', 'OLI?', 'MAND�UKI?', 'B�RKI',\
    'Z� CARLOS', 'JOSU�', '�STENSTAD', 'L�CIO', 'BRE?KO', 'R. MU�OZ', 'ILI?', 'SCH�RRLE',\
    'TO�I?', 'C. PE�A', 'OLEMB�', 'HAD�I?', 'J�', 'Z� ROBERTO', 'ETXEBERR�A', 'KR�LDRUP',\
    'GRO�KREUTZ', 'MAVRI?', 'MODRI?', 'PANTELI?', 'GROD�S', '�IGI?', 'LOC�', 'K�PKE',\
    'PIQU�', 'URE�A M.', 'UMA�A M.', '�UNJI?', 'VR�AJEVI?', 'ANDR� MACANGA', 'GR�NKJ�R', 'IVANOVI?',\
    'CA�IZARES', 'CASTA�EDA', 'S�RENSEN', 'F�BREGAS', 'D�EKO', 'PENS�E', 'JOVANOVI?', 'BROZOVI?',\
    'CA�IZA', 'MAHOUV�', 'PETROVI?', 'H�SSLER', 'Hugo S�NCHEZ', 'GON�ALVES', '?URI?I?', 'SPAHI?',\
    'AVDUKI?', 'LULI?']

new_name = ['VIZA', 'GUTIERREZ', 'MATTHAUS', 'VERON', 'SULER', 'AKWA', 'IBISEVIC', 'OZIL',\
    'VRANJES', 'C. ZUNIGA', 'MILIJAS', 'ALVBAGE', 'JOKIC', 'LUKOVIC', 'SIMAO', 'PECNIK',\
    'F. COENTRAO', 'MARIO', 'ZUBERBUHLER', 'RADOSAVLJEVIC', 'DZINIC', 'SUBASIC', 'EDER', 'GOTZE',\
    'WORNS', 'LJUBIJANKIC', 'BESIC', 'DEDIC', 'REBIC', 'BJORNEBYE', 'FLAVIO', 'LUISAO',\
    'BICAKCIC', 'HAJROVIC', 'BOLANOS', 'ZE KALANGA', 'FILEKOVIC', 'NUNEZ V.', 'VUKOJEVIC', 'SELIGA',\
    'KJAER', 'CACERES', 'WOME', 'STANKOVIC', 'JELAVIC', 'MISIMOVIC', 'SALIHOVIC', 'NINKOVIC',\
    'KOLASINAC', 'KUZMANOVIC', 'CABANAS', 'JOAO RICARDO', 'OBRADOVIC', 'PERISIC', 'KIESLING', 'LAMA',\
    'SUBOTIC', 'ETAME', 'MATAVZ', 'JORGENSEN', 'PRANJIC', 'VIDIC', 'KACAR', 'PJANIC',\
    'BOLANOS C.', 'SCHAR', 'FEJZIC', 'CH. ARANGUIZ', 'LAZOVIC', 'KOVACIC', 'HANDANOVIC S.', 'RAKITIC',\
    'KALLSTROM', 'SOLSKJAER', 'ALLBACK', 'ISAILOVIC', 'NOVAKOVIC', 'KAKA', 'HOWEDES', 'WOLFLI',\
    'STOJKOVIC', 'STEVANOVIC', 'NUNEZ', 'KRASIC', 'IBRICIC', 'HANDANOVIC J.', 'MUJDA', 'SUSIC',\
    'PELE', 'BEGOVIC', 'ROMARIO', 'MULLER', 'ACUNA', 'OLIC', 'MANDZUKIC', 'BURKI',\
    'ZE CARLOS', 'JOSUE', 'OSTENSTAD', 'LUCIO', 'BRECKO', 'R. MUNOZ', 'ILIC', 'SCHURRLE',\
    'TOSIC', 'C. PENA', 'OLEMBE', 'HADZIC', 'JO', 'ZE ROBERTO', 'ETXEBERRIA', 'KRALDRUP',\
    'GROSSKREUTZ', 'MAVRIC', 'MODRIC', 'PANTELIC', 'GRODAS', 'SIGIC', 'LOCO', 'KOPKE',\
    'PIQUE', 'URENA M.', 'UMANA M.', 'SUNJIC', 'VRANJEVIC', 'ANDRE MACANGA', 'GRONKJAER', 'IVANOVIC',\
    'CANIZARES', 'CASTANEDA', 'SORENSEN', 'FABREGAS', 'DZEKO', 'PENSEE', 'JOVANOVIC', 'BROZOVIC',\
    'CANIZA', 'MAHOUVE', 'PETROVIC', 'HASSLER', 'Hugo SANCHEZ', 'GONCALVES', 'DURICIC', 'SPAHIC',\
    'AVDUKIC', 'LULIC']

# Alterando nomes na coluna PlayerName
for index, n in enumerate(old_name):
    regex_segura = re.escape(old_name[index])
    df_worldcupplayers_silver = df_worldcupplayers_silver.withColumn("PlayerName", regexp_replace("PlayerName", regex_segura, new_name[index]))

# Extraindo o número de gols da coluna Event e adicinando em uma nova coluna Goals
df_worldcupplayers_silver = df_worldcupplayers_silver.withColumn("Goals",length("Event") - length(regexp_replace("Event", "[GP]", "")))

# Extraindo o número de cartões amarelos da coluna Event e adicinando em uma nova coluna YellowCards
df_worldcupplayers_silver = df_worldcupplayers_silver.withColumn("YellowCards",length("Event") - length(regexp_replace("Event", "Y", "")))

# Extraindo o número de cartões vermelhos da coluna Event e adicinando em uma nova coluna RedCards
df_worldcupplayers_silver = df_worldcupplayers_silver.withColumn("RedCards",length("Event") - length(regexp_replace("Event", "R", "")))

# Removendo linha nulas em "Goals" ,"YellowCards" e "RedCards"
df_worldcupplayers_silver = df_worldcupplayers_silver.na.drop(subset=["Goals" ,"YellowCards", "RedCards"])

# Removendo linha com valor 0 em "Goals" ,"YellowCards" e "RedCards"
df_worldcupplayers_silver = df_worldcupplayers_silver.filter(~((col("Goals") == 0) & (col("YellowCards") == 0) & (col("RedCards") == 0)))

# Removendo a coluna Event
df_worldcupplayers_silver = df_worldcupplayers_silver.drop("Event")

# Exibindo as 5 primeiras linhas do dataframe para conferência
df_worldcupplayers_silver.show(5, truncate=False)

+-------+------------+----------------+-----+-----------+--------+
|MatchID|TeamInitials|PlayerName      |Goals|YellowCards|RedCards|
+-------+------------+----------------+-----+-----------+--------+
|29     |ROU         |LACATUS         |0    |1          |0       |
|3053   |COL         |VALDERRAMA      |0    |1          |0       |
|3058   |NED         |JONK            |1    |0          |0       |
|3076   |GER         |Stefan EFFENBERG|0    |1          |0       |
|3103   |BUL         |Zlatko YANKOV   |0    |1          |0       |
+-------+------------+----------------+-----+-----------+--------+
only showing top 5 rows



**Deletando o database 'silver', caso ele exista**

In [0]:
%sql DROP DATABASE IF EXISTS silver CASCADE

**Criando o database 'silver'**

In [0]:
%sql CREATE DATABASE silver;

**Criando as tabelas 'silver'**

In [0]:
# Criando a tabela worldcups
df_worldcups_silver.write.mode("overwrite").saveAsTable("silver.worldcups")

# Criando a tabela worldcupmatches
df_worldcupmatches_silver.write.mode("overwrite").saveAsTable("silver.worldcupmatches")

# Criando a tabela worldcupplayers
df_worldcupplayers_silver.write.mode("overwrite").saveAsTable("silver.worldcupplayers")

**Analisando a tabela silver.worldcups**

In [0]:
%sql SELECT * FROM silver.worldcups LIMIT 100

Year,CountryCup,WinnerCup,RunnersUpCup,ThirdCup,GoalsScoredCup,AttendanceCup
1990,Italy,Germany,Argentina,Italy,115,2516215
1958,Sweden,Brazil,Sweden,France,126,819810
2010,South Africa,Spain,Netherlands,Germany,145,3178856
1934,Italy,Italy,Czechoslovakia,Germany,70,363000
1970,Mexico,Brazil,Italy,Germany,95,1603975
1986,Mexico,Argentina,Germany,France,132,2394031
1998,France,France,Brazil,Croatia,171,2785100
1974,Germany,Germany,Netherlands,Poland,97,1865753
1978,Argentina,Argentina,Netherlands,Brazil,102,1545791
2006,Germany,Italy,France,Germany,147,3359439


**Analisando a tabela silver.worldcupmatches**

In [0]:
%sql SELECT * FROM silver.worldcupmatches LIMIT 100

Year,HomeTeamName,HomeTeamGoals,AwayTeamGoals,AwayTeamName,AttendanceMatch,Referee,MatchID,RefereeCountry
1962,Czechoslovakia,1,0,Hungary,11690,LATYCHEV Nikolaj (URS),1525,URS
1994,Colombia,1,3,Romania,91856,AL SHARIF Jamal (SYR),3053,SYR
2002,Germany,0,2,Brazil,69029,COLLINA Pierluigi (ITA),43950064,ITA
2006,Japan,0,0,Croatia,41000,DE BLEECKERE Frank (BEL),97410028,BEL
2014,Uruguay,1,3,Costa Rica,58679,BRYCH Felix (GER),300186489,GER
2014,Costa Rica,0,0,England,57823,HAIMOUDI Djamel (ALG),300186484,ALG
1938,Switzerland,4,2,Germany,20025,EKLIND Ivan (SWE),1166,SWE
1970,Belgium,3,0,El Salvador,92205,RADULESCU Andrei (ROU),1747,ROU
1974,Argentina,4,1,Haiti,25900,SANCHEZ IBANEZ Pablo (ESP),1947,ESP
1994,Germany,3,2,Korea Republic,63998,QUINIOU Joel (FRA),3076,FRA


**Analisando a tabela silver.worldcupplayers**

In [0]:
%sql SELECT * FROM silver.worldcupplayers LIMIT 100

MatchID,TeamInitials,PlayerName,Goals,YellowCards,RedCards
29,ROU,LACATUS,0,1,0
3053,COL,VALDERRAMA,0,1,0
3058,NED,JONK,1,0,0
3076,GER,Stefan EFFENBERG,0,1,0
3103,BUL,Zlatko YANKOV,0,1,0
196,NED,Jan WOUTERS,0,1,0
31,YUG,Refik SABANADZOVIC,0,1,1
3064,NOR,Alf HALAND,0,1,0
3070,KSA,S. AL-JABER,1,0,0
3090,USA,Fernando CLAVIJO,0,3,1


**Deletando o database 'gold', caso ele exista**

In [0]:
%sql DROP DATABASE IF EXISTS gold CASCADE

**Criando o database 'gold'**

In [0]:
%sql CREATE DATABASE gold;

**Criando a tabela 'gold'**

In [0]:
%sql
CREATE TABLE gold.wcstats AS SELECT
    wcm.MatchID,
    wcm.Year,
    wc.CountryCup,
    wc.WinnerCup,
    wc.RunnersUpCup,
    wc.ThirdCup,
    wc.GoalsScoredCup,
    wc.AttendanceCup,
    wcm.HomeTeamName,
    wcm.HomeTeamGoals,
    wcm.AwayTeamGoals,
    wcm.AwayTeamName,
    wcm.AttendanceMatch,
    wcm.Referee,
    wcm.RefereeCountry,
    wcp.TeamInitials,
    wcp.PlayerName,
    wcp.Goals,
    wcp.YellowCards,
    wcp.RedCards
FROM silver.worldcupmatches AS wcm
LEFT JOIN silver.worldcups AS wc ON wcm.Year=wc.Year
LEFT JOIN silver.worldcupplayers AS wcp ON wcm.MatchID=wcp.MatchID

num_affected_rows,num_inserted_rows


### Qualidade dos Dados

**Conferindo tabela gold.wcstats**

In [0]:
%sql
SELECT * FROM gold.wcstats limit 100

MatchID,Year,CountryCup,WinnerCup,RunnersUpCup,ThirdCup,GoalsScoredCup,AttendanceCup,HomeTeamName,HomeTeamGoals,AwayTeamGoals,AwayTeamName,AttendanceMatch,Referee,RefereeCountry,TeamInitials,PlayerName,Goals,YellowCards,RedCards
1525,1962,Chile,Brazil,Czechoslovakia,Chile,89,893172,Czechoslovakia,1,0,Hungary,11690,LATYCHEV Nikolaj (URS),URS,TCH,Adolf SCHERER,1,0,0
3053,1994,United States,Brazil,Italy,Sweden,141,3587538,Colombia,1,3,Romania,91856,AL SHARIF Jamal (SYR),SYR,COL,VALENCIA,1,0,0
3053,1994,United States,Brazil,Italy,Sweden,141,3587538,Colombia,1,3,Romania,91856,AL SHARIF Jamal (SYR),SYR,COL,Luis HERRERA,0,1,0
3053,1994,United States,Brazil,Italy,Sweden,141,3587538,Colombia,1,3,Romania,91856,AL SHARIF Jamal (SYR),SYR,COL,Leonel ALVAREZ,0,1,0
3053,1994,United States,Brazil,Italy,Sweden,141,3587538,Colombia,1,3,Romania,91856,AL SHARIF Jamal (SYR),SYR,ROU,Florin RADUCIOIU,2,1,0
3053,1994,United States,Brazil,Italy,Sweden,141,3587538,Colombia,1,3,Romania,91856,AL SHARIF Jamal (SYR),SYR,ROU,HAGI,1,0,0
3053,1994,United States,Brazil,Italy,Sweden,141,3587538,Colombia,1,3,Romania,91856,AL SHARIF Jamal (SYR),SYR,COL,VALDERRAMA,0,1,0
43950064,2002,Korea/Japan,Brazil,Germany,Turkey,161,2705197,Germany,0,2,Brazil,69029,COLLINA Pierluigi (ITA),ITA,GER,KLOSE,0,1,0
43950064,2002,Korea/Japan,Brazil,Germany,Turkey,161,2705197,Germany,0,2,Brazil,69029,COLLINA Pierluigi (ITA),ITA,BRA,ROQUE JR,0,1,0
43950064,2002,Korea/Japan,Brazil,Germany,Turkey,161,2705197,Germany,0,2,Brazil,69029,COLLINA Pierluigi (ITA),ITA,BRA,RONALDO,2,0,0


### Solução do Problema

**1 - Quais os 5 maiores campeões da Copa do Mundo FIFA?**

In [0]:
%sql
SELECT WinnerCup AS Pais, COUNT(DISTINCT Year) AS Total_Titulos, SORT_ARRAY(COLLECT_SET(Year)) AS Titulos
FROM gold.wcstats GROUP BY WinnerCup ORDER BY Total_Titulos DESC LIMIT 5

Pais,Total_Titulos,Titulos
Brazil,5,"List(1958, 1962, 1970, 1994, 2002)"
Germany,4,"List(1954, 1974, 1990, 2014)"
Italy,4,"List(1934, 1938, 1982, 2006)"
Argentina,2,"List(1978, 1986)"
Uruguay,2,"List(1930, 1950)"


R - O maior campeão da Copas do Mundo FIFA é o Brasil com 5 títulos, em seguida temos a Alemanha e Itália com 4 títulos cada uma, e a Argentina e Uruguai com 2 títulos cada.

**2 - Quais os 5 países com maior número de troféus?**

In [0]:
%sql
SELECT 
Winner.Pais,
Winner.Total_Titulos,
Winner.Titulos,
RunnersUp.Total_Vice,
RunnersUp.Vice,
Third.Total_Terceiro,
Third.Terceiro,
COALESCE(Winner.Total_Titulos,0) + COALESCE(RunnersUp.Total_Vice,0) + COALESCE(Third.Total_Terceiro, 0) AS Total_Trofeus
FROM (SELECT WinnerCup AS Pais, COUNT(DISTINCT Year) AS Total_Titulos, SORT_ARRAY(COLLECT_SET(Year)) AS Titulos
FROM gold.wcstats GROUP BY Pais) AS Winner
LEFT JOIN (SELECT RunnersUpCup AS Pais, COUNT(DISTINCT Year) AS Total_Vice, SORT_ARRAY(COLLECT_SET(Year)) AS Vice 
FROM gold.wcstats GROUP BY Pais) AS RunnersUp ON Winner.Pais = RunnersUp.Pais
LEFT JOIN (SELECT ThirdCup AS Pais, COUNT(DISTINCT Year) AS Total_Terceiro, SORT_ARRAY(COLLECT_SET(Year)) AS Terceiro
FROM gold.wcstats GROUP BY Pais) AS Third ON Winner.Pais = Third.Pais
ORDER BY Total_Trofeus DESC LIMIT 5

Pais,Total_Titulos,Titulos,Total_Vice,Vice,Total_Terceiro,Terceiro,Total_Trofeus
Germany,4,"List(1954, 1974, 1990, 2014)",4,"List(1966, 1982, 1986, 2002)",4.0,"List(1934, 1970, 2006, 2010)",12
Brazil,5,"List(1958, 1962, 1970, 1994, 2002)",2,"List(1950, 1998)",2.0,"List(1938, 1978)",9
Italy,4,"List(1934, 1938, 1982, 2006)",2,"List(1970, 1994)",1.0,List(1990),7
Argentina,2,"List(1978, 1986)",3,"List(1930, 1990, 2014)",,,5
France,1,List(1998),1,List(2006),2.0,"List(1958, 1986)",4


R - A seleçção com maior número de troféus é a Alemanha com 12 troféus, sendo 4 títulos de campeão, 4 títulos de vice e 4 títulos de terceiro lugar, na segunda posição desse ranking segue o Brasil com 9 troféus, sendo 5 títulos de campeão, 2 títulos de vice e 2 títulos de terceiro lugar, seguindo em terceira posição vem a Itália com 7 troféus, sendo 4 títulos de campeão, 2 títulos de vice e 1 títulos de terceiro lugar, na quarta posição vem a Argentina com 5 troféus, sendo 2 títulos de campeão e 3 títulos de vice, e na última posição do ranking vem a França com 4 troféus, sendo 1 título de campeão, 1 título de vice e 2 títulos em terceiro lugar.

**3 - Qual é o maior número de público geral?**

In [0]:
%sql
SELECT CountryCup AS Pais, Year AS Ano, MAX(AttendanceCup) AS Publico 
FROM gold.wcstats GROUP BY CountryCup, Year ORDER BY Publico DESC LIMIT 1

Pais,Ano,Publico
United States,1994,3587538


R - O maior público geral de todas as edições foi na Copa do Mundo FIFA de 1994 nos EUA, onde o total de público geral contabilizou 3.587.538 pessoas.

**4 - Quais os 5 maiores públicos registrados em uma partida?**

In [0]:
%sql
SELECT CountryCup AS Pais, Year AS Ano, CONCAT(HomeTeamName, CONCAT(" X ", AwayTeamName)) AS Jogo, MAX(AttendanceMatch) AS Publico 
FROM gold.wcstats GROUP BY CountryCup, Year, Jogo ORDER BY Publico DESC LIMIT 5

Pais,Ano,Jogo,Publico
Brazil,1950,Uruguay X Brazil,173850
Brazil,1950,Brazil X Spain,152772
Brazil,1950,Brazil X Yugoslavia,142429
Brazil,1950,Brazil X Sweden,138886
Mexico,1986,Mexico X Paraguay,114600


R - A Copa do Mundo FIFA no Brasil de 1950, lidera as 4 primeira posições no top 5 de maiores públicos por partida, sendo maior público de 173.850 pessoas no jogo Uruguai e Brasil, o segundo 152.772 no jogo Brazil X Espanha, 142.429 no jogo Brazil X Iugoslávia, 138.886 no jogo Brazil X Suécia e por último 114.600 no jogo Méximo e Paraguai.

**5 - Qual país que mais sediou a copa do mundo?**

In [0]:
%sql
SELECT CountryCup AS Pais, SORT_ARRAY(COLLECT_SET(Year)) AS Copas, COUNT(DISTINCT Year) AS Total_Copas
FROM gold.wcstats GROUP BY CountryCup ORDER BY Total_Copas DESC LIMIT 1

Pais,Copas,Total_Copas
Germany,"List(1974, 2006)",2


R - A Alemanha foi o país que mais sediu a Copa do Mundo FIFA, com 2 edições completas, em 1974 e 2006.

**6 - Quais os 5 maiores recorde de gols nas Copas?**

In [0]:
%sql
SELECT CountryCup AS Pais, Year AS Ano, MAX(GoalsScoredCup) AS Total_Gols 
FROM gold.wcstats GROUP BY CountryCup, Year ORDER BY Total_Gols DESC LIMIT 5

Pais,Ano,Total_Gols
Brazil,2014,171
France,1998,171
Korea/Japan,2002,161
Germany,2006,147
Spain,1982,146


R - O top 5 no recorde de gols em uma edição da Copa do Mundo FIFA é liderado pela edição de 2014 no Brasil, com 171 gols, seguindo empatado pela edição de 1998 na França, em terceiro lugar vem a edição da Coreia/Japão em 2002 com 161 gols, em quarto lugar temos a edição da Alemanha de 2006 com 147 gols e por último a edição de 1982 na Espanha com 146 gols.

**7 - Quais são os 10 maiores artilheiros das Copas?**

In [0]:
%sql
SELECT
  TeamInitials AS Pais,
  PlayerName AS Jogador,
  SUM(Goals) AS Gols
FROM gold.wcstats
GROUP BY Pais, Jogador
ORDER BY Gols DESC
LIMIT 10

Pais,Jogador,Gols
GER,KLOSE,16
BRA,RONALDO,15
FRG,Gerd MUELLER,14
FRA,Just FONTAINE,13
BRA,PELE,12
HUN,Sandor KOCSIS,11
GER,MULLER,11
PER,Teofilo CUBILLAS,10
FRG,Helmut RAHN,10
POL,Grzegorz LATO,10


R - O maior artilheiro da Copa do Mundo FIFA é o Alemão Klose com 16 gols, seguido pelo Brasileiro Ronaldo que balançou a rede 15 vezes, em terceiro lugar temos o também Alemão Gerd Mueller, que jogou na época da República Federal da Alemanha (FRG), e marcou 14 gols, em seguida temos o Francês Just Fontaine com 13 gols, em quinto lugar temos o Rei Pelé com 12 gols, seguido do Húngaro Sandor Kocsis e do Alemão Muller ambos com 11 gols, na 8 posição temos o Peruano Teofilo Cubillas, o também Alemão Helmut Rahn e o Polonês Grzegorz Lato, ambos com 10 gols nas posições finais.

**8 - Quais são os 10 jogadores com mais cartões amarelos?**

In [0]:
%sql
SELECT
  TeamInitials AS Pais,
  PlayerName AS Jogador,
  SUM(YellowCards) AS Cartoes
FROM gold.wcstats
GROUP BY Pais, Jogador
ORDER BY Cartoes DESC
LIMIT 10

Pais,Jogador,Cartoes
BRA,CAFU,6
NED,V. BRONCKHORST,6
GHA,MUNTARI,5
USA,POPE,5
HON,W. PALACIOS,5
POR,COSTINHA,5
PAR,PAREDES,5
NED,HEITINGA,5
ARG,MASCHERANO,5
AUS,EMERTON,5


R - Os jogadores com mais cartões amarelos na história da Copa do Mundo FIFA começam com o Brasileiro Cafu e o Holandês Van Bronckhorst, ambos no topo da lista com 6 cartões cada. Logo atrás, com 5 cartões, temos uma lista de atletas de diferentes nacionalidades: o Ganês Muntari, o Norte-Americano Pope, o Hondurenho W. Palacios, o Português Costinha, o Paraguaio Paredes, o também Holandês Heitinga, o Argentino Mascherano e o Australiano Emerton.

**9 - Quais são os 10 jogadores com mais cartões vermelho?**

In [0]:
%sql
SELECT
  TeamInitials AS Pais,
  PlayerName AS Jogador,
  SUM(RedCards) AS Cartoes
FROM gold.wcstats
GROUP BY Pais, Jogador
ORDER BY Cartoes DESC
LIMIT 10

Pais,Jogador,Cartoes
CMR,SONG,2
ITA,MATERAZZI,1
BEL,Eric GERETS,1
CMR,Andre KANA-BIYIK,1
PER,Placido GALINDO,1
TRI,A. JOHN,1
GER,WORNS,1
HUN,Tibor NYILASI,1
USA,Eric WYNALDA,1
URU,SUAREZ,1


R - Os jogadores com mais cartões vermelhos na história da Copa do Mundo FIFA começam com o Camaronês Song, que lidera com 2 expulsões em Copas. Em seguida, com 1 cartão vermelho cada, temos uma lista de atletas de diversas seleções: o Italiano Materazzi, o Belga Eric Gerets, o também Camaronês André Kana-Biyik, o Peruano Plácido Galindo, o A. John, o Alemão Wörns, o Húngaro Tibor Nyilasi, o Norte-Americano Eric Wynalda e o Uruguaio Suárez.

**10 - Quais os 5 países com mais vitórias das Copas?**

In [0]:
%sql
SELECT * FROM (SELECT
CASE 
    WHEN HomeTeamGoals > AwayTeamGoals THEN HomeTeamName
    WHEN AwayTeamGoals > HomeTeamGoals THEN AwayTeamName
    ELSE NULL
END AS Pais,
COUNT(DISTINCT MatchID) AS Total_Vitorias
FROM gold.wcstats GROUP BY Pais) WHERE Pais IS NOT NULL ORDER BY Total_Vitorias DESC LIMIT 5

Pais,Total_Vitorias
Brazil,70
Germany,68
Italy,45
Argentina,42
Spain,29


R - As seleções com mais vitórias na história da Copa do Mundo FIFA são lideradas pelo Brasil, que ocupa o topo do ranking 70 vitórias em partidas oficiais do torneio. Logo atrás vem a Alemanha, com 68 vitórias. Em terceiro lugar está a Itália com 45 triunfos, seguida de perto pela Argentina, que soma 42 vitórias. Fechando o top 5 está a Espanha, com 29 vitórias.

**11 - Quais os 5 países com mais derrotas das Copas?**

In [0]:
%sql
SELECT * FROM (SELECT
CASE 
    WHEN HomeTeamGoals < AwayTeamGoals THEN HomeTeamName
    WHEN AwayTeamGoals < HomeTeamGoals THEN AwayTeamName
    ELSE NULL
END AS Pais,
COUNT(DISTINCT MatchID) AS Total_Derrotas
FROM gold.wcstats GROUP BY Pais) WHERE Pais IS NOT NULL ORDER BY Total_Derrotas DESC LIMIT 5

Pais,Total_Derrotas
Mexico,25
Germany,22
Argentina,21
France,19
USA,19


R - As seleções com mais derrotas em Copas do Mundo FIFA, é liderada pelo o México que lista 25 derrotas ao longo de sua longa trajetória no torneio. Em segundo lugar aparece a Alemanha, com 22 derrotas, um número que chama a atenção especialmente considerando o alto número de vitórias que também possui. Logo atrás vem a Argentina, com 21 derrotas, seguida pela França e pelos Estados Unidos, ambos com 19 partidas perdidas.

**12 - Quais os 5 países com maior número de gols marcados?**

In [0]:
%sql
SELECT
home.Pais AS Pais,
home.Gols_Casa,
away.Gols_Fora,
home.Gols_Casa + away.Gols_Fora AS Total_Gols
FROM
(SELECT Pais,
SUM(HomeTeamGoals) AS Gols_Casa
FROM (SELECT DISTINCT MatchID, HomeTeamName AS Pais, HomeTeamGoals FROM gold.wcstats)
GROUP BY Pais) home
LEFT JOIN
(SELECT Pais,
SUM(AwayTeamGoals) AS Gols_Fora
FROM (SELECT DISTINCT MatchID, AwayTeamName AS Pais, AwayTeamGoals FROM gold.wcstats)
GROUP BY Pais) away ON home.Pais = away.Pais
ORDER BY Total_Gols DESC LIMIT 5

Pais,Gols_Casa,Gols_Fora,Total_Gols
Germany,168,61,229
Brazil,176,45,221
Argentina,109,22,131
Italy,99,29,128
France,66,40,106


R - As seleções que mais balançaram as redes na história da Copa do Mundo FIFA começam com a Alemanha, que lidera o ranking com impressionantes 229 gols, sendo 168 marcados como mandante e 61 fora de casa. Em seguida vem o Brasil, que anotou 221 gols, 176 em casa e 45 como visitante, destacando seu estilo ofensivo tradicional. Na terceira posição está a Argentina, com 131 gols (109 em casa e 22 fora), seguida de perto pela Itália, que soma 128 gols no total, com 99 como mandante e 29 como visitante. Fechando o top 5 aparece a França, com 106 gols marcados, sendo 66 em casa e 40 fora.

**13 - Quais os 5 países com maior número de gols sofridos?**

In [0]:
%sql
SELECT
home.Pais AS Pais,
home.Gols_Casa,
away.Gols_Fora,
home.Gols_Casa + away.Gols_Fora AS Total_Gols
FROM
(SELECT Pais,
SUM(AwayTeamGoals) AS Gols_Casa
FROM (SELECT DISTINCT MatchID, HomeTeamName AS Pais, AwayTeamGoals FROM gold.wcstats)
GROUP BY Pais) home
LEFT JOIN
(SELECT Pais,
SUM(HomeTeamGoals) AS Gols_Fora
FROM (SELECT DISTINCT MatchID, AwayTeamName AS Pais, HomeTeamGoals FROM gold.wcstats)
GROUP BY Pais) away ON home.Pais = away.Pais
ORDER BY Total_Gols DESC LIMIT 5

Pais,Gols_Casa,Gols_Fora,Total_Gols
Germany,69,57,126
Brazil,66,36,102
Mexico,11,81,92
Argentina,44,40,84
Italy,41,36,77


R - Ss seleções que mais sofreram gols na história da Copa do Mundo FIFA, a Alemanha aparece no topo da lista com 126 gols sofridos, sendo 69 em casa e 57 fora. O Brasil vem logo em seguida, com 102 gols sofridos no total, 66 em casa e 36 como visitante. Em terceiro lugar está o México, que teve sua defesa vazada 92 vezes, com apenas 11 gols sofridos em casa, mas 81 fora de casa. A Argentina aparece em quarto com 84 gols sofridos (44 em casa e 40 fora), enquanto a Itália fecha o top 5 com 77 gols levados, sendo 41 como mandante e 36 fora.

**14 - Quais os 10 árbitros principais que mais apitaram jogos?**

In [0]:
%sql
SELECT Referee AS Arbitro, COUNT(DISTINCT MatchID) AS Total_Jogos 
FROM gold.wcstats GROUP BY Arbitro
ORDER BY Total_Jogos DESC LIMIT 10

Arbitro,Total_Jogos
Ravshan IRMATOV (UZB),9
LARRIONDA Jorge (URU),8
ARCHUNDIA Benito (MEX),8
QUINIOU Joel (FRA),8
DE BLEECKERE Frank (BEL),7
GARDEAZABAL Juan (ESP),7
GRIFFITHS Benjamin (WAL),7
SIMON Carlos (BRA),7
LANGENUS Jean (BEL),7
RODRIGUEZ Marco (MEX),7


R - Os árbitros que mais apitaram partidas na história da Copa do Mundo FIFA começam com Ravshan Irmatov, do Uzbequistão, que lidera o ranking com 9 jogos arbitrados. Logo atrás, com 8 partidas cada, estão o Uruguaio Jorge Larrionda, o Mexicano Benito Archundia e o Francês Joel Quiniou. Na sequência, com 7 jogos apitados, temos uma lista diversa de nacionalidades: o Belga Frank De Bleeckere, o Espanhol Juan Gardeazabal, o Galês Benjamin Griffiths, o Brasileiro Carlos Simon, o também Belga Jean Langenus e o Mexicano Marco Rodríguez.

**15 - Quais os 5 países com o maior número de árbitros principais?**

In [0]:
%sql
SELECT RefereeCountry AS Pais, COUNT(DISTINCT MatchID) AS Total_Jogos 
FROM gold.wcstats GROUP BY Pais
ORDER BY Total_Jogos DESC LIMIT 5

Pais,Total_Jogos
ITA,50
ENG,44
FRA,40
MEX,40
GER,35


R - Os países com maior presença de árbitros na história da Copa do Mundo FIFA começam com a Itália, cujos árbitros apitaram um total de 50 jogos, liderando esse ranking de representatividade na arbitragem. Em segundo lugar vem a Inglaterra, com 44 partidas conduzidas por seus juízes. A França e o México dividem a terceira posição, ambos com 40 jogos apitados, mostrando a tradição e a confiança da FIFA nesses países ao longo das edições. Fechando o top 5 está a Alemanha, com 35 jogos apitados por seus representantes. 

### Autoavaliação

Trabalho com ciência de dados há 6 anos, realizando modelagens, manipulações de dados e banco de dados, modelo preditivos de machine learning, entre outras atividades envolvidas, pórém o início da pós graduação, com as aulas, materiais e discusões me deu um embasamento teórico que me faltava, devido a minha experiência ter sido adquirida na prática e atráves de muita leitura.

Hoje, além da capacidade de estruturar consultas, extração, modelagem e manipução de dados, além das análise, já tenho uma forte tendência em melhorar meus códigos e análise, aplicando todo conhecimento aqui adquirido, enxugando e empregando as ferramentas com uma melhor qualidade, alinhando a prática com a teória.

A familiarização com o Python e SQL, tornou essa jornada um pouco mais tranquilo, mas não deixou de ser um desafio, a busca pela melhor metodologia, as inúmeras consultas realizadas em busca das melhores soluções e o jeito certo de aplica-las.

Tenho certeza que finalizo esse MVP muito melhor que há 4 meses atrás e diante desse cenário tenho a certeza que irei melhorar cada vez mais o meu aprendizado e entregas, tanto acadêmica quanto profissinal.