# MVP - Engenharia de Dados
## Autor: Marcel Antonio Lopes Pereira

## Objetivo:

Este MVP tem como objetivo construir um pipeline de dados utilizando tecnologias em nuvem para buscar, coletar, modelar, carregar e analisar dados hist√≥ricos do futebol de sele√ß√µes masculinas. O prop√≥sito central √© responder a uma quest√£o amplamente debatida entre torcedores e especialistas:

**Existe alguma sele√ß√£o nacional masculina dominante na hist√≥ria do futebol a ponto de ser considerada a melhor de todos os tempos?**

Para explorar essa quest√£o, o pipeline permitir√° a an√°lise de algumas perguntas-chave, que ajudar√£o a identificar as sele√ß√µes que se destacaram ao longo da hist√≥ria:

1. **Qual sele√ß√£o tem o maior n√∫mero de vit√≥rias em jogos oficiais e amistosos?**  
   Identificar as sele√ß√µes com o maior n√∫mero de vit√≥rias em diferentes tipos de jogos, fornecendo uma base para medir a consist√™ncia no desempenho.

2. **Qual sele√ß√£o tem a melhor taxa de aproveitamento (pontos ganhos por jogo)?**  
   Avaliar a efici√™ncia das sele√ß√µes, levando em considera√ß√£o o n√∫mero de pontos conquistados em rela√ß√£o aos jogos disputados, ajudando a medir o desempenho em termos de consist√™ncia.

3. **Qual sele√ß√£o tem o maior saldo de gols (gols marcados - gols sofridos) em toda a hist√≥ria?**  
   Analisar o saldo de gols das sele√ß√µes, refletindo sua capacidade ofensiva e defensiva ao longo do tempo.

4. **Qual sele√ß√£o tem o maior n√∫mero de vit√≥rias contra outras grandes sele√ß√µes (top 10 do ranking da FIFA)?**  
   Analisar o desempenho das sele√ß√µes contra as mais fortes equipes do mundo, refletindo sua competitividade no cen√°rio global.

5. **Qual sele√ß√£o tem a maior sequ√™ncia invicta em toda a hist√≥ria?**  
   Identificar quais sele√ß√µes mantiveram longas sequ√™ncias sem derrotas, um bom indicativo de consist√™ncia e resist√™ncia ao longo do tempo.

6. **Qual sele√ß√£o tem o maior n√∫mero de jogos sem sofrer gols em toda a hist√≥ria?**  
   Analisar a capacidade defensiva das sele√ß√µes, refletindo uma defesa s√≥lida e organiza√ß√£o t√°tica eficaz ao longo dos anos.

7. **Quais sele√ß√µes tiveram os artilheiros mais consistentes e como o desempenho desses jogadores est√° relacionado com o sucesso da equipe?**  
   Relacionar o desempenho individual dos artilheiros com o desempenho da sele√ß√£o, ajudando a identificar como a contribui√ß√£o dos goleadores impactou as vit√≥rias e o sucesso da equipe ao longo da hist√≥ria.



## Estrutura do Pipeline

O pipeline de dados ser√° estruturado em tr√™s camadas principais:

- **Bronze:** coleta e armazenamento dos dados brutos conforme os arquivos originais.  
- **Silver:** limpeza, padroniza√ß√£o e transforma√ß√£o dos dados brutos, garantindo consist√™ncia e qualidade para as an√°lises. Nesta etapa, ser√£o tratados problemas como dados ausentes, duplicidades e formata√ß√£o inadequada.  
- **Gold:** modelagem anal√≠tica dos dados para responder √†s perguntas de neg√≥cio, al√©m da otimiza√ß√£o para consultas complexas, garantindo efici√™ncia na extra√ß√£o de insights e facilitando a an√°lise explorat√≥ria e preditiva.

A an√°lise final dos dados ser√° realizada em um notebook espec√≠fico, onde todas as perguntas levantadas ser√£o respondidas. A partir dos resultados obtidos, ser√° poss√≠vel avaliar, com base em dados, quais sele√ß√µes se destacam historicamente e se alguma delas pode ser considerada a mais dominante de todos os tempos.





## Busca dos dados:

Na busca dos dados necess√°rios para solu√ß√£o do problema, foi escolhida o Kaggle como fonte para obten√ß√£o dos mesmos. Nesse processo, foram escolhidos dois conjuntos de dados que s√£o descritos a seguir.

O primeiro conjunto √© referente aos resultados de partidas entre sele√ß√µes no per√≠odo entre 1872 e 2025. Nesses dados n√£o est√£o inclu√≠dos os resultados de partidas em Jogos Ol√≠m√≠picos, com sele√ß√µes nacionais B, sub-23 e sele√ß√µes com melhores jogadores de ligas. O link de acesso a esse conjunto de dados √© o seguinte:
https://www.kaggle.com/datasets/martj42/international-football-results-from-1872-to-2017

Esses dados foram publicados pelo usu√°rio Mart J√ºrisoo e s√£o de dom√≠nio p√∫blico (CC0: Public Domain). O conjunto possui 4 arquivos do tipo csv: results.csv (resultados das partidas); shootouts.csv (disputas de penalties); goalscorers.csv (marcadores de gols); former_names.csv (nomes anteriores das equipes).

O segundo conjunto √© referente ao Ranking da FIFA de sele√ß√µes no per√≠odo de 1992 a 2024. Est√£o listadas as posi√ß√µes dos times e suas mudan√ßas ao longo do tempo dentro desse intervalo. O link de acesso a esse conjunto de dados √© o seguinte:
https://www.kaggle.com/datasets/cashncarry/fifaworldranking

Esses dados forma publicados pelo usu√°rio Alex e tamb√©m s√£o de dom√≠nio p√∫blico (CC0: Public Domain). Apesar do conjunto possuir 3 arquivos do tipo csv, somente foi utilizado um deles nesse trabalho: fifa_ranking-2024-06-20.csv (Lista de Rankings at√© 20-06-24).

## Coleta, modelagem e carga dos dados:

Ap√≥s identificar os dados necess√°rios para o problema, √© realizada a coleta e a carga dos mesmos para o ambiente de nuvem. Foi utilizado nesse processo o sistema de armazenamento do Datrabricks com utiliza√ß√£o do framework Spark para carga dos dados.


In [0]:
# Importando as bibliotecas necess√°rias para carga e manipula√ß√£o das tabelas
import pandas as pd

### Camada Bronze

Na camada bronze, s√£o importados os dados no seu formato bruto a partir dos arquivos csv de origem. S√£o realizados scripts relativos a cria√ß√£o da database onde ser√£o armazenados as tabelas da camada bronze.

In [0]:
%sql
-- Desfazendo o database bronze para ser "recriado"
DROP DATABASE IF EXISTS bronze CASCADE;

In [0]:
%sql 
-- Criando o database bronze
CREATE DATABASE bronze;

Ap√≥s a cria√ß√£o do database, os arquivos CSV s√£o carregados utilizando a biblioteca Pandas para gerar DataFrames a partir dos respectivos arquivos. Foi realizado download dos arquivos no Kaggle e os mesmos foram salvos no mesmo reposit√≥rio onde esse Notebook est√° alocado. Em seguida, esses DataFrames s√£o convertidos para o formato Spark e armazenados como tabelas no sistema de armazenamento em nuvem do Databricks, dentro da camada Bronze do database criado.

In [0]:
# Dicion√°rio com os nomes das tabelas e URLs dos arquivos
csv_files = {
    "results": "https://raw.githubusercontent.com/MarcelLopes7/Engenharia-de-Dados/refs/heads/main/results.csv",
    "shootouts": "https://raw.githubusercontent.com/MarcelLopes7/Engenharia-de-Dados/refs/heads/main/shootouts.csv",
    "goalscorers": "https://raw.githubusercontent.com/MarcelLopes7/Engenharia-de-Dados/refs/heads/main/goalscorers.csv",
    "former_names": "https://raw.githubusercontent.com/MarcelLopes7/Engenharia-de-Dados/refs/heads/main/former_names.csv",
    "fifa_ranking": "https://raw.githubusercontent.com/MarcelLopes7/Engenharia-de-Dados/refs/heads/main/fifa_ranking-2024-06-20.csv"
}

# Loop para carregar, converter e salvar cada arquivo
for table_name, url in csv_files.items():
    # Carregar o CSV como DataFrame Pandas
    df = pd.read_csv(url)
    
    # Converter para DataFrame Spark
    spark_df = spark.createDataFrame(df)
    
    # Salvar como tabela na camada bronze
    spark_df.write.mode("overwrite").saveAsTable(f"bronze.{table_name}")

    print(f"Tabela bronze.{table_name} carregada com sucesso.")


Tabela bronze.results carregada com sucesso.
Tabela bronze.shootouts carregada com sucesso.
Tabela bronze.goalscorers carregada com sucesso.
Tabela bronze.former_names carregada com sucesso.
Tabela bronze.fifa_ranking carregada com sucesso.


Ap√≥s a execu√ß√£o dos script acima, a camada bronze foi constru√≠da com as tabelas. Em seguida, s√£o realizadas verifica√ß√µes Spark SQL para confirmar a cria√ß√£o das tabelas. 


In [0]:
# Lista de tabelas que foram criadas
tables = ["results", "shootouts", "goalscorers", "former_names", "fifa_ranking"]

# Exibindo as 10 primeiras linhas de cada tabela
for table in tables:
    print(f"üîç Exibindo 10 primeiras linhas da tabela bronze.{table}")
    display(spark.sql(f"SELECT * FROM bronze.{table} LIMIT 10"))

# Exibindo o esquema de cada tabela
for table in tables:
    print(f"üìä Esquema da tabela bronze.{table}")
    spark.sql(f"DESCRIBE TABLE bronze.{table}").show()


üîç Exibindo 10 primeiras linhas da tabela bronze.results


date,home_team,away_team,home_score,away_score,tournament,city,country,neutral
1872-11-30,Scotland,England,0,0,Friendly,Glasgow,Scotland,False
1873-03-08,England,Scotland,4,2,Friendly,London,England,False
1874-03-07,Scotland,England,2,1,Friendly,Glasgow,Scotland,False
1875-03-06,England,Scotland,2,2,Friendly,London,England,False
1876-03-04,Scotland,England,3,0,Friendly,Glasgow,Scotland,False
1876-03-25,Scotland,Wales,4,0,Friendly,Glasgow,Scotland,False
1877-03-03,England,Scotland,1,3,Friendly,London,England,False
1877-03-05,Wales,Scotland,0,2,Friendly,Wrexham,Wales,False
1878-03-02,Scotland,England,7,2,Friendly,Glasgow,Scotland,False
1878-03-23,Scotland,Wales,9,0,Friendly,Glasgow,Scotland,False


üîç Exibindo 10 primeiras linhas da tabela bronze.shootouts


date,home_team,away_team,winner,first_shooter
1967-08-22,India,Taiwan,Taiwan,
1971-11-14,South Korea,Vietnam Republic,South Korea,
1972-05-07,South Korea,Iraq,Iraq,
1972-05-17,Thailand,South Korea,South Korea,
1972-05-19,Thailand,Cambodia,Thailand,
1973-04-21,Senegal,Ghana,Ghana,
1973-06-14,Guinea,Mali,Guinea,
1973-06-14,Mauritius,Tanzania,Mauritius,
1973-07-26,Malaysia,Kuwait,Malaysia,
1973-07-26,Cambodia,Singapore,Singapore,


üîç Exibindo 10 primeiras linhas da tabela bronze.goalscorers


date,home_team,away_team,team,scorer,minute,own_goal,penalty
1916-07-02,Chile,Uruguay,Uruguay,Jos√© Piendibene,44.0,False,False
1916-07-02,Chile,Uruguay,Uruguay,Isabelino Grad√≠n,55.0,False,False
1916-07-02,Chile,Uruguay,Uruguay,Isabelino Grad√≠n,70.0,False,False
1916-07-02,Chile,Uruguay,Uruguay,Jos√© Piendibene,75.0,False,False
1916-07-06,Argentina,Chile,Argentina,Alberto Ohaco,2.0,False,False
1916-07-06,Argentina,Chile,Chile,Tel√©sforo B√°ez,44.0,False,False
1916-07-06,Argentina,Chile,Argentina,Juan Domingo Brown,60.0,False,True
1916-07-06,Argentina,Chile,Argentina,Juan Domingo Brown,62.0,False,True
1916-07-06,Argentina,Chile,Argentina,Alberto Marcovecchio,67.0,False,False
1916-07-06,Argentina,Chile,Argentina,Alberto Ohaco,75.0,False,False


üîç Exibindo 10 primeiras linhas da tabela bronze.former_names


current,former,start_date,end_date
Benin,Dahomey,1959-11-08,1975-11-30
Burkina Faso,Upper Volta,1960-04-14,1984-08-04
Cura√ßao,Netherlands Antilles,1957-03-03,2010-10-10
Czechoslovakia,Bohemia,1903-04-05,1919-01-01
Czechoslovakia,Bohemia and Moravia,1939-01-01,1945-05-01
Czechoslovakia,Representation of Czechs and Slovaks,1993-03-24,1993-11-17
DR Congo,Belgian Congo,1948-05-25,1956-01-02
DR Congo,Congo-L√©opoldville,1963-04-12,1964-07-19
DR Congo,Congo-Kinshasa,1965-01-09,1970-11-24
DR Congo,Za√Øre,1971-01-10,1997-04-27


üîç Exibindo 10 primeiras linhas da tabela bronze.fifa_ranking


rank,country_full,country_abrv,total_points,previous_points,rank_change,confederation,rank_date
140.0,Brunei Darussalam,BRU,2.0,0.0,140,AFC,1992-12-31
33.0,Portugal,POR,38.0,0.0,33,UEFA,1992-12-31
32.0,Zambia,ZAM,38.0,0.0,32,CAF,1992-12-31
31.0,Greece,GRE,38.0,0.0,31,UEFA,1992-12-31
30.0,Algeria,ALG,39.0,0.0,30,CAF,1992-12-31
29.0,Yugoslavia,YUG,39.0,0.0,29,UEFA,1992-12-31
28.0,Wales,WAL,40.0,0.0,28,UEFA,1992-12-31
27.0,C√¥te d'Ivoire,CIV,41.0,0.0,27,CAF,1992-12-31
34.0,Austria,AUT,38.0,0.0,34,UEFA,1992-12-31
26.0,Bulgaria,BUL,41.0,0.0,26,UEFA,1992-12-31


üìä Esquema da tabela bronze.results
+----------+---------+-------+
|  col_name|data_type|comment|
+----------+---------+-------+
|      date|   string|   null|
| home_team|   string|   null|
| away_team|   string|   null|
|home_score|   bigint|   null|
|away_score|   bigint|   null|
|tournament|   string|   null|
|      city|   string|   null|
|   country|   string|   null|
|   neutral|  boolean|   null|
+----------+---------+-------+

üìä Esquema da tabela bronze.shootouts
+-------------+---------+-------+
|     col_name|data_type|comment|
+-------------+---------+-------+
|         date|   string|   null|
|    home_team|   string|   null|
|    away_team|   string|   null|
|       winner|   string|   null|
|first_shooter|   string|   null|
+-------------+---------+-------+

üìä Esquema da tabela bronze.goalscorers
+---------+---------+-------+
| col_name|data_type|comment|
+---------+---------+-------+
|     date|   string|   null|
|home_team|   string|   null|
|away_team|   strin

Nesta etapa do projeto, foi conclu√≠da a ingest√£o dos dados brutos provenientes de diversos arquivos CSV hist√≥ricos relacionados √†s sele√ß√µes nacionais de futebol, utilizando o Spark no Databricks. Com a cria√ß√£o de tabelas na camada bronze, os dados foram armazenados em sua forma original, preservando todas as informa√ß√µes com a maior fidelidade poss√≠vel.

Agora que a camada bronze est√° criada e os dados est√£o prontos para an√°lise, a pr√≥xima etapa do trabalho ser√° a constru√ß√£o da camada silver, onde ser√° feita a limpeza, transforma√ß√£o e integra√ß√£o dos dados para garantir que estejam no formato adequado para an√°lises mais complexas.

A camada silver ser√° respons√°vel por aprimorar a qualidade dos dados, identificando e corrigindo inconsist√™ncias, transformando vari√°veis e aplicando quaisquer outras transforma√ß√µes necess√°rias para garantir que os dados estejam prontos para a an√°lise e constru√ß√£o de modelos na camada gold.

Com isso, segue-se para a pr√≥xima fase do pipeline de dados, garantindo que os dados estejam cada vez mais preparados para responder √†s quest√µes relacionadas √† domin√¢ncia das sele√ß√µes nacionais no futebol.