**INICIAR SESSÃO SPARK**

In [None]:
from pyspark.sql import SparkSession

In [None]:
spark = SparkSession.builder.getOrCreate()
spark

**CARREGAR DADOS**

In [None]:
# Cria um dataframe a partir do arquivo CSV para análise
csv_path = 'data_raw/results.csv'
df = spark.read.csv(csv_path, header=True)

In [None]:
# Cria uma view tamporária a partir do dataframe para executar consultas SQL
df.createOrReplaceTempView('tab')

In [None]:
df.show()

**ANALISAR DADOS**

In [None]:
# ================ QUESTÕES ================

# 1. Quantos registros existem na base? 
# 2. Quantas equipes únicas mandantes existem na base? 
# 3. Quantas vezes as equipes mandantes saíram vitoriosas? 
# 4. Quantas vezes as equipes visitantes saíram vitoriosas? 
# 5. Quantas partidas resultaram em empate?
# 6. Quantas partidas foram realizadas em cada país?
# 7. Qual país teve mais partidas?
# 8. Qual a partida com maior número de gols?
# 9. Qual a maior goleada?
# 10. Quantos jogos ocorreram no Brasil?

In [None]:
# 1. Quantos registros existem na base? 

query1 = """
SELECT COUNT(*) AS total
FROM tab
"""

df1 = spark.sql(query1)
df1.show()

total = df1.select("total").first()[0] # Armazena o resultado

In [None]:
# 2. Quantas equipes únicas mandantes existem na base?

query2 = """
SELECT COUNT(DISTINCT home_teamName) AS equipes_mandantes
FROM tab
"""

df2 = spark.sql(query2)
df2.show()

In [None]:
# 3. Quantas vezes as equipes mandantes saíram vitoriosas? 

query3 = """
SELECT COUNT(*) AS mandantes_vitoriosos
FROM tab
WHERE home_scoreHome > away_scoreAway
"""

df3 = spark.sql(query3)
df3.show()

mandantes_vitoriosos = df3.select("mandantes_vitoriosos").first()[0] # Armazena o resultado

In [None]:
# 4. Quantas vezes as equipes visitantes saíram vitoriosas? 

query4 = """
SELECT COUNT(*) AS visitantes_vitoriosos
FROM tab
WHERE away_scoreAway > home_scoreHome
"""

df4 = spark.sql(query4)
df4.show()

visitantes_vitoriosos = df4.select("visitantes_vitoriosos").first()[0] # Armazena o resultado

In [None]:
# 5. Quantas partidas resultaram em empate?

query5 = """
SELECT COUNT(*) AS empates
FROM tab
WHERE away_scoreAway = home_scoreHome
"""

df5 = spark.sql(query5)
df5.show()

empates = df5.select("empates").first()[0] # Armazena o resultado

In [None]:
# Valida os resultados das questões 3 à 5

validacao = mandantes_vitoriosos + visitantes_vitoriosos + empates
print(f'Validação: {validacao}\nTotal: {total}')

In [None]:
# 6. Quantas partidas foram realizadas em cada país?

query6 = """
select
    countryCountry as pais,
    count(countryCountry) as qtd_partidas
from tab
group by pais
order by qtd_partidas desc
"""

df_6 = spark.sql(query6)
df_6.show()

In [None]:
# 7. Qual país teve mais partidas?

query7 = """
select
    countryCountry as pais,
    count(countryCountry) as qtd_partidas
from tab
group by pais
order by qtd_partidas desc
limit 1
"""

df_7 = spark.sql(query7)
df_7.show()

In [None]:
# 8. Qual a partida com maior número de gols?

query8 = """
select
    date,
    home_teamName,
    away_teamName,
    concat(date, home_teamName, away_teamName) as chave_uniq,
    (home_scoreHome + away_scoreAway) as total_gols
from tab
order by total_gols desc
limit 1
"""

df_8 = spark.sql(query8)
df_8.show()

In [None]:
# 9. Qual a maior goleada?

query9 = """
select
    date,
    home_teamName,
    away_teamName,
    --concat(date, home_teamName, away_teamName) as chave_uniq,
    home_scoreHome,
    away_scoreAway,
    abs(home_scoreHome - away_scoreAway) as diferenca,
    (home_scoreHome + away_scoreAway) as total_gols
from tab
order by diferenca desc
limit 1
"""

df_9 = spark.sql(query9)
df_9.show()

In [None]:
# 10. Quantos jogos ocorreram no Brasil?

query10 = """
select
    countryCountry as pais,
    count(countryCountry) as qtd_partidas
from tab
where countryCountry = "Brazil"
group by pais
order by qtd_partidas desc
"""

df_10 = spark.sql(query10)
df_10.show()