In [12]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

In [13]:
spark = SparkSession.builder.appName("ColabSpark").getOrCreate()
bf1 = spark.read.format('csv').load('/content/data_bronze/results_8ABDR.csv')

In [14]:
bf1 = spark.read.csv('/content/data_bronze/results_8ABDR.csv',header=True,sep=',')

In [15]:
bf1.show(n=5)

+----------+-------------+-------------+--------------+--------------+--------------+--------+--------------+-----------+
|      date|home_teamName|away_teamName|home_scoreHome|away_scoreAway|tournamentName|cityCity|countryCountry|neutralTRUE|
+----------+-------------+-------------+--------------+--------------+--------------+--------+--------------+-----------+
|1872-11-30|     Scotland|      England|             0|             0|      Friendly| Glasgow|      Scotland|      FALSE|
|1873-03-08|      England|     Scotland|             4|             2|      Friendly|  London|       England|      FALSE|
|1874-03-07|     Scotland|      England|             2|             1|      Friendly| Glasgow|      Scotland|      FALSE|
|1875-03-06|      England|     Scotland|             2|             2|      Friendly|  London|       England|      FALSE|
|1876-03-04|     Scotland|      England|             3|             0|      Friendly| Glasgow|      Scotland|      FALSE|
+----------+------------

In [16]:
bf = (
    bf1
    .withColumnRenamed('date','data')
    .withColumnRenamed('home_teamName','Mandante')
    .withColumnRenamed('away_teamName','Vistante')
    .withColumnRenamed('home_scoreHome','Placar_Mandante')
    .withColumnRenamed('away_scoreAway','Placar_Visitante')
    .withColumnRenamed('tournamentName','Torneio')
    .withColumnRenamed('cityCity','Cidade')
    .withColumnRenamed('countryCountry','País')
    .withColumnRenamed('neutralTRUE','NEUTRO')
)

In [17]:
#1 - Quantos registros existem na base?
total_records = bf.count()
print(f"Número total de registros: {total_records}")

Número total de registros: 40839


In [18]:
#2 - Quantas equipes únicas mandantes existem na base?
distinct_home_teams_count = bf.select(col("Mandante")).distinct().count()
print(f"Número de equipes mandantes únicas: {distinct_home_teams_count}")

Número de equipes mandantes únicas: 309


In [19]:
#3 - Quantas vezes as equipes mandantes saíram vitoriosas?

home_team_victories = bf.filter(
    col("Placar_Mandante") > col("Placar_Visitante")
).count()

print(f"Número de vezes que as equipes mandantes saíram vitoriosas: {home_team_victories}")

Número de vezes que as equipes mandantes saíram vitoriosas: 19856


In [20]:
#4 - Quantas vezes as equipes visitantes saíram vitoriosas?
visitor_team_victories =bf.filter(
    col("Placar_Visitante") > col("Placar_Mandante")
).count()

print(f"Número de vezes que as equipes visitantes saíram vitoriosas: {visitor_team_victories}")

Número de vezes que as equipes visitantes saíram vitoriosas: 11552


In [21]:
#5 - Quantas partidas resultaram em empate?
draw =bf.filter(
    col("Placar_Mandante") == col("Placar_Visitante")
).count()

print(f"Número de vezes que as equipes visitantes saíram vitoriosas: {draw}")

Número de vezes que as equipes visitantes saíram vitoriosas: 9431


In [22]:
#6 - Quantas partidas foram realizadas em cada país?
bf.groupBy("País").count().orderBy(col("count").desc()).show()

+--------------------+-----+
|                País|count|
+--------------------+-----+
|       United States| 1144|
|              France|  801|
|             England|  687|
|            Malaysia|  644|
|              Sweden|  637|
|             Germany|  581|
|              Brazil|  529|
|               Spain|  517|
|            Thailand|  483|
|               Italy|  480|
|         Switzerland|  477|
|             Austria|  475|
|United Arab Emirates|  472|
|        South Africa|  470|
|               Qatar|  467|
|         South Korea|  453|
|           Argentina|  449|
|             Hungary|  431|
|               Chile|  405|
|             Belgium|  396|
+--------------------+-----+
only showing top 20 rows



In [23]:
#7 - Qual país teve mais partidas?
bf.groupBy("País").count().orderBy(col("count").desc()).limit(1).show()

+-------------+-----+
|         País|count|
+-------------+-----+
|United States| 1144|
+-------------+-----+



In [24]:
#8 - Qual a partida com maior número de gols?
bf.withColumn("total_goals", col("Placar_Mandante") + col("Placar_Visitante")) \
  .orderBy(col("total_goals").desc()) \
  .select("data", "Mandante", "Vistante", "Placar_Mandante", "Placar_Visitante", "total_goals") \
  .limit(1).show()


+----------+---------+--------------+---------------+----------------+-----------+
|      data| Mandante|      Vistante|Placar_Mandante|Placar_Visitante|total_goals|
+----------+---------+--------------+---------------+----------------+-----------+
|2001-04-11|Australia|American Samoa|             31|               0|       31.0|
+----------+---------+--------------+---------------+----------------+-----------+



In [25]:
#9 - Qual a maior goleada?
bf.withColumn("diff", col("Placar_Mandante") - col("Placar_Visitante")) \
  .orderBy(col("diff").desc()) \
  .select("data", "Mandante", "Vistante", "Placar_Mandante", "Placar_Visitante", "diff") \
  .limit(1).show()

+----------+---------+--------------+---------------+----------------+----+
|      data| Mandante|      Vistante|Placar_Mandante|Placar_Visitante|diff|
+----------+---------+--------------+---------------+----------------+----+
|2001-04-11|Australia|American Samoa|             31|               0|31.0|
+----------+---------+--------------+---------------+----------------+----+



In [26]:
#10 - Quantos jogos ocorreram no Brasil?
bf.filter(col("País") == "Brazil").count()

529