<h1 style='color: blue; font-size: 34px; font-weight: bold;'> Projeto Proposto 
</h1>

<p style='font-size: 18px; line-height: 2; margin: 0px 0px; text-align: justify; text-indent: 0px;'>    
<i> Este projeto baseia-se na aplicação de Técnicas de PySpark em uma Análise Exploratória nos dados de Futebol na Europa. </i>       
</p>  

# <font color='red' style='font-size: 40px;'> Library  </font>

In [17]:
## Bibliotecas De Manipulação de Dados e Visualização
import pandas as pd 
import matplotlib.pyplot as plt
import seaborn as sns
from pyspark.sql import SparkSession, Row 
import pyspark.sql.functions as F

## Bibliotecas de Modelagem Matemática e Estatística
import numpy as np
import scipy as sp 
import statsmodels.api as sm
import statsmodels.formula.api as smf

# Bibliotecas de Manipulação de Tempo
from datetime import datetime, date


# Parâmetros de Otimização
import warnings
%matplotlib inline
sns.set()
plt.rcParams['font.family'] = 'Arial'
plt.rcParams['font.size'] = '14'
plt.rcParams['figure.figsize'] = [10, 5]
pd.set_option('display.max_rows', 100)
pd.set_option('display.max_columns', 100)
pd.set_option('display.float_format', lambda x: '%.2f' % x) # Tira os números do formato de Notação Científica
np.set_printoptions(suppress=True) # Tira os números do formato de Notação Científica em Numpy Arrays
warnings.filterwarnings('ignore')
warnings.simplefilter(action='ignore', category=FutureWarning) # Retira Future Warnings

# <font color='red' style='font-size: 40px;'> Entendimento da Base de Dados </font>

In [2]:
spark = SparkSession.builder.appName('Soccer').getOrCreate()

## 1) Country 

In [3]:
df_country = spark.read.option('header', 'True').csv('../10_analise_exploratoria_spark_futebol/data/Country.csv')
df_country.show()

+-----+-----------+
|   id|       name|
+-----+-----------+
|    1|    Belgium|
| 1729|    England|
| 4769|     France|
| 7809|    Germany|
|10257|      Italy|
|13274|Netherlands|
|15722|     Poland|
|17642|   Portugal|
|19694|   Scotland|
|21518|      Spain|
|24558|Switzerland|
+-----+-----------+



## 2) League 

In [4]:
df_league = spark.read.option('header', 'True').csv('../10_analise_exploratoria_spark_futebol/data/League.csv')
df_league.show()

+-----+----------+--------------------+
|   id|country_id|                name|
+-----+----------+--------------------+
|    1|         1|Belgium Jupiler L...|
| 1729|      1729|England Premier L...|
| 4769|      4769|      France Ligue 1|
| 7809|      7809|Germany 1. Bundes...|
|10257|     10257|       Italy Serie A|
|13274|     13274|Netherlands Eredi...|
|15722|     15722|  Poland Ekstraklasa|
|17642|     17642|Portugal Liga ZON...|
|19694|     19694|Scotland Premier ...|
|21518|     21518|     Spain LIGA BBVA|
|24558|     24558|Switzerland Super...|
+-----+----------+--------------------+



## 3) Match 

In [5]:
df_match = spark.read.option('header', 'True').csv('../10_analise_exploratoria_spark_futebol/data/Match.csv')
df_match.show()

+---+----------+---------+---------+-----+-------------------+------------+----------------+----------------+--------------+
| id|country_id|league_id|   season|stage|               date|match_api_id|home_team_api_id|away_team_api_id|home_team_goal|
+---+----------+---------+---------+-----+-------------------+------------+----------------+----------------+--------------+
|  1|         1|        1|2008/2009|    1|2008-08-17 00:00:00|      492473|            9987|            9993|             1|
|  2|         1|        1|2008/2009|    1|2008-08-16 00:00:00|      492474|           10000|            9994|             0|
|  3|         1|        1|2008/2009|    1|2008-08-16 00:00:00|      492475|            9984|            8635|             0|
|  4|         1|        1|2008/2009|    1|2008-08-17 00:00:00|      492476|            9991|            9998|             5|
|  5|         1|        1|2008/2009|    1|2008-08-16 00:00:00|      492477|            7947|            9985|             1|


## 4) Team 

In [6]:
df_team = spark.read.option('header', 'True').csv('../10_analise_exploratoria_spark_futebol/data/Team.csv')
df_team.show()

+----+-----------+----------------+--------------------+---------------+
|  id|team_api_id|team_fifa_api_id|      team_long_name|team_short_name|
+----+-----------+----------------+--------------------+---------------+
|   1|       9987|             673|            KRC Genk|            GEN|
|   2|       9993|             675|        Beerschot AC|            BAC|
|   3|      10000|           15005|    SV Zulte-Waregem|            ZUL|
|   4|       9994|            2007|    Sporting Lokeren|            LOK|
|   5|       9984|            1750|   KSV Cercle Brugge|            CEB|
|   6|       8635|             229|      RSC Anderlecht|            AND|
|   7|       9991|             674|            KAA Gent|            GEN|
|   8|       9998|            1747|           RAEC Mons|            MON|
|   9|       7947|            null|       FCV Dender EH|            DEN|
|  10|       9985|             232|   Standard de Liège|            STL|
|  11|       8203|          110724|         KV Mech

In [7]:
df_team_attributes = spark.read.option('header', 'True').csv('../10_analise_exploratoria_spark_futebol/data/Team_Attributes.csv')
df_team_attributes.show()

+---+----------------+-----------+-------------------+----------------+---------------------+--------------------+-------------------------+------------------+-----------------------+
| id|team_fifa_api_id|team_api_id|               date|buildUpPlaySpeed|buildUpPlaySpeedClass|buildUpPlayDribbling|buildUpPlayDribblingClass|buildUpPlayPassing|buildUpPlayPassingClass|
+---+----------------+-----------+-------------------+----------------+---------------------+--------------------+-------------------------+------------------+-----------------------+
|  1|             434|       9930|2010-02-22 00:00:00|              60|             Balanced|                null|                   Little|                50|                  Mixed|
|  2|             434|       9930|2014-09-19 00:00:00|              52|             Balanced|                48.0|                   Normal|                56|                  Mixed|
|  3|             434|       9930|2015-09-10 00:00:00|              47|         

## 5) Player 

In [8]:
df_player = spark.read.option('header', 'True').csv('../10_analise_exploratoria_spark_futebol/data/Player.csv')
df_player.show()

+---+-------------+--------------------+------------------+-------------------+------+------+
| id|player_api_id|         player_name|player_fifa_api_id|           birthday|height|weight|
+---+-------------+--------------------+------------------+-------------------+------+------+
|  1|       505942|  Aaron Appindangoye|            218353|1992-02-29 00:00:00|182.88|   187|
|  2|       155782|     Aaron Cresswell|            189615|1989-12-15 00:00:00|170.18|   146|
|  3|       162549|         Aaron Doran|            186170|1991-05-13 00:00:00|170.18|   163|
|  4|        30572|       Aaron Galindo|            140161|1982-05-08 00:00:00|182.88|   198|
|  5|        23780|        Aaron Hughes|             17725|1979-11-08 00:00:00|182.88|   154|
|  6|        27316|          Aaron Hunt|            158138|1986-09-04 00:00:00|182.88|   161|
|  7|       564793|          Aaron Kuhl|            221280|1996-01-30 00:00:00|172.72|   146|
|  8|        30895|        Aaron Lennon|            152747|1

In [9]:
df_player_attributes = spark.read.option('header', 'True').csv('../10_analise_exploratoria_spark_futebol/data/Player_Attributes.csv')
df_player_attributes.show()

+---+------------------+-------------+-------------------+--------------+---------+--------------+-------------------+-------------------+--------+
| id|player_fifa_api_id|player_api_id|               date|overall_rating|potential|preferred_foot|attacking_work_rate|defensive_work_rate|crossing|
+---+------------------+-------------+-------------------+--------------+---------+--------------+-------------------+-------------------+--------+
|  1|            218353|       505942|2016-02-18 00:00:00|          67.0|     71.0|         right|             medium|             medium|    49.0|
|  2|            218353|       505942|2015-11-19 00:00:00|          67.0|     71.0|         right|             medium|             medium|    49.0|
|  3|            218353|       505942|2015-09-21 00:00:00|          62.0|     66.0|         right|             medium|             medium|    49.0|
|  4|            218353|       505942|2015-03-20 00:00:00|          61.0|     65.0|         right|             m

# <font color='red' style='font-size: 40px;'> Perguntas a serem Respondidas </font>

- Quantas partidas há em cada liga na temporada de 2016?

- Qual Liga teve mais partidas empatadas na temporada de 2016?

- Qual Liga teve mais vitórias na temporada de 2016?

- Qual Liga teve mais gols na temporada de 2016?

- Quais equipes tiveram mais vitórias em partidas na temporada de 2016 em cada uma de suas Ligas?

- Quais equipes perderam menos partidas na temporada de 2016 em cada uma de suas Ligas?

- Quais equipes melhoraram mais ao longo do período em cada uma de suas Ligas?

- Quais jogadores tiveram mais penalidades?

- Quantos jogadores têm em cada um dos intervalos de classificação geral?

- Qual a Distribuição da diferença entre o primeiro e o último gol?

- Quais jogadores tiveram crescimento no número de gols durante o ano?

- Quais atributos de equipe levam a mais vitórias?

- Quais os principais atributos que contribuem para a classificação geral dos jogadores?


- Quantas partidas há em cada liga na temporada de 2016? 

In [29]:
df_match.createOrReplaceTempView('df_match')
df_match_sql = spark.sql("""
SELECT
    *,
    YEAR(date) as year
FROM df_match
""")
df_match_sql.show()

+---+----------+---------+---------+-----+-------------------+------------+----------------+----------------+--------------+----+
| id|country_id|league_id|   season|stage|               date|match_api_id|home_team_api_id|away_team_api_id|home_team_goal|year|
+---+----------+---------+---------+-----+-------------------+------------+----------------+----------------+--------------+----+
|  1|         1|        1|2008/2009|    1|2008-08-17 00:00:00|      492473|            9987|            9993|             1|2008|
|  2|         1|        1|2008/2009|    1|2008-08-16 00:00:00|      492474|           10000|            9994|             0|2008|
|  3|         1|        1|2008/2009|    1|2008-08-16 00:00:00|      492475|            9984|            8635|             0|2008|
|  4|         1|        1|2008/2009|    1|2008-08-17 00:00:00|      492476|            9991|            9998|             5|2008|
|  5|         1|        1|2008/2009|    1|2008-08-16 00:00:00|      492477|            794

In [10]:
df_league.show()

+-----+----------+--------------------+
|   id|country_id|                name|
+-----+----------+--------------------+
|    1|         1|Belgium Jupiler L...|
| 1729|      1729|England Premier L...|
| 4769|      4769|      France Ligue 1|
| 7809|      7809|Germany 1. Bundes...|
|10257|     10257|       Italy Serie A|
|13274|     13274|Netherlands Eredi...|
|15722|     15722|  Poland Ekstraklasa|
|17642|     17642|Portugal Liga ZON...|
|19694|     19694|Scotland Premier ...|
|21518|     21518|     Spain LIGA BBVA|
|24558|     24558|Switzerland Super...|
+-----+----------+--------------------+

