# Per iniziare clicca su *Cell* nella barra e poi clicca su *Run all below*

Inizializzazione del contesto Spark.

Nota:
> Il contesto si può lanciare una sola volta perché una volta caricato rimane online
> 
> Per lanciare le singole celle usa il tasto *Run*

In [1]:
from pyspark import SparkContext
from pyspark.sql import SQLContext

sc = SparkContext("local", "FantaStats")
spark = SQLContext(sc)

Nel seguente blocco ci vanno le funzioni:
- `loadCSV` si usa per caricare i file e per normalizzare i nomi dei calciatori.
- `prefix` si usa per aggiungere un prefisso ai nomi dei campi in modo da riconoscerli

In [2]:
from pyspark.sql.functions import *

def loadCSV(sdf, filename):
    df = sdf.load(filename)
    return df.withColumn("Gi", regexp_replace("Gi", " ", "-"))
    
def prefix(sdf, prefix):
      for c in sdf.columns:
          sdf = sdf.withColumnRenamed(c, '{}{}'.format(prefix, c))
      return sdf

Qui si caricano i file in memoria.

la variable `current_players` ha le informazioni relativamente ai giocatori della stagione *2019-2020* con la loro quotazione.

In [3]:
csvContext = spark.read.format("csv").option("header", "true").option("delimiter", ";")

players_2015 = prefix(loadCSV(csvContext, "2015-2016.csv"), "_2015_")
players_2016 = prefix(loadCSV(csvContext, "2016-2017.csv"), "_2016_")
players_2017 = prefix(loadCSV(csvContext, "2017-2018.csv"), "_2017_")
players_2018 = prefix(loadCSV(csvContext, "2018-2019.csv"), "_2018_")
current_players = prefix(loadCSV(csvContext, "2019-2020.csv"), "c_")

Qui mettiamo in join tutti i file. 

I file vengono messi in `left join` con i giocatori della stagione corrente. 

Per questo motivo alcuni dei giocatori potrebbero non avere statistiche perché non hanno mai giocato nel campionato italiano.

In [4]:
current_2015 = current_players.join(players_2015, current_players.c_Gi == players_2015._2015_Gi, how='left')
current_2015_2016 = current_2015.join(players_2016, current_2015.c_Gi == players_2016._2016_Gi, how='left')
current_2015_2016_2017 = current_2015_2016.join(players_2017, current_2015_2016.c_Gi == players_2017._2017_Gi, how='left')
current_2015_2016_2017_2018 = current_2015_2016_2017.join(players_2018, current_2015_2016_2017.c_Gi == players_2018._2018_Gi, how='left')

Una volta fatti i join, i dati vengono associati insieme a partire dal *2018-2019* al *2015-2016*.

In [5]:
columns_to_drop = ["_2018_Gi", "_2017_Gi", "_2016_Gi", "_2015_Gi",
                  "_2015_S", "_2016_S", "_2017_S", "_2018_S",
                  "_2015_Au", "_2016_Au", "_2017_Au", "_2018_Au",
                  "_2015_R", "_2016_R", "_2017_R", "_2018_R",
                  "_2015_IAM", "_2016_IAM", "_2017_IAM", "_2018_IAM", ]

finalRoster = current_2015_2016_2017_2018.drop(*columns_to_drop)

as_agg = ["_2018_As", "_2017_As", "_2016_As", "_2015_As"]
finalRoster = finalRoster.withColumn("Assist", concat_ws(",", *as_agg)).drop(*as_agg)

mv_agg = ["_2018_MV", "_2017_MV", "_2016_MV", "_2015_MV"]
finalRoster = finalRoster.withColumn("MV", concat_ws(",", *mv_agg)).drop(*mv_agg)

fmv_agg = ["_2018_FMV", "_2017_FMV", "_2016_FMV", "_2015_FMV"]
finalRoster = finalRoster.withColumn("FMV", concat_ws(",", *fmv_agg)).drop(*fmv_agg)

am_agg = ["_2018_Am", "_2017_Am", "_2016_Am", "_2015_Am"]
finalRoster = finalRoster.withColumn("Ammonizioni", concat_ws(",", *am_agg)).drop(*am_agg)

rp_agg = ["_2018_RP", "_2017_RP", "_2016_RP", "_2015_RP"]
finalRoster = finalRoster.withColumn("Rigori Parati", concat_ws(",", *rp_agg)).drop(*rp_agg)

g_agg = ["_2018_G", "_2017_G", "_2016_G", "_2015_G"]
finalRoster = finalRoster.withColumn("Goal Fatti", concat_ws(",", *g_agg)).drop(*g_agg)

es_agg = ["_2018_Es", "_2017_Es", "_2016_Es", "_2015_Es"]
finalRoster = finalRoster.withColumn("Espulsioni", concat_ws(",", *es_agg)).drop(*es_agg)

gs_agg = ["_2018_Gs", "_2017_Gs", "_2016_Gs", "_2015_Gs"]
finalRoster = finalRoster.withColumn("Goal Subiti", concat_ws(",", *gs_agg)).drop(*gs_agg)

p_agg = ["_2018_P", "_2017_P", "_2016_P", "_2015_P"]
finalRoster = finalRoster.withColumn("Presenze", concat_ws(",", *p_agg)).drop(*p_agg)

rs_agg = ["_2018_RS", "_2017_RS", "_2016_RS", "_2015_RS"]
finalRoster = finalRoster.withColumn("Rigori Sbagliati", concat_ws(",", *rs_agg)).drop(*rs_agg)

finalRoster = finalRoster.withColumnRenamed("c_R", "Ruolo")
finalRoster = finalRoster.withColumnRenamed("c_S", "Squadra")
finalRoster = finalRoster.withColumnRenamed("c_GI", "Nome")
finalRoster = finalRoster.withColumnRenamed("c_Q", "Quotazione")

Ogni ruolo ha dei campi che non interessano, per esempio gli assist per i portieri. Ricorda che devi sempre assegnare la variabile al risultato.

Qui filtriamo per ruolo ed eliminiamo i campi non interessanti.

I metodi disponibili li puoi trovare qui. Generalmente puoi usare *sql like* queries dentro i metodi, guarda per esempio `filter`: https://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html#pyspark.sql.DataFrame

In [8]:
columns_to_drop_keepers = ["Assist", "Rigori Sbagliati", "Ruolo", "Goal Fatti"]
keepers = finalRoster.filter("Ruolo == 'P'").drop(*columns_to_drop_keepers)

Per mostrare il risultato finale basta usare il metodo `display` e chiamare `.toPandas()` sul dataframe.

In [9]:
display(keepers.toPandas())

Unnamed: 0,Squadra,Nome,Quotazione,MV,FMV,Ammonizioni,Rigori Parati,Espulsioni,Goal Subiti,Presenze
0,INTER,HANDANOVIC-Samir,20,"6.3,6.36,6.36,6.39","5.42,5.53,5.07,5.46",0045,0011,0000,33304734,37363536
1,JUVENTUS,SZCZESNY-Wojciech,19,"6.18,6.15,6.33,6.21","5.55,5.64,5.49,5.19",0001,1020,0000,2093834,25173834
2,MILAN,DONNARUMMA-Gianluigi,18,"6.32,6.05,6.42,6.25","5.49,4.89,5.32,5.23",4223,1020,0000,30424529,34373630
3,NAPOLI,MERET-Alex,17,"6.18,6.35","5.46,5.58",00,02,10,916,1413
4,TORINO,SIRIGU-Salvatore,17,"6.49,6.36","5.67,5.38",12,23,00,3544,3636
5,ROMA,LOPEZ-Pau,16,,,,,,,
6,LAZIO,STRAKOSHA-Thomas,15,"6.09,6.27,6.1","4.91,5.03,4.83",421,010,000,394926,343721
7,ATALANTA,GOLLINI-Pierluigi,15,"6.18,6.43,6.12,6.21","5.1,5.89,5.75,4.48",1012,0000,0000,214144,207426
8,CAGLIARI,CRAGNO-Alessio,14,"6.53,6.2","5.25,4.84",10,22,00,5445,3828
9,FIORENTINA,DRAGOWSKI-Bartolomiej,13,"6.5,5.17,6","5.12,3.38,4.67",200,100,000,2582,1631
