# [CDAF] Atividade 4

## Nome e matrícula
Nome: Arthur Pontes Nader
Matrícula: 2019022294

## Referências
- [1] https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html
- [2] https://socceraction.readthedocs.io/en/latest/api/generated/socceraction.xthreat.ExpectedThreat.html#socceraction.xthreat.ExpectedThreat
- [3] https://socceraction.readthedocs.io/en/latest/api/generated/socceraction.xthreat.get_successful_move_actions.html#socceraction.xthreat.get_successful_move_actions
- [4] https://socceraction.readthedocs.io/en/latest/documentation/valuing_actions/xT.html

In [1]:
# Importando bibliotecas
from tqdm import tqdm
import numpy as np
import pandas as pd
import socceraction.spadl as spd
from socceraction import xthreat as xt

### LaLiga  p/ SPADL com pré-processamentos

In [2]:
# carregando os eventos
path = r'/home/arthur/Futebol/events_Spain.json'
events = pd.read_json(path_or_buf=path)

In [3]:
# pré processamento em colunas da tabela de eventos para facilitar a conversão p/ SPADL
events = events.rename(columns={'id': 'event_id', 'eventId': 'type_id', 'subEventId': 'subtype_id',
                                'teamId': 'team_id', 'playerId': 'player_id', 'matchId': 'game_id'})
events['milliseconds'] = events['eventSec'] * 1000
events['period_id'] = events['matchPeriod'].replace({'1H': 1, '2H': 2})

In [4]:
# carregando as partidas, pois vamos saber quais times jogam em casa e fora p/ usar como parametro do SPADL
path = r'/home/arthur/Futebol/matches_Spain.json'
matches = pd.read_json(path_or_buf=path)

In [5]:
# as informações dos times de cada partida estão em um dicionário dentro da coluna 'teamsData', então vamos separar essas informações
team_matches = []
for i in tqdm(range(len(matches))):
    match = pd.DataFrame(matches.loc[i, 'teamsData']).T
    match['matchId'] = matches.loc[i, 'wyId']
    team_matches.append(match)
team_matches = pd.concat(team_matches).reset_index(drop=True)

100%|████████████████████████████████████████| 380/380 [00:01<00:00, 237.59it/s]


In [6]:
# fazendo a conversão p/ SPADL, padronizando a direção de jogo da esquerda p/ a direita e adicionando os nomes dos tipos de ações
spadl = []
game_ids = events.game_id.unique().tolist()
for g in tqdm(game_ids):
    match_events = events.loc[events.game_id == g]
    match_home_id = team_matches.loc[(team_matches.matchId == g) & (team_matches.side == 'home'), 'teamId'].values[0]
    match_actions = spd.wyscout.convert_to_actions(events=match_events, home_team_id=match_home_id)
    match_actions = spd.play_left_to_right(actions=match_actions, home_team_id=match_home_id)
    match_actions = spd.add_names(match_actions)
    spadl.append(match_actions)
spadl = pd.concat(spadl).reset_index(drop=True)

100%|█████████████████████████████████████████| 380/380 [07:11<00:00,  1.14s/it]


In [7]:
# adicionando o nome dos jogadores
path = r'/home/arthur/Futebol/players.json'
players = pd.read_json(path_or_buf=path)
players['player_name'] = players['firstName'] + ' ' + players['lastName']
players = players[['wyId', 'player_name']].rename(columns={'wyId': 'player_id'})
spadl = spadl.merge(players, on='player_id', how='left')

## Questão 1
- Crei um dataframe "shots" à partir do dataframe "spadl", contendo apenas os chutes.
- Crie 4 colunas no dataframe "shots" a serem usadas como features de um modelo de xG.
- Justifique a escolha das features.

In [8]:
shots = spadl[spadl["type_name"] == "shot"].copy()

In [9]:
#Features baseadas nos parametros do chute

shots["distancia"] = np.sqrt(np.square(105 - shots["start_x"].copy()) + np.square(34 - shots["start_y"].copy()))
shots["angulo_gol"] = np.arctan2(34 - shots["start_y"], 105 - shots["start_x"])
shots["distancia.angulo_gol"] = shots["distancia"].copy()*shots["angulo_gol"].copy()
shots["angulo_chute"] = np.arctan2(shots["end_y"].copy() - shots["start_y"].copy(), shots["end_x"].copy() - shots["start_x"].copy())

In [10]:
shots.head()

Unnamed: 0,game_id,period_id,time_seconds,team_id,player_id,start_x,start_y,end_x,end_y,original_event_id,...,result_id,action_id,type_name,result_name,bodypart_name,player_name,distancia,angulo_gol,distancia.angulo_gol,angulo_chute
20,2565548,1,57.771186,695,225089,97.65,44.88,105.0,34.0,180865315,...,0,20,shot,fail,foot,Jos\u00e9 Luis Morales Nogales,13.13,-0.976668,-12.82365,-0.976668
22,2565548,1,60.727239,695,255738,84.0,27.88,84.0,27.88,180864547,...,0,22,shot,fail,foot,Jefferson Andr\u00e9s Lerma Sol\u00eds,21.873601,0.283575,6.202799,0.0
93,2565548,1,446.986112,682,37831,92.4,29.24,92.4,29.24,180864486,...,0,93,shot,fail,foot,Carlos Arturo Bacca Ahumada,13.469135,0.361204,4.865102,0.0
96,2565548,1,488.929113,682,15214,91.35,23.12,105.0,27.2,180864491,...,0,96,shot,fail,foot,Antonio Rukavina,17.455569,0.672952,11.746753,0.290448
178,2565548,1,948.872079,695,225089,78.75,40.8,105.0,34.0,180864792,...,0,178,shot,fail,foot,Jos\u00e9 Luis Morales Nogales,27.116462,-0.253476,-6.873366,-0.253476


As features escolhidas para o modelo de xG foram as seguintes:

Distancia: representa a distância do início do chute até o centro do gol, é uma medida intuitiva e amplamente utilizada em modelos de xG. Em geral, quanto mais próxima do gol é a posição do chute, maior é a probabilidade de gol.

Angulo gol: considera o ângulo em que o chute foi dado em relação ao gol. Essa feature é relevante porque geralmente ângulos maiores tem menor chance de gol devido a maior dificuldade por parte de quem chuta.

Distancia x Angulo gol: é uma combinação da distância do chute e o ângulo em relação ao gol. Essa feature tenta capturar a interação entre esses dois aspectos do chute, que são relevantes para a previsão da probabilidade de gol.

Angulo chute: representa o ângulo do chute em relação ao eixo horizontal, também é uma medida importante, já que chutes realizados em ângulos mais agudos têm maior probabilidade de acertar o gol, porém exigem maior precisão e habilidade de quem chuta.

## Questão 2
- Crie uma coluna numérica binária "goal" no dataframe "shots" indicando se o chute resultou em gol ou não.
- Use regressão logística [1] p/ treinar (.fit(X_train, y_train)) um modelo de xG usando as features criadas na questão 1.
- Use 70% dos dados para treino e 30% para teste.
- Reporte a acurácia do modelo para os conjuntos de treino (.score(X_train, y_train)) e teste (.score(X_test, y_test)).

In [11]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

In [12]:
shots["goal"] =  shots['result_name'].map({'success': 1, 'fail': 0})

In [13]:
X, y = shots[["distancia", "angulo_gol", "distancia.angulo_gol", "angulo_chute"]].values, shots["goal"].values
X = (X[:,:] - X[:,:].mean())/X[:,:].std(ddof=1)
X, y

(array([[ 0.8382811 , -0.51887483, -1.6586338 , -0.51887483],
        [ 1.67947402, -0.39763105,  0.17183797, -0.42491283],
        [ 0.87090817, -0.39016261,  0.04314258, -0.42491283],
        ...,
        [ 1.39936504, -0.53188176, -2.45326476, -0.52280334],
        [ 1.81521626, -0.4849212 , -1.82218043, -0.49538642],
        [ 0.87090817, -0.45966305, -0.89296824, -0.40947051]]),
 array([0, 0, 0, ..., 1, 0, 0]))

In [14]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, stratify=y)

In [15]:
clf = LogisticRegression()
clf.fit(X_train, y_train)

In [16]:
clf.score(X_train, y_train)

0.8895255147717099

In [17]:
clf.score(X_test, y_test)

0.8893065998329156

## Questão 3
- Use o modelo treinado na questão 2 p/ prever a probabilidade de gol de todos os chutes do dataframe "shots". Reporte essas probabilidades no dataframe "shots" em uma coluna "xG".
- Agrupe o dataframe "shots" por "player_name" e reporte a soma dos "goal" e "xG".
- Reporte os 10 jogadores com maior xG.
- Reporte os 10 jogadores com maior diferença de Gols e xG.

In [18]:
shots['xG'] = clf.predict_proba(X)[:, 1]

In [19]:
df_aux = shots[["player_name", "goal", "xG"]]
agrupamento_df = df_aux.groupby('player_name').sum()

In [20]:
top10_xG = agrupamento_df.sort_values(by="xG", ascending=False).head(10)
top10_xG

Unnamed: 0_level_0,goal,xG
player_name,Unnamed: 1_level_1,Unnamed: 2_level_1
Cristiano Ronaldo dos Santos Aveiro,23,21.770747
Luis Alberto Su\u00e1rez D\u00edaz,24,17.720356
Lionel Andr\u00e9s Messi Cuccittini,26,16.466265
Gerard Moreno Balaguero,15,14.97528
Maximiliano G\u00f3mez Gonz\u00e1lez,18,13.019199
Cristhian Ricardo Stuani Curbelo,16,11.967994
Iago Aspas Juncal,19,11.457824
Enrique Garc\u00eda Mart\u00ednez,8,10.590815
Jonathan Calleri,4,10.408095
Ra\u00fal Garc\u00eda Escudero,7,10.173836


In [21]:
agrupamento_df["goal - xG"] = agrupamento_df["goal"].copy() - agrupamento_df["xG"].copy()

In [22]:
top10_dif = agrupamento_df.sort_values(by="goal - xG", ascending=False).head(10)
top10_dif

Unnamed: 0_level_0,goal,xG,goal - xG
player_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Lionel Andr\u00e9s Messi Cuccittini,26,16.466265,9.533735
Antoine Griezmann,16,6.920137,9.079863
Iago Aspas Juncal,19,11.457824,7.542176
Luis Alberto Su\u00e1rez D\u00edaz,24,17.720356,6.279644
Gareth Frank Bale,15,8.802585,6.197415
Mikel Oyarzabal Ugarte,12,5.960206,6.039794
Rodrigo Moreno Machado,15,9.275436,5.724564
\u00c1ngel Luis Rodr\u00edguez D\u00edaz,13,7.434832,5.565168
Philippe Coutinho Correia,8,2.723876,5.276124
Maximiliano G\u00f3mez Gonz\u00e1lez,18,13.019199,4.980801


## Questão 4 [4]
- Instancie um objeto ExpectedThreat [2] com parâmetros l=25 e w=16.
- Faça o fit do modelo ExpectedThreat com o dataframe "spadl".

In [30]:
modelo = xt.ExpectedThreat(l=25, w=16)

In [31]:
modelo.fit(spadl)

# iterations:  30


<socceraction.xthreat.ExpectedThreat at 0x7f7469388160>

## Questão 5
- Crie um dataframe "prog_actions" à partir do dataframe "spadl", contendo apenas as ações de progressão e que são bem-sucedidas [3].
- Use o método rate do objeto ExpectedThreat p/ calcular o valor de cada ação de progressão do dataframe "prog_actions", em uma coluna chamada "action_value".
- Agrupe o dataframe "prog_actions" por "player_name" e reporte a soma dos "action_value".
- Reporte os 10 jogadores com maior "action_value".

In [32]:
prog_actions = xt.get_successful_move_actions(spadl)

In [33]:
prog_actions["action_value"] = modelo.rate(prog_actions)

In [34]:
df_action_value = prog_actions[["player_name", "action_value"]]
agrupamento_action_value = df_action_value.groupby('player_name').sum()

In [35]:
top10_action_value = agrupamento_action_value.sort_values(by="action_value", ascending=False).head(10)
top10_action_value

Unnamed: 0_level_0,action_value
player_name,Unnamed: 1_level_1
Lionel Andr\u00e9s Messi Cuccittini,10.650189
Marcelo Vieira da Silva J\u00fanior,10.264535
\u00c1lvaro Odriozola Arzallus,8.708854
Jos\u00e9 Luis Morales Nogales,7.81904
Hugo Mallo Novegil,7.431915
Juan Francisco Moreno Fuertes,7.281309
\u00c9ver Maximiliano David Banega,7.01516
Lucas V\u00e1zquez Iglesias,6.908507
Jordi Alba Ramos,6.824937
Jos\u00e9 Luis Gay\u00e1 Pe\u00f1a,6.81135
