# Футбольные данные: Ожидаемые голы и другие показатели

## Текстовое описание выбранного набора данных

В качестве набора данных мы будем использовать [Extended Football Stats and Expected Goals (xG)](https://www.kaggle.com/slehkyi/extended-football-stats-for-european-leagues-xg) - лучшие европейские лиги расширенная статистика, начиная с 2014 года, включает в себя показатели xG.

Набор данных содержит сводные статистические данные по итогам каждого сезона с 2014 года для 6 Лиг УЕФА:

*	La Liga
*	EPL
*	BundesLiga
*	Serie A
*	Ligue 1
*	RFPL


Стандартные параметры: позиция (`position`), команда (`team`), количество сыгранных матчей (`amount of matches played`), победы (`wins`), ничьи (`draws`), поражения (`loses`), забитые голы (`goals scored`), пропущенные голы (`goals missed`), очки (`points`).

Дополнительные показатели:

*	`xG` - показатель ожидаемых голов - это статистический показатель качества созданных и пропущенных моментов.
*	`xG_diff` - разница между фактическими забитыми голами и ожидаемыми голами.
*	`npxG` - ожидаемые голы без пенальти и собственные голы.
*	`xGA` - ожидаемые цели против.
*	`xGA_diff` - разница между фактическими пропущенными голами и ожидаемыми голами против.
*	`npxGA` - ожидаемые голы в ворота без пенальти и собственные голы.
*	`npxGD` - разница между "за" и "против" ожидаемых голов без пенальти и собственных голов.
*	`ppda_coef` - пропуски, разрешенные за оборонительное действие на половине поля соперника (сила давления).
*	`oppda_coef` - пасы соперника, разрешенные за оборонительное действие на половине поля соперника (сила давления соперника).
*	`deep` - пасы, выполненные примерно в 20 ярдах от ворот (исключаются кресты)
*	`deep_allowed` - пасы соперника, выполненные примерно в 20 ярдах от ворот (исключаются кресты).
*	`xpts` - ожидаемые баллы.
*	`xpts_diff` - разница между фактическими и ожидаемыми баллами.

## Загрузка git-репозитория в текущее окружение

In [None]:
%cd /content/
!mkdir gitrepos
%cd /content/gitrepos/
!git clone https://github.com/anondigriz/inginirium-course-ai

In [None]:
!ls '/content/gitrepos/inginirium-course-ai/src/05-02-2022/datasets/Extended Football Stats and Expected Goals' -l

## Загрузка датасета

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# 'Магическая' функция matplotlib
%matplotlib inline 

# Есть пять предустановленная тем Seaborn: darkgrid, whitegrid, dark, white, 
# и ticks. Каждый из них подходит для различных приложений и личных предпочтений.
sns.set(style="ticks")

In [None]:
CURENT_DIR = '/content/gitrepos/inginirium-course-ai/src/05-02-2022/datasets/Extended Football Stats and Expected Goals'

In [None]:
# загрузка данных из csv
data = pd.read_csv(CURENT_DIR+'/understat.com.csv', sep=',')

# изучение типа объекта, создаваемого функцией pd.read_csv
print(type(data))

# вывод первых 5 строк из датасета
data.head()

## Исследование основных характеристик датасета


### Исследование внешних признаков датасета

In [None]:
data.dtypes

In [None]:
data.shape

In [None]:
data.isna().sum()

In [None]:
data.head()

Кодирование категорий целочисленными значениями - label encoding:

In [None]:
from sklearn.preprocessing import LabelEncoder

LebEncoders = {'Unnamed: 0' : LabelEncoder(), 'team' : LabelEncoder()}

# LabelEncoder может использоваться для нормализации меток (кодирование меток со значением от 0 до n_classes-1)
col_le_make = LebEncoders['team'].fit_transform(data['team']) # взять исходные метки и вернуть зашифрованные надписи
np.unique(col_le_make)

In [None]:
# Заменяем столбцы нашим энкодером
for col in LebEncoders:
    data[col] = LebEncoders[col].fit_transform(data[col])