# Проект Анализ и визуализация личной статистики футболиста

- Все данные собраны и внесены в базу. (07.09.2024)
- Проект находится в стадии подготовки данных. (08.09.2024)
- Проект находится на этапе исследовательского анализа. (24.09.2024)

## Задачи и план проекта
- Собрать и структурировать данные по проведенным футбольным матчам футболиста Лукашевича Тимофея.
- Провести предобработку данных с помощью библиотек Python.
- Провести исследовательский анализ данных, найти закономерности и проверить статистические гипотезы.
- Подготовить интерактивный дашборд с помощью BI-системы Tableau.

**План проекта**

1. **Сбор данных.**
    - Собрать данные об официальных матчах футболиста с портала Transfermarkt: [Transfermarkt - Тимофей Лукашевич](https://www.transfermarkt.world/timofey-lukashevich/leistungsdaten/spieler/498018).
    - Собрать данные по товарищеским матчам и матчам второй лиги в составе ФК Макслайн.
    - Собрать данные по матчам в составе ФК Трактор.
    - Собрать данные по товарищеским матчам в составе ФК Луч и ФК Дняпро.
    - Собрать данные по матчам за дублирующий состав ФК Динамо Минск и товарищеским матчам.

2. **Предобработка данных.**
    - Привести данные в удобный для чтения вид: преобразовать колонки и данные в самих колонках.
    - Выделить новые столбцы из имеющихся.

3. **Исследовательский анализ данных.**
    - Проанализировать количество матчей по каждому из турниров, соотношение побед, забитых голов командой и соотношение проведенных матчей на натуральных и искусственных полях.
    - Определить лидеров по показателям (больше всего матчей против, 'любимый' стадион, город и т.д.).

4. **Корреляционный анализ.**
    - Исследовать корреляцию показателей и найти закономерности.

5. **Проверка гипотез.**
    - Проверить гипотезы: действительно ли в домашних матчах больше побед, чем в гостевых? Правда ли, что на искусственных полях забивается больше мячей, чем на натуральных? И другие гипотезы.

6. **Создание дашборда.**
    - Подготовить удобный интерактивный дашборд в Tableau с визуализациями показателей.

7. **Выводы и наблюдения.**
    - Сформулировать выводы и наблюдения на основе проведенного анализа.

## Сбор данных

- Добавлены данные по официальным играм с сайта Transfermarkt (07.07.2024).
- Добавлены данные с информацией о товарищеских и официальных играх из открытых официальных источников футбольных команд и занесены вручную в таблицу (05.08.2024):
  - 'Луч' (группа ВК и Instagram)
  - 'Макслайн' (группа ВК)
  - 'Дняпро' (группа ВК)
  - 'Трактор' (группа ВК)
- Получены протоколы официальных матчей в составе футбольного клуба 'Динамо-Минск' и занесены в таблицу вручную (07.09.2024).

## Загрузка данных

Импорт необходимых для работы библиотек:

In [1]:
import pandas as pd

Загрузка данных. Данные хранятся на локальном устройстве в виде документа Excel.

In [2]:
path = 'D:\\da_projects\\pet-project\\'
df = pd.read_excel(path+ 'lukashevich_stat.xlsx', sheet_name='list')
display(df.head())
df.info()

Unnamed: 0,дата,моя команда,голы команды,голы против,соперник,место,исскуственное/натуральное,дом гости,турнир,минуты,позиция,гол ассист,карточка
0,2015-07-11,Динамо Дубль,1,1,неман дубль,стайки,нат,д,дуб,30,п,0,0
1,2015-08-22,Динамо Дубль,3,3,жодино дубль,жодино исск,исск,г,дуб,15,п,0,0
2,2015-08-29,Динамо Дубль,0,3,минск дубль,стайки,нат,д,дуб,70,п,0,0
3,2015-09-11,Динамо Дубль,1,4,гранит дубль,лунинец,исск,г,дуб,30,п,0,0
4,2016-02-12,Динамо Дубль,2,1,сморгонь,сморгонь исск,исск,г,тов,75,п,0,0


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 231 entries, 0 to 230
Data columns (total 13 columns):
 #   Column                     Non-Null Count  Dtype         
---  ------                     --------------  -----         
 0   дата                       231 non-null    datetime64[ns]
 1   моя команда                231 non-null    object        
 2   голы команды               231 non-null    int64         
 3   голы против                231 non-null    int64         
 4   соперник                   231 non-null    object        
 5   место                      231 non-null    object        
 6   исскуственное/натуральное  231 non-null    object        
 7   дом гости                  231 non-null    object        
 8   турнир                     231 non-null    object        
 9   минуты                     231 non-null    int64         
 10  позиция                    231 non-null    object        
 11  гол ассист                 231 non-null    object        
 12  карточка


- Размер датафрейма: 13 колонок и 231 строка.
- Преобразование типов: 
  - Исходя из того, что данных немного, значения в колонках не будут преобразовываться в булев или категориальный тип, где это возможно.
  - Приоритет выбран в пользу лучшей читаемости таблицы.

## Предобработка данных

### Названия колонок

Заменим названия колонок в соответствии с правилами Snake Case на латинице:

In [3]:
df.columns

Index(['дата', 'моя команда', 'голы команды', 'голы против', 'соперник',
       'место', 'исскуственное/натуральное', 'дом гости', 'турнир', 'минуты',
       'позиция', 'гол ассист', 'карточка'],
      dtype='object')

In [4]:
df.columns = [
    'date', 'my_team', 'team_goals', 'opponent_goals', 'opponent', 'stadium', 'surface_type', 'home_away',
    'tournament', 'minutes_played', 'position', 'goal_assist', 'card'
]
df.columns

Index(['date', 'my_team', 'team_goals', 'opponent_goals', 'opponent',
       'stadium', 'surface_type', 'home_away', 'tournament', 'minutes_played',
       'position', 'goal_assist', 'card'],
      dtype='object')

### Дубликаты и пропущенные значения

Проверим наличие дубликатов и пропущенных значений. Их быть не должно, но стоит убедиться.

In [5]:
print(
    f'Дубликаты:\n {df.duplicated().sum()}\n'
    f'Пропущенные значения:\n {df.isna().sum()}'
)

Дубликаты:
 0
Пропущенные значения:
 date              0
my_team           0
team_goals        0
opponent_goals    0
opponent          0
stadium           0
surface_type      0
home_away         0
tournament        0
minutes_played    0
position          0
goal_assist       0
card              0
dtype: int64


### Замена значений в колонках и поиск дубликатов значений

**Тип покрытия**
- natural - травяной газон
- artificial - искусственное покрытие

In [6]:
df['surface_type'].unique()

array(['нат', 'исск'], dtype=object)

In [7]:
df['surface_type'] = df['surface_type'].apply(lambda x: 'natural' if x == 'нат' else 'artificial')
df['surface_type'].unique()

array(['natural', 'artificial'], dtype=object)

**Домашняя/Гостевая игра**
- home - домашняя
- away - гостевая
- neutral - нейтральное поле

In [8]:
df['home_away'].unique()

array(['д', 'г', 'н'], dtype=object)

In [9]:
df['home_away'] = df['home_away'].replace({'д': 'home', 'г': 'away', 'н': 'neutral'})
df['home_away'].unique()

array(['home', 'away', 'neutral'], dtype=object)

**Турнир**
- reserve -  Reserve League, Чемпионат среди дублеров РБ
- friendly - Friendly Match, товарищеская игра
- premier -  Premier League, Высшая Лига ЧБ
- first - First League, Первая Лига ЧБ
- second - Second League, Вторая Лига ЧБ
- cup - Cup of Belarus, Кубок РБ

In [10]:
df['tournament'].unique()

array(['дуб', 'тов', 1, 'кубок рб', 'высшая', 'д', 2], dtype=object)

In [11]:
df['tournament'] = df['tournament'].replace(
    {'дуб': 'reserve', 'тов': 'friendly', 1: 'first',
     'кубок рб':'cup', 'высшая':'premier', 'д':'reserve', 2:'second'}
)
df['tournament'].unique()

array(['reserve', 'friendly', 'first', 'cup', 'premier', 'second'],
      dtype=object)

**Позиция на поле**
- CM - центральный полузащитник (при 4-4-2 или 3-4-3)
- RCB - правый центральный защитник (в тройке центральных)
- CB - центральный защитник (при двух центральных)
- DM - опорный полузащитник (при 4-1-4-1 и подобных)
- CAM - центральный атакующий полузащитник (инсайд)
- RM - правый полузащитник
- RB - правый защитник

In [12]:
df['position'].unique()

array(['п', 'пцз', 'цз', 'цоп', 'цап', 'пп', 'пз'], dtype=object)

In [13]:
df['position'] = df['position'].replace(
    {'цоп':'DM', 'п':'CM', 'цз':'CB', 'пцз':'RCB', 'цап':'CAM', 'пз':'RB', 'пп':'RM'}
)
df['position'].unique()

array(['CM', 'RCB', 'CB', 'DM', 'CAM', 'RM', 'RB'], dtype=object)

**Голы/Передачи**
- G - гол
- A - голевая передача
- OG - автогол

In [14]:
df['goal_assist'].unique()

array([0, '1г', '1гп', '2г', '1а', '1+1', '1аг'], dtype=object)

In [15]:
df['goal_assist'] = df['goal_assist'].replace(
    {'1г':'G', '1а':'A', '1гп':'A', '2г':'2G', '1+1':'G+A', '1аг':'OG'}
)
df['goal_assist'].unique()

array([0, 'G', 'A', '2G', 'G+A', 'OG'], dtype=object)

**Карточки**
- YC - желтая карточка
- 2YC - вторая желтая карточка (и удаление соответственно)
- RC - прямая красная карточка

In [16]:
df['card'].unique()

array([0, 'жк', 'ж', '2жк'], dtype=object)

In [17]:
df['card'] = df['card'].replace({'ж':'YC', 'жк':'YC', '2жк':'2YC'})
df['card'].unique()

array([0, 'YC', '2YC'], dtype=object)

**Названия команд**

Переименуем названия команд. Для каждой команды город будет указан последним словом, а страна будет в скобках (в случае, если команда не из Беларуси). Приписка в скобках (res) в конце строки будет означать, что команда является дублирующим составом. Приписки U- и Youth будут располагаться в начале строки.

In [18]:
df['my_team'].str.lower().sort_values().unique()

array(['арсенал', 'гранит', 'динамо дубль', 'динамо минск', 'дняпро',
       'дняпро д', 'луч', 'луч д', 'макслайн', 'мол сб беларуси',
       'трактор'], dtype=object)

In [19]:
df['opponent'].str.lower().sort_values().unique()

array(['арсенал дзержинск', 'барановичи', 'батэ', 'батэ дубль', 'бгу',
       'белшина', 'белшина дубль', 'брабранд дания', 'брест дубль',
       'бумпром гомель', 'бунёдкор(ташкент)', 'бфсо динамо',
       'вертикаль калинковичи', 'виктория марьина горка', 'витебск',
       'витебск дубль', 'волна пинск', 'волынь(луцк)', 'голху ',
       'голху гомель', 'гомель', 'гомель д', 'городея', 'городея д',
       'городея дубль', 'гранит', 'гранит дубль', 'динамо брест',
       'динамо брест д', 'динамо минск', 'динамо минск д',
       'динамо минск дубль', 'днепр могилев', 'дордой(бишкек)', 'жлобин',
       'жодино дубль', 'жодино-южное', 'звезда бгу', 'иртыш(казахстан)',
       'ислочь', 'ислочь дубль', 'колос', 'крумкачи', 'крумкачы',
       'крумкачы дубль', 'крылья советов мол(россия)', 'лида',
       'локо гомель', 'локомотив', 'локомотив тбилиси', 'луч минск',
       'минск', 'минск ', 'минск u-19', 'минск д', 'минск дубль',
       'мнпз мозырь', 'мол сб беларуси ', 'мол сб латвии',
  

In [20]:
team_translation = {
    'арсенал': 'Arsenal Dzerzhinsk', 'гранит': 'Granit Mikashevichi', 'динамо дубль': 'Dinamo Minsk (res)', 'динамо минск': 'Dinamo Minsk', 
    'дняпро': 'Dnipro Mogilev','дняпро д': 'Dnipro Mogilev (res)','луч': 'Luch Minsk','луч д': 'Luch Minsk (res)','макслайн': 'Maxline Rogachev',
    'мол сб беларуси': 'U-21 Belarus', 'трактор': 'Traktor Minsk',
    'арсенал дзержинск': 'Arsenal Dzerzhinsk', 'барановичи': 'Baranovichi', 'батэ': 'BATE Borisov', 'батэ дубль': 'BATE Borisov (res)', 
    'бгу': 'BSU Minsk', 'белшина': 'Belshina Bobruisk', 'белшина дубль': 'Belshina Bobruisk (res)', 'брабранд дания': 'Brabrand Aarhus (Denmark)', 
    'брест дубль': 'Dinamo Brest (res)', 'бумпром гомель': 'Bumprom Gomel', 'бунёдкор(ташкент)': 'Bunyodkor Tashkent (Uzbekistan)', 
    'бфсо динамо': 'BFSO Dinamo Minsk', 'вертикаль калинковичи': 'Vertikal Kalinkovichi', 'виктория марьина горка': 'Viktoria Maryina-Gorka', 
    'витебск': 'Vitebsk', 'витебск дубль': 'Vitebsk (res)', 'волна пинск': 'Volna Pinsk', 'волынь(луцк)': 'Volyn Lutsk (Ukraine)',
    'голху ': 'GOLHU Gomel', 'голху': 'GOLHU Gomel', 'голху гомель': 'GOLHU Gomel', 'гомель': 'Gomel', 'гомель д': 'Gomel (res)',
    'городея': 'Gorodeya', 'городея д': 'Gorodeya (res)', 'городея дубль': 'Gorodeya (res)', 'гранит дубль': 'Granit Mikashevichi (res)', 
    'динамо брест': 'Dinamo Brest', 'динамо брест д': 'Dinamo Brest (res)', 'динамо минск д': 'Dinamo Minsk (res)',
    'динамо минск дубль': 'Dinamo Minsk (res)', 'днепр могилев': 'Dnepr Mogilev', 'дордой(бишкек)': 'Dordoi Bishkek (Kyrgyzstan)',
    'жлобин': 'Zhlobin', 'жодино дубль': 'Torpedo Zhodino (res)', 'жодино-южное': 'Zh-Y Zhodino', 'звезда бгу': 'Zvezda-BSU Minsk',
    'иртыш(казахстан)': 'Irtysh Pavlodar (Kazakhstan)', 'ислочь': 'Isloch Minsk', 'ислочь дубль': 'Isloch Minsk (res)', 'колос': 'Kolos Cherven',
    'крумкачи': 'Krumkachy Minsk', 'крумкачы': 'Krumkachy Minsk', 'крумкачы дубль': 'Krumkachy Minsk (res)', 
    'крылья советов мол(россия)': 'Youth Krylya Sovetov Samara (Russia)', 'лида': 'Lida', 'локо гомель': 'Lokomotiv Gomel', 
    'локомотив': 'Lokomotiv Gomel', 'локомотив тбилиси': 'Lokomotiv Tbilisi (Georgia)', 'луч минск': 'Luch Minsk', 'минск': 'Minsk', 
    'минск ': 'Minsk', 'минск u-19': 'U-19 Minsk', 'минск д': 'Minsk (res)', 'минск дубль': 'Minsk (res)', 
    'мнпз мозырь': 'MNPS Mozyr', 'мол сб беларуси': 'U-21 Belarus', 'мол сб латвии': 'U-21 Latvia', 'мол сб беларуси ':'U-21 Belarus',
    'мол сб россии': 'U-21 Russia', 'молодечно': 'Molodechno', 'монтажник мозырь': 'Montazhnik Mozyr', 
    'нафтан': 'Naftan Novopolotsk', 'нафтан дубль': 'Naftan Novopolotsk (res)', 'неман': 'Neman Grodno', 'неман агро': 'Neman Stolbtsy', 
    'неман дубль': 'Neman Grodno (res)', 'неман столбцы': 'Neman Stolbtsy', 'нпз мозырь': 'MNPS Mozyr', 'орша': 'Orsha', 
    'осиповичи': 'Osipovichi', 'островец': 'Ostrovets', 'ошмяны': 'Oshmyany', 'паневежис(литва)': 'Panevezys (Lithuania)', 
    'полоцк': 'Polotsk', 'рубин мол': 'U-21 Rubin Kazan (Russia)', 'рух брест': 'Rukh Brest', 'рух(украина)': 'Rukh Lviv (Ukraine)', 
    'сб беларуси u-17': 'U-17 Belarus', 'светлогорск': 'Khimik Svetlogorsk', 'серебрянка': 'Serebryanka Minsk', 'славия мозырь': 'Slavia Mozyr', 
    'славия мозырь дубль': 'Slavia Mozyr (res)', 'слоним': 'Slonim', 'слуцк дубль': 'Slutsk (res)', 
    'смена гродно': 'Smena Grodno', 'смолевичи': 'Smolevichi', 'сморгонь': 'Smorgon', 'спутник речица': 'Sputnik Rechitsa', 
    'стэнлес': 'Stanles Pinsk', 'текстильщик(россия)': 'Tekstilschik Ivanovo (Russia)', 'торпедо': 'Torpedo Zhodino', 'торпедо минск': 'Torpedo Minsk', 
    'тракай(литва)': 'Trakai (Lithuania)', 'урожайная': 'Urozhaynaya Minsk', 'фк минск': 'Minsk', 'фк слуцк': 'Slutsk', 
    'фридек-мистек(чехия)': 'Frydek-Mistek (Czechia)', 'химик светлогорск': 'Khimik Svetlogorsk', 'шахтер дубль': 'Shakhtyor Soligorsk (res)', 
    'шахтер петриков': 'Shakhtyor Petrikov', 'шахтер солигорск': 'Shakhtyor Soligorsk', 'энергетик-бгату': 'Energetik-BGATU Minsk', 
    'энергетик-бгу': 'Zvezda-BSU Minsk', 'энергетик-бгу д': 'Zvezda-BSU Minsk (res)', 'юас житковичи': 'YAS Zhitkovichi', 
    'юни': 'Uni Minsk', 'ягелония польша': 'Jagiellonia Bialystok (Poland)'
}

In [21]:
df['my_team'] = df['my_team'].str.lower().replace(team_translation)
df['opponent'] = df['opponent'].str.lower().replace(team_translation)
print(df['my_team'].sort_values().unique())
df['opponent'].sort_values().unique()

['Arsenal Dzerzhinsk' 'Dinamo Minsk' 'Dinamo Minsk (res)' 'Dnipro Mogilev'
 'Dnipro Mogilev (res)' 'Granit Mikashevichi' 'Luch Minsk'
 'Luch Minsk (res)' 'Maxline Rogachev' 'Traktor Minsk' 'U-21 Belarus']


array(['Arsenal Dzerzhinsk', 'BATE Borisov', 'BATE Borisov (res)',
       'BFSO Dinamo Minsk', 'BSU Minsk', 'Baranovichi',
       'Belshina Bobruisk', 'Belshina Bobruisk (res)',
       'Brabrand Aarhus (Denmark)', 'Bumprom Gomel',
       'Bunyodkor Tashkent (Uzbekistan)', 'Dinamo Brest',
       'Dinamo Brest (res)', 'Dinamo Minsk', 'Dinamo Minsk (res)',
       'Dnepr Mogilev', 'Dordoi Bishkek (Kyrgyzstan)',
       'Energetik-BGATU Minsk', 'Frydek-Mistek (Czechia)', 'GOLHU Gomel',
       'Gomel', 'Gomel (res)', 'Gorodeya', 'Gorodeya (res)',
       'Granit Mikashevichi', 'Granit Mikashevichi (res)',
       'Irtysh Pavlodar (Kazakhstan)', 'Isloch Minsk',
       'Isloch Minsk (res)', 'Jagiellonia Bialystok (Poland)',
       'Khimik Svetlogorsk', 'Kolos Cherven', 'Krumkachy Minsk',
       'Krumkachy Minsk (res)', 'Lida', 'Lokomotiv Gomel',
       'Lokomotiv Tbilisi (Georgia)', 'Luch Minsk', 'MNPS Mozyr', 'Minsk',
       'Minsk (res)', 'Molodechno', 'Montazhnik Mozyr',
       'Naftan Novopol

**Место проведения матча**

В этой колонке хранится место проведения встречи. В некоторых записях указаны только названия городов  - в таких случаях подразумевается, что это основной стадион в городе, в этих записях может быть разный тип покрытия в соответствующей колонке: натуральное или искусственное. Если игра проходит на другом стадионе, после названия города добавляется описание этого стадиона. Для того чтобы можно было выделить город в отдельную колонку, необходимо переименовать значения, чтобы город всегда был указан первым словом.

In [22]:
df['stadium'].str.lower().sort_values().unique()

array(['атлант новополоцк', 'барановичи исск', 'барановичи нат',
       'белек(турция)', 'бобруйск', 'бобруйск нат', 'бобруйск прокопенко',
       'борисов арена нат', 'борисов городской', 'брест нат',
       'брест савушкин', 'бцоцор брест', 'веста', 'витебск нат',
       'гомель база', 'гомель локо нат', 'гомель манеж', 'городея нат',
       'гродно исск', 'гродно манеж', 'динамо-юни', 'жлобин',
       'жодино исск', 'жодино торпедо', 'кфп минск', 'лида нат',
       'литва вильнюс', 'лунинец', 'марьина горка', 'маяковка',
       'минск победителей', 'могилев', 'могилев нат', 'мозырь ',
       'мозырь нат', 'молодечно нат', 'несвиж', 'огонек', 'озерный нат',
       'озерный смолевичи', 'октябрьский смолевичский р-н', 'орша нат',
       'осиповичи', 'осиповичи нат', 'островец', 'ошмяны', 'петриков',
       'пинск исск', 'пинск нат', 'пинск фут манеж', 'плиса смолевичи',
       'полесье мозырь', 'полоцк нат', 'рога нат', 'рогачев',
       'россия москва нат', 'рцоп-бгу', 'светлогорск на

In [23]:
stadium_translation = {
    'атлант новополоцк': 'Novopolotsk', 'барановичи исск': 'Baranovichi', 'барановичи нат': 'Baranovichi', 
    'белек(турция)': 'Belek (Turkey)', 'бобруйск': 'Bobruisk', 'бобруйск нат': 'Bobruisk', 'бобруйск прокопенко': 'Bobruisk', 
    'борисов арена нат': 'Borisov Arena', 'борисов городской': 'Borisov City Stadium', 'брест нат': 'Brest', 
    'брест савушкин': 'Brest', 'бцоцор брест': 'Brest BCOR', 'веста': 'Dzerzhinsk Vesta', 'витебск нат': 'Vitebsk', 
    'гомель база': 'Gomel Base', 'гомель локо нат': 'Gomel Lokomotiv', 'гомель манеж': 'Gomel Indoor', 'городея нат': 'Gorodeya', 
    'гродно исск': 'Grodno', 'гродно манеж': 'Grodno Indoor', 'динамо-юни': 'Minsk Dinamo-Uni', 'жлобин': 'Zhlobin', 
    'жодино исск': 'Zhodino', 'жодино торпедо': 'Zhodino', 'кфп минск': 'Minsk Pobeditelei', 'лида нат': 'Lida', 
    'литва вильнюс': 'Vilnius (Lithuania)', 'лунинец': 'Luninets', 'марьина горка': 'Maryina-Gorka', 'маяковка': 'Minsk Mayakovskogo', 
    'минск победителей': 'Minsk Pobeditelei', 'могилев': 'Mogilev', 'могилев нат': 'Mogilev', 'мозырь': 'Mozyr', 'мозырь ': 'Mozyr',
    'мозырь нат': 'Mozyr', 'молодечно нат': 'Molodechno', 'несвиж': 'Nesvizh', 'огонек': 'Smolevichi Ogonek', 
    'озерный нат': 'Smolevichi Ozerny', 'озерный смолевичи': 'Smolevichi Ozerny', 'октябрьский смолевичский р-н': 'Smolevichi Oktyabrsky', 
    'орша нат': 'Orsha', 'осиповичи': 'Osipovichi', 'осиповичи нат': 'Osipovichi', 'островец': 'Ostrovets', 
    'ошмяны': 'Oshmyany', 'петриков': 'Petrikov', 'пинск исск': 'Pinsk', 'пинск нат': 'Pinsk', 
    'пинск фут манеж': 'Pinsk Indoor', 'плиса смолевичи': 'Smolevichi Oktyabrsky', 'полесье мозырь': 'Mozyr', 
    'полоцк нат': 'Polotsk', 'рога нат': 'Rogachev', 'рогачев': 'Rogachev', 'россия москва нат': 'Moscow (Russia)', 
    'рцоп-бгу': 'Minsk Semashko', 'светлогорск нат': 'Svetlogorsk', 'семашко': 'Minsk Semashko', 'ск шахтер солигорск': 'Soligorsk', 
    'слоним нат': 'Slonim', 'слуцк исск': 'Slutsk', 'слуцк нат': 'Slutsk', 'сморгонь': 'Smorgon', 
    'сморгонь исск': 'Smorgon', 'сморгонь нат': 'Smorgon', 'сок': 'Minsk SOK', 'сок нат': 'Minsk SOK', 'сок ':'Minsk SOK',
    'стадион торпедо минск': 'Minsk Torpedo', 'стайки': 'Staiki', 'столбцы исск': 'Stolbtsy', 'тихиничи': 'Tikhinichi', 
    'торпедо жодино': 'Zhodino', 'трактор минск': 'Minsk Traktor', 'турция сборы': 'Belek (Turkey)', 
    'фк минск победителей': 'Minsk Pobeditelei', 'фк минск победителей иск': 'Minsk Pobeditelei', 'фк минск победителей ': 'Minsk Pobeditelei',
    'фк минск победителей нат': 'Minsk Pobeditelei', 'фут манеж минск': 'Minsk Pobeditelei Indoor', 'червень': 'Cherven', 
    'юни': 'Minsk Dinamo-Uni'
}

In [24]:
df['stadium'] = df['stadium'].str.lower().replace(stadium_translation)
df['stadium'].sort_values().unique()

array(['Baranovichi', 'Belek (Turkey)', 'Bobruisk', 'Borisov Arena',
       'Borisov City Stadium', 'Brest', 'Brest BCOR', 'Cherven',
       'Dzerzhinsk Vesta', 'Gomel Base', 'Gomel Indoor',
       'Gomel Lokomotiv', 'Gorodeya', 'Grodno', 'Grodno Indoor', 'Lida',
       'Luninets', 'Maryina-Gorka', 'Minsk Dinamo-Uni',
       'Minsk Mayakovskogo', 'Minsk Pobeditelei',
       'Minsk Pobeditelei Indoor', 'Minsk SOK', 'Minsk Semashko',
       'Minsk Torpedo', 'Minsk Traktor', 'Mogilev', 'Molodechno',
       'Moscow (Russia)', 'Mozyr', 'Nesvizh', 'Novopolotsk', 'Orsha',
       'Oshmyany', 'Osipovichi', 'Ostrovets', 'Petrikov', 'Pinsk',
       'Pinsk Indoor', 'Polotsk', 'Rogachev', 'Slonim', 'Slutsk',
       'Smolevichi Ogonek', 'Smolevichi Oktyabrsky', 'Smolevichi Ozerny',
       'Smorgon', 'Soligorsk', 'Staiki', 'Stolbtsy', 'Svetlogorsk',
       'Tikhinichi', 'Vilnius (Lithuania)', 'Vitebsk', 'Zhlobin',
       'Zhodino'], dtype=object)

### Добавление новых колонок на основе имеющихся

**Колонка с результатом матча (result)**
- W - win, победа команды
- L - lose, поражение
- D - draw, ничья

В случае, если значение в колонке team_goals больше, чем значение в колонке opponent_goals, то значение в столбце result будет W (победа), при равенстве - D (ничья), в остальных случаях - L (поражение). Напишем функцию, вычисляющую значение для result:

In [25]:
def result(data):
    if data['team_goals'] > data['opponent_goals']:
        return 'W'
    if data['team_goals'] < data['opponent_goals']:
        return 'L'
    else:
        return 'D'

In [26]:
df.insert(5, 'result', df.apply(result, axis=1))

**Город проведения встречи (city_stadium)**

Извлечем город из колонки stadium в отдельную колонку city_stadium:

In [27]:
df.insert(7, 'city_stadium', df['stadium'].str.split().str[0])
df.sample(5)

Unnamed: 0,date,my_team,team_goals,opponent_goals,opponent,result,stadium,city_stadium,surface_type,home_away,tournament,minutes_played,position,goal_assist,card
119,2019-01-25,Luch Minsk,2,0,Neman Grodno,W,Grodno Indoor,Grodno,artificial,away,friendly,76,DM,0,0
110,2018-08-08,Luch Minsk,1,2,Isloch Minsk,L,Minsk Pobeditelei,Minsk,natural,home,friendly,45,DM,0,0
32,2016-10-14,Dinamo Minsk (res),3,0,Dinamo Brest (res),W,Staiki,Staiki,natural,home,reserve,90,RCB,0,YC
209,2022-10-22,Maxline Rogachev,3,1,Smorgon,W,Rogachev,Rogachev,natural,home,first,10,DM,0,0
187,2022-04-16,Maxline Rogachev,1,0,Slonim,W,Slonim,Slonim,natural,away,first,90,CB,0,0


**Город, к которому относится команда противника (city_opponent)**

Извлечем из названия соперника город:

In [28]:
def spl(opponent_series):
    def get_city(opponent):
        words = opponent.split()
        if words[-1] == '(res)':
            return words[-2]
        else:
            return words[-1]
    return opponent_series.apply(get_city)

In [29]:
df.insert(5, 'city_opponent', spl(df['opponent']))
display(df.sample(5))
df.info()

Unnamed: 0,date,my_team,team_goals,opponent_goals,opponent,city_opponent,result,stadium,city_stadium,surface_type,home_away,tournament,minutes_played,position,goal_assist,card
197,2022-07-06,Maxline Rogachev,1,3,Dinamo Minsk (res),Minsk,L,Smolevichi Ozerny,Smolevichi,artificial,home,friendly,45,DM,0,0
203,2022-08-28,Maxline Rogachev,1,2,Lokomotiv Gomel,Gomel,L,Gomel Lokomotiv,Gomel,natural,away,first,26,DM,0,0
88,2018-02-17,Luch Minsk,1,1,Minsk,Minsk,D,Minsk Mayakovskogo,Minsk,artificial,away,friendly,17,DM,0,0
12,2016-05-07,Dinamo Minsk (res),1,1,Naftan Novopolotsk (res),Novopolotsk,D,Novopolotsk,Novopolotsk,artificial,away,reserve,85,CM,0,0
215,2023-03-15,Maxline Rogachev,4,3,Bumprom Gomel,Gomel,W,Tikhinichi,Tikhinichi,artificial,home,friendly,45,CB,0,0


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 231 entries, 0 to 230
Data columns (total 16 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   date            231 non-null    datetime64[ns]
 1   my_team         231 non-null    object        
 2   team_goals      231 non-null    int64         
 3   opponent_goals  231 non-null    int64         
 4   opponent        231 non-null    object        
 5   city_opponent   231 non-null    object        
 6   result          231 non-null    object        
 7   stadium         231 non-null    object        
 8   city_stadium    231 non-null    object        
 9   surface_type    231 non-null    object        
 10  home_away       231 non-null    object        
 11  tournament      231 non-null    object        
 12  minutes_played  231 non-null    int64         
 13  position        231 non-null    object        
 14  goal_assist     231 non-null    object        
 15  card  

### Выводы по предобработке данных
- Переименовал названия колонок в соответствии с правилами Snake Case на латинице.
- Провел исследование дубликатов и пропущенных значений; таких не обнаружено.
- Заменил значения в столбцах на латиницу и устранил неявные дубликаты названий команд, стадионов и турниров.
- Добавил новые столбцы с результатом, городом проведения встречи и городом команды противника на основе имеющихся данных.

## Исследовательский анализ данных