# Проект Анализ и визуализация личной статистики футболиста

Проект находится в стадии сбора данных.

## Задачи и описание проекта

Задачи: собрать и структурировать данные по проведенным футбольным матчам футболиста Лукашевича Тимофея, провести предобработку данных с помощью библиотек Python, провести исследовательский анализ данных, найти закономерности и проверить статистические гипотезы. Подготовить интерактивный дашборд с помощью BI-системы Tableau.

План проекта:
1. Сбор данных.
    - Собрать данные об официальных матчах футболиста с портала Transfermarkt <https://www.transfermarkt.world/timofey-lukashevich/leistungsdaten/spieler/498018>
    - Собрать данные по товарищеским матчам и матчам второй лиги в составе ФК Макслайн
    - Собрать данные по матчам в составе ФК Трактор
    - Собрать данные по товарищеским матчам в составе ФК Луч и ФК Дняпро
    - Собрать данные по матчам за дублирующий состав ФК Динамо Минск и товарищеские матчи
    - Собрать данные по играм под эгидой АЛФ
    - По возможности собрать данные по матчам на юношеских первенствах
2. Предобработка данных.
    - Привести данные в удобный для чтения вид, преобразовать колонки, а также данные в самих колонках
    - Выделить новые столбцы из имеющихся
3. Исследовательский анализ данных.
    - Посмотреть на количество матчей по каждому из турниров, соотношение побед, забитых голов командой, соотношение проведенных матчей на натуральных и искусственных полях
    - Лидеры по показателям (больше всего матчей против, "любимый" стадион, город и тд)
4. Посмотреть на корреляцию показателей, найти закономерности.
5. Проверить гипотезы. Действительно в домашних матчах больше побед, чем гостевых. Правда ли, что на искусственных полях забивается больше мячей, чем на натуральных. И другие гипотезы.
6. Подготовить удобный интерактивный дашборд в Tableau с визуализациями показателей.
7. Выводы и наблюдения.

# Сбор данных

Добавлены данные по официальным играм с сайта transfermarkt

In [1]:
import pandas as pd

In [2]:
df = pd.read_excel('D:\\0Yandeks Study\\pet-project\\stat_lukashevich.xlsx', sheet_name='list')
df

Unnamed: 0,дата,моя команда,голы команды,голы против,соперник,место,дом гости,турнир,минуты,позиция,гол ассист,карточка
0,2017-04-08,луч,3,1,локо гомель,сок,д,1 лига,24,цап,0,0
1,2017-04-15,луч,2,1,химик светлогорск,светлогорск нат,г,1,20,цап,0,0
2,2017-04-22,луч,6,1,волна пинск,сок,д,1,25,цап,0,0
3,2017-04-29,луч,0,0,звезда бгу,семашко,г,1,25,цап,0,0
4,2017-05-06,луч,6,1,барановичи,сок,д,1,90,цап,1г,0
...,...,...,...,...,...,...,...,...,...,...,...,...
89,2021-05-22,макслайн,3,1,химик светлогорск,светлогорск нат,г,кубок рб,90,цоп,0,0
90,2021-05-29,макслайн,2,4,волна пинск,рога нат,д,кубок рб,71,цоп,0,0
91,2022-05-29,макслайн,9,0,полоцк,полоцк нат,г,кубок рб,90,цз,0,0
92,2022-05-21,макслайн,2,3,витебск,рога нат,д,кубок рб,120,цз,0,ж


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 94 entries, 0 to 93
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   дата          94 non-null     datetime64[ns]
 1   моя команда   94 non-null     object        
 2   голы команды  94 non-null     int64         
 3   голы против   94 non-null     int64         
 4   соперник      94 non-null     object        
 5   место         94 non-null     object        
 6   дом гости     94 non-null     object        
 7   турнир        94 non-null     object        
 8   минуты        94 non-null     int64         
 9   позиция       94 non-null     object        
 10  гол ассист    94 non-null     object        
 11  карточка      94 non-null     object        
dtypes: datetime64[ns](1), int64(3), object(8)
memory usage: 8.9+ KB


In [4]:
df.query('турнир==1')['голы команды'].describe()

count    60.000000
mean      2.233333
std       1.759879
min       0.000000
25%       1.000000
50%       2.000000
75%       3.000000
max       9.000000
Name: голы команды, dtype: float64

In [5]:
df.query('турнир==1')['голы против'].describe()

count    60.00000
mean      1.05000
std       1.14129
min       0.00000
25%       0.00000
50%       1.00000
75%       2.00000
max       4.00000
Name: голы против, dtype: float64

In [6]:
df['гол ассист'].value_counts()

гол ассист
0      86
1г      4
1а      2
1аг     1
2г      1
Name: count, dtype: int64

In [7]:
df['голы против'].describe()

count    94.000000
mean      1.308511
std       1.383673
min       0.000000
25%       0.000000
50%       1.000000
75%       2.000000
max       7.000000
Name: голы против, dtype: float64

In [8]:
df['позиция'].value_counts()

позиция
цоп    51
пцз    18
цз     14
цап    10
пп      1
Name: count, dtype: int64