# Задание 1

# Работа с библиотекой Pandas

*Цель работы:* освоить базовые приёмы анализа данных в pandas на примере статистики футбольного турнира.

Проанализируем датасет `football.csv`, содержащий показатели выступления 16 сборных. Набор данных включает ключевые атрибуты:

- Team — название команды;
- Goals — количество забитых голов;
- Shots on target / Shots off target — удары в створ и мимо;
- Shooting Accuracy, % Goals-to-shots — эффективность атак;
- Total shots (inc. Blocked) — общее число ударов с учётом блокированных;
- Hit Woodwork — попадания в каркас ворот;
- Penalty goals / Penalties not scored — пенальти;
- Passes и Passes completed — передачи и точность паса;
- Touches, Crosses, Dribbles — игровые действия;
- Tackles, Clearances, Interceptions, Blocks — оборонительные действия;
- Clean Sheets, Goals conceded, Saves made — показатели вратарей;
- Saves-to-shots ratio — процент отражённых ударов;
- Fouls Won / Fouls Conceded, Offsides — дисциплинарная статистика;
- Yellow Cards, Red Cards — предупреждения и удаления.



## 1. Импортируйте необходимые библиотеки


In [67]:
import pandas as pd
import numpy as np


## 2. Импортируйте набор данных из файла `football.csv`


In [68]:
data_path = "football.csv"
df = pd.read_csv(data_path)


## 3. Получите сводную информацию по датафрейму

Отобразим размер таблицы, первые строки и сводные характеристики, чтобы понять структуру данных и типы признаков.


In [69]:
print("Сводка DataFrame:")
df.info()
print("\nОписательные статистики:")
print(df.describe())
print("\nПервые 5 строк (повторно):")
print(df.head())


Сводка DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16 entries, 0 to 15
Data columns (total 35 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   Team                        16 non-null     object 
 1   Goals                       16 non-null     int64  
 2   Shots on target             16 non-null     int64  
 3   Shots off target            16 non-null     int64  
 4   Shooting Accuracy           16 non-null     object 
 5   % Goals-to-shots            16 non-null     object 
 6   Total shots (inc. Blocked)  16 non-null     int64  
 7   Hit Woodwork                16 non-null     int64  
 8   Penalty goals               16 non-null     int64  
 9   Penalties not scored        16 non-null     int64  
 10  Headed goals                16 non-null     int64  
 11  Passes                      16 non-null     int64  
 12  Passes completed            16 non-null     int64  
 13  Passing Accuracy   

## 4. Выберите только данные столбца `Goals`

Извлечём столбец `Goals`, чтобы сосредоточиться на показателях результативности.

In [70]:
print("Столбец Goals:")
print(df['Goals'])


Столбец Goals:
0      4
1      4
2      4
3      5
4      3
5     10
6      5
7      6
8      2
9      2
10     6
11     1
12     5
13    12
14     5
15     2
Name: Goals, dtype: int64


Показатель `Goals` позволяет быстро сравнить результативность команд.

## 5. Сколько всего команд участвовало в Европейском Кубке?

In [71]:
unique_teams_count = df['Team'].nunique()
print(f"Общее число уникальных команд: {unique_teams_count}")

Общее число уникальных команд: 16


## 6. Сколько строк и столбцов в наборе данных?

In [72]:
num_rows, num_cols = df.shape
print(f"Количество строк: {num_rows}")
print(f"Количество столбцов: {num_cols}")

Количество строк: 16
Количество столбцов: 35


## 7. Сохраните столбцы `Team`, `Yellow Cards` и `Red Cards` в датафрейм `discipline`

In [73]:
discipline = df[['Team', 'Yellow Cards', 'Red Cards']]
print("Первые строки датафрейма discipline:")
print(discipline.head())

Первые строки датафрейма discipline:
             Team  Yellow Cards  Red Cards
0         Croatia             9          0
1  Czech Republic             7          0
2         Denmark             4          0
3         England             5          0
4          France             6          0


## 8. Отсортируйте датафрейм `discipline` по `Red Cards`, затем `Yellow Cards`

In [74]:
discipline_sorted = discipline.sort_values(by=['Red Cards', 'Yellow Cards'], ascending=False)
print("discipline, отсортированный по красным и жёлтым карточкам (по убыванию):")
print(discipline_sorted.head())

discipline, отсортированный по красным и жёлтым карточкам (по убыванию):
                   Team  Yellow Cards  Red Cards
6                Greece             9          1
9                Poland             7          1
11  Republic of Ireland             6          1
7                 Italy            16          0
10             Portugal            12          0


## 9. Найдите среднее количество жёлтых карточек, полученных каждой командой

In [75]:
average_yellow_cards = df['Yellow Cards'].mean()
print(f"Среднее число жёлтых карточек на команду: {average_yellow_cards:.2f}")

Среднее число жёлтых карточек на команду: 7.44


## 10. Выведите сведения о команде, забившей более 6 голов

In [76]:
teams_more_than_6_goals = df[df['Goals'] > 6]
print("Команды, забившие более 6 голов:")
print(teams_more_than_6_goals[['Team', 'Goals']])

Команды, забившие более 6 голов:
       Team  Goals
5   Germany     10
13    Spain     12


## 11. Выведите данные команды, начинающиеся с буквы «G»

In [77]:
teams_starting_with_G = df[df['Team'].str.startswith('G')]
print("Команды, начинающиеся с буквы 'G':")
print(teams_starting_with_G[['Team', 'Goals']])

Команды, начинающиеся с буквы 'G':
      Team  Goals
5  Germany     10
6   Greece      5


## 12. Выберите первые 7 столбцов

In [78]:
first_7_columns = df.iloc[:, :7]
print("Первые 7 столбцов DataFrame:")
print(first_7_columns.head())

Первые 7 столбцов DataFrame:
             Team  Goals  Shots on target  Shots off target Shooting Accuracy  \
0         Croatia      4               13                12             51.9%   
1  Czech Republic      4               13                18             41.9%   
2         Denmark      4               10                10             50.0%   
3         England      5               11                18             50.0%   
4          France      3               22                24             37.9%   

  % Goals-to-shots  Total shots (inc. Blocked)  
0            16.0%                          32  
1            12.9%                          39  
2            20.0%                          27  
3            17.2%                          40  
4             6.5%                          65  


## 13. Выберите все столбцы, кроме последних трёх столбцов

In [79]:
columns_except_last_3 = df.iloc[:, :-3]
print("Все столбцы, кроме последних трёх:")
print(columns_except_last_3.head())

Все столбцы, кроме последних трёх:
             Team  Goals  Shots on target  Shots off target Shooting Accuracy  \
0         Croatia      4               13                12             51.9%   
1  Czech Republic      4               13                18             41.9%   
2         Denmark      4               10                10             50.0%   
3         England      5               11                18             50.0%   
4          France      3               22                24             37.9%   

  % Goals-to-shots  Total shots (inc. Blocked)  Hit Woodwork  Penalty goals  \
0            16.0%                          32             0              0   
1            12.9%                          39             0              0   
2            20.0%                          27             1              0   
3            17.2%                          40             0              0   
4             6.5%                          65             1              0   

   

## 14. Найдите точность ударов по воротам команд Англии, Италии и России

In [80]:
df['Shooting Accuracy'] = df['Shooting Accuracy'].str.replace('%', '', regex=False).astype(float)
selected_countries = ['England', 'Italy', 'Russia']
shooting_accuracy_selected = df[df['Team'].isin(selected_countries)][['Team', 'Shooting Accuracy']]
print("Точность ударов для выбранных сборных:")
print(shooting_accuracy_selected)

Точность ударов для выбранных сборных:
       Team  Shooting Accuracy
3   England               50.0
7     Italy               43.0
12   Russia               22.5


## 15. Определите TOP-5 команд с максимальным количеством нарушений и TOP-5 команд с минимальным количеством нарушений

In [81]:
top_5_most_fouls = df.sort_values(by='Fouls Conceded', ascending=False).head(5)
print("TOP-5 команд с наибольшим количеством фолов:")
print(top_5_most_fouls[['Team', 'Fouls Conceded']])

TOP-5 команд с наибольшим количеством фолов:
              Team  Fouls Conceded
10        Portugal              90
7            Italy              89
13           Spain              83
1   Czech Republic              73
0          Croatia              62


In [82]:
top_5_least_fouls = df.sort_values(by='Fouls Conceded', ascending=True).head(5)
print("TOP-5 команд с наименьшим количеством фолов:")
print(top_5_least_fouls[['Team', 'Fouls Conceded']])

TOP-5 команд с наименьшим количеством фолов:
           Team  Fouls Conceded
8   Netherlands              30
15      Ukraine              31
2       Denmark              38
12       Russia              43
3       England              45


## Итоги

### Основные результаты

* В наборе 16 уникальных команд, 16 строк и 35 столбцов; большинство колонок числовые (`int64`), пять имеют тип `object`, одна — `float64`.
* Среднее количество жёлтых карточек на команду составляет около 7.44.
* Более 6 голов забили только две команды: Испания (12) и Германия (10).
* Команды, название которых начинается с «G»: Germany (10 голов) и Greece (5 голов).
* Точность ударов по воротам для выбранных стран: Англия — 50.0%, Италия — 43.0%, Россия — 22.5%.
* TOP‑5 команд по количеству нарушений (`Fouls Conceded`): Португалия (90), Италия (89), Испания (83), Чехия (73), Хорватия (62).
* TOP‑5 наиболее дисциплинированных команд: Нидерланды (30), Украина (31), Дания (38), Россия (43), Англия (45).
* В датафрейме `discipline`, отсортированном по красным и жёлтым карточкам, по одной красной карточке получили Greece, Poland и Republic of Ireland; среди команд без удалений больше всего жёлтых карточек у Италии и Португалии.

### Наблюдения и возможные шаги

* **Дисциплина и результат:** Можно изучить связь между карточками и исходами матчей или количеством нарушений, чтобы понять влияние дисциплины на успех.
* **Сравнение метрик:** Сопоставление точности ударов с количеством голов поможет оценить эффективность и качество созданных моментов.
