В [датасете](https://raw.githubusercontent.com/dm-fedorov/pandas_basic/master/data/football.csv) присутствуют различные данные о футболистах, среди которых:

- Имя (Name),
- Возраст (Age),
- Национальность (Nationality),
- Клуб, за который они играют (Club),
- Стоимость (Value),
- Годовая заработная плата (Wage),
- Позиция, на которой они играют (Position),
- Различные игровые характеристики (Crossing, Finishing, HeadingAccuracy, ShortPassing, Volleys, Dribbling, Curve, FKAccuracy, LongPassing, BallControl, Acceleration, SprintSpeed, Agility, Reactions, Balance, ShotPower, Jumping, Stamina, Strength, LongShots, Aggression, Interceptions, Positioning, Vision, Penalties, Composure, Marking, StandingTackle, SlidingTackle, GKDiving, GKHandling, GKKicking, GKPositioning, GKReflexes),
- Также присутствует системная колонка с номером строки.

Полное описание всех полей находится в файле по [ссылке](https://github.com/dm-fedorov/pandas_basic/blob/master/data/football_about.txt).

Данные содержат в себе информацию о 12897 футболистах и их характеристиках.

```Python
pd.read_csv('Полный_путь_к_файлу/название_файла.csv')
```

Функция возвращает `DataFrame` (таблицу), однако затем принимает ещё много важных параметров, среди которых:

- `sep` — разделитель данных, по умолчанию `','`;
- `decimal` — разделитель числа на целую и дробную часть, по умолчанию `'.'`;
- `names` — список с названиями колонок, не обязательный параметр;
- `skiprows` — если файл содержит системную информацию, можно просто её пропустить.

Дополнительные параметры можно посмотреть в [официальной документации](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html).

Часто после чтения данных с помощью `read_csv()` хочется убедиться в правильности чтения или, к примеру, посмотреть, что лежит в наборе данных.

Для этого используются методы `.head()` или `.tail()`, которые показывают первые или последние 5 строк таблицы. Количество строк можно менять параметром `n`, передаваемым в функцию.

Посмотрим, как они работают, на примере уже запомнившегося нам набора данных о футболистах:

In [None]:
import pandas as pd

url = "https://raw.githubusercontent.com/dm-fedorov/pandas_basic/master/data/football.csv"

football = pd.read_csv(url)
football.head()

Unnamed: 0.1,Unnamed: 0,Name,Age,Nationality,Club,Value,Wage,Position,Crossing,Finishing,HeadingAccuracy,ShortPassing,Volleys,Dribbling,Curve,FKAccuracy,LongPassing,BallControl,Acceleration,SprintSpeed,Agility,Reactions,Balance,ShotPower,Jumping,Stamina,Strength,LongShots,Aggression,Interceptions,Positioning,Vision,Penalties,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes
0,0,L. Messi,31,Argentina,FC Barcelona,110500000,565000,RF,84,95,70,90,86,97,93,94,87,96,91,86,91,95,95,85,68,72,59,94,48,22,94,94,75,96,33,28,26,6,11,15,14,8
1,1,Cristiano Ronaldo,33,Portugal,Juventus,77000000,405000,ST,84,94,89,81,87,88,81,76,77,94,89,91,87,96,70,95,95,88,79,93,63,29,95,82,85,95,28,31,23,7,11,15,14,11
2,2,Neymar Jr,26,Brazil,Paris Saint-Germain,118500000,290000,LW,79,87,62,84,84,96,88,87,78,95,94,90,96,94,84,80,61,81,49,82,56,36,89,87,81,94,27,24,33,9,9,15,15,11
3,3,De Gea,27,Spain,Manchester United,72000000,260000,GK,17,13,21,50,13,18,21,19,51,42,57,58,60,90,43,31,67,43,64,12,38,30,12,68,40,68,15,21,13,90,85,87,88,94
4,4,K. De Bruyne,27,Belgium,Manchester City,102000000,355000,RCM,93,82,55,92,82,86,85,83,91,91,78,76,79,91,77,91,63,90,75,91,76,61,87,94,79,88,68,58,51,15,13,5,10,13


In [None]:
import pandas as pd

football = pd.read_csv(url)
football.info()

Метод `describe` показывает основные статистические характеристики данных по каждому числовому признаку (типы `int64` и `float64`): число непропущенных значений, среднее, стандартное отклонение, диапазон, медиану, `0.25` и `0.75` квартили.

In [None]:
import pandas as pd

football = pd.read_csv(url)
football.describe()

Здесь для каждого числового (`int64`) столбца показано число непустых значений (`count`), среднее (`mean`), стандартное отклонение (`std`), минимум и максимум (`min` и `max`), `25%` и `75%` квартили и медиана (`50%`).

Чтобы посмотреть статистику по нечисловым признакам (например, по строчным (`object`) или булевым (`bool`) данным), нужно явно указать интересующие нас типы в параметре `include` метода `describe`:

In [None]:
football.describe(include=['object'])

Здесь для каждой колонки с типом `object` (строчные данные) выводится количество непустых строк, уникальных значений, самое частое значение (`top`) и частота этого значения (`freq`).

Для вычисления отдельных статистических параметров `DataFrame` можно использовать не только метод `.describe()`, но и отдельные методы для каждого параметра:

|Метод   | Статистический параметр  |
|---|---|
|.max()|Максимум  |
|.min()|Минимум   |
|.mean()|Среднее значение   |
|.sum()| Сумма  |
|.count()|Количество непустых элементов   |
|.std()|Стандартное отклонение   |


Если один из этих методов применить ко всему `DataFrame`, то в результате его работы будет получен объект типа `Series`. В случае применения метода к отдельному столбцу, результатом вычислений станет число (среднее значение элементов столбца, минимум, максимум и т.п.).

В каждый метод можно передать некоторые параметры, среди которых:

- `axis` — определяет, подсчитывать максимум по строкам (1) или по столбцам (0) (по умолчанию 0);
- `numeric_only` — определяет, вычислять параметры только по числовым столбцам/строкам или нет (`True/False`). Если передать `False` в методы `.mean()` или `.std()`, компилятор выдаст ошибку.

Пример применения:

In [None]:
df = pd.DataFrame([[i, i + 1.2, i + 2, 'hi'] for i in range(10)], columns=['foo', 'bar', 'baz', 'foobar'])
df

Unnamed: 0,foo,bar,baz,foobar
0,0,1.2,2,hi
1,1,2.2,3,hi
2,2,3.2,4,hi
3,3,4.2,5,hi
4,4,5.2,6,hi
5,5,6.2,7,hi
6,6,7.2,8,hi
7,7,8.2,9,hi
8,8,9.2,10,hi
9,9,10.2,11,hi


In [None]:
df.mean()

Здесь вычисляется среднее по столбцам (так как не передан параметр `axis`), причем только по числовым столбцам, так как метод `.mean()` не может применяться к столбцам с другим типом.

Доступ к колонке можно получить разными способами: `df['column_name']` или `df.column_name`.

Например, так:

In [None]:
df = pd.DataFrame([[i, i + 1.2, i + 2, 'hi'] for i in range(10)],
                  columns=['foo', 'bar', 'baz', 'foobar'])
df['foo']

In [None]:
df.foo

Как мы помним, колонки в `DataFrame` представляют собой `Series`, поэтому к ним можно применять методы `.max()`, `.std()` и другие.

In [None]:
df = pd.DataFrame([[i, i + 1.2, i + 2, 'hi'] for i in range(10)],
                  columns=['foo', 'bar', 'baz', 'foobar'])
df.bar.mean()

In [None]:
import pandas as pd
import numpy as np
url = "https://raw.githubusercontent.com/dm-fedorov/pandas_basic/master/data/football.csv"
df = pd.read_csv(url)
df.head(2)

Unnamed: 0.1,Unnamed: 0,Name,Age,Nationality,Club,Value,Wage,Position,Crossing,Finishing,HeadingAccuracy,ShortPassing,Volleys,Dribbling,Curve,FKAccuracy,LongPassing,BallControl,Acceleration,SprintSpeed,Agility,Reactions,Balance,ShotPower,Jumping,Stamina,Strength,LongShots,Aggression,Interceptions,Positioning,Vision,Penalties,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes
0,0,L. Messi,31,Argentina,FC Barcelona,110500000,565000,RF,84,95,70,90,86,97,93,94,87,96,91,86,91,95,95,85,68,72,59,94,48,22,94,94,75,96,33,28,26,6,11,15,14,8
1,1,Cristiano Ronaldo,33,Portugal,Juventus,77000000,405000,ST,84,94,89,81,87,88,81,76,77,94,89,91,87,96,70,95,95,88,79,93,63,29,95,82,85,95,28,31,23,7,11,15,14,11


Для следующего блока задач потребуется открыть уже известный набор данных о футболистах.

### Задание 1

Чему равен средний возраст (`Age`), футболистов в наборе данных, округлённый до целого?

In [None]:
np.around(df['Age'].mean())

25.0

### Задание 2

Каково количество непустых строк в колонке `Composure` (Хладнокровие) набора данных о футболистах?


In [None]:
df['Composure'].count()

12897

### Задание 3

Каково в наборе данных о футболистах стандартное отклонение параметра коротких пасов (`ShortPassing`), округлённое до второго знака после запятой?

In [None]:
round(df['ShortPassing'].std(),2)

14.74

### Задание 4

Какова сумма заработных плат за год (`Wage`) в наборе данных о футболистах?

In [None]:
i = df['Wage'].sum()
print(f'Сумма заработных плат за год = {i}')

Сумма заработных плат за год = 96954000


### Задание 5

Какова минимальная стоимость футболиста (`Value`) в наборе данных о футболистах?

In [None]:
i = df['Value'].min()
print(f'минимальная стоимость футболиста = {i}')

минимальная стоимость футболиста = 0


0

Часто возникает необходимость выбрать данные из `DataFrame` по определённому условию. Например, если в уже известном нам наборе данных о футболистах мы хотим выбрать только тех, у кого возраст больше 20 лет, используется следующий код:

In [None]:
import pandas as pd

url = "https://raw.githubusercontent.com/dm-fedorov/pandas_basic/master/data/football.csv"
df = pd.read_csv(url)

In [None]:
football[football.Age > 20]

Синтаксис этой конструкции достаточно прост. Внутри квадратных скобок передается список из `True` или `False`, который показывает, какие строки `DataFrame` нужно оставить, а какие убрать. Этот список генерируется сравнением `Series` `football.Age` с 20.

Можно для фильтрации использовать и методы получения статистических параметров. Например, если нам нужны только те футболисты, возраст которых больше среднего возраста футболистов, можно использовать следующую конструкцию:

In [None]:
football[football.Age > football.Age.mean()]

Условия можно и комбинировать, используя операторы `&` (логическое и) и `|` (логическое или). Условия при этом заключаются в скобки. Например, если мы хотим получить только тех футболистов, у которых возраст меньше среднего, или игроков `'FC Barcelona'`:

In [None]:
football[(football.Age < football.Age.mean())|
         (football.Club == 'FC Barcelona')]

Статистические параметры можно посчитать и по отфильтрованному `DataFrame`, например среднюю заработную плату футболистов с возрастом меньше среднего и из `'FC Barcelona'`:

In [None]:
football[(football.Age < football.Age.mean())&
         (football.Club == 'FC Barcelona')].Wage.mean()

Здесь мы получили среднюю заработную плату за год футболистов с возрастом ниже среднего или из клуба FC Barcelona.

In [None]:
df.sample(2)

Unnamed: 0.1,Unnamed: 0,Name,Age,Nationality,Club,Value,Wage,Position,Crossing,Finishing,HeadingAccuracy,ShortPassing,Volleys,Dribbling,Curve,FKAccuracy,LongPassing,BallControl,Acceleration,SprintSpeed,Agility,Reactions,Balance,ShotPower,Jumping,Stamina,Strength,LongShots,Aggression,Interceptions,Positioning,Vision,Penalties,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes
5106,5264,F. Beltrán,20,Mexico,Guadalajara,875000,7000,CM,53,51,50,68,52,65,58,53,66,69,70,74,75,63,91,62,51,59,65,60,57,56,53,67,56,66,61,57,55,10,13,8,10,10
9886,10091,T. Ivanof,20,Belgium,KV Kortrijk,325000,2000,CAM,58,48,40,60,47,64,52,60,51,66,76,62,70,58,80,51,72,51,45,46,47,28,46,57,44,56,21,28,39,10,10,14,7,5


### Задание 1
Какова средняя скорость (`SprintSpeed`) футболистов, зарплата (`Wage`) которых выше среднего? Ответ округлите до сотых.

In [None]:
np.around(df[df.Wage > df.Wage.mean()].SprintSpeed.mean(),2)

67.57

### Задание 2

Какова средняя скорость (`SprintSpeed`) футболистов, зарплата (`Wage`) которых ниже среднего? Ответ округлите до сотых.

In [None]:
np.around(df[df.Wage < df.Wage.mean()].SprintSpeed.mean(),2)

62.41

### Задание 3

Какую позицию (`Position`) занимает футболист с самой высокой зарплатой (`Wage`)?

In [None]:
i = df[df.Wage == df.Wage.max()].Position
print(f'Человек с самой большой ЗП находится на позиции: {i}')

Человек с самой большой ЗП находится на позиции: 0    RF
Name: Position, dtype: object


In [None]:
df[df.Wage == df.Wage.max()].index

Int64Index([0], dtype='int64')

### Задание 4

Сколько пенальти (`Penalties`) забили бразильские (`Nationality, Brazil`) футболисты за период, данные о котором представлены в датасете?

In [None]:
df[df['Nationality'] == 'Brazil'].Penalties.sum()

22789

### Задание 5

Укажите средний возраст (`Age`) игроков, у которых точность удара головой `(HeadingAccuracy) > 50`. Ответ округлите до сотых.

In [None]:
np.around(df[df.HeadingAccuracy > 50].Age.mean(),2)

25.59

### Задание 6

Укажите возраст (`Age`) самого молодого игрока, у которого хладнокровие (`Composure`) и реакция (`Reactions`) превышают 90% от максимального значения, представленного в датасете.

In [None]:
df[(df.Composure > df.Composure.max()*0.9) & (df.Reactions > df.Reactions.max()*0.9)].Age.min()

24

### Задание 7

Определите, насколько средняя реакция (`Reactions`) самых взрослых игроков (т.е. игроков, чей возраст (`Age`) равен максимальному) больше средней реакции самых молодых игроков. Ответ округлите до сотых.

In [None]:
np.around((df[df.Age == df.Age.max()].Reactions.mean() - df[df.Age == df.Age.min()].Reactions.mean()),2)

22.64

### Задание 8

Из какой страны (`Nationality`) происходит больше всего игроков, чья стоимость (`Value`) превышает среднее значение?

In [None]:
df[df.Value > df.Value.mean()].Nationality.value_counts().head(1)

Spain    211
Name: Nationality, dtype: int64

In [None]:
df[df.Value > df.Value.mean()].Nationality.value_counts().index[0]

'Spain'

In [None]:
df[df.Value > df.Value.mean()].Nationality.describe().top

'Spain'

### Задание 9

Определите, во сколько раз средняя зарплата (`Wage`) голкипера (`Position, GK`) с максимальным значением показателя "Рефлексы" (`GKReflexes`) выше средней зарплаты голкипера с максимальным значением показателя "Владение мячом" (`GKHandling`). Ответ округлите до сотых.

In [None]:
i = df[(df.Position == 'GK') & (df.GKReflexes == df.GKReflexes.max())].Wage.mean()
g = df[(df.Position == 'GK') & (df.GKHandling == df.GKHandling.max())].Wage.mean()
s = {'1-й голкипер': i, '2-й голкипер': g, 'Во сколько раз': round(i/g,2)}
f = pd.DataFrame(s,index = ['Результат'])
print(f)

           1-й голкипер  2-й голкипер  Во сколько раз
Результат      260000.0       94000.0            2.77


### Задание 10

Определите, во сколько раз средняя сила удара (`ShotPower`) самых агрессивных игроков (игроков с максимальным значением показателя "Агрессивность" (`Aggression`)) выше силы удара игроков с минимальной агрессией. Ответ округлите до сотых.

In [None]:
i = df[df.Aggression == df.Aggression.max()].ShotPower.mean()
j = df[df.Aggression == df.Aggression.min()].ShotPower.mean()
s = {'Максимально агрессивный': i, 'Минимально агрессивный': j, 'Во сколько раз': round(i/j,2)}
f = pd.DataFrame(s,index = ['Результат'])
print(f)

           Максимально агрессивный  Минимально агрессивный  Во сколько раз
Результат                     63.0               30.333333            2.08
