# Working with tables

In [2]:
import pandas as pd

In [3]:
tables = pd.read_html('https://www.finam.ru/quotes/stocks/russia/') 

In [4]:
# Изучаем содержимое объекта tables
df = tables[0]
df

Unnamed: 0.1,Unnamed: 0,Инструмент,"Посл. сделка, ₽",% Изм. цены,Открытие,Макс.,Мин.,Закрытие,"Объем, шт.",Время обн.
0,,+МосЭнергоПотенциал:+7%,2.045 ₽,-0.7%,2.062,2.101,2.045,2.0595,35 483 000,18.09 18:45
1,,Activision,6087,3.7%,5881.0,6088.0,5881.0,5870.0,742,18.09 23:39
2,,AGRO-гдрПотенциал:+24%,743.4 ₽,-0.59%,750.0,753.8,740.4,747.8,39 456,18.09 18:49
3,,Amazon,221813,-2.37%,220500.0,229466.0,220500.0,227200.0,100,18.09 22:02
4,,AMD Inc.,5685,-1.22%,5747.0,5840.0,5599.0,5755.0,3 295,18.09 23:38
5,,Apple,8142,-2.99%,8250.0,8417.0,8044.0,8393.0,10 910,18.09 23:49
6,,ATT,2193,0%,2193.0,2210.0,2190.0,2193.0,1 645,18.09 22:50
7,,Boeing,12275,-2.61%,12655.0,12800.0,12220.0,12604.0,3 308,18.09 23:49
8,,Disney,9755,-0.21%,9776.0,9881.0,9710.0,9776.0,640,18.09 22:59
9,,ENPL-гдр,531.2 ₽,0.45%,,,,531.2,,14.04 18:49


In [5]:
#Выведем на экран
df.head()

Unnamed: 0.1,Unnamed: 0,Инструмент,"Посл. сделка, ₽",% Изм. цены,Открытие,Макс.,Мин.,Закрытие,"Объем, шт.",Время обн.
0,,+МосЭнергоПотенциал:+7%,2.045 ₽,-0.7%,2.062,2.101,2.045,2.0595,35 483 000,18.09 18:45
1,,Activision,6087,3.7%,5881.0,6088.0,5881.0,5870.0,742,18.09 23:39
2,,AGRO-гдрПотенциал:+24%,743.4 ₽,-0.59%,750.0,753.8,740.4,747.8,39 456,18.09 18:49
3,,Amazon,221813,-2.37%,220500.0,229466.0,220500.0,227200.0,100,18.09 22:02
4,,AMD Inc.,5685,-1.22%,5747.0,5840.0,5599.0,5755.0,3 295,18.09 23:38


In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 10 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Unnamed: 0       0 non-null      float64
 1   Инструмент       30 non-null     object 
 2   Посл. сделка, ₽  30 non-null     object 
 3   % Изм. цены      30 non-null     object 
 4   Открытие         29 non-null     float64
 5   Макс.            29 non-null     float64
 6   Мин.             29 non-null     float64
 7   Закрытие         30 non-null     float64
 8   Объем, шт.       29 non-null     object 
 9   Время обн.       30 non-null     object 
dtypes: float64(5), object(5)
memory usage: 2.5+ KB


In [7]:
#Проанализируем изменение цены. min() max()
df['% Изм. цены'] = df.apply(lambda row: row['% Изм. цены'][:-1], axis=1)
df['% Изм. цены'] = df['% Изм. цены'].astype('float')

In [8]:
df['% Изм. цены'].min()

-2.99

## Pandas: Series

Series можно рассматривать как одну колонку таблицы, это одномерный массив. На предыдущих уроках мы уже познакомились с похожим одномерным типом данных — списком.

В списке мы могли обращаться к элементу по его индексу, который всегда был порядковым номером элемента. В отличие от списка, в Series индексами могут быть не только порядковые номера, но что угодно другое, например даты, названия компаний, идентификаторы участников опроса и т.д.

Создать Series можно с помощью команды pd.Series() (или pandas.Series()), если библиотека pandas была импортирована без использования псевдонима.

Попробуем создать Series, содержащий названия первых четырёх месяцев года, передав их в виде списка.

Если не указывать индекс, то он будет создан автоматически и в нём будут порядковые номера элементов, начиная с нуля.

In [9]:
data = pd.Series(["January", "February", "March", "Aprel"],
                 index = ['Ferst', "Second", "Third", "Fourth"])

display(data)

Ferst      January
Second    February
Third        March
Fourth       Aprel
dtype: object

## Pandas: DataFrame

Объект **DataFrame** лучше всего представлять себе в виде обычной таблицы. В таблице присутствуют строки и столбцы. Столбцами в объекте DataFrame выступают объекты Series, строки которых являются их непосредственными элементами.

In [10]:
d = {'col1': [1, 2], 'col2': [3, 4]}
df = pd.DataFrame(d)
display(df)

Unnamed: 0,col1,col2
0,1,3
1,2,4


In [11]:
df = pd.DataFrame([ [1,2,3], [2,3,4] ],
                  columns = ['foo', 'bar', 'baz'], 
                  index = ['foobar', 'foobaz'])

display(df)

Unnamed: 0,foo,bar,baz
foobar,1,2,3
foobaz,2,3,4


## Pandas: read_csv

Функция возвращает DataFrame (то есть таблицу), однако затем приобретает ещё много важных параметров, среди которых:

- **sep** — разделитель данных, по умолчанию ',';
- **decimal** — разделитель числа на целую и дробную часть, по умолчанию'.';
- **names** — список с названиями колонок, не обязательный параметр;
- **skiprows** — если файл содержит системную информацию, можно просто её пропустить. Не обязательный параметр.

Дополнительные параметры можно посмотреть в [официальной документации.](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html)

In [12]:
df = pd.read_csv('../files/data_sf.csv')
display(df)

Unnamed: 0.1,Unnamed: 0,Name,Age,Nationality,Club,Value,Wage,Position,Crossing,Finishing,...,Penalties,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes
0,0,L. Messi,31,Argentina,FC Barcelona,110500000,565000,RF,84,95,...,75,96,33,28,26,6,11,15,14,8
1,1,Cristiano Ronaldo,33,Portugal,Juventus,77000000,405000,ST,84,94,...,85,95,28,31,23,7,11,15,14,11
2,2,Neymar Jr,26,Brazil,Paris Saint-Germain,118500000,290000,LW,79,87,...,81,94,27,24,33,9,9,15,15,11
3,3,De Gea,27,Spain,Manchester United,72000000,260000,GK,17,13,...,40,68,15,21,13,90,85,87,88,94
4,4,K. De Bruyne,27,Belgium,Manchester City,102000000,355000,RCM,93,82,...,79,88,68,58,51,15,13,5,10,13
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12892,13121,J. Lundstram,19,England,Crewe Alexandra,1100000,1000,CM,34,38,...,43,45,40,48,47,10,13,7,8,9
12893,13122,N. Christoffersson,19,Sweden,Trelleborgs FF,60000,1000,ST,23,52,...,43,42,22,15,19,10,9,9,5,12
12894,13123,B. Worman,16,England,Cambridge United,60000,1000,ST,25,40,...,55,41,32,13,11,6,5,10,6,13
12895,13124,D. Walker-Rice,17,England,Tranmere Rovers,60000,1000,RW,44,50,...,50,46,20,25,27,14,6,14,8,9


## Pandas: head и tail

Часто после чтения данных с помощью read_csv() хочется убедиться в правильности чтения или, к примеру, посмотреть, что лежит в наборе данных. 

Для этого используются методы .head() или .tail(), которые показывают первые или последние 5 строк таблицы. Количество строк можно менять параметром n, передаваемым в функцию. 

In [13]:
display(df.head())

Unnamed: 0.1,Unnamed: 0,Name,Age,Nationality,Club,Value,Wage,Position,Crossing,Finishing,...,Penalties,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes
0,0,L. Messi,31,Argentina,FC Barcelona,110500000,565000,RF,84,95,...,75,96,33,28,26,6,11,15,14,8
1,1,Cristiano Ronaldo,33,Portugal,Juventus,77000000,405000,ST,84,94,...,85,95,28,31,23,7,11,15,14,11
2,2,Neymar Jr,26,Brazil,Paris Saint-Germain,118500000,290000,LW,79,87,...,81,94,27,24,33,9,9,15,15,11
3,3,De Gea,27,Spain,Manchester United,72000000,260000,GK,17,13,...,40,68,15,21,13,90,85,87,88,94
4,4,K. De Bruyne,27,Belgium,Manchester City,102000000,355000,RCM,93,82,...,79,88,68,58,51,15,13,5,10,13


In [14]:
display(df.tail(7))

Unnamed: 0.1,Unnamed: 0,Name,Age,Nationality,Club,Value,Wage,Position,Crossing,Finishing,...,Penalties,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes
12890,13119,J. Young,18,Scotland,Swindon Town,450000,1000,ST,28,47,...,58,50,15,17,14,11,15,12,12,11
12891,13120,D. Walsh,18,Republic of Ireland,Waterford FC,60000,1000,RB,22,23,...,38,43,44,47,53,9,10,9,11,13
12892,13121,J. Lundstram,19,England,Crewe Alexandra,1100000,1000,CM,34,38,...,43,45,40,48,47,10,13,7,8,9
12893,13122,N. Christoffersson,19,Sweden,Trelleborgs FF,60000,1000,ST,23,52,...,43,42,22,15,19,10,9,9,5,12
12894,13123,B. Worman,16,England,Cambridge United,60000,1000,ST,25,40,...,55,41,32,13,11,6,5,10,6,13
12895,13124,D. Walker-Rice,17,England,Tranmere Rovers,60000,1000,RW,44,50,...,50,46,20,25,27,14,6,14,8,9
12896,13125,G. Nugent,16,England,Tranmere Rovers,60000,1000,CM,41,34,...,33,43,40,43,50,10,15,9,12,9


## Pandas: info

Если хочется получить более детальную информацию о колонках DataFrame, используется метод .info()

**.info()** можно передать дополнительные параметры, среди которых:
- **verbose**: печатать ли информацию о DataFrame полностью (если таблица очень большая, то некоторая информация может потеряться);
- **memory_usage**: печатать ли потребление памяти (по умолчанию используется True, но можно поставить либо False, что уберёт потребление памяти, либо 'deep' , что подсчитает потребление памяти более точно);
- **null_counts**: подсчитывать ли количество пустых элементов (по умолчанию True).

In [15]:
display(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12897 entries, 0 to 12896
Data columns (total 42 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Unnamed: 0       12897 non-null  int64 
 1   Name             12897 non-null  object
 2   Age              12897 non-null  int64 
 3   Nationality      12897 non-null  object
 4   Club             12897 non-null  object
 5   Value            12897 non-null  int64 
 6   Wage             12897 non-null  int64 
 7   Position         12897 non-null  object
 8   Crossing         12897 non-null  int64 
 9   Finishing        12897 non-null  int64 
 10  HeadingAccuracy  12897 non-null  int64 
 11  ShortPassing     12897 non-null  int64 
 12  Volleys          12897 non-null  int64 
 13  Dribbling        12897 non-null  int64 
 14  Curve            12897 non-null  int64 
 15  FKAccuracy       12897 non-null  int64 
 16  LongPassing      12897 non-null  int64 
 17  BallControl      12897 non-null

None

## Pandas: describe

Метод **describe** показывает основные статистические характеристики данных по каждому числовому признаку (типы int64 и float64): число непропущенных значений, среднее, стандартное отклонение, диапазон, медиану, 0.25 и 0.75 квартили.

In [16]:
df.describe()

Unnamed: 0.1,Unnamed: 0,Age,Value,Wage,Crossing,Finishing,HeadingAccuracy,ShortPassing,Volleys,Dribbling,...,Penalties,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes
count,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,...,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0
mean,6605.040862,24.795379,2112449.0,7517.562224,47.076374,42.876328,50.202528,56.026983,40.29503,52.461735,...,46.459874,55.942932,45.655811,46.18671,44.386679,17.218345,16.962317,16.797938,16.950221,17.315965
std,3782.545526,4.872212,6498424.0,23061.985387,18.04347,19.096935,17.281593,14.740436,17.080687,18.871643,...,15.479313,11.280631,19.456346,21.172586,20.726546,18.085618,17.349624,16.971411,17.369297,18.335817
min,0.0,16.0,0.0,1000.0,5.0,2.0,4.0,7.0,4.0,4.0,...,5.0,12.0,3.0,2.0,3.0,1.0,1.0,1.0,1.0,1.0
25%,3357.0,21.0,250000.0,1000.0,35.0,28.0,43.0,50.0,28.0,45.0,...,37.0,49.0,29.0,25.0,23.0,8.0,8.0,8.0,8.0,8.0
50%,6622.0,24.0,500000.0,2000.0,51.0,45.0,54.0,60.0,41.0,58.0,...,47.0,56.0,51.0,54.0,51.0,11.0,11.0,11.0,11.0,11.0
75%,9876.0,28.0,850000.0,4000.0,61.0,59.0,62.0,65.0,53.0,65.0,...,58.0,63.0,62.0,64.0,62.0,14.0,14.0,14.0,14.0,14.0
max,13125.0,45.0,118500000.0,565000.0,93.0,95.0,94.0,93.0,90.0,97.0,...,91.0,96.0,93.0,93.0,91.0,90.0,92.0,91.0,90.0,94.0


Здесь для каждого числового (int64) столбца показано число непустых значений (count), среднее (mean), стандартное отклонение (std), минимум и максимум (min и max), 25% и 75% квартили и медиана (50%). 

Подробнее про стандартное отклонение можно прочитать [тут](https://ru.wikipedia.org/wiki/%D0%A1%D1%80%D0%B5%D0%B4%D0%BD%D0%B5%D0%BA%D0%B2%D0%B0%D0%B4%D1%80%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B5_%D0%BE%D1%82%D0%BA%D0%BB%D0%BE%D0%BD%D0%B5%D0%BD%D0%B8%D0%B5), а про квартили [здесь](https://www.mathsisfun.com/data/quartiles.html).

Чтобы посмотреть статистику по нечисловым признакам (например, по строчным (object) или булевым (bool) данным), нужно явно указать интересующие нас типы в параметре метода describe **include**:

In [17]:
df.describe(include = ['object'])

Unnamed: 0,Name,Nationality,Club,Position
count,12897,12897,12897,12897
unique,12326,156,650,27
top,J. Rodríguez,England,Shonan Bellmare,GK
freq,9,1368,30,1641


Здесь для каждой колонки с типом object (строчные данные) выводится количество непустых строк, уникальных значений, самое частое значение (top) и частота этого значения (freq).

Чтобы вывести информацию целиком, а не в обрезанном виде, можно написать:

In [18]:
with pd.option_context('display.max_rows', None, 'display.max_columns', None):
    display(df.describe())

Unnamed: 0.1,Unnamed: 0,Age,Value,Wage,Crossing,Finishing,HeadingAccuracy,ShortPassing,Volleys,Dribbling,Curve,FKAccuracy,LongPassing,BallControl,Acceleration,SprintSpeed,Agility,Reactions,Balance,ShotPower,Jumping,Stamina,Strength,LongShots,Aggression,Interceptions,Positioning,Vision,Penalties,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes
count,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0,12897.0
mean,6605.040862,24.795379,2112449.0,7517.562224,47.076374,42.876328,50.202528,56.026983,40.29503,52.461735,44.264403,40.321625,50.115143,55.463596,63.109715,63.205629,61.819648,59.430565,63.171978,52.530666,64.285415,61.123052,64.271614,43.971931,53.777933,44.87594,47.166008,50.843374,46.459874,55.942932,45.655811,46.18671,44.386679,17.218345,16.962317,16.797938,16.950221,17.315965
std,3782.545526,4.872212,6498424.0,23061.985387,18.04347,19.096935,17.281593,14.740436,17.080687,18.871643,17.781283,16.718481,15.21516,16.692643,15.129988,14.903845,14.858729,8.875832,14.1907,16.975214,11.765467,16.194498,12.550696,18.769749,17.232716,20.188799,19.245882,13.74596,15.479313,11.280631,19.456346,21.172586,20.726546,18.085618,17.349624,16.971411,17.369297,18.335817
min,0.0,16.0,0.0,1000.0,5.0,2.0,4.0,7.0,4.0,4.0,6.0,3.0,9.0,5.0,12.0,12.0,15.0,21.0,16.0,2.0,15.0,12.0,17.0,3.0,11.0,3.0,2.0,10.0,5.0,12.0,3.0,2.0,3.0,1.0,1.0,1.0,1.0,1.0
25%,3357.0,21.0,250000.0,1000.0,35.0,28.0,43.0,50.0,28.0,45.0,32.0,29.0,40.0,51.0,55.0,55.0,53.0,54.0,55.0,42.0,57.0,54.0,57.0,29.0,41.0,24.0,35.0,42.0,37.0,49.0,29.0,25.0,23.0,8.0,8.0,8.0,8.0,8.0
50%,6622.0,24.0,500000.0,2000.0,51.0,45.0,54.0,60.0,41.0,58.0,45.0,39.0,53.0,60.0,66.0,66.0,64.0,59.0,65.0,56.0,65.0,64.0,65.0,47.0,56.0,51.0,52.0,52.0,47.0,56.0,51.0,54.0,51.0,11.0,11.0,11.0,11.0,11.0
75%,9876.0,28.0,850000.0,4000.0,61.0,59.0,62.0,65.0,53.0,65.0,58.0,52.0,61.0,65.0,74.0,73.0,72.0,65.0,73.0,65.0,72.0,72.0,73.0,59.0,67.0,62.0,61.0,60.0,58.0,63.0,62.0,64.0,62.0,14.0,14.0,14.0,14.0,14.0
max,13125.0,45.0,118500000.0,565000.0,93.0,95.0,94.0,93.0,90.0,97.0,93.0,94.0,93.0,96.0,97.0,96.0,96.0,96.0,96.0,95.0,95.0,96.0,97.0,94.0,95.0,92.0,95.0,94.0,91.0,96.0,93.0,93.0,91.0,90.0,92.0,91.0,90.0,94.0


## Pandas: statistic methods

Для вычисления отдельных статистических параметров DataFrame можно использовать не только метод .describe(), но и отдельные методы для каждого параметра:

| Метод | Статистический параметр |
| :-- | :-- |
| .max() | Максимум |
| .min() | Минимум |
| .mean() | Среднее значение |
| .sum() | Сумма |
| .count() | Количество непустых элементов |
| .std() | Стандартное отклонение |

Если один из этих методов применить ко всему DataFrame, то в результате его работы будет получен объект типа Series. В случае применения метода к отдельному столбцу, результатом вычислений станет число (среднее значение элементов столбца, минимум, максимум и т.п.).

В каждый метод можно передать некоторые параметры, среди которых:

- **axis** — определяет, подсчитывать максимум по строкам (1) или по столбцам (0) (по умолчанию 0);
- **numeric_only** — определяет, вычислять параметры только по числовым столбцам/строкам или нет (True/False). Если передать False в методы **.mean()** или **.std()**, компилятор выдаст ошибку. 

Пример применения: 

In [19]:
df2 = pd.DataFrame([[i, i+1.2, i+2, 'hi'] for i in range(10)],
                  columns = ['foo', 'bar', 'baz', 'foobar'])
df2.mean()

foo    4.5
bar    5.7
baz    6.5
dtype: float64

Здесь вычисляется среднее по столбцам (так как не передан параметр axis), причем только по числовым столбцам, так как метод .mean() не может применяться к столбцам с другим типом.

 Доступ к колонке можно получить разными способами: df['column_name'] или df.column_name. Например, так:

In [20]:
# df2['bar']
df2.bar

0     1.2
1     2.2
2     3.2
3     4.2
4     5.2
5     6.2
6     7.2
7     8.2
8     9.2
9    10.2
Name: bar, dtype: float64

Как мы помним, колонки в DataFrame представляют собой Series, поэтому к ним можно применять методы .max(), .std() и другие.

In [21]:
# Эта операция выведет на экран среднее по колонке 'bar', то есть 5.7.
df2.bar.mean()

5.7

#### Каково количество непустых строк в колонке Composure (Хладнокровие) набора данных о футболистах?

In [22]:
df['Composure'].count()

12897

#### Чему равен средний возраст (Age), футболистов в наборе данных, округлённый до целого?

In [23]:
df['Age'].mean()

24.795378770256647

#### Каково в наборе данных о футболистах стандартное отклонение параметра коротких пасов (ShortPassing), округлённое до второго знака после запятой?

In [24]:
df['ShortPassing'].std()

14.740435689517149

#### Какова сумма заработных плат за год (Wage) в наборе данных о футболистах?

In [25]:
df['Wage'].sum()

96954000

#### Какова минимальная стоимость футболиста (Value) в наборе данных о футболистах?

In [26]:
df['Value'].min()

0

## Pandas: Как получить из DataFrame только нужные данные?

Часто возникает необходимость выбрать данные из DataFrame по определённому условию. Например, если в уже известном нам наборе данных о футболистах мы хотим выбрать только тех, у кого возраст больше 20 лет, используется следующий код:

In [27]:
df[df.Age > 20]

Unnamed: 0.1,Unnamed: 0,Name,Age,Nationality,Club,Value,Wage,Position,Crossing,Finishing,...,Penalties,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes
0,0,L. Messi,31,Argentina,FC Barcelona,110500000,565000,RF,84,95,...,75,96,33,28,26,6,11,15,14,8
1,1,Cristiano Ronaldo,33,Portugal,Juventus,77000000,405000,ST,84,94,...,85,95,28,31,23,7,11,15,14,11
2,2,Neymar Jr,26,Brazil,Paris Saint-Germain,118500000,290000,LW,79,87,...,81,94,27,24,33,9,9,15,15,11
3,3,De Gea,27,Spain,Manchester United,72000000,260000,GK,17,13,...,40,68,15,21,13,90,85,87,88,94
4,4,K. De Bruyne,27,Belgium,Manchester City,102000000,355000,RCM,93,82,...,79,88,68,58,51,15,13,5,10,13
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12838,13067,D. Mackay,21,Scotland,Kilmarnock,30000,1000,GK,14,20,...,24,30,12,18,18,48,50,47,48,48
12857,13086,Wu Lei,21,China PR,Tianjin Quanjian FC,9000000,2000,LDM,52,29,...,46,39,52,40,49,8,15,11,8,5
12861,13090,Y. Uchimura,33,Japan,Hokkaido Consadole Sapporo,20000,1000,CAM,51,31,...,33,62,45,48,42,13,15,7,15,15
12870,13099,M. Hurst,22,Scotland,St. Johnstone FC,40000,1000,GK,19,15,...,29,28,12,15,16,45,49,50,50,45


Можно для фильтрации использовать и методы получения статистических параметров. Например, если нам нужны только те футболисты, возраст которых больше среднего возраста футболистов, можно использовать следующую конструкцию:

In [28]:
df[df.Age > df.Age.mean()]

Unnamed: 0.1,Unnamed: 0,Name,Age,Nationality,Club,Value,Wage,Position,Crossing,Finishing,...,Penalties,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes
0,0,L. Messi,31,Argentina,FC Barcelona,110500000,565000,RF,84,95,...,75,96,33,28,26,6,11,15,14,8
1,1,Cristiano Ronaldo,33,Portugal,Juventus,77000000,405000,ST,84,94,...,85,95,28,31,23,7,11,15,14,11
2,2,Neymar Jr,26,Brazil,Paris Saint-Germain,118500000,290000,LW,79,87,...,81,94,27,24,33,9,9,15,15,11
3,3,De Gea,27,Spain,Manchester United,72000000,260000,GK,17,13,...,40,68,15,21,13,90,85,87,88,94
4,4,K. De Bruyne,27,Belgium,Manchester City,102000000,355000,RCM,93,82,...,79,88,68,58,51,15,13,5,10,13
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12746,12975,Teng Shangkun,27,China PR,Tianjin TEDA FC,20000,1000,GK,10,8,...,17,58,28,10,13,46,56,55,45,53
12749,12978,M. Mansour,26,Saudi Arabia,Al Batin,30000,2000,LB,36,18,...,33,37,45,54,54,10,8,6,13,13
12767,12996,Sun Qibin,26,China PR,Tianjin Quanjian FC,20000,2000,GK,14,7,...,12,30,46,11,10,50,46,51,48,50
12861,13090,Y. Uchimura,33,Japan,Hokkaido Consadole Sapporo,20000,1000,CAM,51,31,...,33,62,45,48,42,13,15,7,15,15


Условия можно и комбинировать, используя операторы & (логическое и) и | (логическое или). Условия при этом заключаются в скобки. Например, если мы хотим получить только тех футболистов, у которых возраст меньше среднего, или игроков 'FC Barcelona':

In [29]:
df[(df.Age < df.Age.mean())|(df.Club == 'FC Barcelona')]

Unnamed: 0.1,Unnamed: 0,Name,Age,Nationality,Club,Value,Wage,Position,Crossing,Finishing,...,Penalties,Composure,Marking,StandingTackle,SlidingTackle,GKDiving,GKHandling,GKKicking,GKPositioning,GKReflexes
0,0,L. Messi,31,Argentina,FC Barcelona,110500000,565000,RF,84,95,...,75,96,33,28,26,6,11,15,14,8
7,7,L. Suárez,31,Uruguay,FC Barcelona,80000000,455000,RS,77,93,...,85,85,62,45,38,27,25,31,33,37
15,15,P. Dybala,24,Argentina,Juventus,89000000,205000,LF,82,84,...,86,84,23,20,20,5,4,4,5,8
16,16,H. Kane,24,England,Tottenham Hotspur,83500000,205000,ST,75,94,...,90,89,56,36,38,8,10,11,14,11
18,18,M. ter Stegen,26,Germany,FC Barcelona,58000000,240000,GK,15,14,...,25,69,25,13,10,87,85,88,85,90
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12892,13121,J. Lundstram,19,England,Crewe Alexandra,1100000,1000,CM,34,38,...,43,45,40,48,47,10,13,7,8,9
12893,13122,N. Christoffersson,19,Sweden,Trelleborgs FF,60000,1000,ST,23,52,...,43,42,22,15,19,10,9,9,5,12
12894,13123,B. Worman,16,England,Cambridge United,60000,1000,ST,25,40,...,55,41,32,13,11,6,5,10,6,13
12895,13124,D. Walker-Rice,17,England,Tranmere Rovers,60000,1000,RW,44,50,...,50,46,20,25,27,14,6,14,8,9


Статистические параметры можно посчитать и по отфильтрованному DataFrame, например среднюю заработную плату футболистов с возрастом меньше среднего и из 'FC Barcelona':

In [30]:
df[(df.Age < df.Age.mean())&(df.Club == 'FC Barcelona')].Wage.mean()

77454.54545454546

Здесь мы получили среднюю годовую заработную плату футболистов из клуба FC Barcelona, возраст которых меньше среднего [возраста футболистов всех клубов].

#### Какова средняя скорость (SprintSpeed) футболистов, зарплата (Wage) которых выше среднего? Ответ округлите до сотых.

In [31]:
df[(df.Wage > df.Wage.mean())].SprintSpeed.mean()

67.56638061585058

#### Какова средняя скорость (SprintSpeed) футболистов, зарплата (Wage) которых ниже среднего? Ответ округлите до сотых.

In [32]:
df[(df.Wage < df.Wage.mean())].SprintSpeed.mean()

62.41425430560645

#### Какую позицию (Position) занимает футболист с самой высокой зарплатой (Wage)?

In [33]:
df[(df.Wage == df.Wage.max())].Position

0    RF
Name: Position, dtype: object

#### Сколько пенальти (Penalties) забили бразильские (Nationality, Brazil) футболисты за период, данные о котором представлены в датасете?

In [34]:
df[(df.Nationality == 'Brazil')].Penalties.sum()

22789

#### Укажите средний возраст (Age) игроков, у которых точность удара головой (HeadingAccuracy) > 50. Ответ округлите до сотых.

In [35]:
df[(df.HeadingAccuracy > 50)].Age.mean()

25.58771113179944

#### Укажите возраст (Age) самого молодого игрока, у которого хладнокровие (Composure) и реакция (Reactions) превышают 90% от максимального значения, представленного в датасете.

In [36]:
df[(df.Composure > (df.Composure.max()*0.9))&(df.Reactions > (df.Reactions.max()*0.9))].Age.min()

24

#### Определите, насколько средняя реакция (Reactions) самых взрослых игроков (т.е. игроков, чей возраст (Age) равен максимальному) больше средней реакции самых молодых игроков. Ответ округлите до сотых.

In [37]:
df[df.Age == df.Age.max()].Reactions.mean() - df[df.Age == df.Age.min()].Reactions.mean()

22.642857142857146

#### Из какой страны (Nationality) происходит больше всего игроков, чья стоимость (Value) превышает среднее значение?

In [38]:
import collections

c = collections.Counter()

for nationality in df[df.Value > df.Value.mean()]['Nationality']:
    c[nationality] += 1

print(c)

Counter({'Spain': 211, 'Brazil': 130, 'France': 123, 'Argentina': 122, 'England': 113, 'Germany': 110, 'Colombia': 73, 'Italy': 71, 'Portugal': 64, 'Mexico': 52, 'Netherlands': 48, 'Belgium': 34, 'Chile': 31, 'Uruguay': 25, 'Denmark': 23, 'Croatia': 21, 'Senegal': 21, 'Serbia': 21, 'United States': 21, 'Switzerland': 19, 'Austria': 18, 'Sweden': 18, 'Turkey': 18, 'Japan': 17, 'Greece': 15, 'Ivory Coast': 15, 'Poland': 13, 'Norway': 13, 'Ukraine': 13, 'Morocco': 12, 'Cameroon': 12, 'Scotland': 12, 'Algeria': 11, 'Czech Republic': 11, 'Republic of Ireland': 10, 'Venezuela': 10, 'Wales': 9, 'Bosnia Herzegovina': 9, 'Ghana': 9, 'Guinea': 8, 'Ecuador': 8, 'Nigeria': 8, 'Russia': 8, 'Paraguay': 8, 'Australia': 8, 'DR Congo': 7, 'Peru': 7, 'Slovenia': 6, 'Mali': 6, 'Slovakia': 5, 'Korea Republic': 5, 'Finland': 4, 'Albania': 4, 'Romania': 4, 'Northern Ireland': 4, 'Canada': 4, 'Egypt': 3, 'Costa Rica': 3, 'Montenegro': 3, 'Zimbabwe': 3, 'New Zealand': 3, 'FYR Macedonia': 3, 'Gabon': 2, 'Angol

#### Определите, во сколько раз средняя зарплата (Wage) голкипера (Position, GK) с максимальным значением показателя " Рефлексы" (GKReflexes) выше средней зарплаты голкипера с максимальным значением показателя "Владение мячом" (GKHandling). Ответ округлите до сотых.

In [39]:
df[(df.Position == 'GK')&(df.GKReflexes == df.GKReflexes.max())].Wage.mean() / df[(df.Position == 'GK')&(df.GKHandling == df.GKHandling.max())].Wage.mean()

2.765957446808511

#### Определите, во сколько раз средняя сила удара (ShotPower) самых агрессивных игроков (игроков с максимальным значением показателя "Агрессивность" (Aggression)) выше средней силы удара игроков с минимальной агрессией. Ответ округлите до сотых.

In [40]:
df[(df.Aggression == df.Aggression.max())].ShotPower.mean() / df[(df.Aggression == df.Aggression.min())].ShotPower.mean()

2.076923076923077