<br>
<font size=6>PANDAS</font>
<br>
<br>
<b>pandas</b> — программная библиотека на языке Python для обработки и анализа данных. Работа pandas с данными строится поверх библиотеки NumPy, являющейся инструментом более низкого уровня. Предоставляет специальные структуры данных и операции для манипулирования числовыми таблицами и временны́ми рядами.
<br><br>
<b>pandas</b> стремится стать фундаментальным высокоуровневым строительным блоком для практического анализа данных в реальном мире в Python. Кроме того, у него есть более широкая цель — стать самым мощным и гибким инструментом анализа/манипулирования данными с открытым исходным кодом, доступным на любом языке.<br>
<br>

Материалы занятия:
- Курс по pandas на kaggle https://www.kaggle.com/code/residentmario/creating-reading-and-writing
- Введение в pandas https://khashtamov.com/ru/pandas-introduction/
- Документация pandas https://pandas.pydata.org/docs/
- Сайт разработчиков https://pandas.pydata.org/

In [1]:
# Установка pandas
!pip install pandas

Collecting pandas
  Downloading pandas-1.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (12.1 MB)
[2K     [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.1/12.1 MB[0m [31m10.8 MB/s[0m eta [36m0:00:00[0mm eta [36m0:00:01[0m0:01[0m:01[0m
Collecting pytz>=2020.1
  Downloading pytz-2022.4-py2.py3-none-any.whl (500 kB)
[2K     [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m500.8/500.8 kB[0m [31m10.9 MB/s[0m eta [36m0:00:00[0m MB/s[0m eta [36m0:00:01[0m
Installing collected packages: pytz, pandas
Successfully installed pandas-1.5.0 pytz-2022.4


In [2]:
# импортирование pandas
import pandas as pd

<br>
<font size=6>Эпизод Ⅰ</font><br>
<br>
<font size=5>Создание данных</font>
<hr>
Создание данных в pandas включает в себя два объекта: <b>DataFrame</b> и <b>Series</b>.
<br><br>
<b>DataFrame</b> — это таблица. Он содержит <i>массив отдельных записей</i>, каждая из которых имеет определенное значение. Каждая запись соответствует строке и столбцу.<br>
DataFrame проще представлять с помощью словаря python. Например, рассмотрим следующий простой DataFrame:
<br><br>

In [30]:
df = pd.DataFrame({'Yes': [20, 40], 'No': [3, 10]})
df

Unnamed: 0,Yes,No
0,20,3
1,40,10


<br>
"Yes", "No" - колонки или столбцы нашей таблицы(DataFrame).<br>
0, 1 - индексы или строки.<br>
<br>
Но кроме цифр нам часто нужно хранить разные слова:
<br>
<br>

In [31]:
df = pd.DataFrame({
    'country': ['Kazakhstan', 'Russia', 'Belarus', 'Ukraine'],
    'population': [17.04, 143.5, 9.5, 45.5],
    'square': [2724902, 17125191, 207600, 603628]
})
df

Unnamed: 0,country,population,square
0,Kazakhstan,17.04,2724902
1,Russia,143.5,17125191
2,Belarus,9.5,207600
3,Ukraine,45.5,603628


Сохраним наши данные в csv файл

In [34]:
df.to_csv('data/country.csv')

<br>
<b>Series</b><br><br>
Структура/объект Series представляет из себя объект, похожий на одномерный массив (питоновский список, например), но отличительной его чертой является наличие ассоциированных меток, т.н. индексов, вдоль каждого элемента из списка. Такая особенность превращает его в ассоциативный массив или словарь в Python.
<br><br>
Если DataFrame — это таблица, то Series — это список. И на самом деле вы можете создать его не более чем списком.
<br>
<br>

In [13]:
my_series = pd.Series([5, 6, 7, 8, 9, 10])
my_series

0     5
1     6
2     7
3     8
4     9
5    10
dtype: int64

In [14]:
my_series.index

RangeIndex(start=0, stop=6, step=1)

In [15]:
my_series.values

array([ 5,  6,  7,  8,  9, 10])

<br>
Series — это, по сути, один столбец DataFrame.<br>
Таким образом, вы можете назначать метки строк ряду так же, как и раньше, используя параметр индекса. Однако у Series нет имени столбца, у него есть только одно общее имя:
<br>
<br>

In [16]:
pd.Series([30, 35, 40], index=['2015 Sales', '2016 Sales', '2017 Sales'], name='Product A')

2015 Sales    30
2016 Sales    35
2017 Sales    40
Name: Product A, dtype: int64

In [17]:
my_series2 = pd.Series([5, 6, 7, 8, 9, 10], index=['a', 'b', 'c', 'd', 'e', 'f'])
my_series2['f']

10

In [18]:
my_series2[['a', 'b', 'f']]

a     5
b     6
f    10
dtype: int64

In [19]:
my_series2[['a', 'b', 'f']]
my_series2[['a', 'b', 'f']] = 0
my_series2

a    0
b    0
c    7
d    8
e    9
f    0
dtype: int64

<br>
Полезно выводить элементы, которые подходят под нужные нам условия.
<br>
<br>

In [20]:
my_series2[my_series2 > 0]

c    7
d    8
e    9
dtype: int64

In [21]:
my_series2[my_series2 > 0] * 2

c    14
d    16
e    18
dtype: int64

<br>
<font size=5>Чтение файлов</font>
<hr>
Возможность создать DataFrame или Series вручную очень удобна. Но в большинстве случаев мы не будем создавать собственные данные вручную. Вместо этого мы будем работать с уже существующими данными.<br>
<br>
Данные могут храниться в любой из множества различных форм и форматов. Безусловно, самым простым из них является скромный файл CSV. Когда вы открываете файл CSV, вы получаете что-то вроде этого:<br>
<br>

Product A,Product B,Product C,<br>
30,21,9,<br>
35,34,1,<br>
41,11,11<br>

<br>

Таким образом, файл CSV представляет собой таблицу значений, разделенных запятыми. Отсюда и название: «Значения, разделенные запятыми» или CSV.<br>
<br>
Давайте теперь отложим в сторону наши игрушечные наборы данных и посмотрим, как выглядит настоящий набор данных, когда мы читаем его в DataFrame. Мы будем использовать функцию pd.read_csv() для чтения данных в DataFrame. Это происходит так:<br>
<br>

In [152]:
data = pd.read_csv('data/covid.csv')
data

Unnamed: 0,#,"Country,\nOther",Total\nCases,Total\nDeaths,New\nDeaths,Total\nRecovered,Active\nCases,"Serious,\nCritical",Tot Cases/\n1M pop,Deaths/\n1M pop,Total\nTests,Tests/\n1M pop,Population
0,1,USA,98166904,1084282,,94962112,2120510,2970,293206,3239,1118158870,3339729,334805269
1,2,India,44587307,528629,,44019095,39583,698,31698,376,894416853,635857,1406631776
2,3,France,35342950,155078,,34527115,660757,869,538892,2365,271490188,4139547,65584518
3,4,Brazil,34706757,686027,,33838636,182094,8318,161162,3186,63776166,296146,215353593
4,5,Germany,33312373,149948,,32315200,847225,1406,397126,1788,122332384,1458359,83883596
...,...,...,...,...,...,...,...,...,...,...,...,...,...
225,226,Niue,80,,,80,0,,49322,,,,1622
226,227,Vatican City,29,,,29,0,,36295,,,,799
227,228,Tuvalu,20,,,,20,,1658,,,,12066
228,229,Western Sahara,10,1,,9,0,,16,2,,,626161


<br>
<a href='https://www.kaggle.com/datasets/whenamancodes/covid-19-coronavirus-pandemic-dataset'>COVID -19 Coronavirus Pandemic Dataset</a><br><br>
<b>Новый коронавирус 2019 года (2019-nCoV)</b> — это вирус (точнее, коронавирус), идентифицированный как причина вспышки респираторного заболевания, впервые обнаруженного в Ухане, Китай. Ранее сообщалось, что многие из пациентов во время вспышки в Ухане, Китай, имели некоторую связь с крупным рынком морепродуктов и животных, что свидетельствует о передаче вируса от животного к человеку. Однако, как сообщается, все большее число пациентов не контактировали с рынками животных, что указывает на то, что происходит передача вируса от человека к человеку. В настоящее время неясно, насколько легко и устойчиво этот вирус распространяется между людьми – CDC

Этот набор данных содержит информацию о количестве зараженных случаев, смертей и выздоровлений от нового коронавируса 2019 года. 
<br><br>
Набор состоит из 230 строк и 13 колонок.<br>
При работе с данными мы будем часто сталкиваться с проблемами их записи, эти данные заполняют люди, пусть даже с помощью машин, они все равно стремятся допустить опечатку или ошибку.<br>
Исправим <i>первую ошибку</i> связанную с именами колонок:<br>
<b>"Country\nOther"</b> "\n" - оператор переноса строки, который неверно записался.<br>
Мы попробуем задать новые имена каждой колонки.<br>
<br>

In [162]:
columns = ['id', 'Country', 'Total cases', 'TotalDeaths', 'NewDeaths', 'Total Recovered', 
           'Active', 'Serious or Critical Cases', 'Total Cases / 1M pop', 'Total Deaths / 1M pop', 'Total tests', 'Total tests / 1M pop', 'Population']
len(columns)

13

In [163]:
data.columns = columns

<br>
Мы можем изучить содержимое результирующего DataFrame с помощью команды head(), которая захватывает первые пять строк:
<br><br>

In [164]:
data.head()

Unnamed: 0,id,Country,Total cases,TotalDeaths,NewDeaths,Total Recovered,Active,Serious or Critical Cases,Total Cases / 1M pop,Total Deaths / 1M pop,Total tests,Total tests / 1M pop,Population
0,1,USA,98166904,1084282,,94962112,2120510,2970,293206,3239,1118158870,3339729,334805269
1,2,India,44587307,528629,,44019095,39583,698,31698,376,894416853,635857,1406631776
2,3,France,35342950,155078,,34527115,660757,869,538892,2365,271490188,4139547,65584518
3,4,Brazil,34706757,686027,,33838636,182094,8318,161162,3186,63776166,296146,215353593
4,5,Germany,33312373,149948,,32315200,847225,1406,397126,1788,122332384,1458359,83883596


<br>
Nan - пустое значение.
<br><br>

In [165]:
data.shape # чтобы узнать размер таблицы

(230, 13)

<br>
<font size=6>Эпизод Ⅱ</font>
<br><br>
<font size=5>Индексирование, выбор и назначение</font>
<hr>
Человек, который занимается наукой о данных, да и вообще программированием, должен всегда уметь делать две вещи: <b>хранить информацию и доставать её</b>.<br>
В обоих случаях нам помогает python, он дает кучу возможностей, нам остается посмотреть какие есть и применять их наиболее эффективно.<br>
<br>

<br>
В Python мы можем получить доступ к свойству объекта, обратившись к нему как к атрибуту. Например, объект книги может иметь свойство title, доступ к которому можно получить, вызвав book.title. Столбцы в pandas DataFrame работают примерно так же.<br>
<br>
Следовательно, чтобы получить доступ к колонкам, мы можем использовать:<br>
<br>

In [166]:
data.Country # получаем объект Series

0                 USA
1               India
2              France
3              Brazil
4             Germany
            ...      
225              Niue
226      Vatican City
227            Tuvalu
228    Western Sahara
229        MS Zaandam
Name: Country, Length: 230, dtype: object

In [167]:
# Тоже самое, но другом виде
data['Country']

0                 USA
1               India
2              France
3              Brazil
4             Germany
            ...      
225              Niue
226      Vatican City
227            Tuvalu
228    Western Sahara
229        MS Zaandam
Name: Country, Length: 230, dtype: object

Нет большой разницы между этими двумя способами, они оба допустимы

In [168]:
# Чтобы достать первое значение нашей колонки
data['Country'][0]

'USA'

<br>
<font size=4><b>Индексация loc и iloc</b></font>
<br><br>
Индексация и выбор атрибута работают также как и в обычной экосистеме python. Но pandas также дает <i>свои способы выбирать информацию.</i><br>
До этого мы доставали столбцы, как насчет строк? Для доступа к строкам pandas предоставляет: <b>loc</b> и <b>iloc</b>.
<br>
<br>

- loc - используется для доступа по строковой метке. В этой парадигме важно значение индекса данных, а не его положение.
- iloc - используется для доступа по числовому значению, то есть выбор данных на основе их числового положения в данных.

<br>

In [169]:
data.iloc[0] # Берем первую строку 

id                                       1
Country                                USA
Total cases                     98,166,904
TotalDeaths                      1,084,282
NewDeaths                              NaN
Total Recovered                 94,962,112
Active                           2,120,510
Serious or Critical Cases            2,970
Total Cases / 1M pop               293,206
Total Deaths / 1M pop                3,239
Total tests                  1,118,158,870
Total tests / 1M pop             3,339,729
Population                     334,805,269
Name: 0, dtype: object

In [170]:
data.iloc[0, :5] # взять первую строку и вывести пять колонок от 0 до 4.

id                      1
Country               USA
Total cases    98,166,904
TotalDeaths     1,084,282
NewDeaths             NaN
Name: 0, dtype: object

In [189]:
data[data.TotalDeaths == '6'].iloc[:, :5] # взять страны, у которых TotalDeaths = 6, и показать только 5 столбцов.

Unnamed: 0,id,Country,Total cases,TotalDeaths,NewDeaths
213,214,Palau,5460,6,
214,215,St. Barth,5285,6,
222,223,Macao,793,6,


In [193]:
data.iloc[[1, 2, 3], [1, 2, 3, 5, 8, 10]] # возможен еще такой случай 

Unnamed: 0,Country,Total cases,TotalDeaths,Total Recovered,Total Cases / 1M pop,Total tests
1,India,44587307,528629,44019095,31698,894416853
2,France,35342950,155078,34527115,538892,271490188
3,Brazil,34706757,686027,33838636,161162,63776166


In [205]:
data.iloc[-5:] # data.tail() дает тоже самое

Unnamed: 0,id,Country,Total cases,TotalDeaths,NewDeaths,Total Recovered,Active,Serious or Critical Cases,Total Cases / 1M pop,Total Deaths / 1M pop,Total tests,Total tests / 1M pop,Population
225,226,Niue,80,,,80.0,0,,49322.0,,,,1622.0
226,227,Vatican City,29,,,29.0,0,,36295.0,,,,799.0
227,228,Tuvalu,20,,,,20,,1658.0,,,,12066.0
228,229,Western Sahara,10,1.0,,9.0,0,,16.0,2.0,,,626161.0
229,230,MS Zaandam,9,2.0,,7.0,0,,,,,,


In [216]:
data.loc[0, 'Country']

'USA'

In [210]:
data.loc[0:5, ['Country', 'NewDeaths']]

Unnamed: 0,Country,NewDeaths
0,USA,
1,India,
2,France,
3,Brazil,
4,Germany,
5,S. Korea,42.0


<br>
<b>iloc</b> <i>концептуально проще</i>, чем <b>loc</b>, поскольку игнорирует индексы набора данных. Когда мы используем iloc, мы рассматриваем набор данных как большую матрицу (список списков), которую мы должны индексировать по позиции. loc, напротив, использует информацию из индексов для выполнения своей работы. Поскольку ваш набор данных обычно имеет значимые индексы, обычно проще делать что-то, используя loc. Например, вот одна операция, которую намного проще выполнить с помощью loc:
<br>
<br>

In [219]:
data.loc[:, ['Country', 'TotalDeaths', 'NewDeaths',
       'Total Recovered', 'Active',]]

Unnamed: 0,Country,TotalDeaths,NewDeaths,Total Recovered,Active
0,USA,1084282,,94962112,2120510
1,India,528629,,44019095,39583
2,France,155078,,34527115,660757
3,Brazil,686027,,33838636,182094
4,Germany,149948,,32315200,847225
...,...,...,...,...,...
225,Niue,,,80,0
226,Vatican City,,,29,0
227,Tuvalu,,,,20
228,Western Sahara,1,,9,0


<br>
<font size='4'><b>Выбор между loc и iloc</b></font>
<br><br>
При выборе или переходе между loc и iloc следует иметь в виду один «подводный камень», а именно то, что эти два метода используют несколько разные схемы индексации.<br>
<br>
iloc использует схему индексации Python stdlib, где первый элемент диапазона включается, а последний исключается. Таким образом, 0:10 выберет записи 0,...,9. loc, тем временем, индексирует включительно. Таким образом, 0:10 выберет записи 0,...,10.<br>
<br>
Это особенно сбивает с толку, когда индекс DataFrame представляет собой простой числовой список, например. 0,...,1000. В этом случае df.iloc[0:1000] вернет 1000 записей, а df.loc[0:1000] вернет 1001 из них! Чтобы получить 1000 элементов с помощью loc, вам нужно перейти на один ниже и запросить df.loc[0:999].<br>
<br>
В остальном loc похож на iloc.<br>
<br>

<br>
<font size='4'><b>Управление индексом</b></font>
<br><br>
iloc основывается на метках в индексе. Важно отметить, что индекс, который мы используем, не является неизменным. <br>
Мы можем манипулировать индексом так, как считаем нужным.<br>
<br>

In [229]:
data.iloc[:, :0] # Столбец индексов

0
1
2
3
4
...
225
226
227
228
229


In [245]:
data_index_id = data.set_index('id') # установить колонку 'id' в качестве индексов
data_index_id.head()

Unnamed: 0_level_0,Country,Total cases,TotalDeaths,NewDeaths,Total Recovered,Active,Serious or Critical Cases,Total Cases / 1M pop,Total Deaths / 1M pop,Total tests,Total tests / 1M pop,Population
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1,USA,98166904,1084282,,94962112,2120510,2970,293206,3239,1118158870,3339729,334805269
2,India,44587307,528629,,44019095,39583,698,31698,376,894416853,635857,1406631776
3,France,35342950,155078,,34527115,660757,869,538892,2365,271490188,4139547,65584518
4,Brazil,34706757,686027,,33838636,182094,8318,161162,3186,63776166,296146,215353593
5,Germany,33312373,149948,,32315200,847225,1406,397126,1788,122332384,1458359,83883596


Теперь iloc и loc при одинаковых значениях дадут разные результаты.

In [252]:
data_index_id.iloc[3]

Country                           Brazil
Total cases                   34,706,757
TotalDeaths                      686,027
NewDeaths                            NaN
Total Recovered               33,838,636
Active                           182,094
Serious or Critical Cases          8,318
Total Cases / 1M pop             161,162
Total Deaths / 1M pop              3,186
Total tests                   63,776,166
Total tests / 1M pop             296,146
Population                   215,353,593
Name: 4, dtype: object

In [253]:
data_index_id.loc[3]

Country                           France
Total cases                   35,342,950
TotalDeaths                      155,078
NewDeaths                            NaN
Total Recovered               34,527,115
Active                           660,757
Serious or Critical Cases            869
Total Cases / 1M pop             538,892
Total Deaths / 1M pop              2,365
Total tests                  271,490,188
Total tests / 1M pop           4,139,547
Population                    65,584,518
Name: 3, dtype: object

Дело в том, что loc - берёт значение индекса, а iloc - просто номер, France находится под 3 значением id, но под 2 порядковым номером.<br>
Brazil же находится под 4 значением id, но под 3 порядковым номером.

In [261]:
data_country_index = data.set_index('Country')
data_country_index.head()

Unnamed: 0_level_0,id,Total cases,TotalDeaths,NewDeaths,Total Recovered,Active,Serious or Critical Cases,Total Cases / 1M pop,Total Deaths / 1M pop,Total tests,Total tests / 1M pop,Population
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
USA,1,98166904,1084282,,94962112,2120510,2970,293206,3239,1118158870,3339729,334805269
India,2,44587307,528629,,44019095,39583,698,31698,376,894416853,635857,1406631776
France,3,35342950,155078,,34527115,660757,869,538892,2365,271490188,4139547,65584518
Brazil,4,34706757,686027,,33838636,182094,8318,161162,3186,63776166,296146,215353593
Germany,5,33312373,149948,,32315200,847225,1406,397126,1788,122332384,1458359,83883596


Теперь под индексом у нас находятся страны.

In [263]:
data_country_index.iloc[2] # берет порядок

id                                     3
Total cases                   35,342,950
TotalDeaths                      155,078
NewDeaths                            NaN
Total Recovered               34,527,115
Active                           660,757
Serious or Critical Cases            869
Total Cases / 1M pop             538,892
Total Deaths / 1M pop              2,365
Total tests                  271,490,188
Total tests / 1M pop           4,139,547
Population                    65,584,518
Name: France, dtype: object

In [265]:
data_country_index.loc['France'] # берет значение

id                                     3
Total cases                   35,342,950
TotalDeaths                      155,078
NewDeaths                            NaN
Total Recovered               34,527,115
Active                           660,757
Serious or Critical Cases            869
Total Cases / 1M pop             538,892
Total Deaths / 1M pop              2,365
Total tests                  271,490,188
Total tests / 1M pop           4,139,547
Population                    65,584,518
Name: France, dtype: object

<br>
Это полезно, если вы можете придумать индекс для набора данных, который лучше, чем текущий.<br>
<br>

In [283]:
data.head()

Unnamed: 0,id,Country,Total cases,TotalDeaths,NewDeaths,Total Recovered,Active,Serious or Critical Cases,Total Cases / 1M pop,Total Deaths / 1M pop,Total tests,Total tests / 1M pop,Population
0,1,USA,98166904,1084282,,94962112,2120510,2970,293206,3239,1118158870,3339729,334805269
1,2,India,44587307,528629,,44019095,39583,698,31698,376,894416853,635857,1406631776
2,3,France,35342950,155078,,34527115,660757,869,538892,2365,271490188,4139547,65584518
3,4,Brazil,34706757,686027,,33838636,182094,8318,161162,3186,63776166,296146,215353593
4,5,Germany,33312373,149948,,32315200,847225,1406,397126,1788,122332384,1458359,83883596


<br>
Столбцы или колонки часто называют <b>фичами (feature)</b>. Фичи, как ни странно, показывают особенности нашего набора данных, благодаря столбцам и их названиям, датасет имеет смысл.<br>
<br>

<br>
<font size=4>Условный выбор</font>
<br><br>
Чтобы делать интересные вещи с данными, нам часто приходится задавать вопросы, основанные на условиях.<br>
<br>

In [286]:
data.TotalDeaths == '6'

0      False
1      False
2      False
3      False
4      False
       ...  
225    False
226    False
227    False
228    False
229    False
Name: TotalDeaths, Length: 230, dtype: bool

Эта операция создала серию логических значений True/False на основе TotalDeaths каждой записи. Затем этот результат можно использовать внутри loc для выбора соответствующих данных:

In [287]:
data.loc[data.TotalDeaths == '6'] 
# Тоже самое:
# data[data.TotalDeaths == '6']

Unnamed: 0,id,Country,Total cases,TotalDeaths,NewDeaths,Total Recovered,Active,Serious or Critical Cases,Total Cases / 1M pop,Total Deaths / 1M pop,Total tests,Total tests / 1M pop,Population
213,214,Palau,5460,6,,5444.0,10.0,1.0,299457,329,64681,3547469,18233
214,215,St. Barth,5285,6,,,,,531423,603,78646,7908095,9945
222,223,Macao,793,6,,787.0,0.0,,1188,9,7850,11760,667490


isin позволяет выбирать данные, значение которых «находится в» списке значений.

In [291]:
data[data.Country.isin(['Macao', 'USA'])]

Unnamed: 0,id,Country,Total cases,TotalDeaths,NewDeaths,Total Recovered,Active,Serious or Critical Cases,Total Cases / 1M pop,Total Deaths / 1M pop,Total tests,Total tests / 1M pop,Population
0,1,USA,98166904,1084282,,94962112,2120510,2970.0,293206,3239,1118158870,3339729,334805269
222,223,Macao,793,6,,787,0,,1188,9,7850,11760,667490


<br>
<b>isnull (и его компаньон notnull)</b>.<br>
Эти методы позволяют выделить значения, которые являются (или не являются) пустыми (NaN). Например, чтобы отфильтровать страны с NewDeaths, мы должны сделать следующее:<br>
<br>

In [295]:
data.NewDeaths.notnull()

0      False
1      False
2      False
3      False
4      False
       ...  
225    False
226    False
227    False
228    False
229    False
Name: NewDeaths, Length: 230, dtype: bool

In [296]:
data[data.NewDeaths.notnull()] # не ноль

Unnamed: 0,id,Country,Total cases,TotalDeaths,NewDeaths,Total Recovered,Active,Serious or Critical Cases,Total Cases / 1M pop,Total Deaths / 1M pop,Total tests,Total tests / 1M pop,Population
5,6,S. Korea,24769101,28406,42.0,24013461,727234,352,482547,553,15804065,307892,51329899
28,29,Thailand,4681309,32767,9.0,4642083,6459,1496,66801,468,17270775,246450,70078203
52,53,Pakistan,1572598,30616,3.0,1536924,5058,47,6853,133,30477451,132806,229488994


Только 3 страны имеют значения в таблице NewDeaths, у остальных стран значения пустые.<br>
Эта фича по сути бесполезна, так как имеется только у трех стран.

In [311]:
data[data.NewDeaths.isnull()] # ноль

Unnamed: 0,id,Country,Total cases,TotalDeaths,NewDeaths,Total Recovered,Active,Serious or Critical Cases,Total Cases / 1M pop,Total Deaths / 1M pop,Total tests,Total tests / 1M pop,Population
0,1,USA,98166904,1084282,,94962112,2120510,2970,293206,3239,1118158870,3339729,334805269
1,2,India,44587307,528629,,44019095,39583,698,31698,376,894416853,635857,1406631776
2,3,France,35342950,155078,,34527115,660757,869,538892,2365,271490188,4139547,65584518
3,4,Brazil,34706757,686027,,33838636,182094,8318,161162,3186,63776166,296146,215353593
4,5,Germany,33312373,149948,,32315200,847225,1406,397126,1788,122332384,1458359,83883596
...,...,...,...,...,...,...,...,...,...,...,...,...,...
225,226,Niue,80,,,80,0,,49322,,,,1622
226,227,Vatican City,29,,,29,0,,36295,,,,799
227,228,Tuvalu,20,,,,20,,1658,,,,12066
228,229,Western Sahara,10,1,,9,0,,16,2,,,626161


$227\ rows\ ×\ 13\ columns$ - на 3 страны стало меньше, так как они относятся к категории, где NewDeaths не ноль.

<br>
<font size=4>Назначение данных</font><br>
<br>
Назначать данные очень легко<br>
<br>

In [315]:
data.TotalDeaths = 0
data

Unnamed: 0,id,Country,Total cases,TotalDeaths,NewDeaths,Total Recovered,Active,Serious or Critical Cases,Total Cases / 1M pop,Total Deaths / 1M pop,Total tests,Total tests / 1M pop,Population
0,1,USA,98166904,0,,94962112,2120510,2970,293206,3239,1118158870,3339729,334805269
1,2,India,44587307,0,,44019095,39583,698,31698,376,894416853,635857,1406631776
2,3,France,35342950,0,,34527115,660757,869,538892,2365,271490188,4139547,65584518
3,4,Brazil,34706757,0,,33838636,182094,8318,161162,3186,63776166,296146,215353593
4,5,Germany,33312373,0,,32315200,847225,1406,397126,1788,122332384,1458359,83883596
...,...,...,...,...,...,...,...,...,...,...,...,...,...
225,226,Niue,80,0,,80,0,,49322,,,,1622
226,227,Vatican City,29,0,,29,0,,36295,,,,799
227,228,Tuvalu,20,0,,,20,,1658,,,,12066
228,229,Western Sahara,10,0,,9,0,,16,2,,,626161


In [324]:
data['Reverse index'] = range(len(data.iloc[:, :0]), 0, -1) # создание новой фичи

In [325]:
data

Unnamed: 0,id,Country,Total cases,TotalDeaths,NewDeaths,Total Recovered,Active,Serious or Critical Cases,Total Cases / 1M pop,Total Deaths / 1M pop,Total tests,Total tests / 1M pop,Population,Reverse index
0,1,USA,98166904,0,,94962112,2120510,2970,293206,3239,1118158870,3339729,334805269,230
1,2,India,44587307,0,,44019095,39583,698,31698,376,894416853,635857,1406631776,229
2,3,France,35342950,0,,34527115,660757,869,538892,2365,271490188,4139547,65584518,228
3,4,Brazil,34706757,0,,33838636,182094,8318,161162,3186,63776166,296146,215353593,227
4,5,Germany,33312373,0,,32315200,847225,1406,397126,1788,122332384,1458359,83883596,226
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
225,226,Niue,80,0,,80,0,,49322,,,,1622,5
226,227,Vatican City,29,0,,29,0,,36295,,,,799,4
227,228,Tuvalu,20,0,,,20,,1658,,,,12066,3
228,229,Western Sahara,10,0,,9,0,,16,2,,,626161,2


<br>
<font size=5>Эпизод III</font>
<br><br>
<font size=5>Суммарные функции</font>
<hr>
Извлечение правильных данных из нашего набора имеет решающее значение для выполнения работы.<br>
Часто данные, которые мы достаем, нуждаются в обработки, например, поиск среднего числа или стандартного отклонения.<br>
Иногда нам самим приходится проделывать дополнительную работу, чтобы переформатировать его для поставленной задачи.<br>
В этом руководстве будут рассмотрены различные операции, которые мы можем применить к нашим данным, чтобы получить входные данные «в самый раз».<br>
<br>

<br>
<a href='https://www.kaggle.com/datasets/zynicide/wine-reviews'>Wine Reviews</a><br>
<br>
<b>Описание от автора датасета:</b><br>
Я думаю, что этот набор данных предлагает отличные возможности для анализа и построения моделей прогнозирования, связанных с текстом. Моя общая цель — создать модель, которая может идентифицировать сорт, винодельню и местонахождение вина на основе описания. Если у кого-то есть какие-либо идеи, прорывы или другие интересные идеи/модели, пожалуйста, опубликуйте их.<br>
<br>

In [3]:
data = pd.read_csv('data/wine.csv', index_col=0)

In [13]:
data.head()

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks


<br>
<font size=4><b>describe</b></font><br>
<br>
Метод <b>describe</b> показывает статистические рассчеты по цифровым значениям.<br>
С помощью него можно быстро оценить с чем мы работаем.<br>
<br>

In [14]:
data.describe()

Unnamed: 0,points,price
count,129971.0,120975.0
mean,88.447138,35.363389
std,3.03973,41.022218
min,80.0,4.0
25%,86.0,17.0
50%,88.0,25.0
75%,91.0,42.0
max,100.0,3300.0


<br>
points, price - эти фичи принадлежат цифровым типам.<br>
points показывает оценку, где 100 - максимальный балл. price соответственно цену.<br>
<br>

- <b>count</b> - показывает сколько значений не имеют пропусков. В <i>NewDeaths</i> таких только 3, мы уже это видели раньше.
- <b>mean</b> - среднее значение по столбцу.
- <b>std</b> - стандартное отклонение.
- <b>min</b> - минимальное значение по столбцу.
- <b>25%</b> - 25% данных равны или ниже этого значения.
- <b>50%</b> - 50% данных равны или ниже этого значения.
- <b>75%</b> - 75% данных равны или ниже этого значения.
- <b>max</b> - максимальное значение по столбцу.   

<br><br>
Если вы хотите получить конкретную простую сводную статистику о столбце в DataFrame или Series, есть полезная функция pandas, которая позволяет это сделать.<br>
<br>

In [16]:
data.price.mean() # .std() .min() .max() и тд.

35.363389129985535

In [37]:
data.price.describe()

count    120975.000000
mean         35.363389
std          41.022218
min           4.000000
25%          17.000000
50%          25.000000
75%          42.000000
max        3300.000000
Name: price, dtype: float64

Попрбуем применять describe в категориальной фичи

In [38]:
data.taster_name.describe()

count         103727
unique            19
top       Roger Voss
freq           25514
Name: taster_name, dtype: object

<br>
<font size=4><b>Уникальность</b></font><br>
<br>
Иногда нужно проверять значения на уникальность.<br>
<br>

In [35]:
data.taster_name.unique() # все уникальные значения в taster_name

array(['Kerin O’Keefe', 'Roger Voss', 'Paul Gregutt',
       'Alexander Peartree', 'Michael Schachner', 'Anna Lee C. Iijima',
       'Virginie Boone', 'Matt Kettmann', nan, 'Sean P. Sullivan',
       'Jim Gordon', 'Joe Czerwinski', 'Anne Krebiehl\xa0MW',
       'Lauren Buzzeo', 'Mike DeSimone', 'Jeff Jenssen',
       'Susan Kostrzewa', 'Carrie Dykes', 'Fiona Adams',
       'Christina Pickard'], dtype=object)

есть и другие варианты:

In [28]:
import numpy as np


np.unique(data.points, return_counts=True) # уникальные значения плюс сколько раз они встречаются 

(array([ 80,  81,  82,  83,  84,  85,  86,  87,  88,  89,  90,  91,  92,
         93,  94,  95,  96,  97,  98,  99, 100]),
 array([  397,   692,  1836,  3025,  6480,  9530, 12600, 16933, 17207,
        12226, 15410, 11359,  9613,  6489,  3758,  1535,   523,   229,
           77,    33,    19]))

In [34]:
from collections import Counter


Counter(data.taster_name) # уникальные значения и сколько раз они встречаются 

Counter({'Kerin O’Keefe': 10776,
         'Roger Voss': 25514,
         'Paul Gregutt': 9532,
         'Alexander Peartree': 415,
         'Michael Schachner': 15134,
         'Anna Lee C. Iijima': 4415,
         'Virginie Boone': 9537,
         'Matt Kettmann': 6332,
         nan: 26244,
         'Sean P. Sullivan': 4966,
         'Jim Gordon': 4177,
         'Joe Czerwinski': 5147,
         'Anne Krebiehl\xa0MW': 3685,
         'Lauren Buzzeo': 1835,
         'Mike DeSimone': 514,
         'Jeff Jenssen': 491,
         'Susan Kostrzewa': 1085,
         'Carrie Dykes': 139,
         'Fiona Adams': 27,
         'Christina Pickard': 6})

Чтобы увидеть список уникальных значений и то, как часто они встречаются в наборе данных, мы можем использовать метод value_counts():

In [36]:
data.country.value_counts()

US                        54504
France                    22093
Italy                     19540
Spain                      6645
Portugal                   5691
Chile                      4472
Argentina                  3800
Austria                    3345
Australia                  2329
Germany                    2165
New Zealand                1419
South Africa               1401
Israel                      505
Greece                      466
Canada                      257
Hungary                     146
Bulgaria                    141
Romania                     120
Uruguay                     109
Turkey                       90
Slovenia                     87
Georgia                      86
England                      74
Croatia                      73
Mexico                       70
Moldova                      59
Brazil                       52
Lebanon                      35
Morocco                      28
Peru                         16
Ukraine                      14
Serbia  

<br>
<font size=4><b>Map</b></font><br>
<br>
<b>map</b> — это термин, заимствованный из математики, для функции, которая принимает один набор значений и «сопоставляет» их с другим набором значений. В науке о данных у нас часто возникает потребность в создании новых представлений из существующих данных или в преобразовании данных из формата, в котором они находятся сейчас, в формат, в котором мы хотим, чтобы они были в будущем.<br>
<br>
Есть два метода сопоставления, которые вы будете часто использовать.<br>
<br>
map() — первая и немного более простая. Например, предположим, что мы хотим посмотреть как каждая оценка вина отклоняется от своего среднего:<br>
<br>

In [51]:
reviews_mean = data.points.mean()
data.points.map(lambda x: x - reviews_mean)

0        -1.447138
1        -1.447138
2        -1.447138
3        -1.447138
4        -1.447138
            ...   
129966    1.552862
129967    1.552862
129968    1.552862
129969    1.552862
129970    1.552862
Name: points, Length: 129971, dtype: float64

<br>
Функция, которую вы передаете в map(), должна ожидать одно значение из серии (значение точки в приведенном выше примере) и возвращать преобразованную версию этого значения. map() возвращает новую серию, в которой все значения были преобразованы вашей функцией.<br>
<br>
apply() — это эквивалентный метод, если мы хотим преобразовать весь DataFrame, вызвав пользовательский метод для каждой строки.<br>
<br>

In [65]:
def remean_points(row):
    row.points -= reviews_mean
    return row

data.apply(remean_points, axis='columns')

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,-1.447138,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,-1.447138,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,-1.447138,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,-1.447138,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,-1.447138,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks
...,...,...,...,...,...,...,...,...,...,...,...,...,...
129966,Germany,Notes of honeysuckle and cantaloupe sweeten th...,Brauneberger Juffer-Sonnenuhr Spätlese,1.552862,28.0,Mosel,,,Anna Lee C. Iijima,,Dr. H. Thanisch (Erben Müller-Burggraef) 2013 ...,Riesling,Dr. H. Thanisch (Erben Müller-Burggraef)
129967,US,Citation is given as much as a decade of bottl...,,1.552862,75.0,Oregon,Oregon,Oregon Other,Paul Gregutt,@paulgwine,Citation 2004 Pinot Noir (Oregon),Pinot Noir,Citation
129968,France,Well-drained gravel soil gives this wine its c...,Kritt,1.552862,30.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Gresser 2013 Kritt Gewurztraminer (Als...,Gewürztraminer,Domaine Gresser
129969,France,"A dry style of Pinot Gris, this is crisp with ...",,1.552862,32.0,Alsace,Alsace,,Roger Voss,@vossroger,Domaine Marcel Deiss 2012 Pinot Gris (Alsace),Pinot Gris,Domaine Marcel Deiss


<br>
Если бы мы вызвали review.apply() с axis='index', то вместо передачи функции для преобразования каждой строки нам нужно было бы указать функцию для преобразования каждого столбца.<br>
<br>
Обратите внимание, что map() и apply() возвращают новые, преобразованные Series и DataFrames соответственно. Они не изменяют исходные данные, к которым они обращаются. Если мы посмотрим на первую строку отзывов, то увидим, что она по-прежнему имеет исходное значение баллов.<br>
<br>

In [66]:
data.head()

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks


In [76]:
data.country + " | " + data.region_1

0                     Italy | Etna
1                              NaN
2           US | Willamette Valley
3         US | Lake Michigan Shore
4           US | Willamette Valley
                    ...           
129966                         NaN
129967                 US | Oregon
129968             France | Alsace
129969             France | Alsace
129970             France | Alsace
Length: 129971, dtype: object

<br>
<font size=5>Эпизод IV</font>
<br><br>
<font size=5>Группировка и сортировка</font>
<hr>
Maps позволяют нам преобразовывать данные в DataFrame или Series по одному значению за раз для всего столбца. Однако часто мы хотим сгруппировать наши данные, а затем сделать что-то конкретное для группы, в которой находятся данные.<br>
<br>
Как вы узнаете, мы делаем это с помощью операции groupby(). Мы также рассмотрим некоторые дополнительные темы, такие как более сложные способы индексации ваших фреймов данных, а также способы сортировки данных.<br>
<br>

<br>
<font size=4>data.groupby('points') - сгруппирует все элементы, у которых points одинаковый.</font><br>
<br>

In [17]:
list(data.groupby('points'))
#list(data.groupby('points').points)

[(80,
            country                                        description  \
  344         Chile  Aromas of pumpkin, squash and corn chips are s...   
  3640     Portugal  Aromas of strawberry sherbet are followed by s...   
  3641        Chile  Fluffy, sweet aromas of peach, pear and vanill...   
  4556        Italy  There's a thorny, almost raw quality of fruit ...   
  4557        Spain  With dusty, candied aromas, the bouquet on thi...   
  ...           ...                                                ...   
  128258         US  This Chardonnay-Viognier blend is slightly swe...   
  128259         US  While there's some nice, honest fruit here, it...   
  128260         US  Banana, clove and orange peel open for this sw...   
  128261         US  Short and slightly sweet, there's nutty overto...   
  128262  Argentina  Smells like crushed vitamins, iron and mineral...   
  
                   designation  points  price          province  \
  344             Gran Reserva      

In [14]:
data.groupby('points').points.count()

points
80       397
81       692
82      1836
83      3025
84      6480
85      9530
86     12600
87     16933
88     17207
89     12226
90     15410
91     11359
92      9613
93      6489
94      3758
95      1535
96       523
97       229
98        77
99        33
100       19
Name: points, dtype: int64

In [4]:
list(data.groupby('points').price) # Сгруппировать данные по points и посмотреть цену каждого вина в этой группе

[(80,
  344       19.0
  3640       8.0
  3641      15.0
  4556      12.0
  4557      14.0
            ... 
  128258    25.0
  128259    14.0
  128260    12.0
  128261    13.0
  128262    13.0
  Name: price, Length: 397, dtype: float64),
 (81,
  343       20.0
  3634      11.0
  3635      14.0
  3636      37.0
  3637      12.0
            ... 
  125770    10.0
  125771    18.0
  128251     9.0
  128252    16.0
  128253    32.0
  Name: price, Length: 692, dtype: float64),
 (82,
  338       11.0
  339       13.0
  340       18.0
  341       48.0
  342       11.0
            ... 
  127196    10.0
  127197    32.0
  127198    15.0
  127199    18.0
  127200    24.0
  Name: price, Length: 1836, dtype: float64),
 (83,
  336       35.0
  337       16.0
  1144      11.0
  1145      12.0
  1146       NaN
            ... 
  127959    18.0
  127960    12.0
  127961    75.0
  127962    45.0
  127963    17.0
  Name: price, Length: 3025, dtype: float64),
 (84,
  1122      16.0
  1123      40.0
  1124

Отсюда можно сделать вывод, что оценка не особо зависит от цены, при одинаковых оценках, цены могут сильно отличаться.<br>
Но нельзя исключать того, что при высоких оценках чаще встречаются дорогие вина.

Попробуем сгруппировать данные по оценкам и взять из каждой группы по одному вину.

In [42]:
data.groupby('points').apply(lambda df: df.title.iloc[0])

points
80     Viña Tarapacá 2015 Gran Reserva Chardonnay (Le...
81     Pura 8 2010 Grand Reserve Pinot Noir (Rapel Va...
82       Mémoires 2015 Rosé (Coteaux Varois en Provence)
83         Koyle 2015 Costa Pinot Noir (Colchagua Costa)
84     Three Brothers 2014 Zero Degree Dry Riesling (...
85     Casa Silva 2008 Gran Reserva Petit Verdot (Col...
86     Clarksburg Wine Company 2010 Chenin Blanc (Cla...
87                     Nicosia 2013 Vulkà Bianco  (Etna)
88                  Fattoria Sardi 2015 Rosato (Toscana)
89           David Fulton 2008 Petite Sirah (St. Helena)
90     Beaumont 2005 Hope Marguerite Chenin Blanc (Wa...
91     Le Riche 2003 Cabernet Sauvignon Reserve Caber...
92     Dopff & Irion 2004 Schoenenbourg Grand Cru Ven...
93     Claiborne & Churchill 2014 Twin Creeks Estate ...
94         Sandeman 2015 Quinta do Seixo Vintage  (Port)
95     Jasper Hill 2013 Georgia's Paddock Shiraz (Hea...
96                        Oremus 2005 Eszencia  (Tokaji)
97     Robert Weil 2014 

Для еще более точного управления вы также можете сгруппировать данные по нескольким столбцам. Например, вот как мы выбираем лучшее вино по стране и провинции:

In [87]:
data.groupby(['country', 'province']).apply(lambda df: df.loc[df.points.idxmax()].points)

country    province        
Argentina  Mendoza Province    97
           Other               95
Armenia    Armenia             88
Australia  Australia Other     93
           New South Wales     94
                               ..
Uruguay    Juanico             90
           Montevideo          91
           Progreso            90
           San Jose            87
           Uruguay             91
Length: 425, dtype: int64

<br>
<font size=4><b>agg()</agg></font><br>
<br>
Позволяет вам одновременно запускать множество различных функций в вашем DataFrame. Например, мы можем создать простую статистическую сводку набора данных следующим образом:<br>
<br>

In [133]:
data.groupby(['country']).price.agg([len, min, max])

Unnamed: 0_level_0,len,min,max
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Argentina,3800,4.0,230.0
Armenia,2,14.0,15.0
Australia,2329,5.0,850.0
Austria,3345,7.0,1100.0
Bosnia and Herzegovina,2,12.0,13.0
Brazil,52,10.0,60.0
Bulgaria,141,8.0,100.0
Canada,257,12.0,120.0
Chile,4472,5.0,400.0
China,1,18.0,18.0


'country' - стал индексом, что убрать его оттуда: reset_index()

In [134]:
data.groupby(['country']).price.agg([len, min, max]).reset_index()

Unnamed: 0,country,len,min,max
0,Argentina,3800,4.0,230.0
1,Armenia,2,14.0,15.0
2,Australia,2329,5.0,850.0
3,Austria,3345,7.0,1100.0
4,Bosnia and Herzegovina,2,12.0,13.0
5,Brazil,52,10.0,60.0
6,Bulgaria,141,8.0,100.0
7,Canada,257,12.0,120.0
8,Chile,4472,5.0,400.0
9,China,1,18.0,18.0


In [126]:
# Почти тоже самое, что наверху
data.groupby('country').describe() 

Unnamed: 0_level_0,points,points,points,points,points,points,points,points,price,price,price,price,price,price,price,price
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
country,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
Argentina,3800.0,86.710263,3.179627,80.0,84.0,87.0,89.0,97.0,3756.0,24.510117,23.430122,4.0,12.0,17.0,25.0,230.0
Armenia,2.0,87.5,0.707107,87.0,87.25,87.5,87.75,88.0,2.0,14.5,0.707107,14.0,14.25,14.5,14.75,15.0
Australia,2329.0,88.580507,2.9899,80.0,87.0,89.0,91.0,100.0,2294.0,35.437663,49.049458,5.0,15.0,21.0,38.0,850.0
Austria,3345.0,90.101345,2.499799,82.0,88.0,90.0,92.0,98.0,2799.0,30.762772,27.224797,7.0,18.0,25.0,36.5,1100.0
Bosnia and Herzegovina,2.0,86.5,2.12132,85.0,85.75,86.5,87.25,88.0,2.0,12.5,0.707107,12.0,12.25,12.5,12.75,13.0
Brazil,52.0,84.673077,2.340782,80.0,83.0,85.0,86.0,89.0,47.0,23.765957,11.053649,10.0,15.0,20.0,29.0,60.0
Bulgaria,141.0,87.93617,2.077817,80.0,87.0,89.0,89.0,91.0,141.0,14.64539,9.508744,8.0,10.0,13.0,16.0,100.0
Canada,257.0,89.36965,2.384752,82.0,88.0,90.0,91.0,94.0,254.0,35.712598,19.658148,12.0,21.0,30.0,40.75,120.0
Chile,4472.0,86.493515,2.692959,80.0,85.0,86.0,88.0,95.0,4416.0,20.786458,21.929371,5.0,12.0,15.0,20.0,400.0
China,1.0,89.0,,89.0,89.0,89.0,89.0,89.0,1.0,18.0,,18.0,18.0,18.0,18.0,18.0


<br>
<font size=4><b>Sorting</b></font><br>
<br>
Чтобы получить данные в нужном порядке, мы можем отсортировать их самостоятельно. Для этого удобен метод sort_values().<br>
<br>

In [143]:
country_min_stat = data.groupby(['country']).price.agg([len, min, max]).reset_index()
country_min_stat.sort_values(by='len')

Unnamed: 0,country,len,min,max
9,China,1,18.0,18.0
34,Slovakia,1,16.0,16.0
13,Egypt,1,,
1,Armenia,2,14.0,15.0
4,Bosnia and Herzegovina,2,12.0,13.0
24,Luxembourg,6,16.0,30.0
38,Switzerland,7,21.0,160.0
20,India,9,10.0,20.0
11,Cyprus,11,11.0,21.0
12,Czech Republic,12,15.0,45.0


Иногда мы хотим сортировать значения в порядке убывания, чтобы самое большое находилось на первом значении.

In [144]:
country_min_stat.sort_values(by='len', ascending=False)

Unnamed: 0,country,len,min,max
40,US,54504,4.0,2013.0
15,France,22093,5.0,3300.0
22,Italy,19540,5.0,900.0
37,Spain,6645,4.0,770.0
31,Portugal,5691,5.0,1000.0
8,Chile,4472,5.0,400.0
0,Argentina,3800,4.0,230.0
3,Austria,3345,7.0,1100.0
2,Australia,2329,5.0,850.0
17,Germany,2165,5.0,775.0


чтобы сделать сортироваку по индексам:

In [145]:
country_min_stat.sort_index()

Unnamed: 0,country,len,min,max
0,Argentina,3800,4.0,230.0
1,Armenia,2,14.0,15.0
2,Australia,2329,5.0,850.0
3,Austria,3345,7.0,1100.0
4,Bosnia and Herzegovina,2,12.0,13.0
5,Brazil,52,10.0,60.0
6,Bulgaria,141,8.0,100.0
7,Canada,257,12.0,120.0
8,Chile,4472,5.0,400.0
9,China,1,18.0,18.0


Можно сортировать по двум значениям сразу

In [147]:
country_min_stat.sort_values(by=['country', 'len'])

Unnamed: 0,country,len,min,max
0,Argentina,3800,4.0,230.0
1,Armenia,2,14.0,15.0
2,Australia,2329,5.0,850.0
3,Austria,3345,7.0,1100.0
4,Bosnia and Herzegovina,2,12.0,13.0
5,Brazil,52,10.0,60.0
6,Bulgaria,141,8.0,100.0
7,Canada,257,12.0,120.0
8,Chile,4472,5.0,400.0
9,China,1,18.0,18.0
