<a href="https://colab.research.google.com/github/noviytrendASU/123123/blob/main/%D0%9B%D0%B0%D0%B1%D0%B04_%D0%9A%D0%B0%D1%88%D0%B8%D1%80%D0%BE%D0%B2_%D0%98%D0%A4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Сортировка данных


Поиск необычного в группе — что среди планет, что среди меломанов — это прежде всего поиск чемпионов: объектов с выдающимися показателями по разным статьям. Как всю таблицу, так и отдельные группы изучают, сортируя строки по какому-либо столбцу.

В Pandas для этой операции есть метод **sort_values()**. У него два аргумента:

• **by = 'имя столбца'** — имя столбца, по которому нужно сортировать;

• **ascending:** по умолчанию True. Для сортировки по убыванию установите значение False.

Среди экзопланет интересны близкие по размерам к Земле. Есть ли такие? Отсортируем список по радиусу в порядке возрастания. Тогда в голове таблицы окажутся самые малые, на которых гравитация не прижмёт нас к полу.

**print(exoplanet.sort_values(by='radius').head(30))**

Оказывается, некоторые из уже открытых экзопланет по размерам близки не то что к Земле, но уже и к Луне! Получим список экзопланет с радиусом меньше земного. Смотрите, как логический оператор (здесь это <) задействуется в отборе элементов столбца. Дальше нам этот приём не раз понадобится.

**print(exoplanet[exoplanet['radius'] < 1])**

Но и этот список такой длинный, что изучать его лучше по частям. Экзопланеты, близкие по размерам к Земле, за последнее десятилетие открывали нередко. Можно изучать список открытых за каждый год. Например, для 2014 года (вновь обратите внимание на работу логического оператора, теперь это ==):

**print(exoplanet[exoplanet['discovered'] == 2014])**

А чтобы не тратить время на лишнее, поставим оба условия сразу. Для этого в Pandas есть логический оператор &, подобный оператору and языка Python. Напомним, его смысл на русском языке можно передать словами «и ещё»:

**exo_small_14 = exoplanet[ (exoplanet['radius']<1) & (exoplanet['discovered']==2014)]**

**print(exo_small_14)**

Отсортируем результат в порядке убывания радиуса.

**print(exo_small_14.sort_values(by = 'radius', ascending = False))**





## Задача
1. Выделим пятерки стран с самым низким и самым высоким уровнем самоубийств в мире.

In [6]:
country_suicides = master.groupby('country')['suicides_no'].sum().reset_index()
lowest_country_suicides = country_suicides.sort_values(by='suicides_no', ascending=True).head(5)
biggest_country_suicides = country_suicides.sort_values(by='suicides_no', ascending=False).head(5)

print('Пятерка стран с самым низким уровнем самоубийств:\n', lowest_country_suicides)
print('\nПятерка стран с самым высоким уровнем самоубийств:\n', biggest_country_suicides)

Пятерка стран с самым низким уровнем самоубийств:
                   country  suicides_no
27               Dominica            0
76  Saint Kitts and Nevis            0
79             San Marino            4
1     Antigua and Barbuda           11
55               Maldives           20

Пятерка стран с самым высоким уровнем самоубийств:
                country  suicides_no
75  Russian Federation      1209742
98       United States      1034013
46               Japan       806902
33              France       329127
95             Ukraine       319950


2. Исследуйте распределение количества суидидов по гендерному признаку. Найдите лидеров и антилидеров по количеству самоубийств среди женщин. Повторяется ли картина по сравнению с предыдущим исследованием?

In [7]:
women_suicides = master[master['sex'] == 'female']
women_grouping = women_suicides.groupby('country')['suicides_no'].sum().reset_index()

leaders_suicides = women_grouping.sort_values(by = 'suicides_no', ascending = False).head(10)
anti_leaders_suicides = women_grouping.sort_values(by = 'suicides_no', ascending = True).head(10)

print('Лидеры по самоубийствам среди женщин:\n', leaders_suicides)
print('Антилидеры по самоубийствам среди женщин:\n', anti_leaders_suicides)

Лидеры по самоубийствам среди женщин:
                country  suicides_no
46               Japan       251630
75  Russian Federation       214330
98       United States       213797
33              France        89419
73   Republic of Korea        82615
35             Germany        79707
95             Ukraine        61377
15              Brazil        49015
44               Italy        32881
97      United Kingdom        32687
Антилидеры по самоубийствам среди женщин:
                   country  suicides_no
65                   Oman            0
79             San Marino            0
27               Dominica            0
76  Saint Kitts and Nevis            0
1     Antigua and Barbuda            1
37                Grenada            4
17             Cabo Verde            5
55               Maldives            6
81             Seychelles            9
48               Kiribati           10


# Описательная статистика

Чтобы представить себе среднестатистического самоубийцу, понадобится описательная статистика.

Из её показателей для количественного описания данных в нашей задаче нужны четыре меры — максимум, минимум, медиана и среднее.

Наибольшее и наименьшее обычно вычисляют только по одному признаку. Например, можно получить минимальное и максимальное значение уровня самоубийств (количество самоубийств на 100 тыс.населения) (столбец 'suicides/100k pop'). Для поиска максимума вызывают метод max(), примененный к этому столбцу:

print(master['suicides/100k pop'].max())


In [8]:
print(master['suicides_per_100k_pop'].max())

224.97


Самый высокий показатель оказался 224.97 самоубийств на 100 тыс.населения. Интересно, в какой стране такая ситуация.

Запросим из master строку с максимальным значением, прибегнув к логической индексации с условием

**master['suicides/100k pop'] == master['suicides/100k pop'].max()**

In [9]:
master['suicides_per_100k_pop'] == master['suicides_per_100k_pop'].max()

Unnamed: 0,suicides_per_100k_pop
0,False
1,False
2,False
3,False
4,False
...,...
27815,False
27816,False
27817,False
27818,False


Минимальное значение — ищут методом **min()**. Нам интересно установить случаи, когда уровень суицидов минимальный, но не нулевой.

Вот как мы создаём выборку  и находим в ней минимальное значение:

**master_drop_null = master[master['suicides/100k pop'] != 0]**

**print(master_drop_null['suicides/100k pop'].min())**


In [10]:
master_drop_null = master[master['suicides_per_100k_pop'] != 0]
print(master_drop_null['suicides_per_100k_pop'].min())

0.02


Получим название самой "счастливой" страны. Как и при поиске максимума, воспользуемся условием и логической индексацией

In [11]:
min_index = master_drop_null['suicides_per_100k_pop'].idxmin()
min_suicides_country = master_drop_null.loc[min_index, 'country']
print('Самая счастливая страна:', min_suicides_country)

Самая счастливая страна: South Africa


Результат вывода — две страны, которые соответствуют минимальному значению.
На основе полученных данных можно сделать вывод, что число совершенных самоубийств на 100 тыс. населения  находится в диапазоне от 0,02 до 224.97 секунд, не включая пропущенные.

Это знание пригодится, чтобы разобраться с медианой и средним арифметическим.

Среднее и медиана оценивают значения в центре выборки. Если тех строк, где число с большим количеством самоубийц, столько же, сколько тех, где это число мало — среднее подойдет. Но когда есть оторванные от основной массы лидеры, их результаты сильно смещают значение среднего вверх. Вот почему оценивать в этом случае лучше медианой.


В геометрии медиана делит фигуру на две равные по площади. В статистике она делит выборку пополам: в одной половине значения меньше медианного, в другой больше. Логично, что для определения медианы список обязательно должен быть отсортирован — либо по возрастанию, либо по убыванию.
Когда количество значений нечётное, медиана будет равна тому значению, которое оказалось ровно посередине отсортированного набора. Если же количество данных чётное, то медиана рассчитывается как среднее арифметическое двух соседних чисел в середине набора.



В Pandas есть метод **median()**, который считает медиану. По аналогии с **min()** и **max()** его можно применять ко всей таблице, к отдельному столбцу или к сгруппированным данным. Теперь применим медиану ко всем значениям времени прослушивания в нашей таблице, исключив нулевые:



In [12]:
print('Медиана:', master_drop_null['suicides_per_100k_pop'].median())

Медиана: 8.26


Чтобы убедиться, что лидеры действительно смещают средний показатель вверх, найдём среднее арифметическое всех этих значений методом mean():

In [13]:
print('Среднее:', master[master['suicides_per_100k_pop'] != 0]['suicides_per_100k_pop'].mean())

Среднее: 15.14694039678831
