<a href="https://colab.research.google.com/github/vgorbikov/ml-phys-vsu-gorbikov/blob/main/01-pandas/01_Gorbikov.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Задание 1. Работа с Pandas, анализ и обработка данных.

> **Примечание:** \
Это выполненная версия работы. Исходные указания, ссылки и подсказки преподавателя были оставлены для полноты контекста. \
*Горбиков В.В.*

В этом задании вам предстоит поработать с библиотекой Pandas, предназначенной для удобного анализа и обработки данных.

**Датасет**: данные о землетрясениях с 01.01.2001 по 01.01.2023 в разных частях мира. [Ссылка](https://www.kaggle.com/datasets/warcoder/earthquake-dataset) на датасет.

**Описание признаков:**
- `title`: название землетрясения
- `magnitude`: магнитуда
- `date_time`: дата и время
- `cdi`: максимальная заявленная интенсивность
- `mmi`: максимальная предполагаемая интенсивность, зафиксированная приборами
- `alert`: уровень опасности/тревоги/оповещения
- `tsunami`: "1" для землетрясения в океанском регионе и "0" в остальных случаях
- `sig`: число показывающее, насколько "значимым" было землетрясение. Складывается из магнитуды, максимальной интенсивности, ущерба и т.д.
- `net`: ID источника информации
- `nst`: количество сейсмических станций, которые использовались для определения расположения землетрясения
- `dmin`: горизонтальное расстояние от эпицентра до ближайшей станции
- `gap`: наибольший азимутальный зазор между соседними по азимуту станциями (подробности см. на странице датасета)
- `magType`: метод или алгоритм, используемый для расчета магнитуды
- `depth`: глубина
- `latitude/longitude`: широта/долгота
- `location`: место внутри страны
- `continent`: континент
- `country`: пострадавшая страна


Полезные ресурсы:
- [Документация pandas](https://pandas.pydata.org/docs/)
- [Шпаргалка по Pandas](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)
- [Мини-курс](https://www.kaggle.com/learn/pandas) по pandas на Kaggle

**Замечание**: старайтесь избегать лишних циклов при работе с данными. Pandas содержит множество функций и методов, с помощью которых можно решить проблему красиво и лаконично.

In [None]:
#Смонтируем диск с данными (только для Google Drive)
from google.colab import drive
drive.mount('/content/drive', force_remount=True)
dataset_file_path = "/content/drive/My Drive/education/ml_vsu/01-pandas/earthquake_data.csv"

Mounted at /content/drive


- Импортируйте необходимые библиотеки и загрузите данные (файл `AllSatellites.csv`) с помощью pandas. Удостоверьтесь, что тип переменной - `Dataframe`

In [None]:
# YOUR CODE HERE
import pandas as pd
from pandas import DataFrame
from math import pi
from datetime import datetime, date, time

# Загружаем данные из csv-файла
earthquakes_data = pd.read_csv(dataset_file_path)

# Удостоверимся что получили объект нужного типа
assert isinstance(earthquakes_data, DataFrame)

- Отобразите первые 5 строк с помощью метода `head`

In [None]:
earthquakes_data.head(5)

Unnamed: 0,title,magnitude,date_time,cdi,mmi,alert,tsunami,sig,net,nst,dmin,gap,magType,depth,latitude,longitude,location,continent,country
0,"M 7.0 - 18 km SW of Malango, Solomon Islands",7.0,22-11-2022 02:03,8,7,green,1,768,us,117,0.509,17.0,mww,14.0,-9.7963,159.596,"Malango, Solomon Islands",Oceania,Solomon Islands
1,"M 6.9 - 204 km SW of Bengkulu, Indonesia",6.9,18-11-2022 13:37,4,4,green,0,735,us,99,2.229,34.0,mww,25.0,-4.9559,100.738,"Bengkulu, Indonesia",,
2,M 7.0 -,7.0,12-11-2022 07:09,3,3,green,1,755,us,147,3.125,18.0,mww,579.0,-20.0508,-178.346,,Oceania,Fiji
3,"M 7.3 - 205 km ESE of Neiafu, Tonga",7.3,11-11-2022 10:48,5,5,green,1,833,us,149,1.865,21.0,mww,37.0,-19.2918,-172.129,"Neiafu, Tonga",,
4,M 6.6 -,6.6,09-11-2022 10:14,0,2,green,1,670,us,131,4.998,27.0,mww,624.464,-25.5948,178.278,,,


- Сколько всего признаков имеется в данных и сколько объектов (землетрясений) в датасете?

In [None]:
dshape = earthquakes_data.shape
print(f'[info] Набор данных содержит {dshape[1]} признаков и {dshape[0]} объекта/ов')

[info] Набор данных содержит 19 признаков и 782 объекта/ов


- Попробуйте отобразить информацию о датасете с помощью метода `describe`. Выведите название (`title`) землетрясения, для регистрации которого использовалось максимальное количество сейсмических станций.

In [None]:
print("[info] Вывод .describe() отображает основную статистику по столбцам с численными типами")
earthquakes_data.describe()

[info] Вывод .describe() отображает основную статистику по столбцам с численными типами


Unnamed: 0,magnitude,cdi,mmi,tsunami,sig,nst,dmin,gap,depth,latitude,longitude
count,782.0,782.0,782.0,782.0,782.0,782.0,782.0,782.0,782.0,782.0,782.0
mean,6.941125,4.33376,5.964194,0.388747,870.108696,230.250639,1.325757,25.03899,75.883199,3.5381,52.609199
std,0.445514,3.169939,1.462724,0.487778,322.465367,250.188177,2.218805,24.225067,137.277078,27.303429,117.898886
min,6.5,0.0,1.0,0.0,650.0,0.0,0.0,0.0,2.7,-61.8484,-179.968
25%,6.6,0.0,5.0,0.0,691.0,0.0,0.0,14.625,14.0,-14.5956,-71.66805
50%,6.8,5.0,6.0,0.0,754.0,140.0,0.0,20.0,26.295,-2.5725,109.426
75%,7.1,7.0,7.0,1.0,909.75,445.0,1.863,30.0,49.75,24.6545,148.941
max,9.1,9.0,9.0,1.0,2910.0,934.0,17.654,239.0,670.81,71.6312,179.662


In [None]:
# Получаем максимальное кол-во станций
maxnst = earthquakes_data['nst'].max()

# Выполняем фильтрацию и получаем название станции
stantion_title = earthquakes_data['title'][earthquakes_data['nst']==maxnst].values[0]
print(f'[info] Наибольшее кол-во станций регистрировало землетрясение, известное как: {stantion_title}')

[info] Наибольшее кол-во станций регистрировало землетрясение, известное как: M 7.3 - 11 km WNW of San Agustín, Colombia


- Сколько типов "уровней опасности" имеется в датасете?

In [None]:
# Выбираем уникальные значения из столбца alerts
alerts = earthquakes_data['alert']
alert_levels = alerts[alerts.notna()].unique()

print(f'[info] Известные уровни опасности: {", ".join(alert_levels)}')

[info] Известные уровни опасности: green, yellow, orange, red


- Найдите, сколько землетрясений было в океанских регионах и сколько на суше.

In [None]:
# Можем найти кол-во океанских землятрясений просто просуммировав столбец tsunami
total_eqs = earthquakes_data['tsunami'].count()
ocean_eqs = earthquakes_data['tsunami'].sum()

print(f'[info] Землятресений на суше: {total_eqs-ocean_eqs}; В океане: {ocean_eqs}')

[info] Землятресений на суше: 478; В океане: 304


- Информация о скольких странах присутствует в наборе данных? Выведите список стран, для которых есть хотя бы один объект с признаком `tsunami == 1` и найдите их количество.

In [None]:
# Создаём выражение для выборки строк где страна указана, и строк, где параметр tsunami имеет значение 1
tsunami_filter = earthquakes_data['tsunami'] == 1
country_specified_filter = earthquakes_data['country'].notna()

# Список стран которые есть в базе
countries_total = earthquakes_data[country_specified_filter]['country'].unique()
# Список стран в которых было цунами (хотя бы однажды)
countries_tsunami = earthquakes_data[country_specified_filter & tsunami_filter]['country'].unique()

print(f'[info] Всего стран в наборе: {len(countries_total)};\n       Страны в которых было цунами: {len(countries_tsunami)}')
pd.Series(countries_tsunami)

[info] Всего стран в наборе: 49;
       Страны в которых было цунами: 26


Unnamed: 0,0
0,Solomon Islands
1,Fiji
2,Panama
3,Mexico
4,Taiwan
5,Papua New Guinea
6,Philippines
7,Peru
8,Argentina
9,Indonesia


- Проверьте, есть ли землетрясения с параметром `tsunami == 1` в России? Если есть, выведите название (`title`) любого из них

In [None]:
# Используем tsunami_filter из предыдущего пункта
earthquakes_data[(earthquakes_data['country']=='Russia') & tsunami_filter]['title']

Unnamed: 0,title
106,"M 7.0 - 95 km ENE of Kuril’sk, Russia"
213,"M 6.6 - 81 km NNE of Ust’-Kamchatsk Staryy, Ru..."
258,"M 7.2 - 80 km S of Mil’kovo, Russia"
398,"M 7.2 - 252 km ENE of Kuril’sk, Russia"
406,"M 6.6 - 183 km SW of Belaya Gora, Russia"


- Найдите количество пропусков в данных (для каждого признака)

In [None]:
earthquakes_data.isna().sum()

Unnamed: 0,0
title,0
magnitude,0
date_time,0
cdi,0
mmi,0
alert,367
tsunami,0
sig,0
net,0
nst,0


- Колонка `gap` содержит значение азимутального угла в градусах. Переведите эти значения в радианы, используя  `apply` или `map`. Проверьте, что значения в соответствующей колонке действительно изменились.

In [None]:
earthquakes_data.gap = earthquakes_data.gap.map(lambda x: x*pi/180)
earthquakes_data

Unnamed: 0,title,magnitude,date_time,cdi,mmi,alert,tsunami,sig,net,nst,dmin,gap,magType,depth,latitude,longitude,location,continent,country
0,"M 7.0 - 18 km SW of Malango, Solomon Islands",7.0,22-11-2022 02:03,8,7,green,1,768,us,117,0.509,0.296706,mww,14.000,-9.7963,159.596,"Malango, Solomon Islands",Oceania,Solomon Islands
1,"M 6.9 - 204 km SW of Bengkulu, Indonesia",6.9,18-11-2022 13:37,4,4,green,0,735,us,99,2.229,0.593412,mww,25.000,-4.9559,100.738,"Bengkulu, Indonesia",,
2,M 7.0 -,7.0,12-11-2022 07:09,3,3,green,1,755,us,147,3.125,0.314159,mww,579.000,-20.0508,-178.346,,Oceania,Fiji
3,"M 7.3 - 205 km ESE of Neiafu, Tonga",7.3,11-11-2022 10:48,5,5,green,1,833,us,149,1.865,0.366519,mww,37.000,-19.2918,-172.129,"Neiafu, Tonga",,
4,M 6.6 -,6.6,09-11-2022 10:14,0,2,green,1,670,us,131,4.998,0.471239,mww,624.464,-25.5948,178.278,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
777,"M 7.7 - 28 km SSW of Puerto El Triunfo, El Sal...",7.7,13-01-2001 17:33,0,8,,0,912,us,427,0.000,0.000000,mwc,60.000,13.0490,-88.660,"Puerto El Triunfo, El Salvador",,
778,"M 6.9 - 47 km S of Old Harbor, Alaska",6.9,10-01-2001 16:02,5,7,,0,745,ak,0,0.000,0.000000,mw,36.400,56.7744,-153.281,"Old Harbor, Alaska",North America,
779,"M 7.1 - 16 km NE of Port-Olry, Vanuatu",7.1,09-01-2001 16:49,0,7,,0,776,us,372,0.000,0.000000,mwb,103.000,-14.9280,167.170,"Port-Olry, Vanuatu",,Vanuatu
780,"M 6.8 - Mindanao, Philippines",6.8,01-01-2001 08:54,0,5,,0,711,us,64,0.000,0.000000,mwc,33.000,6.6310,126.899,"Mindanao, Philippines",,


- Найдите самую северную и самую южную точки, в которых было зафиксировано землетрясение

In [None]:
most_north = earthquakes_data.latitude.max()
most_south = earthquakes_data.latitude.min()

most_ns_filter = earthquakes_data.latitude.isin([most_north, most_south])

earthquakes_data[most_ns_filter]

Unnamed: 0,title,magnitude,date_time,cdi,mmi,alert,tsunami,sig,net,nst,dmin,gap,magType,depth,latitude,longitude,location,continent,country
79,M 6.9 - South Shetland Islands,6.9,23-01-2021 23:36,9,5,green,1,739,us,0,1.55,0.279253,mww,15.0,-61.8484,-55.559,South Shetland Islands,,Antarctica
149,"M 6.7 - 120 km NW of Olonkinbyen, Svalbard and...",6.7,09-11-2018 01:49,3,4,green,1,693,us,0,7.853,0.331613,mww,10.0,71.6312,-11.2431,"Olonkinbyen, Svalbard and Jan Mayen",,


- В какой стране наблюдалось больше всего землетрясений?

In [None]:
# Действительно лаконично. Или нет?
earthquakes_data.country.value_counts(sort=True).head(1)

Unnamed: 0_level_0,count
country,Unnamed: 1_level_1
Indonesia,110


In [None]:
# Вариант с классической агрегацией
earthquakes_data.groupby('country').title.count().sort_values(ascending=False).head(1)

Unnamed: 0_level_0,title
country,Unnamed: 1_level_1
Indonesia,110


- В исходном датасете есть колонка `date_time`, в которой записаны дата и время события. Создайте две новые колонки `date` и `time`, в которых отдельно будет содержаться информация о дате и времени землетрясения. После этого удалите исходную колонку `date_time` из датафрейма.

In [None]:
# Создадим новые колонки
date_col = earthquakes_data.date_time.map(lambda dt: datetime.strptime(dt, '%d-%m-%Y %H:%M').date().strftime('%d-%m-%Y'))
time_col = earthquakes_data.date_time.map(lambda dt: datetime.strptime(dt, '%d-%m-%Y %H:%M').time().strftime('%H:%M'))

# Добавим созданные колонки ко фрейму
earthquakes_data['date'] = date_col
earthquakes_data['time'] = time_col

# Удалим старую колонку в таблице
earthquakes_data.drop(['date_time'], axis=1, inplace=True)
earthquakes_data

Unnamed: 0,title,magnitude,cdi,mmi,alert,tsunami,sig,net,nst,dmin,gap,magType,depth,latitude,longitude,location,continent,country,date,time
0,"M 7.0 - 18 km SW of Malango, Solomon Islands",7.0,8,7,green,1,768,us,117,0.509,0.296706,mww,14.000,-9.7963,159.596,"Malango, Solomon Islands",Oceania,Solomon Islands,22-11-2022,02:03
1,"M 6.9 - 204 km SW of Bengkulu, Indonesia",6.9,4,4,green,0,735,us,99,2.229,0.593412,mww,25.000,-4.9559,100.738,"Bengkulu, Indonesia",,,18-11-2022,13:37
2,M 7.0 -,7.0,3,3,green,1,755,us,147,3.125,0.314159,mww,579.000,-20.0508,-178.346,,Oceania,Fiji,12-11-2022,07:09
3,"M 7.3 - 205 km ESE of Neiafu, Tonga",7.3,5,5,green,1,833,us,149,1.865,0.366519,mww,37.000,-19.2918,-172.129,"Neiafu, Tonga",,,11-11-2022,10:48
4,M 6.6 -,6.6,0,2,green,1,670,us,131,4.998,0.471239,mww,624.464,-25.5948,178.278,,,,09-11-2022,10:14
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
777,"M 7.7 - 28 km SSW of Puerto El Triunfo, El Sal...",7.7,0,8,,0,912,us,427,0.000,0.000000,mwc,60.000,13.0490,-88.660,"Puerto El Triunfo, El Salvador",,,13-01-2001,17:33
778,"M 6.9 - 47 km S of Old Harbor, Alaska",6.9,5,7,,0,745,ak,0,0.000,0.000000,mw,36.400,56.7744,-153.281,"Old Harbor, Alaska",North America,,10-01-2001,16:02
779,"M 7.1 - 16 km NE of Port-Olry, Vanuatu",7.1,0,7,,0,776,us,372,0.000,0.000000,mwb,103.000,-14.9280,167.170,"Port-Olry, Vanuatu",,Vanuatu,09-01-2001,16:49
780,"M 6.8 - Mindanao, Philippines",6.8,0,5,,0,711,us,64,0.000,0.000000,mwc,33.000,6.6310,126.899,"Mindanao, Philippines",,,01-01-2001,08:54


**Выполнил Горбиков В.В.**