# Задание 1. Работа с Pandas, анализ и обработка данных.

В этом задании вам предстоит поработать с библиотекой Pandas, предназначенной для удобного анализа и обработки данных.

**Датасет**: данные о землетрясениях с 01.01.2001 по 01.01.2023 в разных частях мира. [Ссылка](https://www.kaggle.com/datasets/warcoder/earthquake-dataset) на датасет.

**Описание признаков:**
- `title`: название землетрясения
- `magnitude`: магнитуда
- `date_time`: дата и время
- `cdi`: максимальная заявленная интенсивность
- `mmi`: максимальная предполагаемая интенсивность, зафиксированная приборами
- `alert`: уровень опасности/тревоги/оповещения
- `tsunami`: "1" для землетрясения в океанском регионе и "0" в остальных случаях
- `sig`: число показывающее, насколько "значимым" было землетрясение. Складывается из магнитуды, максимальной интенсивности, ущерба и т.д.
- `net`: ID источника информации
- `nst`: количество сейсмических станций, которые использовались для определения расположения землетрясения
- `dmin`: горизонтальное расстояние от эпицентра до ближайшей станции
- `gap`: наибольший азимутальный зазор между соседними по азимуту станциями (подробности см. на странице датасета)
- `magType`: метод или алгоритм, используемый для расчета магнитуды
- `depth`: глубина
- `latitude/longitude`: широта/долгота
- `location`: место внутри страны
- `continent`: континент
- `country`: пострадавшая страна


Полезные ресурсы:
- [Документация pandas](https://pandas.pydata.org/docs/)
- [Шпаргалка по Pandas](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)
- [Мини-курс](https://www.kaggle.com/learn/pandas) по pandas на Kaggle

**Замечание**: старайтесь избегать лишних циклов при работе с данными. Pandas содержит множество функций и методов, с помощью которых можно решить проблему красиво и лаконично.

- Импортируйте необходимые библиотеки и загрузите данные (файл `AllSatellites.csv`) с помощью pandas. Удостоверьтесь, что тип переменной - `Dataframe`

In [1]:
import pandas as pd
import numpy as np

df_orig = pd.read_csv("earthquake_data.csv")
type(df_orig)

pandas.core.frame.DataFrame

- Отобразите первые 5 строк с помощью метода `head`

In [2]:
df_orig.head(5)

Unnamed: 0,title,magnitude,date_time,cdi,mmi,alert,tsunami,sig,net,nst,dmin,gap,magType,depth,latitude,longitude,location,continent,country
0,"M 7.0 - 18 km SW of Malango, Solomon Islands",7.0,22-11-2022 02:03,8,7,green,1,768,us,117,0.509,17.0,mww,14.0,-9.7963,159.596,"Malango, Solomon Islands",Oceania,Solomon Islands
1,"M 6.9 - 204 km SW of Bengkulu, Indonesia",6.9,18-11-2022 13:37,4,4,green,0,735,us,99,2.229,34.0,mww,25.0,-4.9559,100.738,"Bengkulu, Indonesia",,
2,M 7.0 -,7.0,12-11-2022 07:09,3,3,green,1,755,us,147,3.125,18.0,mww,579.0,-20.0508,-178.346,,Oceania,Fiji
3,"M 7.3 - 205 km ESE of Neiafu, Tonga",7.3,11-11-2022 10:48,5,5,green,1,833,us,149,1.865,21.0,mww,37.0,-19.2918,-172.129,"Neiafu, Tonga",,
4,M 6.6 -,6.6,09-11-2022 10:14,0,2,green,1,670,us,131,4.998,27.0,mww,624.464,-25.5948,178.278,,,


- Сколько всего признаков имеется в данных и сколько объектов (землетрясений) в датасете?

In [3]:
print(f"Признаков: {len(df_orig.columns)}")
print(f"Объектов: {len(df_orig)}")

Признаков: 19
Объектов: 782


- Попробуйте отобразить информацию о датасете с помощью метода `describe`. Выведите название (`title`) землетрясения, для регистрации которого использовалось максимальное количество сейсмических станций.

In [4]:
df_orig.loc[df_orig["nst"] == df_orig["nst"].describe().max()]["title"]

427    M 7.3 - 11 km WNW of San Agustín, Colombia
Name: title, dtype: object

- Сколько типов "уровней опасности" имеется в датасете?

In [5]:
print("Всего уровней опасности: ", len(df_orig["alert"].value_counts()))
print("А именно\n", df_orig["alert"].value_counts())

Всего уровней опасности:  4
А именно
 alert
green     325
yellow     56
orange     22
red        12
Name: count, dtype: int64


- Найдите, сколько землетрясений было в океанских регионах и сколько на суше.

In [6]:
print("Землетрясений в океанских регионах: ", len(df_orig["continent"].loc[df_orig["continent"] == "Oceania"]))
print("Землетрясений на суше : ", len(df_orig.dropna()["continent"].loc[df_orig["continent"] != "Oceania"]))

Землетрясений в океанских регионах:  4
Землетрясений на суше :  93


- Информация о скольких странах присутствует в наборе данных? Выведите список стран, для которых есть хотя бы один объект с признаком `tsunami == 1` и найдите их количество.

In [7]:
print("Колличество стран: ", len(df_orig.loc[df_orig["tsunami"] == 1]["country"].value_counts()))
print("Сами страны:\n", df_orig.loc[df_orig["tsunami"] == 1]["country"].value_counts())

Колличество стран:  26
Сами страны:
 country
Papua New Guinea                                              27
Indonesia                                                     13
Vanuatu                                                       13
Solomon Islands                                               10
Philippines                                                   10
Mexico                                                         9
Chile                                                          8
Fiji                                                           8
Peru                                                           8
United States of America                                       7
Japan                                                          6
Russia                                                         5
New Zealand                                                    5
United Kingdom of Great Britain and Northern Ireland (the)     4
Ecuador                                      

- Проверьте, есть ли землетрясения с параметром `tsunami == 1` в России? Если есть, выведите название (`title`) любого из них

In [8]:
df_orig.loc[(df_orig["tsunami"] == 1) & (df_orig["country"] == "Russia")]["title"].sample()

406    M 6.6 - 183 km SW of Belaya Gora, Russia
Name: title, dtype: object

- Найдите количество пропусков в данных (для каждого признака)

In [9]:
df_orig.isna().sum()

title          0
magnitude      0
date_time      0
cdi            0
mmi            0
alert        367
tsunami        0
sig            0
net            0
nst            0
dmin           0
gap            0
magType        0
depth          0
latitude       0
longitude      0
location       5
continent    576
country      298
dtype: int64

- Колонка `gap` содержит значение азимутального угла в градусах. Переведите эти значения в радианы, используя  `apply` или `map`. Проверьте, что значения в соответствующей колонке действительно изменились.

In [10]:
df_orig["gap"] = df_orig["gap"].map(lambda x: np.radians(x))
df_orig.head()

Unnamed: 0,title,magnitude,date_time,cdi,mmi,alert,tsunami,sig,net,nst,dmin,gap,magType,depth,latitude,longitude,location,continent,country
0,"M 7.0 - 18 km SW of Malango, Solomon Islands",7.0,22-11-2022 02:03,8,7,green,1,768,us,117,0.509,0.296706,mww,14.0,-9.7963,159.596,"Malango, Solomon Islands",Oceania,Solomon Islands
1,"M 6.9 - 204 km SW of Bengkulu, Indonesia",6.9,18-11-2022 13:37,4,4,green,0,735,us,99,2.229,0.593412,mww,25.0,-4.9559,100.738,"Bengkulu, Indonesia",,
2,M 7.0 -,7.0,12-11-2022 07:09,3,3,green,1,755,us,147,3.125,0.314159,mww,579.0,-20.0508,-178.346,,Oceania,Fiji
3,"M 7.3 - 205 km ESE of Neiafu, Tonga",7.3,11-11-2022 10:48,5,5,green,1,833,us,149,1.865,0.366519,mww,37.0,-19.2918,-172.129,"Neiafu, Tonga",,
4,M 6.6 -,6.6,09-11-2022 10:14,0,2,green,1,670,us,131,4.998,0.471239,mww,624.464,-25.5948,178.278,,,


- Найдите самую северную и самую южную точки, в которых было зафиксировано землетрясение

In [11]:
print("Самая северная точка:\n", df_orig.loc[df_orig["latitude"] == df_orig["latitude"].max()])
print("Самая южная точка:\n", df_orig.loc[df_orig["latitude"] == df_orig["latitude"].min()])

Самая северная точка:
                                                  title  magnitude   
149  M 6.7 - 120 km NW of Olonkinbyen, Svalbard and...        6.7  \

            date_time  cdi  mmi  alert  tsunami  sig net  nst   dmin   
149  09-11-2018 01:49    3    4  green        1  693  us    0  7.853  \

          gap magType  depth  latitude  longitude   
149  0.331613     mww   10.0   71.6312   -11.2431  \

                                location continent country  
149  Olonkinbyen, Svalbard and Jan Mayen       NaN     NaN  
Самая южная точка:
                              title  magnitude         date_time  cdi  mmi   
79  M 6.9 - South Shetland Islands        6.9  23-01-2021 23:36    9    5  \

    alert  tsunami  sig net  nst  dmin       gap magType  depth  latitude   
79  green        1  739  us    0  1.55  0.279253     mww   15.0  -61.8484  \

    longitude                location continent     country  
79    -55.559  South Shetland Islands       NaN  Antarctica  


- В какой стране наблюдалось больше всего землетрясений?

In [12]:
print("Страна в которое больше всего наблюдалось землетрясений: ", df_orig["country"].value_counts().idxmax())

Страна в которое больше всего наблюдалось землетрясений:  Indonesia


- В исходном датасете есть колонка `date_time`, в которой записаны дата и время события. Создайте две новые колонки `date` и `time`, в которых отдельно будет содержаться информация о дате и времени землетрясения. После этого удалите исходную колонку `date_time` из датафрейма.

In [13]:
df_orig[["date", "time"]] = df_orig["date_time"].str.split(' ', expand=True)
df_orig = df_orig.drop(["date_time"], axis=1)

df_orig.head()

Unnamed: 0,title,magnitude,cdi,mmi,alert,tsunami,sig,net,nst,dmin,gap,magType,depth,latitude,longitude,location,continent,country,date,time
0,"M 7.0 - 18 km SW of Malango, Solomon Islands",7.0,8,7,green,1,768,us,117,0.509,0.296706,mww,14.0,-9.7963,159.596,"Malango, Solomon Islands",Oceania,Solomon Islands,22-11-2022,02:03
1,"M 6.9 - 204 km SW of Bengkulu, Indonesia",6.9,4,4,green,0,735,us,99,2.229,0.593412,mww,25.0,-4.9559,100.738,"Bengkulu, Indonesia",,,18-11-2022,13:37
2,M 7.0 -,7.0,3,3,green,1,755,us,147,3.125,0.314159,mww,579.0,-20.0508,-178.346,,Oceania,Fiji,12-11-2022,07:09
3,"M 7.3 - 205 km ESE of Neiafu, Tonga",7.3,5,5,green,1,833,us,149,1.865,0.366519,mww,37.0,-19.2918,-172.129,"Neiafu, Tonga",,,11-11-2022,10:48
4,M 6.6 -,6.6,0,2,green,1,670,us,131,4.998,0.471239,mww,624.464,-25.5948,178.278,,,,09-11-2022,10:14


### Перед отправкой сохраните ноутбук с именем в следующем формате: **01_Фамилия.ipynb**