# Задание 1. Работа с Pandas, анализ и обработка данных.

В этом задании вам предстоит поработать с библиотекой Pandas, предназначенной для удобного анализа и обработки данных.

**Датасет**: данные о землетрясениях с 01.01.2001 по 01.01.2023 в разных частях мира. [Ссылка](https://www.kaggle.com/datasets/warcoder/earthquake-dataset) на датасет.

**Описание признаков:**
- `title`: название землетрясения
- `magnitude`: магнитуда
- `date_time`: дата и время
- `cdi`: максимальная заявленная интенсивность
- `mmi`: максимальная предполагаемая интенсивность, зафиксированная приборами
- `alert`: уровень опасности/тревоги/оповещения
- `tsunami`: "1" для землетрясения в океанском регионе и "0" в остальных случаях
- `sig`: число показывающее, насколько "значимым" было землетрясение. Складывается из магнитуды, максимальной интенсивности, ущерба и т.д.
- `net`: ID источника информации
- `nst`: количество сейсмических станций, которые использовались для определения расположения землетрясения
- `dmin`: горизонтальное расстояние от эпицентра до ближайшей станции
- `gap`: наибольший азимутальный зазор между соседними по азимуту станциями (подробности см. на странице датасета)
- `magType`: метод или алгоритм, используемый для расчета магнитуды
- `depth`: глубина
- `latitude/longitude`: широта/долгота
- `location`: место внутри страны
- `continent`: континент
- `country`: пострадавшая страна


Полезные ресурсы:
- [Документация pandas](https://pandas.pydata.org/docs/)
- [Шпаргалка по Pandas](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)
- [Мини-курс](https://www.kaggle.com/learn/pandas) по pandas на Kaggle

**Замечание**: старайтесь избегать лишних циклов при работе с данными. Pandas содержит множество функций и методов, с помощью которых можно решить проблему красиво и лаконично.

- Импортируйте необходимые библиотеки и загрузите данные (файл `AllSatellites.csv`) с помощью pandas. Удостоверьтесь, что тип переменной - `Dataframe`

In [1]:
import pandas as pd
import numpy as np

earthquake_data = pd.read_csv('earthquake_data.csv')
type(earthquake_data)

pandas.core.frame.DataFrame

- Отобразите первые 5 строк с помощью метода `head`

In [2]:
earthquake_data.head(5)

Unnamed: 0,title,magnitude,date_time,cdi,mmi,alert,tsunami,sig,net,nst,dmin,gap,magType,depth,latitude,longitude,location,continent,country
0,"M 7.0 - 18 km SW of Malango, Solomon Islands",7.0,22-11-2022 02:03,8,7,green,1,768,us,117,0.509,17.0,mww,14.0,-9.7963,159.596,"Malango, Solomon Islands",Oceania,Solomon Islands
1,"M 6.9 - 204 km SW of Bengkulu, Indonesia",6.9,18-11-2022 13:37,4,4,green,0,735,us,99,2.229,34.0,mww,25.0,-4.9559,100.738,"Bengkulu, Indonesia",,
2,M 7.0 -,7.0,12-11-2022 07:09,3,3,green,1,755,us,147,3.125,18.0,mww,579.0,-20.0508,-178.346,,Oceania,Fiji
3,"M 7.3 - 205 km ESE of Neiafu, Tonga",7.3,11-11-2022 10:48,5,5,green,1,833,us,149,1.865,21.0,mww,37.0,-19.2918,-172.129,"Neiafu, Tonga",,
4,M 6.6 -,6.6,09-11-2022 10:14,0,2,green,1,670,us,131,4.998,27.0,mww,624.464,-25.5948,178.278,,,


- Сколько всего признаков имеется в данных и сколько объектов (землетрясений) в датасете?

In [4]:
print(f"Количество объектов: {len(earthquake_data)}")
print(f"Количество признаков: {len(earthquake_data.columns)}")

Количество объектов: 782
Количество признаков: 19


- Попробуйте отобразить информацию о датасете с помощью метода `describe`. Выведите название (`title`) землетрясения, для регистрации которого использовалось максимальное количество сейсмических станций.

In [5]:
max_length = earthquake_data['nst'].describe().max()
earthquake_data.loc[earthquake_data['nst'] == max_length]["title"]

427    M 7.3 - 11 km WNW of San Agustín, Colombia
Name: title, dtype: object

- Сколько типов "уровней опасности" имеется в датасете?

In [6]:
print("Число уровней опасности: ", len(earthquake_data["alert"].value_counts()))

Число уровней опасности:  4


- Найдите, сколько землетрясений было в океанских регионах и сколько на суше.

In [7]:
print("Землетрясений в океанских регионах: ", len(earthquake_data["continent"].loc[earthquake_data["continent"] == "Oceania"]))
print("Землетрясений на суше : ", len(earthquake_data.dropna()["continent"].loc[earthquake_data["continent"] != "Oceania"]))

Землетрясений в океанских регионах:  4
Землетрясений на суше :  93


- Информация о скольких странах присутствует в наборе данных? Выведите список стран, для которых есть хотя бы один объект с признаком `tsunami == 1` и найдите их количество.

In [8]:
print("Кол-во стран, где 'tsunami' = 1 :", len(earthquake_data.loc[earthquake_data['tsunami'] == 1, 'country'].drop_duplicates().dropna()))
print("Список стран, где 'tsunami' = 1 :")
print(earthquake_data.loc[earthquake_data['tsunami'] == 1, 'country'].drop_duplicates().dropna())

Кол-во стран, где 'tsunami' = 1 : 26
Список стран, где 'tsunami' = 1 :
0                                        Solomon Islands
2                                                   Fiji
7                                                 Panama
8                                                 Mexico
10                                                Taiwan
13                                      Papua New Guinea
16                                           Philippines
18                                                  Peru
20                                             Argentina
41                                             Indonesia
44                              United States of America
49                                            Antarctica
51                                               Vanuatu
53                                                 Haiti
68                                                 Japan
87                                                 Chile
106              

- Проверьте, есть ли землетрясения с параметром `tsunami == 1` в России? Если есть, выведите название (`title`) любого из них

In [9]:
earthquake_data.loc[(earthquake_data["country"]=="Russia") & (earthquake_data["tsunami"]==1)]["title"].head(1)

106    M 7.0 - 95 km ENE of Kuril’sk, Russia
Name: title, dtype: object

- Найдите количество пропусков в данных (для каждого признака)

In [10]:
earthquake_data.isna().sum()

title          0
magnitude      0
date_time      0
cdi            0
mmi            0
alert        367
tsunami        0
sig            0
net            0
nst            0
dmin           0
gap            0
magType        0
depth          0
latitude       0
longitude      0
location       5
continent    576
country      298
dtype: int64

- Колонка `gap` содержит значение азимутального угла в градусах. Переведите эти значения в радианы, используя  `apply` или `map`. Проверьте, что значения в соответствующей колонке действительно изменились.

In [19]:
print("Значения в градусах:\n")
print(earthquake_data.head(2))
earthquake_data["gap"] = earthquake_data["gap"].map(lambda x: np.radians(x))
print('\n----------------------------------------------------------------------------------------------------\n')
print("Значения в радианах:\n")
print(earthquake_data.head(2))

Значения в градусах:

                                          title  magnitude         date_time   
0  M 7.0 - 18 km SW of Malango, Solomon Islands        7.0  22-11-2022 02:03  \
1      M 6.9 - 204 km SW of Bengkulu, Indonesia        6.9  18-11-2022 13:37   

   cdi  mmi  alert  tsunami  sig net  nst   dmin           gap magType  depth   
0    8    7  green        1  768  us  117  0.509  1.463753e-13     mww   14.0  \
1    4    4  green        0  735  us   99  2.229  2.927506e-13     mww   25.0   

   latitude  longitude                  location continent          country  
0   -9.7963    159.596  Malango, Solomon Islands   Oceania  Solomon Islands  
1   -4.9559    100.738       Bengkulu, Indonesia       NaN              NaN  

----------------------------------------------------------------------------------------------------

Значения в радианах:

                                          title  magnitude         date_time   
0  M 7.0 - 18 km SW of Malango, Solomon Islands       

- Найдите самую северную и самую южную точки, в которых было зафиксировано землетрясение

In [23]:
print("Самая северная точка:\n", earthquake_data.loc[earthquake_data["latitude"] == earthquake_data["latitude"].max()])
print("\n----------------------------------------------------------------------------------------\n")
print("Самая южная точка:\n", earthquake_data.loc[earthquake_data["latitude"] == earthquake_data["latitude"].min()])

Самая северная точка:
                                                  title  magnitude   
149  M 6.7 - 120 km NW of Olonkinbyen, Svalbard and...        6.7  \

            date_time  cdi  mmi  alert  tsunami  sig net  nst   dmin   
149  09-11-2018 01:49    3    4  green        1  693  us    0  7.853  \

              gap magType  depth  latitude  longitude   
149  2.855288e-15     mww   10.0   71.6312   -11.2431  \

                                location continent country  
149  Olonkinbyen, Svalbard and Jan Mayen       NaN     NaN  

----------------------------------------------------------------------------------------

Самая южная точка:
                              title  magnitude         date_time  cdi  mmi   
79  M 6.9 - South Shetland Islands        6.9  23-01-2021 23:36    9    5  \

    alert  tsunami  sig net  nst  dmin           gap magType  depth  latitude   
79  green        1  739  us    0  1.55  2.404453e-15     mww   15.0  -61.8484  \

    longitude              

- В какой стране наблюдалось больше всего землетрясений?

In [24]:
print("Больше всего землетрясений:\n")
print(earthquake_data["country"].value_counts().idxmax())

Больше всего землетрясений:

Indonesia


- В исходном датасете есть колонка `date_time`, в которой записаны дата и время события. Создайте две новые колонки `date` и `time`, в которых отдельно будет содержаться информация о дате и времени землетрясения. После этого удалите исходную колонку `date_time` из датафрейма.

In [None]:
earthquake_data[["date", "time"]] = earthquake_data["date_time"].str.split(' ', expand=True)
earthquake_data = earthquake_data.drop(["date_time"], axis=1)

earthquake_data.head()

Unnamed: 0,title,magnitude,cdi,mmi,alert,tsunami,sig,net,nst,dmin,gap,magType,depth,latitude,longitude,location,continent,country,date,time
0,"M 7.0 - 18 km SW of Malango, Solomon Islands",7.0,8,7,green,1,768,us,117,0.509,2.554731e-15,mww,14.0,-9.7963,159.596,"Malango, Solomon Islands",Oceania,Solomon Islands,22-11-2022,02:03
1,"M 6.9 - 204 km SW of Bengkulu, Indonesia",6.9,4,4,green,0,735,us,99,2.229,5.109463e-15,mww,25.0,-4.9559,100.738,"Bengkulu, Indonesia",,,18-11-2022,13:37
2,M 7.0 -,7.0,3,3,green,1,755,us,147,3.125,2.70501e-15,mww,579.0,-20.0508,-178.346,,Oceania,Fiji,12-11-2022,07:09
3,"M 7.3 - 205 km ESE of Neiafu, Tonga",7.3,5,5,green,1,833,us,149,1.865,3.155845e-15,mww,37.0,-19.2918,-172.129,"Neiafu, Tonga",,,11-11-2022,10:48
4,M 6.6 -,6.6,0,2,green,1,670,us,131,4.998,4.057514e-15,mww,624.464,-25.5948,178.278,,,,09-11-2022,10:14
