# Задание 1. Работа с Pandas, анализ и обработка данных.

В этом задании вам предстоит поработать с библиотекой Pandas, предназначенной для удобного анализа и обработки данных.

**Датасет**: данные о землетрясениях с 01.01.2001 по 01.01.2023 в разных частях мира. [Ссылка](https://www.kaggle.com/datasets/warcoder/earthquake-dataset) на датасет.

**Описание признаков:**
- `title`: название землетрясения
- `magnitude`: магнитуда
- `date_time`: дата и время
- `cdi`: максимальная заявленная интенсивность
- `mmi`: максимальная предполагаемая интенсивность, зафиксированная приборами
- `alert`: уровень опасности/тревоги/оповещения
- `tsunami`: "1" для землетрясения в океанском регионе и "0" в остальных случаях
- `sig`: число показывающее, насколько "значимым" было землетрясение. Складывается из магнитуды, максимальной интенсивности, ущерба и т.д.
- `net`: ID источника информации
- `nst`: количество сейсмических станций, которые использовались для определения расположения землетрясения
- `dmin`: горизонтальное расстояние от эпицентра до ближайшей станции
- `gap`: наибольший азимутальный зазор между соседними по азимуту станциями (подробности см. на странице датасета)
- `magType`: метод или алгоритм, используемый для расчета магнитуды
- `depth`: глубина
- `latitude/longitude`: широта/долгота
- `location`: место внутри страны
- `continent`: континент
- `country`: пострадавшая страна


Полезные ресурсы:
- [Документация pandas](https://pandas.pydata.org/docs/)
- [Шпаргалка по Pandas](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)
- [Мини-курс](https://www.kaggle.com/learn/pandas) по pandas на Kaggle

**Замечание**: старайтесь избегать лишних циклов при работе с данными. Pandas содержит множество функций и методов, с помощью которых можно решить проблему красиво и лаконично.

- Импортируйте необходимые библиотеки и загрузите данные (файл `earthquake_data.csv`) с помощью pandas. Попробуйте отобразить информацию о датасете с помощью метода `describe`. 

In [16]:
# YOUR CODE HERE
import pandas as pandas
earthquake = pandas.read_csv("earthquake_data.csv")

- Отобразите первые 5 строк с помощью метода `head`

In [17]:
# YOUR CODE HERE
earthquake.head()

Unnamed: 0,title,magnitude,date_time,cdi,mmi,alert,tsunami,sig,net,nst,dmin,gap,magType,depth,latitude,longitude,location,continent,country
0,"M 7.0 - 18 km SW of Malango, Solomon Islands",7.0,22-11-2022 02:03,8,7,green,1,768,us,117,0.509,17.0,mww,14.0,-9.7963,159.596,"Malango, Solomon Islands",Oceania,Solomon Islands
1,"M 6.9 - 204 km SW of Bengkulu, Indonesia",6.9,18-11-2022 13:37,4,4,green,0,735,us,99,2.229,34.0,mww,25.0,-4.9559,100.738,"Bengkulu, Indonesia",,
2,M 7.0 -,7.0,12-11-2022 07:09,3,3,green,1,755,us,147,3.125,18.0,mww,579.0,-20.0508,-178.346,,Oceania,Fiji
3,"M 7.3 - 205 km ESE of Neiafu, Tonga",7.3,11-11-2022 10:48,5,5,green,1,833,us,149,1.865,21.0,mww,37.0,-19.2918,-172.129,"Neiafu, Tonga",,
4,M 6.6 -,6.6,09-11-2022 10:14,0,2,green,1,670,us,131,4.998,27.0,mww,624.464,-25.5948,178.278,,,


- Сколько всего признаков имеется в данных и сколько объектов (землетрясений) в датасете?

In [18]:
# YOUR CODE HERE
print("Количество признаков в датасете:", earthquake.shape[1]) #Количество признаков (т.е. количество колонок в датасете)
print("Количество землетрясений в датасете:", earthquake.shape[0]) #Количество строк в датасете

Количество признаков в датасете: 19
Количество землетрясений в датасете: 782


- Выведите название (`title`) землетрясения, для регистрации которого использовалось максимальное количество сейсмических станций.

In [19]:
# YOUR CODE HERE
values = earthquake.nst.max() #Максимальное значение в датасете: 934
indexmaxvalue = earthquake.nst.idxmax() #Индекс максимального значения в датасете: 427

print(values) #Максимальное значение 934
print(indexmaxvalue) #Индекс максимальногозначения в датасете 427
print(earthquake.title[427]) # Название землятресения с индексом 427

934
427
M 7.3 - 11 km WNW of San Agustín, Colombia


- Сколько типов "уровней опасности" имеется в датасете? (Доп: без типа nan)

In [20]:
# YOUR CODE HERE
array = earthquake.alert.unique() # Маассив униккальных значений: ['green' 'yellow' 'orange' 'red' nan]
counter = 0
for alertname in array:
    counter = counter + 1
print(counter - 1) #   минус один если не учитываем тип nan

4


- Найдите, сколько землетрясений было в океанских регионах и сколько на суше.

In [21]:
# YOUR CODE HERE
zero = 0
one = 0
nancount = 0

for bull in earthquake.tsunami:
    if bull == 0:
        zero = zero + 1
    elif bull == 1:
        one = one + 1
    else:
        nancount = nancount + 1

print("Количество землетрясений на суше", zero)
print("Количество землетрясений в океанском регионе", one)
print(nancount)


Количество землетрясений на суше 478
Количество землетрясений в океанском регионе 304
0


- Информация о скольких странах присутствует в наборе данных? 

In [22]:
# YOUR CODE HERE
print(earthquake.country.unique())
array = earthquake.country.unique()
counter = 0
for countryname in array:
    counter = counter + 1
    
print("Количество уникальных стран:", counter - 1) # Минус один так так есть null и мы не считаем его за страну

['Solomon Islands' nan 'Fiji' 'Panama' 'Mexico' 'Taiwan'
 'Papua New Guinea' "People's Republic of China" 'Philippines' 'Brazil'
 'Peru' 'Argentina' 'Indonesia' 'United States of America' 'Antarctica'
 'Vanuatu' 'Haiti' 'Japan' 'Mongolia' 'Greece' 'Chile' 'Russia' 'Turkey'
 'United Kingdom of Great Britain and Northern Ireland (the)' 'Ecuador'
 'South Georgia and the South Sandwich Islands' 'Venezuela' 'Bolivia'
 'Costa Rica' 'Iran' 'Guatemala' 'Botswana' 'New Zealand' 'Italy'
 'Myanmar' 'Afghanistan' 'India' 'Tajikistan' 'Nepal' 'Nicaragua'
 'Pakistan' 'Colombia' 'Canada' 'Tonga' 'Kyrgyzstan' 'Martinique'
 'Mozambique' 'Tanzania' 'Algeria' 'El Salvador']
Количество уникальных стран: 49


- Выведите список стран, для которых есть хотя бы один объект с признаком `tsunami == 1` и найдите их количество.

In [23]:
# YOUR CODE HERE
tsunamicountries = earthquake.loc[ (earthquake.tsunami == 1) ]  #Отобрал все цунами
print(tsunamicountries) # Все строки цунами

uniqcountry = tsunamicountries.country.unique() #Получил массив из стран в которых было цунами
print(uniqcountry) # Массив стран где было цунами

counter = 0
for country in uniqcountry:
    counter = counter + 1

print()
print(f'Количество стран где было цунами: {counter}')



                                            title  magnitude  \
0    M 7.0 - 18 km SW of Malango, Solomon Islands        7.0   
2                                        M 7.0 -         7.0   
3             M 7.3 - 205 km ESE of Neiafu, Tonga        7.3   
4                                        M 6.6 -         6.6   
5               M 7.0 - south of the Fiji Islands        7.0   
..                                            ...        ...   
408      M 6.9 - 2 km NNE of Yacuanquer, Colombia        6.9   
409     M 7.1 - 32 km SE of Lata, Solomon Islands        7.1   
410    M 6.8 - 22 km ESE of Lata, Solomon Islands        6.8   
411    M 6.7 - 33 km SSW of Lata, Solomon Islands        6.7   
414      M 8.0 - 75 km W of Lata, Solomon Islands        8.0   

            date_time  cdi  mmi  alert  tsunami  sig net  nst   dmin   gap  \
0    22-11-2022 02:03    8    7  green        1  768  us  117  0.509  17.0   
2    12-11-2022 07:09    3    3  green        1  755  us  147  3.125  18.0 

- Проверьте, есть ли землетрясения с параметром `tsunami == 1` в России? Если есть, выведите название (`title`) любого из них

In [24]:
# YOUR CODE HERE
tsunamirussia = earthquake.loc[ (earthquake.tsunami == 1) & (earthquake.country == 'Russia') ]
print(tsunamirussia.title) #Выводит title всех цунами которые были в россии

106                M 7.0 - 95 km ENE of Kuril’sk, Russia
213    M 6.6 - 81 km NNE of Ust’-Kamchatsk Staryy, Ru...
258                  M 7.2 - 80 km S of Mil’kovo, Russia
398               M 7.2 - 252 km ENE of Kuril’sk, Russia
406             M 6.6 - 183 km SW of Belaya Gora, Russia
Name: title, dtype: object


- Найдите количество пропусков в данных (для каждого признака)

In [25]:
# YOUR CODE HERE###
earthquake.isna().sum()

title          0
magnitude      0
date_time      0
cdi            0
mmi            0
alert        367
tsunami        0
sig            0
net            0
nst            0
dmin           0
gap            0
magType        0
depth          0
latitude       0
longitude      0
location       5
continent    576
country      298
dtype: int64

- Колонка `gap` содержит значение азимутального угла в градусах. Переведите эти значения в радианы, используя  `apply` или `map`. Проверьте, что значения в соответствующей колонке действительно изменились.

In [26]:
# YOUR CODE HERE
print(earthquake.gap)
earthquake.gap = earthquake.gap.apply(lambda x: (x * 3.14)/180)
print(earthquake.gap)

0      17.0
1      34.0
2      18.0
3      21.0
4      27.0
       ... 
777     0.0
778     0.0
779     0.0
780     0.0
781     0.0
Name: gap, Length: 782, dtype: float64
0      0.296556
1      0.593111
2      0.314000
3      0.366333
4      0.471000
         ...   
777    0.000000
778    0.000000
779    0.000000
780    0.000000
781    0.000000
Name: gap, Length: 782, dtype: float64


- Найдите самую северную и самую южную точки, в которых было зафиксировано землетрясение

In [27]:
# YOUR CODE HERE
print(f'Самая северная точка \n {earthquake.loc[earthquake.latitude.idxmax()]}\n')
print(f'Самая южная точка \n {earthquake.loc[earthquake.latitude.idxmin()]}\n')

Самая северная точка 
 title        M 6.7 - 120 km NW of Olonkinbyen, Svalbard and...
magnitude                                                  6.7
date_time                                     09-11-2018 01:49
cdi                                                          3
mmi                                                          4
alert                                                    green
tsunami                                                      1
sig                                                        693
net                                                         us
nst                                                          0
dmin                                                     7.853
gap                                                   0.331444
magType                                                    mww
depth                                                     10.0
latitude                                               71.6312
longitude                       

- В какой стране наблюдалось больше всего землетрясений?

In [28]:
# YOUR CODE HERE
earthquake.country.value_counts().idxmax()

'Indonesia'

- В исходном датасете есть колонка `date_time`, в которой записаны дата и время события. Создайте две новые колонки `date` и `time`, в которых отдельно будет содержаться информация о дате и времени землетрясения. После этого удалите исходную колонку `date_time` из датафрейма.

In [29]:
# YOUR CODE HERE
earthquake.head(3)

Unnamed: 0,title,magnitude,date_time,cdi,mmi,alert,tsunami,sig,net,nst,dmin,gap,magType,depth,latitude,longitude,location,continent,country
0,"M 7.0 - 18 km SW of Malango, Solomon Islands",7.0,22-11-2022 02:03,8,7,green,1,768,us,117,0.509,0.296556,mww,14.0,-9.7963,159.596,"Malango, Solomon Islands",Oceania,Solomon Islands
1,"M 6.9 - 204 km SW of Bengkulu, Indonesia",6.9,18-11-2022 13:37,4,4,green,0,735,us,99,2.229,0.593111,mww,25.0,-4.9559,100.738,"Bengkulu, Indonesia",,
2,M 7.0 -,7.0,12-11-2022 07:09,3,3,green,1,755,us,147,3.125,0.314,mww,579.0,-20.0508,-178.346,,Oceania,Fiji


In [30]:
# YOUR CODE HERE


# Convert the date_time column to datetime format with dayfirst=True
# Load the dataset
earthquake = pandas.read_csv("earthquake_data.csv")

# Print the column names to find the correct one
print(earthquake.columns)

# Assuming the correct name is found, replace 'date_time' as needed
# Convert the date_time column to datetime format with dayfirst=True
earthquake['date_time'] = pandas.to_datetime(earthquake['date_time'], dayfirst=True)

# Create new columns date and time
earthquake['date'] = earthquake['date_time'].dt.date
earthquake['time'] = earthquake['date_time'].dt.time

# Drop the original date_time column
earthquake.drop(columns=['date_time'], inplace=True)

# Check the result
earthquake.head(3)

Index(['title', 'magnitude', 'date_time', 'cdi', 'mmi', 'alert', 'tsunami',
       'sig', 'net', 'nst', 'dmin', 'gap', 'magType', 'depth', 'latitude',
       'longitude', 'location', 'continent', 'country'],
      dtype='object')


Unnamed: 0,title,magnitude,cdi,mmi,alert,tsunami,sig,net,nst,dmin,gap,magType,depth,latitude,longitude,location,continent,country,date,time
0,"M 7.0 - 18 km SW of Malango, Solomon Islands",7.0,8,7,green,1,768,us,117,0.509,17.0,mww,14.0,-9.7963,159.596,"Malango, Solomon Islands",Oceania,Solomon Islands,2022-11-22,02:03:00
1,"M 6.9 - 204 km SW of Bengkulu, Indonesia",6.9,4,4,green,0,735,us,99,2.229,34.0,mww,25.0,-4.9559,100.738,"Bengkulu, Indonesia",,,2022-11-18,13:37:00
2,M 7.0 -,7.0,3,3,green,1,755,us,147,3.125,18.0,mww,579.0,-20.0508,-178.346,,Oceania,Fiji,2022-11-12,07:09:00


## Перед отправкой сохраните ноутбук с именем в следующем формате: **01_Фамилия.ipynb**