# Используемый датасет - attacks.csv. В нем собрана информация о нападениях акул на людей. 

In [201]:
import pandas as pd
df = pd.read_csv('attacks.csv')

# Основная информация о датасете

In [202]:
print(f'количество столбцов: {df.shape[0]}') 
print('-------------------------------------') 
print(f'названия столбцов:'+ '\n' + str('\n'.join(list(df.columns)))) 
print('-------------------------------------') 
print(f'типы данных столбцов: object, float64') 
print('-------------------------------------') 
print(f'использование памяти: {df.memory_usage().sum()} B') 
print('-------------------------------------') 
print(f'диапазон индекса: от 0 до {df.shape[0] - 1}') 
print('-------------------------------------') 
print(f'количество ячеек в каждом столбце (ненулевые значения): \n{df.count()}')

количество столбцов: 25723
-------------------------------------
названия столбцов:
Case Number
Date
Year
Type
Country
Area
Location
Activity
Name
Sex 
Age
Injury
Fatal (Y/N)
Time
Species 
Investigator or Source
pdf
href formula
href
Case Number.1
Case Number.2
original order
Unnamed: 22
Unnamed: 23
-------------------------------------
типы данных столбцов: object, float64
-------------------------------------
использование памяти: 4938944 B
-------------------------------------
диапазон индекса: от 0 до 25722
-------------------------------------
количество ячеек в каждом столбце (ненулевые значения): 
Case Number               8702
Date                      6302
Year                      6300
Type                      6298
Country                   6252
Area                      5847
Location                  5762
Activity                  5758
Name                      6092
Sex                       5737
Age                       3471
Injury                    6274
Fatal (Y/N)     

# Проверка на строки дубликаты

In [203]:
df.duplicated() == True

0        False
1        False
2        False
3        False
4        False
         ...  
25718     True
25719     True
25720     True
25721     True
25722    False
Length: 25723, dtype: bool

# Видно, что в датасете содержатся строки дубликаты - удалим их. Затем удалим неинформативные столбцы и строки, в которых все значения пустые

In [204]:
df = df.drop_duplicates()
df.drop(['Case Number', 'pdf', 'href formula', 'href', 'Case Number.1', 'Case Number.2', 'original order','Unnamed: 22', 'Unnamed: 23'], axis=1, inplace=True)
df.dropna(how='all', inplace=True)

# Выводы

In [205]:
df['Area, Country'] = df['Area'] + ', '+ df['Country']
print('ТОП-10 стран по количеству нападений:\n')
print(df['Country'].value_counts().head(10), '\n')
print('ТОП-20 местностей по количеству нападений:\n')
print(df['Area, Country'].value_counts().head(20))

ТОП-10 стран по количеству нападений:

USA                 2229
AUSTRALIA           1338
SOUTH AFRICA         579
PAPUA NEW GUINEA     134
NEW ZEALAND          128
BRAZIL               112
BAHAMAS              109
MEXICO                89
ITALY                 71
FIJI                  62
Name: Country, dtype: int64 

ТОП-20 местностей по количеству нападений:

Florida, USA                           1037
New South Wales, AUSTRALIA              486
Queensland, AUSTRALIA                   311
Hawaii, USA                             298
California, USA                         290
KwaZulu-Natal, SOUTH AFRICA             213
Western Cape Province, SOUTH AFRICA     195
Western Australia, AUSTRALIA            189
Eastern Cape Province, SOUTH AFRICA     160
South Carolina, USA                     159
South Australia, AUSTRALIA              104
North Carolina, USA                     101
Victoria, AUSTRALIA                      90
Pernambuco, BRAZIL                       74
Texas, USA           

## Вывод: США, Австралия и Южная Африка - наиболее опасные страны с т. з. нападения акул. 

In [206]:
df['Fatal (Y/N)'].value_counts()

N          4293
Y          1388
UNKNOWN      71
 N            7
N             1
2017          1
M             1
y             1
Name: Fatal (Y/N), dtype: int64

## Вывод: соотношение несмертельных нападений акул к смертельным примерно 4:1 соответственно. 

In [207]:
df['Age'].value_counts().head(20)

17    154
18    150
19    142
20    141
15    139
16    138
21    119
22    117
25    108
24    106
14    101
13     94
26     83
28     80
23     80
27     78
29     78
30     76
12     73
32     69
Name: Age, dtype: int64

In [208]:
df['Type'].value_counts().head(20)

Unprovoked      4595
Provoked         574
Invalid          547
Sea Disaster     239
Boating          203
Boat             137
Questionable       2
Boatomg            1
Name: Type, dtype: int64

In [209]:
df['Sex '].value_counts()

M      5094
F       637
N         2
M         2
lli       1
.         1
Name: Sex , dtype: int64

In [210]:
df['Activity'].value_counts().head(20)

Surfing            971
Swimming           869
Fishing            431
Spearfishing       333
Bathing            162
Wading             149
Diving             127
Standing            99
Snorkeling          89
Scuba diving        76
Body boarding       61
Body surfing        49
Swimming            47
Kayaking            33
Treading water      32
Fell overboard      32
Pearl diving        32
Boogie boarding     29
Free diving         29
Windsurfing         19
Name: Activity, dtype: int64

## Вывод: как правило, нападения акул являются неспровоцированными и приходятся на мужчин возраста 16-30 (это среднестатитический портрет людей, занимающихся вышеперечисленными активностями)

In [211]:
df['Species '].value_counts().head(20)

White shark                                           163
Shark involvement prior to death was not confirmed    105
Invalid                                               102
Shark involvement not confirmed                        88
Tiger shark                                            73
Shark involvement prior to death unconfirmed           68
Bull shark                                             52
4' shark                                               40
6' shark                                               40
1.8 m [6'] shark                                       35
Questionable incident                                  35
Questionable                                           34
1.5 m [5'] shark                                       32
1.2 m [4'] shark                                       27
5' shark                                               26
3' shark                                               26
2 m shark                                              25
4' to 5' shark

## Вывод: чаще всего нападают белые, тигровые и бычьи акулы.