# Projeto: Shark Attack

Objetivos:
- Descobrir se há alguma indícios de perigosidade de algum dos oceanos
- Identificar quais informações são relevantes para este estudo
- Identificar se há correlação entre os ataques de tubarões e/ou fatalidades e a região do ataque

## Importação de bibliotecas e dados externos

In [None]:
import pandas as pd
import re
from matplotlib import pyplot as plt

In [None]:
shark_attack = pd.read_csv('archive.zip', compression='zip', encoding='ansi')
shark_attack.tail()

### Verificando DataFrame

In [None]:
shark_attack.info()

In [None]:
# aumentando a quantidade de colunas do dataframe a serem visualizadas

pd.options.display.max_columns = 25

In [None]:
# descobrindo erros nos nomes das colunas

shark_attack.columns

##  Tratamento de linhas nulas

In [None]:
# criando uma coluna com a contagem de nulos em cada linha

shark_attack['Vazio'] = shark_attack.T.isnull().sum()

In [None]:
shark_attack.head()

In [None]:
shark_attack['Vazio'].value_counts()

In [None]:
# criando um dataframe com todas as linhas que possuem menos de 20 colunas vazias

f_shark = shark_attack.drop(shark_attack[shark_attack['Vazio'] > 20].index)

In [None]:
# verificando a quantidade de linhas x colunas vazias

f_shark['Vazio'].value_counts()

##  Escolha de colunas relevantes

In [None]:
f_shark['Unnamed: 23'].value_counts()

In [None]:
f_shark.loc[~f_shark['Unnamed: 23'].isnull(), :]

In [None]:
# escolhendo as colunas relevantes

f_shark = f_shark[['Date', 'Year', 'Type', 'Country', 'Area', 'Location', 'Activity', 'Name', 'Sex ', 'Injury',
                   'Fatal (Y/N)', 'Species ']]

In [None]:
# renomeando as colunas

f_shark.columns = ['date', 'year', 'type', 'country', 'area', 'location', 'activity', 'name', 'sex', 'injury',
                 'fatal', 'species']

In [None]:
f_shark.tail()

## Tratamento de ano

In [None]:
# verificando linhas cujo ano pode ser completado com informação da coluna de data

f_shark.loc[~(f_shark['date']).isnull() & (f_shark['year'].isnull()), 'date']

In [None]:
# preenchendo valor de ano com informação de data

f_shark.loc[~(f_shark['date']).isnull() & (f_shark['year'].isnull()), 'year'] = f_shark.loc[~(f_shark['date']).isnull() & (f_shark['year'].isnull()), 'date'].str.slice(start=-4)

In [None]:
# verificando linhas cujo ano pode ser completado com informação da coluna de data

f_shark.loc[~(f_shark['date']).isnull() & ((f_shark['year']==0) | (f_shark['year'].isnull())), 'date']

In [None]:
# substituindo zeros da coluna de anos com valores disponíveis na coluna data

filtro_ano = f_shark.loc[(f_shark['year']==0), 'date'].apply(lambda data: True if re.search('\d{3,}', str(data)) else False)
f_shark.loc[(f_shark['year']==0) & filtro_ano, 'year'] = f_shark.loc[(f_shark['year']==0) & filtro_ano, 'date'].apply(lambda data: re.findall('\d{3,}', str(data))[0])

In [None]:
# verificando dados após o tratamento

f_shark['year'].isnull().sum()

In [None]:
# transformando coluna ano em inteiros

f_shark['year'] = f_shark['year'].astype(int)

##  Tratamento de tipo de incidente

In [None]:
f_shark['type'].value_counts()

In [None]:
# ajustando os valores de barcos

boat = f_shark['type'].apply(lambda tipo: True if re.search('^boat', str(tipo).lower()) else False)
f_shark.loc[boat, 'type'] = 'Boat'

In [None]:
# agrupando valores

f_shark.loc[f_shark['type']=='Sea Disaster', 'type'] = 'Unprovoked'
f_shark.loc[f_shark['type']=='Questionable', 'type'] = 'Invalid'

In [None]:
# verificando dados tratados

f_shark['type'].value_counts()

## Tratamento de país

In [None]:
f_shark['country']

In [None]:
f_shark.loc[(f_shark['country'].isnull()) & (f_shark['area'].isnull()) & (f_shark['location'].isnull()), :].shape

In [None]:
# verificando linhas sem informação de país

f_shark.loc[(f_shark['country'].isnull()) & (~(f_shark['area'].isnull()) | ~(f_shark['location'].isnull())), ['country', 'area', 'location']]

In [None]:
# substituindo campos 'country' nulos por informações das colunas 'area' ou 'location'

f_shark.loc[(f_shark['country'].isnull()) & ((f_shark['area']=='St Helena') | ~(f_shark['area'].isnull())), 'country'] = f_shark.loc[(f_shark['country'].isnull()) & ((f_shark['area']=='St Helena') | ~(f_shark['area'].isnull())), 'area']
f_shark.loc[(f_shark['country'].isnull()) & ~(f_shark['location'].isnull()), 'country'] = f_shark.loc[(f_shark['country'].isnull()) & ~(f_shark['location'].isnull()), 'location']

In [None]:
# ajustando nomes de paises

f_shark.loc[~(f_shark['country'].isnull()), 'country'] = f_shark.loc[~(f_shark['country'].isnull()), 'country'].apply(lambda place: re.sub(' ?[\/\(,].*', '', str(place).upper()) if len(str(place))>0 else None)
f_shark.loc[~(f_shark['country'].isnull()), 'country'] = f_shark.loc[~(f_shark['country'].isnull()), 'country'].str.lstrip(' ')
f_shark.loc[~(f_shark['country'].isnull()), 'country'] = f_shark.loc[~(f_shark['country'].isnull()), 'country'].str.rstrip('[ ?]')

In [None]:
# Verificando os nomes dos países

paises = sorted(list(f_shark['country'].value_counts().index))
print(paises)

In [None]:
# agrupando alguns países

f_shark.loc[f_shark['country'] == '225 MILES EAST OF HONG KONG', 'country'] = 'HONG KONG'
f_shark.loc[f_shark['country'] == '300 MILES EAST OF ST. THOMAS', 'country'] = 'ST. THOMAS'
f_shark.loc[f_shark['country'] == 'TOBAGO', 'country'] = 'TRINIDAD & TOBAGO'
f_shark.loc[f_shark['country'] == 'REUNION ISLAND', 'country'] = 'REUNION'
f_shark.loc[f_shark['country'] == 'NEW GUINEA', 'country'] = 'PAPUA NEW GUINEA'
f_shark.loc[f_shark['country'] == 'BRITISH NEW GUINEA', 'country'] = 'PAPUA NEW GUINEA'
f_shark.loc[f_shark['country'] == 'OKINAWA', 'country'] = 'JAPAN'
f_shark.loc[f_shark['country'] == 'ST. MAARTIN', 'country'] = 'ST. MARTIN'
f_shark.loc[f_shark['country'] == 'SOUTH CHINA SEA', 'country'] = 'CHINA'
f_shark.loc[f_shark['country'] == 'BETWEEN COMORES & MADAGASCAR', 'country'] = 'MADAGASCAR'
f_shark.loc[f_shark['country'] == 'BETWEEN PORTUGAL & INDIA', 'country'] = 'PORTUGAL'
f_shark.loc[f_shark['country'] == 'BETWEEN TIMOR & DARWIN, AUSTRALIA', 'country'] = 'AUSTRALIA'
f_shark.loc[f_shark['country'] == 'MALDIVE ISLANDS', 'country'] = 'MALDIVES'
f_shark.loc[f_shark['country'] == 'GULF OF CALIFORNIA', 'country'] = 'USA'
f_shark.loc[f_shark['country'] == 'FLORIDA STRAIT', 'country'] = 'USA'
f_shark.loc[f_shark['country'] == 'GEORGIA', 'country'] = 'USA'
f_shark.loc[f_shark['country'] == 'FEDERATED STATES OF MICRONESIA', 'country'] = 'MICRONESIA'
f_shark.loc[f_shark['country'] == 'GRAND CAYMAN', 'country'] = 'CAYMAN ISLANDS'
f_shark.loc[f_shark['country'] == 'NEAR THE ANDAMAN & NICOBAR ISLANDS', 'country'] = 'ANDAMAN'
f_shark.loc[f_shark['country'] == 'ANDAMAN ISLANDS', 'country'] = 'ANDAMAN'
f_shark.loc[f_shark['country'] == 'TASMAN SEA', 'country'] = 'AUSTRALIA'
f_shark.loc[f_shark['country'] == 'CEYLON', 'country'] = 'SRI LANKA'
f_shark.loc[f_shark['country'] == 'ENGLISH CHANNEL', 'country'] = 'UNITED KINGDOM'
f_shark.loc[f_shark['country'] == 'BRITISH ISLES', 'country'] = 'UNITED KINGDOM'
f_shark.loc[f_shark['country'] == 'ENGLAND', 'country'] = 'UNITED KINGDOM'
f_shark.loc[f_shark['country'] == 'SCOTLAND', 'country'] = 'UNITED KINGDOM'
f_shark.loc[f_shark['country'] == 'IN A RIVER FEEDING INTO THE BAY OF BENGAL', 'country'] = 'BAY OF BENGAL'

In [None]:
f_shark['country'].value_counts()

In [None]:
# Verificando campos nulos

f_shark['country'].isnull().sum()

## Agrupado em dados de oceanos/mar

In [None]:
f_shark['ocean']=f_shark['country']

In [None]:
oceano = 'OCEAN|SEA|BAY|GULF'

lista = sorted(list(f_shark.loc[~(f_shark['ocean'].isnull()), 'ocean'].apply(lambda pais: pais if re.search(oceano, pais.upper()) else None).value_counts().index))
lista

In [None]:
## ATENÇÃO ###
# célula destinada a verificar dados de uma linha específica

f_shark.loc[f_shark['ocean']=='PALESTINIAN TERRITORIES', :]

###  Filtrando oceanos pelas colunas oceano e área

In [None]:
# substituindo locais do Oceano Atlântico

atl_keys = 'atlant|caribb|mediterr|north s'
filtro_atl = (f_shark['ocean'].apply(lambda pais: True if re.search(atl_keys, str(pais).lower()) else False)) | (f_shark['area'].apply(lambda pais: True if re.search(atl_keys, str(pais).lower()) else False))
f_shark.loc[filtro_atl, 'ocean'] = 'ATLANTIC OCEAN'

In [None]:
# substituindo locais do Oceano Pacífico

pcf_keys = 'pacif'
filtro_pcf = (f_shark['ocean'].apply(lambda pais: True if re.search(pcf_keys, str(pais).lower()) else False)) | (f_shark['area'].apply(lambda pais: True if re.search(pcf_keys, str(pais).lower()) else False))
f_shark.loc[filtro_pcf, 'ocean'] = 'PACIFIC OCEAN'

In [None]:
# substituindo locais do Oceano Índico

ind_keys = 'india|persian|red sea'
filtro_ind = (f_shark['ocean'].apply(lambda pais: True if re.search(ind_keys, str(pais).lower()) else False)) | (f_shark['area'].apply(lambda pais: True if re.search(ind_keys, str(pais).lower()) else False))
f_shark.loc[filtro_ind, 'ocean'] = 'INDIAN OCEAN'

###  Filtrando oceanos por países

In [None]:
#filtrando por paises no Oceano Atlântico

pais_atl = 'carlisle|st helena|brazil|haiti|honduras|argentina|peru|ecuador|venezu|columbia|spain|sloven|norw|guinea|georgia|aruba|gabon|angol|belize|crete|cayman|grenada|dominic|liberia|nigeria|france|united ki|scotl|turkey|el salv|england|ireland|azor|icel|falkl|guyana|cape v|florida|namib|curacao|bahamas|roatan|antigu|bermud|portugal|ghana|sierra|thomas|barbados|cuba|jamaica|puerto|artin|tobago|caico|urug|ionian|greece|croatia|italy|israel|lebanon|malta|monaco|montenegro|balkan|tunisia|libya|syria|alger|cypr'

filtro_atl = f_shark['ocean'].apply(lambda pais: True if re.search(pais_atl, str(pais).lower()) else False)
f_shark.loc[filtro_atl, 'ocean'] = 'ATLANTIC OCEAN'

In [None]:
#filtrando por paises no Oceano Pacífico

pais_pcf = 'china sea|tasman|^ocean|california|korea|japan|marshal|canada|kiribati|philippines|admir|tonga|asia|costa r|nicar|seneg|malay|singap|russia|mariana|hong kong|cook|johnston|solomon|guam|chile|fiji|microne|thail|palau|new brit|polyne|maldiv|zealand|samoa|okinawa|papua|new guinea|taiwan|tuvalu|vanuatu|caled|china|timor|vietn'

filtro_pcf = f_shark['ocean'].apply(lambda pais: True if re.search(pais_pcf, str(pais).lower()) else False)
f_shark.loc[filtro_pcf, 'ocean'] = 'PACIFIC OCEAN'

In [None]:
#filtrando por paises no Oceano Índico

pais_ind = 'bengal|arabian sea|aden|madagascar|reunion|mozamb|andam|egypt|bahrein|diego g|saudi a|arab em|mayote|burma|comoros|yeme|indonesia|java|banglad|maurit|keny|djib|seyc|sri|ceyl|tanza|somal|kuwai|iran|iraq'

filtro_ind = f_shark['ocean'].apply(lambda pais: True if re.search(pais_ind, str(pais).lower()) else False)
f_shark.loc[filtro_ind, 'ocean'] = 'INDIAN OCEAN'

### Tratamento dados dos EUA 

In [None]:
# filtrando dados dos EUA

f_shark.loc[(f_shark['ocean']=='USA'), 'area'].value_counts()

In [None]:
f_shark.loc[(f_shark['ocean']=='USA') & (f_shark['area']=='New Mexico'), :]

In [None]:
# Filtrando os incidentes no lado Pacífico dos EUA

usa_pcf = 'hawai|califo|alas|atoll|guam|washin|oreg'

filtro_usa_pcf = (f_shark['area'].apply(lambda pais: True if re.search(usa_pcf, str(pais).lower()) else False)) & (f_shark['country']=='USA')
f_shark.loc[filtro_usa_pcf, 'ocean'] = 'PACIFIC OCEAN'

In [None]:
# Preenchendo os outros incidentes dos EUA com Atlântico

f_shark.loc[(f_shark['country']=='USA') & (f_shark['ocean'] != 'PACIFIC OCEAN'), 'ocean'] = 'ATLANTIC OCEAN'

###  Tratamento dados da Austrália

In [None]:
# Verificando dados da Austrália

f_shark.loc[(f_shark['ocean']=='AUSTRALIA'), 'area'].value_counts()

In [None]:
# Filtrando os incidentes no lado Índico da Austrália

aus_ind = 'western|south aus|keeling'

filtro_aus_ind = (f_shark['area'].apply(lambda pais: True if re.search(aus_ind, str(pais).lower()) else False)) & (f_shark['country']=='AUSTRALIA')
f_shark.loc[filtro_aus_ind, 'ocean'] = 'INDIAN OCEAN'

In [None]:
# Preenchendo os outros incidentes da Austrália com Pacífico

f_shark.loc[(f_shark['country']=='AUSTRALIA') & (f_shark['ocean'] != 'INDIAN OCEAN'), 'ocean'] = 'PACIFIC OCEAN'

###  Tratamento dados da África do Sul

In [None]:
# filtrando dados da África do Sul

f_shark.loc[(f_shark['ocean']=='SOUTH AFRICA'), 'area'].value_counts()

In [None]:
# Filtrando os incidentes no lado Atlântico da África do Sul

afs_atl = 'western|atlant'

filtro_afs_atl = (f_shark['area'].apply(lambda pais: True if re.search(afs_atl, str(pais).lower()) else False)) & (f_shark['country']=='SOUTH AFRICA')
f_shark.loc[filtro_afs_atl, 'ocean'] = 'ATLANTIC OCEAN'

In [None]:
# Preenchendo os outros incidentes da África do Sul com Índico

f_shark.loc[(f_shark['country']=='SOUTH AFRICA') & (f_shark['ocean'] != 'ATLANTIC OCEAN'), 'ocean'] = 'INDIAN OCEAN'

###  Tratamento dados do México

In [None]:
# filtrando dados do México

f_shark.loc[(f_shark['ocean']=='MEXICO'), 'area'].value_counts()

In [None]:
# Filtrando os incidentes no lado Atlântico do México

mex_atl = 'vera|quint|tamau|carib|taba|campe'

filtro_mex_atl = (f_shark['area'].apply(lambda pais: True if re.search(mex_atl, str(pais).lower()) else False)) & (f_shark['country']=='MEXICO')
f_shark.loc[filtro_mex_atl, 'ocean'] = 'ATLANTIC OCEAN'

In [None]:
# Preenchendo os outros incidentes do México com Pacífico

f_shark.loc[(f_shark['country']=='MEXICO') & (f_shark['ocean'] != 'ATLANTIC OCEAN'), 'ocean'] = 'PACIFIC OCEAN'

###  Tratamento dados da Espanha

###  Tratamento dados do Panamá

In [None]:
# Filtrando os incidentes no lado Pacífico do Panamá

pnm_pcf = 'gulf'

filtro_pnm_pcf = (f_shark['area'].apply(lambda pais: True if re.search(pnm_pcf, str(pais).lower()) else False)) & (f_shark['country']=='PANAMA')
f_shark.loc[filtro_pnm_pcf, 'area'] = 'PACIFIC OCEAN'

In [None]:
# Preenchendo os outros incidentes do Panamá com Atlântico

f_shark.loc[(f_shark['country']=='PANAMA') & (f_shark['ocean'] != 'PACIFIC OCEAN'), 'ocean'] = 'ATLANTIC OCEAN'

###  Verificação

In [None]:
# verificando 

paises = sorted(list(f_shark['ocean'].value_counts().index))
print(paises)

In [None]:
# verificando linhas sem nenhuma informação do local

f_shark.loc[f_shark['ocean'].isnull(), :].shape

In [None]:
f_shark['ocean'].value_counts()

## Tratamento de mês

<b> Esta frente foi abandonada !!!</b>

def class_per(data):
    '''
    '''
    pad_mes = 'jan|feb|mar|apr|may|jun|jul|aug|sep|oct|nov|dec'
    pad_est = 'fall|summer|winter|spring'
    
    if re.search(pad_mes, data.lower):
        per = 
        return re.findall(pad_)

pat_month = 'jan|feb|mar|ap[r]?|may|jun|jul|aug|sep|oct|nov|dec|fall|summer|winter|spring'

f_shark['month'] = f_shark['date'].apply(lambda date: re.findall(pat_month, date.lower())[0] if re.search(pat_month, date.lower()) else 0)

f_shark['month'].value_counts()

f_shark['month'] = f_shark['date'].apply(lambda date: re.sub('\d{4}', '', date))

f_shark['month']

f_shark.loc[f_shark['month']== 0, 'date'].apply(lambda date: re.findall('\.(\d{2})\.', date))

f_shark.loc[f_shark['month']==0, 'date'].apply(lambda date: re.sub('\d{4}', '', date)).value_counts()

## Tratamento de gênero

In [None]:
# verificando coluna de gênero

f_shark['sex'].value_counts()

In [None]:
# verificando linhas que não possuem nem informação de gênero e nem de nome

f_shark.loc[(f_shark['sex'].isnull()) & (f_shark['name'].isnull()), :]

In [None]:
# verificando se há informações de incidentes com mulheres nos registros com coluna de gênero nula e substituindo

filtro_fem = f_shark.loc[(f_shark['sex'].isnull()) & ~(f_shark['name'].isnull()), 'name'].apply(lambda name: True if re.search('wom[ae]n', str(name)) else False)

f_shark.loc[(f_shark['sex'].isnull()) & ~(f_shark['name'].isnull()) & filtro_fem, 'sex'] = 'F'

In [None]:
# ajustando valores da coluna de gênero

f_shark.loc[(f_shark['sex'] != 'M') & (f_shark['sex'] != 'F') & ~(f_shark['sex'].isnull()), 'sex'] = 'M'

In [None]:
f_shark['sex'].value_counts()

## Tratamento de fatalidade

In [None]:
f_shark['fatal'].value_counts()

In [None]:
# verificando dados que não tem informação de fatalidade e nem de ferimentos

f_shark.loc[(f_shark['injury'].isnull()) & (f_shark['fatal'].isnull()), :]

In [None]:
# verificando dados de fatalidade que podem ser preenchidos com informações de 'injury'

f_shark.loc[~(f_shark['injury'].isnull()) & (f_shark['fatal'].isnull()), :]

In [None]:
# substituindo dados de fatalidade nulos por indicativos de fatalidade indentificados em 'injury'

fatal_cond = 'fatal|death|mortem|dead|drown'

f_shark.loc[f_shark['fatal'].isnull(), 'fatal'] = f_shark.loc[f_shark['fatal'].isnull(), 'injury'].apply(lambda desc: 'Y' if re.search(fatal_cond, str(desc).lower()) else None)
f_shark.loc[f_shark['fatal'].isnull(), 'fatal'] = f_shark.loc[f_shark['fatal'].isnull(), 'species'].apply(lambda desc: 'Y' if re.search('death', str(desc).lower()) else None)

In [None]:
# substituindo dados de fatalidade nulos por indicativos de não-fatalidade identificados em 'injury'

non_fatal_cond = 'no injury'

f_shark.loc[f_shark['fatal'].isnull(), 'fatal'] = f_shark.loc[f_shark['fatal'].isnull(), 'injury'].apply(lambda desc: 'N' if re.search(non_fatal_cond, str(desc).lower()) else None)

In [None]:
# verificando dados após tratamento inicial

f_shark['fatal'].value_counts()

In [None]:
# ajustando preenchimento de fatalidades e completando valores nulos com a moda

f_shark.loc[(f_shark['fatal']=='y'), 'fatal'] = 'Y'
f_shark.loc[(f_shark['fatal'] != 'Y') & (f_shark['fatal'] != 'N') & ~(f_shark['fatal'].isnull()), 'fatal'] = 'N'

In [None]:
# verificando dados pós-tratamento

f_shark['fatal'].value_counts()

##  Tratamento de células que permaneceram vazias

In [None]:
# preenchendo valores de tipos vazios com a moda

f_shark.loc[(f_shark['type'].isnull()), 'type'] = f_shark['type'].mode()[0]

In [None]:
# preenchendo campos nulos com o valor que mais aparece

f_shark.loc[f_shark['country'].isnull(), 'country'] = f_shark['country'].mode()[0]


In [None]:
# completando dados remanescentes de oceano com valor da moda

resto = 'ATLANTIC OCEAN|PACIFIC OCEAN|INDIAN OCEAN'

filtro_resto = f_shark['ocean'].apply(lambda oceano: False if re.search(resto, str(oceano).upper()) else True)
f_shark.loc[filtro_resto, 'ocean'] = f_shark['ocean'].mode()[0]

In [None]:
# preenchendo valores de gênero vazios com a moda

f_shark.loc[(f_shark['sex'].isnull()), 'sex'] = f_shark['sex'].mode()[0]

In [None]:
# preenchendo valores de fatalidade vazios com a moda

f_shark.loc[(f_shark['fatal'].isnull()), 'fatal'] = f_shark['fatal'].mode()[0]

##  Buscando correlações

In [None]:
f_shark.shape

###  Descrição dos dados

In [None]:
# distribuição por tipo de incidente

f_shark['type'].value_counts(normalize=True)*100

In [None]:
# distribuição por fatalidade

f_shark['fatal'].value_counts(normalize=True)*100

In [None]:
# distribuição por gênero

f_shark['sex'].value_counts(normalize=True)*100

In [None]:
# distribuição por oceano

f_shark['ocean'].value_counts(normalize=True)*100

###  Agrupando os dados

In [None]:
# porcentagem de incidentes fatais (Y) e não-fatais (N) por oceano em relação ao total de registros

f_shark[['fatal', 'ocean','date']].groupby(by=['ocean', 'fatal']).count()/6302*100

In [None]:
# porcentagem de incidentes fatais (Y) e não-fatais (N) por oceano

contagem = f_shark[['fatal', 'ocean','date']].groupby(by=['ocean', 'fatal']).count().values[:,0]
rotulo = list(f_shark[['fatal', 'ocean','date']].groupby(by=['ocean', 'fatal']).count().index)

oceano = []
fatal = []

for oce, fat in rotulo:
    oceano.append(oce)
    fatal.append(fat)

novo = np.array([oceano, fatal, contagem], dtype=object).T

for i in range(len(novo)):
    novo[i, 2] = int(novo[i, 2]/(sum(contagem*(novo[:, 0] == novo[i, 0])))*10000)/100
    
print(novo)

In [None]:
# gráfico com a quantidade de acidentes fatais (Y) e não-fatais (N) por oceano (ATL - Atlântico, IND - Índico e 
#                                                                               PAC - Pacífico)

contagem = f_shark[['fatal', 'ocean','date']].groupby(by=['ocean', 'fatal']).count().values[:,0]
rotulo = list(map(lambda label: label[0][0:3]+'-'+label[1], f_shark[['fatal', 'ocean','date']].groupby(by=['ocean', 'fatal']).count().index))

plt.bar(rotulo, contagem)
plt.show()

###  Avaliando a influência do gênero

In [None]:
f_shark[['fatal', 'ocean', 'sex', 'date']].groupby(by=['sex', 'ocean', 'fatal']).count()/6302*100

In [None]:
f_shark.loc[(f_shark['fatal']=='N'), ['sex', 'ocean']].value_counts()

In [None]:
f_shark.loc[(f_shark['fatal']=='Y'), ['sex', 'ocean']].value_counts()

In [None]:
# porcentagem de incidentes fatais (Y) e não-fatais (N) por oceano e gênero

contagem = f_shark[['fatal', 'ocean','sex', 'date']].groupby(by=['fatal', 'ocean', 'sex']).count().values[:,0]
rotulo = list(f_shark[['fatal', 'ocean', 'sex', 'date']].groupby(by=['fatal', 'ocean', 'sex']).count().index)

oceano = []
fatal = []
genero = []

for fat, oce, gen in rotulo:
    genero.append(gen)
    oceano.append(oce)
    fatal.append(fat)

novo = np.array([fatal, oceano, genero, contagem], dtype=object).T

for i in range(len(novo)):
    novo[i, 3] = int(novo[i, 3]/(sum(contagem*(novo[:, 0] == novo[i, 0])))*10000)/100
    
print(novo)