In [2]:
# HIPOTESIS: Ataques registrados de tiburones durante el S.XX.

In [3]:
import pandas as pd
import re

In [4]:
data = pd.read_csv("GSAF5.csv",encoding='iso-8859-1')

In [5]:
# Missing Values
null_cols = data.isnull().sum()
null_cols[null_cols > 0]

Country                     43
Area                       402
Location                   496
Activity                   527
Name                       200
Sex                        567
Age                       2681
Injury                      27
Fatal (Y/N)                 19
Time                      3213
Species                   2934
Investigator or Source      15
href formula                 1
href                         3
Unnamed: 22               5991
Unnamed: 23               5990
dtype: int64

In [6]:
#Las columnas de Unnamed: 22 y Unnamed: 23 están practicamente vacias.

data = data.drop(['Unnamed: 22','Unnamed: 23'],axis=1)

# Más de la mitad de valores en la columna Time y casi la mitad de los valores de la columna Species están vacios
# por lo que no son datos fiables para sacar conclusiones. Lo mismo ocurre con la columna Age.

data = data.drop(['Time','Species ','Age'],axis=1)

# Las columnas Case Number,Case Number.1, Case Number.2 no son iguales al 100% pero si en gran medida,
# Las 3 no aportan información relevante

data = data.drop(['Case Number','Case Number.1','Case Number.2'],axis=1)

# La columna original order no aporta más que otro índice, por lo que no es de utilidad.

data = data.drop(['original order'],axis=1)

# Las columnas href y href formula son iguales y no aportan información relevante.

data = data.drop(['href', 'href formula'],axis=1)

# La columna Investigator or Source no parece aportar una información clara y/o relevante.

data = data.drop(['Investigator or Source'],axis=1)

# La columna Fatal (Y/N) no hace falta, ya que en la comlumna Injury, los ataques que han sido mortales
# estan marcados como FATAL.

data = data.drop(['Fatal (Y/N)'],axis=1)

# La columna Injury puede ser vista en cada pdf adjunto para cada ataque, por lo que no es relevante.

data = data.drop(['Injury'],axis=1)

# La columna Date y Year son similares, ya que la columna Date tiene unos datos poco coherentes, se procede a 
# eliminarla.
data = data.drop(['Date'],axis=1)

# La columna Location y la columna Area no son necesarias, ya que conocemos el pais del ataque, ademas 
# la información que aporta Location puede ser encontrada en el PDF.

data = data.drop(['Location','Area'],axis=1)

# La columna name no es relevante para la elaboración de mi hipotesis final.

data = data.drop(['Name'],axis=1)

In [7]:
# Dado que hay muchos años puestos a 0, y mi hipotesis es sólo valida a partir del 1900. Voy a eliminar las lineas
# que sean anteriores a 1900 y posteriores a 1999.

data = data.drop(data[(data['Year']<1900)].index)
data = data.drop(data[(data['Year']>1999)].index)

In [8]:
# Cambio de nombre de la columna Sex para quitarle el espacio al final del nombre.

data['Sex']=data['Sex ']
data = data.drop(['Sex '],axis=1)

In [9]:
# Cambio de nombre de la columna pdf

data['Pdf']=data['pdf']
data = data.drop(['pdf'],axis=1)

In [10]:
# Reorganización de las columnas.

data = data.reindex(columns=['Year','Country','Type','Activity','Sex','Pdf'])

In [11]:
# Limpieza de los valores de la columna Sex que no sean M,F o NaN

data = data.drop(data[(data['Sex']=='.')].index)
data = data.drop(data[(data['Sex']=='N')].index)

In [12]:
# Elimina todas las filas con algun valor en NaN.
data = data.dropna()

In [13]:
set(data['Activity'])

{'   ',
 '"Climbing up to ship after repairing the stern in water"',
 '"Flying Tiger" transport plane went down with 5 men onboard',
 '"Riding waves on a board"',
 '"Swimming vigorously"',
 '.',
 "12 of the Penang's crew were returning to the ship when their 12' dinghy capsized",
 '14 m prawn trawler New Venture capsized  & sank in heavy seas Three people in the water',
 '1446-ton Norwegian barque Errol, bound from Peru to Newcastle with 22 on board wrecked. Survivors shelterd on the wreck of the Annasona. Subsequently the Master, his wife & 4 children perished along with several crew. Survivors (5) were rescued 7/12/1909',
 "16' catamaran capsized previous night, occupants stayed with wreckage until morning, then attempted to swim ashore",
 '17 Maldivians adrift in open boat for 31 days',
 '2 messboys (Jeppsen) & Tony Latona (13) were playing on the afterdeck of the Danish ship Grete Maersk. Jeppsen fell overboard, Latona threw a lifebelt then jumped in to help him. Ship didn\x92t not

In [14]:
data2 = data

In [15]:
def test_regex(year):
    return re.match('Swimming', year)

data2['Swimming'] = data2['Activity'].apply(test_regex)

In [17]:
display(data.head(10))

Unnamed: 0,Year,Country,Type,Activity,Sex,Pdf,Swimming
1855,1999,NEW ZEALAND,Unprovoked,Surfing,M,1999.12.31.c-Wildl.pdf,
1856,1999,NEW ZEALAND,Unprovoked,Swimming,F,1999.12.31.b-McDowell.pdf,"<_sre.SRE_Match object; span=(0, 8), match='Sw..."
1857,1999,NEW ZEALAND,Unprovoked,Bathing,F,1999.12.31.a-Hayward.pdf,
1858,1999,BRAZIL,Unprovoked,Surfing,M,1999.12.26-Cicero.pdf,
1859,1999,USA,Invalid,Scuba diving,M,1999.12.14-Hong.pdf,
1860,1999,BRAZIL,Invalid,Spearfishing,M,1999.12.06-Brazilian-diver.pdf,
1861,1999,USA,Unprovoked,Surfing,M,1999.12.02-BoyntonBeach-surfer.pdf,
1862,1999,USA,Unprovoked,Surfing,M,1999.11.30-Wyche.pdf,
1863,1999,USA,Unprovoked,Swimming,F,1999.11.23-Boyette.pdf,"<_sre.SRE_Match object; span=(0, 8), match='Sw..."
1864,1999,USA,Unprovoked,Surfing (sitting on his board),M,1999.11.15-JackWolf_Collier.pdf,
