In [314]:
import pandas as pd
import re

df = pd.read_csv('attacks.csv', encoding='latin-1')

In [315]:
#Eliminacion de filas y columnas con missing values

df.dropna(axis=1,thresh= len(df)*0.1,inplace=True) #Eliminar las columnas que no tengan minimo el 10% de valores no Nans

df.dropna(axis=0,thresh= 10,inplace=True) #Eliminar las filas que no tengan 10 valores no Nans minimos

In [316]:
#Comparamos las 3 columnas Case Number Case Number.1 Case Number.2
Equals = df[['Case Number.1','Case Number.2']].eq(df['Case Number'], axis=0).all(axis=1)

Equals.sum() #de 6302 filas 6278 son exactamente iguales entre las 3

6278

In [317]:
#En los 24 casos que son diferentes no hay diferencias significativas salvo en la fila 5488 que tiene un Nan
df[~Equals][['Case Number','Case Number.1','Case Number.2']] 

#Se sobreescribe este Nan con el valor que tiene en las otras dos columnas
df.loc[5488,'Case Number'] =  df.loc[5488,'Case Number.2']

#Tras ver que las columnas 'Case Number.1','Case Number.2' se opta por borrarlas
df.drop(columns=['Case Number.1','Case Number.2'],inplace=True)

In [318]:
#Comparamos las 'href formula' y 'href', 6242 son exactamente iguales de 6302
(df['href formula'] == df['href']).sum()

#Inspeccionamos que hay en las filas que no coinciden
df[~(df['href formula'] == df['href'])][['href formula','href']]

#Si estudiamos los que no son iguales podemos ver que:
#que href tiene un formato de URL distinto al del usado en todo el resto de la columna, cunado el correcto es el de href formula
#En la fila 671, 3244 y 3245 hay valores singulares que han de ser sustituidos por los correctos que si estan almacenados en href
df.loc[671,'href formula'] = df.loc[671,'href']
df.loc[3244,'href formula'] = df.loc[3244,'href']
df.loc[3245,'href formula'] = df.loc[3245,'href']

#Dado que en la columna 'href' no hay informacion relevante la eliminamos
df.drop(columns=['href'],inplace=True) 


In [319]:
df.rename(columns = {'Sex ':'Sex'},inplace = True) #Nombramos correctamente la columna Sex

df['Sex'].unique() #Vemos que hay mas valores ademas de F, M y unknown
df['Sex'].value_counts() 
#Criterio: en todos los casos que no se sepa el sexo exacto se usará unknown

M      5094
F       637
M         2
N         2
lli       1
.         1
Name: Sex, dtype: int64

In [320]:
#Analizamos estos casos uno a uno.

#Rellenamos los nans de unknowns
df['Sex'].fillna('unknown',inplace=True)

#Arreglamos aquellas Ms con espacio.
df.loc[df[df['Sex']=='M '].index , ['Sex']] = 'M' #Arreglamos aquellas Ms con espacio.

#Para las dos Ns se determina que Stephen Pettigew es M y los 18 ocupantes del barco son Nan
df.loc[6131, 'Sex'] = 'M' 
df.loc[4938, 'Sex'] = 'unknown'

#lli Se determina que es M al ver de nombre Brian Kang 
df.loc[df[df['Sex']=='lli'].index , ['Sex']] = 'M'
#No tiene nombre asi que se decide que sera un Nan
df.loc[df[df['Sex']=='.'].index , ['Sex']] = 'unknown'

#Comprobamos que ahora solo hay 3 tipos de valor
df['Sex'].value_counts()

M          5098
F           637
unknown     567
Name: Sex, dtype: int64

In [321]:
#En la columna Name esta llena de valores male y female. Los usaremos para completar la columna Sex
#Hay 550 filas con nombre male de los cuales unos 10 tienen sexo unknown
df.loc[df[(df['Name']=='male') & (df['Sex']!='M')].index,'Sex'] = 'M' #Definimos su sexo como M
#Hacemos lo mismo para las mujeres
df.loc[df[(df['Name']=='female') & (df['Sex']!='F')].index,'Sex'] = 'F'
df.loc[ df[(df['Name']=='female')|(df['Name']=='male')].index , 'Name'] = 'unknown'#Removemos de la columna Name todos los valores male and female

In [322]:
df[pd.isna(df['Year'])] #En la columna de años solo hay 2 valores nan que son facilmente sustituibles por las fechas de Date
df.loc[187,'Year']  = 2017
df.loc[6079,'Year'] = 1836
df[df['Year']==0] #La columna de años contiene 130 0s
#usamos regex para buscar fechas en la columna Date y completarlas en años
#La columna Date tiene 5 valores antes de cristo. Se decide ponerlos a 0 y todo lo que no tenga valor
df.loc[df[df['Year']==0].index,'Year']  = df[df['Year']==0][['Date','Year']].apply((lambda row: re.search(r'\d{4}',row['Date']).group() if re.search(r'\d{4}',row['Date'])  else 0), axis=1)

In [323]:
df[df['original order'].duplicated(keep=False)] #Se observa que solo hay un valor duplicado en toda la columna original order
#Vemos que hay dos 569 pero no hay ningun 571
df.loc[5730:5734,:] 
df[df['original order']==571]
#Asignamos a uno de los 569 571
df.loc[5733,'original order'] = 571
df[df['original order'].duplicated(keep=False)] #No hay duplicados en original order ya

Unnamed: 0,Case Number,Date,Year,Type,Country,Area,Location,Activity,Name,Sex,Age,Injury,Fatal (Y/N),Time,Species,Investigator or Source,pdf,href formula,original order


In [344]:
ind = list(df[df['Injury'].fillna('False').str.contains('Fatal')][['Injury','Fatal (Y/N)']].index) #Completamos aquellos Fatal que no lo sean salvo el 5813
del ind[-2] #Borramos el indice que no queremos borrar.
df.loc[indices,'Fatal (Y/N)'] = 'Y'

In [382]:
df.reindex(columns=['original order', 'Year', 'Type', 'Country', 'Area', 'Location',
       'Activity', 'Name', 'Sex', 'Age', 'Injury', 'Fatal (Y/N)', 
       'Species ', 'Investigator or Source', 'Date' ,'Time','href formula', 'pdf','Case Number'
       ]).fillna('unknown',inplace=True)

df.sort_values('original order',ascending=True,inplace=True)
#Se reorganizanlas columnas para tener las mas importantes al principio
#original order se pone primera como identificador unico por fila
#Las columnas case number, pdf, href formula, time y date contienen informacion demasiado confusa o muy mezclada por eso se ponen al final
#Estas columnas no se eliminan por si el usuario final que quiera hacer un analisis pueda considerar que aun quede informacion relevante ahi
#De lo contrario eliminarlas es un momento

In [384]:
df.head()

Unnamed: 0,original order,Year,Type,Country,Area,Location,Activity,Name,Sex,Age,Injury,Fatal (Y/N),Species,Investigator or Source,Date,Time,href formula,pdf,Case Number
0,2.0,1845,Unprovoked,CEYLON (SRI LANKA),Eastern Province,"Below the English fort, Trincomalee",Swimming,unknown,M,15.0,"FATAL. ""Shark bit him in half, carrying away t...",Y,,S.W. Baker,1845-1853,,http://sharkattackfile.net/spreadsheets/pdf_di...,ND-0001-Ceylon.pdf,ND.0001
1,3.0,1883,Unprovoked,PANAMA,,"Panama Bay 8ºN, 79ºW",,Jules Patterson,M,,FATAL,Y,,"The Sun, 10/20/1938",1883-1889,,http://sharkattackfile.net/spreadsheets/pdf_di...,ND-0002-JulesPatterson.pdf,ND.0002
2,4.0,1900,Unprovoked,USA,North Carolina,Ocracoke Inlet,Swimming,Coast Guard personnel,M,,FATAL,Y,,"F. Schwartz, p.23; C. Creswell, GSAF",1900-1905,,http://sharkattackfile.net/spreadsheets/pdf_di...,ND-0003-Ocracoke_1900-1905.pdf,ND.0003
3,5.0,1903,Unprovoked,AUSTRALIA,Western Australia,,Pearl diving,Ahmun,M,,FATAL,Y,,"H. Taunton; N. Bartlett, pp. 233-234",Before 1903,,http://sharkattackfile.net/spreadsheets/pdf_di...,ND-0004-Ahmun.pdf,ND.0004
4,6.0,1903,Unprovoked,AUSTRALIA,Western Australia,Roebuck Bay,Diving,unknown,M,,FATAL,Y,,"H. Taunton; N. Bartlett, p. 234",Before 1903,,http://sharkattackfile.net/spreadsheets/pdf_di...,ND-0005-RoebuckBay.pdf,ND.0005


In [385]:
df.to_csv('Sharks.csv', sep=',', index=False)