In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import regex as re
import misfunciones as mf

In [2]:
#cargamos csv
sharks = pd.read_csv("data/attacks.csv",encoding = "ISO-8859-1")

In [3]:
sharks.sample(20)

Unnamed: 0,Case Number,Date,Year,Type,Country,Area,Location,Activity,Name,Sex,...,Species,Investigator or Source,pdf,href formula,href,Case Number.1,Case Number.2,original order,Unnamed: 22,Unnamed: 23
11793,,,,,,,,,,,...,,,,,,,,,,
12719,,,,,,,,,,,...,,,,,,,,,,
14222,,,,,,,,,,,...,,,,,,,,,,
14036,,,,,,,,,,,...,,,,,,,,,,
15083,,,,,,,,,,,...,,,,,,,,,,
22872,,,,,,,,,,,...,,,,,,,,,,
24792,,,,,,,,,,,...,,,,,,,,,,
2865,1985.01.00.b,Jan-1985,1985.0,Unprovoked,NEW CALEDONIA,South Province,Amedee Island,Spearfishing,Jean Rene Mathelon,,...,Tiger shark,"W. Leander; Les Nouvelles Caledoniennes, 3/17/...",1985.01.00.b-Mathelon.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,1985.01.00.b,1985.01.00.b,3438.0,,
22952,,,,,,,,,,,...,,,,,,,,,,
8979,,,,,,,,,,,...,,,,,,,,,,


In [4]:
#eliminamos todas las columnas y filas que todos sus valores sean nulos
sharks.dropna(how="all", inplace=True)
sharks.dropna(how="all",axis = 1, inplace=True)

# Hipótesis
- hipotesis 1 los ataques de tiburones han icrmentado según han ido avanzando los años
- hipótesis 2 los ataquesde tiburones atacan más a embarcaciones que a nadadores
- [hipóstesis 3 Florida es la capital mundial de los ataques de tiburones](https://www.lavanguardia.com/ocio/viajes/20210407/6631447/6-playas-mas-peligrosas-mundo.html)
- [hipótesis 4 ¿Es posible el ataque de tiburón en la costa española?](https://www.mundo-geo.es/naturaleza/es-posible-ataque-tiburon-en-costa-espanola_238643_102.html)

In [5]:
#compruebo qué colmunas tienen datos interesantes para mis hipótesis y borro las que no me hacen ninguna falta.
sharks.columns

Index(['Case Number', 'Date', 'Year', 'Type', 'Country', 'Area', 'Location',
       'Activity', 'Name', 'Sex ', 'Age', 'Injury', 'Fatal (Y/N)', 'Time',
       'Species ', 'Investigator or Source', 'pdf', 'href formula', 'href',
       'Case Number.1', 'Case Number.2', 'original order', 'Unnamed: 22',
       'Unnamed: 23'],
      dtype='object')

In [6]:
columnas_no = ['Case Number','Investigator or Source','pdf', 'href formula',  'href',  'Case Number.1', 'Case Number.2', 'original order', 'Unnamed: 22', 'Unnamed: 23'] 
sharks.drop(columnas_no, axis=1, inplace=True)

In [7]:
sharks.columns

Index(['Date', 'Year', 'Type', 'Country', 'Area', 'Location', 'Activity',
       'Name', 'Sex ', 'Age', 'Injury', 'Fatal (Y/N)', 'Time', 'Species '],
      dtype='object')

In [8]:
#ahora que hemos borrado columnas vemos si quedan filas que son nan por completo y borrranos
sharks.dropna(how="all", inplace=True)

In [9]:
#cambio nombre de algunas columnas que tienen espacios o caracteres especiales en el nombre
#"Sex " "Species " "Fatal (Y/N)"
cols = ["Sex ","Species ","Fatal (Y/N)"]
new_names = {"Sex " : "Sex",
                 "Species " : "Species",
                 "Fatal (Y/N)" : "Fatal"}
sharks.rename(columns = new_names, inplace=True)
sharks.columns

Index(['Date', 'Year', 'Type', 'Country', 'Area', 'Location', 'Activity',
       'Name', 'Sex', 'Age', 'Injury', 'Fatal', 'Time', 'Species'],
      dtype='object')

In [10]:
#segundo repaso a datos para ver si borramos alguna columna más que no me de información necesaria para las hipótesis
sharks.sample(20)
sharks.drop(["Name"],axis=1, inplace=True)

### Limpieza de datos nulos

In [11]:
#miramos cuantos datos nulos hay en cda columna.
sharks.isna().sum()

Date           0
Year           2
Type           4
Country       50
Area         455
Location     540
Activity     544
Sex          565
Age         2831
Injury        28
Fatal        539
Time        3354
Species     2838
dtype: int64

#### rellenamos los nulos en función de los datos que contienen las columnas


In [12]:
sharks.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6302 entries, 0 to 6301
Data columns (total 13 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Date      6302 non-null   object 
 1   Year      6300 non-null   float64
 2   Type      6298 non-null   object 
 3   Country   6252 non-null   object 
 4   Area      5847 non-null   object 
 5   Location  5762 non-null   object 
 6   Activity  5758 non-null   object 
 7   Sex       5737 non-null   object 
 8   Age       3471 non-null   object 
 9   Injury    6274 non-null   object 
 10  Fatal     5763 non-null   object 
 11  Time      2948 non-null   object 
 12  Species   3464 non-null   object 
dtypes: float64(1), object(12)
memory usage: 689.3+ KB


In [13]:
#Year
sharks.Year.unique()
#rellenamos años vacíos con 0
sharks.Year.fillna(0.0,inplace= True)
#convertirmos tipo de dato (float) a int.
sharks.Year = sharks.Year.astype(dtype = "int64")

In [14]:
#type
sharks.Type.unique() #['Boating', 'Unprovoked', 'Invalid', 'Provoked', 'Questionable','Sea Disaster', nan, 'Boat', 'Boatomg']
sharks[sharks["Type"] == "Invalid"].sample(20)
#invalid NO nos sirve para los nulos porque es para ataques que no fueron de tiburón
#mirar a ver si podemos eliminar esas filas porque queremos estudiar solo los casos reales de tiburones.
#nos da mucha información si el ataque fue en embarcación o direcgtamente a "nadador"
sharks.Type.fillna("UNKNOWN",inplace= True)

In [15]:
#Country, Area y Location -> nans == UNKNOWN
sharks["Country"].fillna("UNKNOWN", inplace = True)
sharks["Area"].fillna("UNKNOWN", inplace = True)
sharks["Location"].fillna("UNKNOWN", inplace = True)

In [16]:
#activity
list(sharks.Activity.unique())
#unknown
#de esta columna podemos sacar datos sobre si el tiburón atacó a embarcación o persona.
sharks["Activity"].fillna("UNKNOWN", inplace = True)

In [17]:
#sex
sharks.Sex.unique()
#si el sexo de la víctima es desconocido lo rellenamos con "X"
#además queremos que se queden tres datos únicos -> M,F,X
sharks.Sex.fillna("X",inplace = True)
sharks.Sex = sharks.Sex.str.strip() #borramos espacios vacíos antes y después de cada cadena.
sharks.Sex.unique() #['F', 'M', 'X', 'lli', 'N', '.'] > lli, N y . == X
sharks["Sex"].replace('lli',"X",inplace=True)
sharks["Sex"].replace('.',"X",inplace=True)
sharks["Sex"].replace('N',"X",inplace=True)

In [18]:
#Age
sharks.Age.unique()
#rellenamos nans con "UNKNOWN" porque 0 puede confundir la media si luego necesitamos usarla.
sharks.Age.fillna("UNKNOWN",inplace= True)
#quitamos espacios antes y detrás de los strings
sharks.Age = sharks.Age.str.strip()
#convertirmos a número todas las cadenas que sean dígitos
sharks.Age = sharks.Age.apply(mf.entero_if)
#queda pendiente limpiar datos que son cadena y no enteros.
    #posiblidad = nueva columnas con rangos de edad y y poner datos como los strings que ya están.

In [19]:
#Injury > nan = UNKNOWN
sharks.Injury.unique()
sharks["Injury"].fillna("UNKNOWN", inplace = True)

In [20]:
#Fatal
sharks.Fatal.unique
#nulos = UNKNOWN
sharks["Fatal"].fillna("UNKNOWN", inplace = True)
sharks.Fatal = sharks.Fatal.str.strip()
sharks.Fatal.unique() #comprobar registros con FAtal == 'M', '2017', 'y'
sharks[(sharks["Fatal"] == 'M')|(sharks["Fatal"] == "2017")|(sharks["Fatal"] == "y")].Injury.unique
sharks["Fatal"].replace('M',"N",inplace=True)
sharks["Fatal"].replace('y',"Y",inplace=True)
sharks["Fatal"].replace('2017',"N",inplace=True)
sharks.Fatal.unique() #['N', 'Y', 'UNKNOWN']

array(['N', 'Y', 'UNKNOWN'], dtype=object)

In [21]:
#Time
sharks.Time.unique()
#nulos = UNKNOWN
sharks["Time"].fillna("UNKNOWN", inplace = True)
#puede que esta columna no la utlicemos para ningún análisis. No nos interesan los datos tan exactos de la hora del ataque.

In [22]:
#Species
list(sharks.Species.unique())
sharks["Species"].fillna("UNKNOWN", inplace = True)

In [23]:
sharks.isna().sum()

Date        0
Year        0
Type        0
Country     0
Area        0
Location    0
Activity    0
Sex         0
Age         0
Injury      0
Fatal       0
Time        0
Species     0
dtype: int64

#### precesamos el texto de las columnas

##### Date, Year.

In [24]:
sharks.Date.value_counts()
#de la columna Date extraemos solo las fechas
sharks["Year_D"] = sharks["Date"].str.extract(r'(\d{4})')
sharks["Month_D"] = sharks["Date"].str.extract(r'([A-Z][a-z][a-z]-\d{4})')
sharks["Month_D"] = sharks["Month_D"].str.extract(r'([A-Z][a-z][a-z])')
#volvemos a rellenar los nulos que quedan 
#sharks["Date"].fillna("UNKNOWN", inplace = True)

In [25]:
sharks.Year_D.unique() #los registros de esta columna parecen más concretos que la de Year
#rellenamos nans de esta columna y tanbién de la columna Month. elimnamos Year.
sharks.Year_D.fillna("UNKNOWN",inplace= True)
sharks.Month_D.fillna("UNKNOWN",inplace= True)
#convertimos los strings a enteros
sharks.Year_D = sharks.Year_D.apply(mf.entero_if)


In [26]:
# miramos los registros cuyo tipo es Invalid para ver si nos sirven o no... 
sharks[(sharks.Type == "Invalid")].sample(50)
# muchos de los registros confirman que no son ataques de tiburón, otros son ataques de tiburón muy dudosos. 
# nos deshacemos de los registros que tengan typo = "INVALID"

sharks = sharks[(sharks.Type != "Invalid")]


In [27]:
#como tenemos unos datos más coherentes con month_D y Year_D borramos Date y year
sharks.drop(["Date","Year"],axis=1, inplace=True)

##### Type

In [28]:
sharks.Type.unique()

array(['Boating', 'Unprovoked', 'Provoked', 'Questionable',
       'Sea Disaster', 'UNKNOWN', 'Boat', 'Boatomg'], dtype=object)

In [29]:
sharks[(sharks["Type"] == "Boating")|(sharks["Type"] == "Boatomg")|(sharks["Type"] == "Boat")].sample(50) #son el mismo tipo
#cambiamos todos a "Boat"
#(".*[Ss](hipwreck|HIPWRECK).*","shipwreck",regex = True)
sharks["Type"] = sharks["Type"].str.replace((".*[Bb](OAT|oat).*"),"Boat", regex=True)
sharks.Type.unique()

array(['Boat', 'Unprovoked', 'Provoked', 'Questionable', 'Sea Disaster',
       'UNKNOWN'], dtype=object)

In [59]:
#comprobamos si los datos que nos on Type == Boat se refieren todos a ataques de personas fuera de botes.
#utilizamos columnas type, activity e injury que son las que más datos nos dan...
sharks[["Type","Activity","Injury"]][(sharks.Type != "Boat")].sample(50)
#en injury aparecen datos que contienen "No injury to occupants" por lo que parece un ataque a embarcacion
#en activity apare "Fishing" y algunos parecen ataques a embarcaciones... 

Unnamed: 0,Type,Activity,Injury
2877,Unprovoked,Surfing (sitting on his board),"Abrasion on right foot, board bitten"
2820,Unprovoked,"Fishing, fell from rocks & disappeared",Pieces of clothing & human flesh recovered by ...
3594,Unprovoked,Body surfing,Lower legs bitten
846,Unprovoked,Free diving / spearfishing,Left foot bitten
5869,Unprovoked,Sponge diving,FATAL
5748,Sea Disaster,British ship Macedon was thrown on her beam en...,Foot severed
2880,Unprovoked,Swimming,Left foot lacerated
6128,Sea Disaster,UNKNOWN,No injury
6125,Sea Disaster,UNKNOWN,Shark scavenged on the dead sailors
1284,Unprovoked,Wading,Two 3-inch lacerations to right ankle


Hacemos que los datos sean más concretos en la columnas.

In [30]:
#creamos un sub dataframe con solo las colmunas que realmente necesitamos.
#sharky = sharks[["Date","Year","Type","Country","Area","Activity","Sex","Age","Fatal","Species"]]

In [31]:
#sharky.sample(20)

In [32]:
#comprobamos que los registros que tienen como unknown area, location y Country
#sharks[(sharks.Country == "UNKNOWN")|(sharks.Country == "UNKNOWN")|(sharks.Country == "UNKNOWN")].sample(20)

In [33]:
#