# Tratamiento de datos 🕵🏻

En este jupyter se encuentra todo el proceso de limpieza y selección, de los datos del dataset descargado de kaggle  "Shark attack".


*Consideraciones*

Para limpiar el dataframe original y obtener como resultado final "attacks_limpio" se han tenido en cuenta las siguientes consideraciones las cuales afectan a la selección de un mayor o menor número de datos seleccionados para realizar más tarde el pertinenten análisis e hipótesis.
- El estudio sólo recogerá los siguientes países: USA, Nueva Zelanda, Brasil, Indonesia, Sudáfrica y Irlanda.
- El estudio se hará para las actividades: surfing, fishing y swimming
- Para la realización de futuras operaciones numéricas, se ha tomado la mediana, para rellenar los datos faltantes (NaNs)

## Índice 📎

1. Importación de librerias y funciones
2. Importación del dataset
3. Exploración del dataset
4. Limpieza y procesamiento de datos
>- Date
>- Year
>- Country
>- Activity
>- Sex
>- Fatal
>- Time
5. Dataset definitivo
6. Bibliografía


## 1. Importación de librerias y funciones 📚

In [1]:
import pandas as pd
import numpy as np
import re

Otras funciones:

In [2]:
from iteration_utilities import duplicates
from iteration_utilities import unique_everseen
#import Funciones as fu

## 2. Importación del dataset 📖

In [3]:
data = pd.read_csv("./attacks.csv", encoding = "ISO-8859-1", dtype = str)
data.columns = data.columns.str.rstrip() #Elimina los espacios al final de cada título en las columnas

*A propósito de facilitar más tarde el tratamiento de datos he decido importar el dataset estableciendo desde un principio que todos los datos sean de tipo string*

In [4]:
data.head()

Unnamed: 0,Case Number,Date,Year,Type,Country,Area,Location,Activity,Name,Sex,...,Species,Investigator or Source,pdf,href formula,href,Case Number.1,Case Number.2,original order,Unnamed: 22,Unnamed: 23
0,2018.06.25,25-Jun-2018,2018,Boating,USA,California,"Oceanside, San Diego County",Paddling,Julie Wolfe,F,...,White shark,"R. Collier, GSAF",2018.06.25-Wolfe.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2018.06.25,2018.06.25,6303,,
1,2018.06.18,18-Jun-2018,2018,Unprovoked,USA,Georgia,"St. Simon Island, Glynn County",Standing,Adyson McNeely,F,...,,"K.McMurray, TrackingSharks.com",2018.06.18-McNeely.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2018.06.18,2018.06.18,6302,,
2,2018.06.09,09-Jun-2018,2018,Invalid,USA,Hawaii,"Habush, Oahu",Surfing,John Denges,M,...,,"K.McMurray, TrackingSharks.com",2018.06.09-Denges.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2018.06.09,2018.06.09,6301,,
3,2018.06.08,08-Jun-2018,2018,Unprovoked,AUSTRALIA,New South Wales,Arrawarra Headland,Surfing,male,M,...,2 m shark,"B. Myatt, GSAF",2018.06.08-Arrawarra.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2018.06.08,2018.06.08,6300,,
4,2018.06.04,04-Jun-2018,2018,Provoked,MEXICO,Colima,La Ticla,Free diving,Gustavo Ramos,M,...,"Tiger shark, 3m",A .Kipper,2018.06.04-Ramos.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2018.06.04,2018.06.04,6299,,


## 3. Exploración del dataset 🔎

El primer paso, será observar todas las columnas con el objetivo de identificar los datos necesarios para nuestra investigación.

In [5]:
data.columns

Index(['Case Number', 'Date', 'Year', 'Type', 'Country', 'Area', 'Location',
       'Activity', 'Name', 'Sex', 'Age', 'Injury', 'Fatal (Y/N)', 'Time',
       'Species', 'Investigator or Source', 'pdf', 'href formula', 'href',
       'Case Number.1', 'Case Number.2', 'original order', 'Unnamed: 22',
       'Unnamed: 23'],
      dtype='object')

Para ello, hay que tener en cuenta que puede haber columnas que no aportan nueva información, que se encuentre repetida o en la que existan NaNs. 

*Para ello se empleará la función: isnull*

In [6]:
def isnull(x):
    return x.isnull().sum().sort_values(ascending = False)

In [7]:
isnull(data)

Unnamed: 22               25722
Unnamed: 23               25721
Time                      22775
Species                   22259
Age                       22252
Sex                       19986
Activity                  19965
Location                  19961
Fatal (Y/N)               19960
Area                      19876
Name                      19631
Country                   19471
Injury                    19449
Investigator or Source    19438
Type                      19425
Year                      19423
href formula              19422
Date                      19421
pdf                       19421
href                      19421
Case Number.1             19421
Case Number.2             19421
original order            19414
Case Number               17021
dtype: int64

Como podemos observar existe un gran número de NaNs en ciertos casos como la edad, tiempo, o las especies es razonable ya que no es sencillo recabar toda la información, eliminar esas columnas podría hacer que perdieramos información importante de cara al estudio de otras variables. Sin embargo, encontramos ciertas columnas que son irrelevantes y cuyo contenido de NaNs es bastante elevado, como es el caso de Unnamed: 22 y Unnamed:23 donde casi el 99% de los datos en nulo. Por ello ambas columnas no se tendrán en cuenta en nuestro análisis.

In [8]:
#Comprobación de datos no nulos en Unnamed:22 y Unnamed:23.
#data[data["Unnamed: 22"]. notnull()]
##data[data["Unnamed: 23"]. notnull()]

Asisimo, también se excluirán las columnas "href", "href formula", "pdf". Esta última nos muestra lo que aparenta ser el nombre de un archivo con el día y nombre de la víctima (información que ya se encuentra en "Year" y "Name"), mientras que las dos primeras son enlaces o referencias a páginas web en muchos casos repetidas.

In [9]:
#comprobación de datos duplicados en "href" y "href formula"
#data[data["href formula"] != data["href"]].count()

En la misma línea se encuentran  "Case Number.1" y "Case Number.2" que ofrecen datos repetidos y que podemos encontrar en "Case Number" y "Year".

In [10]:
#comprobación de datos duplicados entre "Case Number 1" y "Case Number 2" y "Case Number"
#data[data["Case Number.1"] == data["Case Number.2"]].count()
#data[data["Case Number.1"] == data["Case Number"]].count()
#data[data["Case Number.2"] == data["Case Number"]].count()

Debido a que nuestro estudio es un análisis inicial y por ello global (su finalidad es tener una primera idea y explorar el mercado más óptimo) no se tomaran en cuenta los datos en materia a "Injury", "Species","Investigator or Source", "Area", "Type", "Location" y "Name".

El segundo paso, será eliminar las columnas comentadas anteriormente. (Para ello se creará un segundo database demonidado data2).

In [11]:
data2 = data.drop(["Unnamed: 22", "Unnamed: 23", "href", "href formula", "pdf", "Case Number.1", "Case Number.2", "Injury", "Investigator or Source", "Area", "Type", "Location", "Name","Species"], axis = 1)
data2

Unnamed: 0,Case Number,Date,Year,Country,Activity,Sex,Age,Fatal (Y/N),Time,original order
0,2018.06.25,25-Jun-2018,2018,USA,Paddling,F,57,N,18h00,6303
1,2018.06.18,18-Jun-2018,2018,USA,Standing,F,11,N,14h00 -15h00,6302
2,2018.06.09,09-Jun-2018,2018,USA,Surfing,M,48,N,07h45,6301
3,2018.06.08,08-Jun-2018,2018,AUSTRALIA,Surfing,M,,N,,6300
4,2018.06.04,04-Jun-2018,2018,MEXICO,Free diving,M,,N,,6299
...,...,...,...,...,...,...,...,...,...,...
25718,,,,,,,,,,
25719,,,,,,,,,,
25720,,,,,,,,,,
25721,,,,,,,,,,


A continuación vamos a fijar un ID, en este caso podríamos utilizar "original order" o "Case Number", para escoger entre uno comprobaremos si son datos únicos o por el contrario toman datos repetidos.

*Para ello se empleará la función: comprobacion_duplicados*

In [12]:
def comprobacion_duplicados (x):
    repetidos = list(unique_everseen(duplicates(x)))
    return len(repetidos)

In [13]:
ID1 = data2["Case Number"]
print (f"En Case Number hay {comprobacion_duplicados(ID1)} datos repetidos")

En Case Number hay 18 datos repetidos


In [14]:
ID2 = data2["original order"]
print (f"En Case Number hay {comprobacion_duplicados(ID2)} datos repetidos")

En Case Number hay 2 datos repetidos


Al existir datos repetidos no sirven como identificadores únicos por lo que procederemos a eliminarlos del data2. Estableciendo como ID el índice por defecto de python. 

In [15]:
data3 = data2.drop(["original order", "Case Number"], axis = 1)
data3

Unnamed: 0,Date,Year,Country,Activity,Sex,Age,Fatal (Y/N),Time
0,25-Jun-2018,2018,USA,Paddling,F,57,N,18h00
1,18-Jun-2018,2018,USA,Standing,F,11,N,14h00 -15h00
2,09-Jun-2018,2018,USA,Surfing,M,48,N,07h45
3,08-Jun-2018,2018,AUSTRALIA,Surfing,M,,N,
4,04-Jun-2018,2018,MEXICO,Free diving,M,,N,
...,...,...,...,...,...,...,...,...
25718,,,,,,,,
25719,,,,,,,,
25720,,,,,,,,
25721,,,,,,,,


En conclusión, data3 será el dataset sobre el que procederemos a realizar la limpieza y procesamiento de datos. 

## 4. Limpieza y procesamiento de datos 🧹

Primero, comprobaremos el número de NaNs que tenemos en cada columna.

*Para ello se empleará la función: isnull*

In [16]:
isnull(data3)

Time           22775
Age            22252
Sex            19986
Activity       19965
Fatal (Y/N)    19960
Country        19471
Year           19423
Date           19421
dtype: int64

A continuación eliminamos las columnas en cuyas filas se cumpla que todos los datos sean NaN.

In [17]:
data4 = data3.dropna(axis = 0 , how = "all")
data4

Unnamed: 0,Date,Year,Country,Activity,Sex,Age,Fatal (Y/N),Time
0,25-Jun-2018,2018,USA,Paddling,F,57,N,18h00
1,18-Jun-2018,2018,USA,Standing,F,11,N,14h00 -15h00
2,09-Jun-2018,2018,USA,Surfing,M,48,N,07h45
3,08-Jun-2018,2018,AUSTRALIA,Surfing,M,,N,
4,04-Jun-2018,2018,MEXICO,Free diving,M,,N,
...,...,...,...,...,...,...,...,...
6297,Before 1903,0000,AUSTRALIA,Diving,M,,Y,
6298,Before 1903,0000,AUSTRALIA,Pearl diving,M,,Y,
6299,1900-1905,0000,USA,Swimming,M,,Y,
6300,1883-1889,0000,PANAMA,,M,,Y,


Volvemos a comprobar el número de NaNs.

*Para ello se empleará la función: isnull*

In [18]:
isnull(data4)

Time           3354
Age            2831
Sex             565
Activity        544
Fatal (Y/N)     539
Country          50
Year              2
Date              0
dtype: int64

Una vez eliminado algunos NaNs del dataset global es hora de tratar cada dato (columna) por separado, para rellenar y procesar los datos restantes (NaNs) que aún encontramos. 

### 4.1 Date 📆

La "Date" nos muestra por lo general el día, mes y año. Debido a que el año ya lo vamos a estudiar en la siguiente variable, y el día exacto no resulta relevante y en muchos de los casos no se específica, seleccionaremos y tomaremos unicamente el valor de los meses.

In [19]:
data4.Date.value_counts()

1957           11
1942            9
1956            8
1950            7
1958            7
               ..
18-May-1968     1
08-Jul-1964     1
06-Nov-1892     1
27-Jun-1954     1
Ca. 1899        1
Name: Date, Length: 5433, dtype: int64

Como podemos observar los meses tienen la tendencia a ser escritos con tres palabras, con el objetivo de extraer solo el mes de la fecha estableceremos un patrón regex definiendo dicha tendencia.

In [21]:
date_patron = r"(\b[a-zA-Z]{3}\b)"
data4.Date = data4.Date.str.extract(date_patron,expand = False)
#data4.Date = data4.Date.astype(str)

In [22]:
data4.Date.unique()

array(['Jun', 'May', 'Apr', 'Mar', 'Feb', 'Jan', 'Dec', 'Nov', 'Oct',
       'Sep', 'Aug', 'Jul', nan, 'Mid', 'and', 'day', 'War', 'the', 'mid',
       'Day', 'few'], dtype=object)

Una vez obtenido obtenido los meses, procedemos a limpiar las strings que a pesar de cumplir con el patrón su valor no corresponde con un mes y a sustituir los NaNs por "UNKNOWN"

In [23]:
data4.Date = data4.Date.replace(["Day","and","day","war","the","mid","few",None],"UNKNOWN")
#data4.Date.unique()
data4

Unnamed: 0,Date,Year,Country,Activity,Sex,Age,Fatal (Y/N),Time
0,Jun,2018,USA,Paddling,F,57,N,18h00
1,Jun,2018,USA,Standing,F,11,N,14h00 -15h00
2,Jun,2018,USA,Surfing,M,48,N,07h45
3,Jun,2018,AUSTRALIA,Surfing,M,,N,
4,Jun,2018,MEXICO,Free diving,M,,N,
...,...,...,...,...,...,...,...,...
6297,UNKNOWN,0000,AUSTRALIA,Diving,M,,Y,
6298,UNKNOWN,0000,AUSTRALIA,Pearl diving,M,,Y,
6299,UNKNOWN,0000,USA,Swimming,M,,Y,
6300,UNKNOWN,0000,PANAMA,,M,,Y,


### 4.2 Year 🗓️

Imprimimos los valores únicos de los años y sustituimos aquellos valores que resulten incompletos o no son claros por "UNKNOWN".

In [24]:
data4.Year.unique()

array(['2018', '2017', nan, '2016', '2015', '2015.00', '2014', '2013',
       '2012', '2011', '2010', '2009', '2008', '2007', '2006', '2005',
       '2004', '2003', '2002', '2001', '2000', '1999', '1998', '1997',
       '1996', '1995', '1984', '1994', '1993', '1992', '1991', '1990',
       '1989', '1969', '1988', '1987', '1986', '1985', '1983', '1982',
       '1981', '1980', '1979', '1978', '1977', '1976', '1975', '1974',
       '1973', '1972', '1971', '1970', '1968', '1967', '1966', '1965',
       '1964', '1963', '1962', '1961', '1960', '1959', '1958', '1957',
       '1956', '1955', '1954', '1953', '1952', '1951', '1950', '1949',
       '1948', '1848', '1947', '1946', '1945', '1944', '1943', '1942',
       '1941', '1940', '1939', '1938', '1937', '1936', '1935', '1934',
       '1933', '1932', '1931', '1930', '1929', '1928', '1927', '1926',
       '1925', '1924', '1923', '1922', '1921', '1920', '1919', '1918',
       '1917', '1916', '1915', '1914', '1913', '1912', '1911', '1910',
      

In [26]:
data4.Year = data4.Year.replace("2015.00","2015")
data4.Year = data4.Year.replace(["0000","0005","0077","0500", None],"UNKNOWN")
#data4.Year.unique()

In [27]:
data4

Unnamed: 0,Date,Year,Country,Activity,Sex,Age,Fatal (Y/N),Time
0,Jun,2018,USA,Paddling,F,57,N,18h00
1,Jun,2018,USA,Standing,F,11,N,14h00 -15h00
2,Jun,2018,USA,Surfing,M,48,N,07h45
3,Jun,2018,AUSTRALIA,Surfing,M,,N,
4,Jun,2018,MEXICO,Free diving,M,,N,
...,...,...,...,...,...,...,...,...
6297,UNKNOWN,UNKNOWN,AUSTRALIA,Diving,M,,Y,
6298,UNKNOWN,UNKNOWN,AUSTRALIA,Pearl diving,M,,Y,
6299,UNKNOWN,UNKNOWN,USA,Swimming,M,,Y,
6300,UNKNOWN,UNKNOWN,PANAMA,,M,,Y,


### 4.3  Country 🌏

Imprimimos los valores únicos de los paises, para comprobar e identificar la información que nos es más significante:

In [28]:
data4.Country.value_counts()

USA                       2229
AUSTRALIA                 1338
SOUTH AFRICA               579
PAPUA NEW GUINEA           134
NEW ZEALAND                128
                          ... 
RED SEA?                     1
GRAND CAYMAN                 1
RED SEA / INDIAN OCEAN       1
TUVALU                       1
NORTH ATLANTIC OCEAN         1
Name: Country, Length: 212, dtype: int64

Observamos que se analizan muchos países diferentes, sin embargo debido a que nuestro estudio se centra en aquellos países famosos por practicarse deportes acuáticos, descartaremos el resto. Según la literatura estudiada dichos países son: USA, Nueva Zelanda, Brasil, Indonesia, Sudáfrica y Irlanda. 

In [29]:
#Selección de países
USA = data4[(data4["Country"] == "USA")]
NUEVA_ZELANDA = data4[(data4["Country"] == "NEW ZEALAND")]
BRASIL = data4[(data4["Country"] == "BRASIL")]
INDONESIA = data4[(data4["Country"] == "INDONESIA")]
SOUTH_AFRICA = data4[(data4["Country"] == "SOUTH AFRICA")]
IRELAND = data4[(data4["Country"] == "IRELAND")]

data4 = pd.concat([USA, NUEVA_ZELANDA, BRASIL, INDONESIA, SOUTH_AFRICA, IRELAND])
#data4.Country.unique()
data4

Unnamed: 0,Date,Year,Country,Activity,Sex,Age,Fatal (Y/N),Time
0,Jun,2018,USA,Paddling,F,57,N,18h00
1,Jun,2018,USA,Standing,F,11,N,14h00 -15h00
2,Jun,2018,USA,Surfing,M,48,N,07h45
7,May,2018,USA,Fishing,M,52,N,
8,May,2018,USA,Walking,M,15,N,17h00
...,...,...,...,...,...,...,...,...
6285,UNKNOWN,UNKNOWN,SOUTH AFRICA,Crew swimming alongside their anchored ship,M,,Y,
6286,UNKNOWN,UNKNOWN,SOUTH AFRICA,4 men were bathing,M,,Y,
6289,Jul,UNKNOWN,SOUTH AFRICA,Fishing,M,,Y,
6290,Jul,UNKNOWN,SOUTH AFRICA,Wading,M,,Y,


### 4.4  Activity 🏄🏻‍♀️

Imprimimos los valores de las actividades, para comprobar el tipo de información al que nos enfrentamos.

In [30]:
data4.Activity.value_counts()

Surfing                                                                                      679
Swimming                                                                                     417
Fishing                                                                                      170
Wading                                                                                       111
Spearfishing                                                                                 111
                                                                                            ... 
Skin diving                                                                                    1
Overcome by CO fumes, fell overboard from 36' fishing cruiser & prop slashed arm               1
Yacht Gooney Bird foundered, 4 survivors on raft                                               1
Captured Allied soldiers were squeezed into 3' bamboo pig baskets & fed to waiting sharks      1
Scuba diving                  

Observamos que encontramos valores diferentes, puesto que para nuestro análisis solo nos interesan aquellos relacionados con actividades de pesca, surf y natación/baño eliminaremos el resto de columnas. 

Utilizaremos la función reguex para ello, en la que estableceremos un patrón que filtre las mencionadas actividades. Para establecer el patrón se tomaran en cuenta las actividades cuya sintaxis sea o contenga las siguientes palabras: swim, swimming, bat, surf, surfing, fish, fishing. Ya que en los datos recogidos no hay un patrón claro; en ciertos casos se especifica o narra la actividad vease "Adrift on raft after their ship was sunk by an Axis raider".

In [31]:
#Remplazo de las palabras
#data4.Activity = data4.Activity.replace (r".\b[a-zA-Z]+urf\b", "Surfing", inplace = True)
#data4.Activity = data4.Activity.replace (r".\b[a-zA-Z]+fish\b", "Fishing", inplace = True)
#data4.Activity = data4.Activity.replace (r".\b[a-zA-Z]+wad\b", "Fishing", inplace = True)
#data4.Activity = data4.Activity.replace (r".\b[a-zA-Z]+wim\b", "Swimming", inplace = True)
#data4.Activity.value_counts()

In [32]:
#Selección de las actividades
surf = data4[(data4["Activity"] == "Surfing")]
fishing = data4[(data4["Activity"] == "Fishing")]
swimming = data4[(data4["Activity"] == "Swimming")]

data4 = pd.concat([surf,fishing,swimming])
#data4.Activity.unique()
data4

Unnamed: 0,Date,Year,Country,Activity,Sex,Age,Fatal (Y/N),Time
2,Jun,2018,USA,Surfing,M,48,N,07h45
53,Dec,2017,USA,Surfing,F,54,N,18h00
54,Dec,2017,USA,Surfing,F,35,N,12h00
61,Nov,2017,USA,Surfing,F,14,N,Late afternoon
74,Oct,2017,USA,Surfing,M,54,N,18h30
...,...,...,...,...,...,...,...,...
5563,UNKNOWN,1900,SOUTH AFRICA,Swimming,M,,N,Early morning
5747,Jan,1887,SOUTH AFRICA,Swimming,M,13,Y,12h00
5762,Jan,1886,SOUTH AFRICA,Swimming,M,,Y,
5778,Jan,1884,SOUTH AFRICA,Swimming,M,,Y,


### 4.5  Sex 👫🏻

En referencia a la variable Sex solo debería de contener tres variables: Male, Female y Unknown. Primero comprobaremos los datos unicos de la variable a fin de quedarnos unicamente con dichas variables.

In [33]:
data4.Sex.unique()

array(['M', 'F', nan, 'lli', 'M '], dtype=object)

In [34]:
data4.Sex = data4.Sex.replace("M ", "M")
data4.Sex = data4.Sex.replace("lli", "UNKNOWN")
data4["Sex"] = data4["Sex"].fillna("UNKNOWN")
#data4.Sex.unique()
data4

Unnamed: 0,Date,Year,Country,Activity,Sex,Age,Fatal (Y/N),Time
2,Jun,2018,USA,Surfing,M,48,N,07h45
53,Dec,2017,USA,Surfing,F,54,N,18h00
54,Dec,2017,USA,Surfing,F,35,N,12h00
61,Nov,2017,USA,Surfing,F,14,N,Late afternoon
74,Oct,2017,USA,Surfing,M,54,N,18h30
...,...,...,...,...,...,...,...,...
5563,UNKNOWN,1900,SOUTH AFRICA,Swimming,M,,N,Early morning
5747,Jan,1887,SOUTH AFRICA,Swimming,M,13,Y,12h00
5762,Jan,1886,SOUTH AFRICA,Swimming,M,,Y,
5778,Jan,1884,SOUTH AFRICA,Swimming,M,,Y,


### 4.6  Age 👶🏻

Imprimimos los valores únicos de "Age" para ver con que datos me interesa contar

In [35]:
data4.Age.unique()

array(['48', '54', '35', '14', nan, '33', '28', '18', '17', '19', '58',
       '16', '41', '42', '36', '29', '21', '43', '25', '37', '22', '9',
       '11', '27', '15', '32', '20', '38', '50', '44', '34', '50s', '12',
       '23', 'teen', '30', '45', '13', '10', '60', '39', '24', '52',
       '30s', '26', '61', '53', '46', '55', '68', '49', '31', '40',
       'Teen', '51', '47', '57', '6', ' 28', 'young', '59', '\xa0 ',
       'adult', ' 43', '?    &   14', '70', '8', '64', '7', '66',
       '12 or 13', '20s', '8 or 10', '73', '69', "60's", 'Elderly', '75',
       '10 or 12', '77', '>50'], dtype=object)

Como podemos observar hay multitud de datos diferentes: númericos, strings que no especifican la edad exacta, vease "young"; rangos, vease  "33&37"... etc. Debido a que no queremos incluir esos datos puesto que resultan poco fiables o inexactos, procederemos a utlizar la funcion regex para tomar exclusivamente los númericos. Aquellos que sean NaNs se procederá a sustituir dicho número por la mediana. 

In [36]:
age_patron = r"([0-9]+)" #Patron regex
data4.Age = data4.Age.str.extract(age_patron,expand = False).fillna("0")
data4.Age.unique()

array(['48', '54', '35', '14', '0', '33', '28', '18', '17', '19', '58',
       '16', '41', '42', '36', '29', '21', '43', '25', '37', '22', '9',
       '11', '27', '15', '32', '20', '38', '50', '44', '34', '12', '23',
       '30', '45', '13', '10', '60', '39', '24', '52', '26', '61', '53',
       '46', '55', '68', '49', '31', '40', '51', '47', '57', '6', '59',
       '70', '8', '64', '7', '66', '73', '69', '75', '77'], dtype=object)

Para poder realizar operaciones númericas se procederá a crear una segunda columna denominada "Age2" en ella los valores de los números NaN seran sustituidos por la mediana.

In [37]:
median = data4.Age.median()
print(median)

17.0


In [43]:
data4["Age2"] = data4.Age.str.extract(age_patron,expand = False)

In [45]:
data4["Age2"].fillna("17")

2       48
53      54
54      35
61      14
74      54
        ..
5563     0
5747    13
5762     0
5778     0
6213     0
Name: Age2, Length: 1266, dtype: object

In [46]:
data4

Unnamed: 0,Date,Year,Country,Activity,Sex,Age,Fatal (Y/N),Time,Age2
2,Jun,2018,USA,Surfing,M,48,N,07h45,48
53,Dec,2017,USA,Surfing,F,54,N,18h00,54
54,Dec,2017,USA,Surfing,F,35,N,12h00,35
61,Nov,2017,USA,Surfing,F,14,N,Late afternoon,14
74,Oct,2017,USA,Surfing,M,54,N,18h30,54
...,...,...,...,...,...,...,...,...,...
5563,UNKNOWN,1900,SOUTH AFRICA,Swimming,M,0,N,Early morning,0
5747,Jan,1887,SOUTH AFRICA,Swimming,M,13,Y,12h00,13
5762,Jan,1886,SOUTH AFRICA,Swimming,M,0,Y,,0
5778,Jan,1884,SOUTH AFRICA,Swimming,M,0,Y,,0


### 4.7 Fatal (Y/N) ☠️

En referencia a la variable "Fatal (Y/N)" solo debería de contener tres variables: Y (Yes), N (No) y Unknown. Primero comprobaremos los datos unicos de la variable a fin de quedarnos unicamente con dichas variables.

In [47]:
data4["Fatal (Y/N)"].unique()

array(['N', nan, 'Y', 'UNKNOWN'], dtype=object)

Contiene 4 variables de las cuales 3 son las que necesitamos y la restante son NaNs. 
Por ello, el siguiente paso será sustituir los NaNs por "UNKNOWN"

In [48]:
data4["Fatal (Y/N)"].fillna("UNKNOWN",inplace = True)
data4["Fatal (Y/N)"].unique()

array(['N', 'UNKNOWN', 'Y'], dtype=object)

In [49]:
data4

Unnamed: 0,Date,Year,Country,Activity,Sex,Age,Fatal (Y/N),Time,Age2
2,Jun,2018,USA,Surfing,M,48,N,07h45,48
53,Dec,2017,USA,Surfing,F,54,N,18h00,54
54,Dec,2017,USA,Surfing,F,35,N,12h00,35
61,Nov,2017,USA,Surfing,F,14,N,Late afternoon,14
74,Oct,2017,USA,Surfing,M,54,N,18h30,54
...,...,...,...,...,...,...,...,...,...
5563,UNKNOWN,1900,SOUTH AFRICA,Swimming,M,0,N,Early morning,0
5747,Jan,1887,SOUTH AFRICA,Swimming,M,13,Y,12h00,13
5762,Jan,1886,SOUTH AFRICA,Swimming,M,0,Y,,0
5778,Jan,1884,SOUTH AFRICA,Swimming,M,0,Y,,0


### 4.8 Time 🕔

La Time nos muestra por lo general cuatro números separados en medio por una letra (h, que indica la hora). A fin de optimizar la database seleccionaremos y tomaremos unicamente el valor de las horas.

In [50]:
data4.Time.value_counts()

Afternoon      46
11h00          34
14h00          32
16h30          31
15h00          29
               ..
14h35           1
12h35           1
17h46           1
Mid morning     1
X               1
Name: Time, Length: 188, dtype: int64

In [51]:
time_patron = r"(^\d{2})"
data4.Time = data4.Time.str.extract(time_patron,expand = False)
data4.Time.unique()

array(['07', '18', '12', nan, '15', '14', '16', '10', '11', '09', '13',
       '17', '06', '19', '08', '20', '23', '02', '21', '00', '05'],
      dtype=object)

Una vez obtenido obtenido las horas, procedemos a sustituir los NaNs por "UNKNOWN"

In [52]:
data4.Time.fillna("UNKNOWN", inplace = True)
data4

Unnamed: 0,Date,Year,Country,Activity,Sex,Age,Fatal (Y/N),Time,Age2
2,Jun,2018,USA,Surfing,M,48,N,07,48
53,Dec,2017,USA,Surfing,F,54,N,18,54
54,Dec,2017,USA,Surfing,F,35,N,12,35
61,Nov,2017,USA,Surfing,F,14,N,UNKNOWN,14
74,Oct,2017,USA,Surfing,M,54,N,18,54
...,...,...,...,...,...,...,...,...,...
5563,UNKNOWN,1900,SOUTH AFRICA,Swimming,M,0,N,UNKNOWN,0
5747,Jan,1887,SOUTH AFRICA,Swimming,M,13,Y,12,13
5762,Jan,1886,SOUTH AFRICA,Swimming,M,0,Y,UNKNOWN,0
5778,Jan,1884,SOUTH AFRICA,Swimming,M,0,Y,UNKNOWN,0


## 5. Dataset definitivo ⭐

Tras haber realizado la limpieza y procesamiento de cada calumna rellenando los datos faltantes y eliminado aquellos que no aportaban información o no resultaba necesaria para la investigación, comprobaremos si siguen existiendo datos incompletos o sin rellenar.

*Para ello emplearemos la función isnull()*

In [53]:
isnull(data4)

Date           0
Year           0
Country        0
Activity       0
Sex            0
Age            0
Fatal (Y/N)    0
Time           0
Age2           0
dtype: int64

Como se puede observar ya tenemos la database definitiva para poder trabajar las hipótesis y conclusiones. Sin embargo, antes de proceder a ello estructuraremos y organizaremos el contenido del dataframe.

In [54]:
attacks_limpio = data4
attacks_limpio

Unnamed: 0,Date,Year,Country,Activity,Sex,Age,Fatal (Y/N),Time,Age2
2,Jun,2018,USA,Surfing,M,48,N,07,48
53,Dec,2017,USA,Surfing,F,54,N,18,54
54,Dec,2017,USA,Surfing,F,35,N,12,35
61,Nov,2017,USA,Surfing,F,14,N,UNKNOWN,14
74,Oct,2017,USA,Surfing,M,54,N,18,54
...,...,...,...,...,...,...,...,...,...
5563,UNKNOWN,1900,SOUTH AFRICA,Swimming,M,0,N,UNKNOWN,0
5747,Jan,1887,SOUTH AFRICA,Swimming,M,13,Y,12,13
5762,Jan,1886,SOUTH AFRICA,Swimming,M,0,Y,UNKNOWN,0
5778,Jan,1884,SOUTH AFRICA,Swimming,M,0,Y,UNKNOWN,0


In [55]:
attacks_limpio.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1266 entries, 2 to 6213
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Date         1266 non-null   object
 1   Year         1266 non-null   object
 2   Country      1266 non-null   object
 3   Activity     1266 non-null   object
 4   Sex          1266 non-null   object
 5   Age          1266 non-null   object
 6   Fatal (Y/N)  1266 non-null   object
 7   Time         1266 non-null   object
 8   Age2         1266 non-null   object
dtypes: object(9)
memory usage: 98.9+ KB


Finalmente reestructuraramos el índice:

In [56]:
attacks_limpio = attacks_limpio.reset_index()
attacks_limpio

Unnamed: 0,index,Date,Year,Country,Activity,Sex,Age,Fatal (Y/N),Time,Age2
0,2,Jun,2018,USA,Surfing,M,48,N,07,48
1,53,Dec,2017,USA,Surfing,F,54,N,18,54
2,54,Dec,2017,USA,Surfing,F,35,N,12,35
3,61,Nov,2017,USA,Surfing,F,14,N,UNKNOWN,14
4,74,Oct,2017,USA,Surfing,M,54,N,18,54
...,...,...,...,...,...,...,...,...,...,...
1261,5563,UNKNOWN,1900,SOUTH AFRICA,Swimming,M,0,N,UNKNOWN,0
1262,5747,Jan,1887,SOUTH AFRICA,Swimming,M,13,Y,12,13
1263,5762,Jan,1886,SOUTH AFRICA,Swimming,M,0,Y,UNKNOWN,0
1264,5778,Jan,1884,SOUTH AFRICA,Swimming,M,0,Y,UNKNOWN,0


In [58]:
attacks_limpio.to_csv("./attacks_limpio.csv") #Exportación del DataFrame

## 6. Bibliografía 📁

- __[TOP países para practicar surf](https://www.skyscanner.es/noticias/10-mejores-lugares-del-mundo-para-hacer-surf-na)__
- __[Biblioteca iteration_utilities](https://pypi.org/project/iteration-utilities/)__
- __[Biblioteca iteration_utilities](https://stackoverflow.com/questions/9835762/how-do-i-find-the-duplicates-in-a-list-and-create-another-list-with-them)__
- __[Regex](https://regex101.com">Regex)__
- __[Función extract](https://www.geeksforgeeks.org/python-pandas-series-str-extract/)__
- __[Top países para practicar surf](https://www.skyscanner.es/noticias/10-mejores-lugares-del-mundo-para-hacer-surf-na)__