In [124]:
import pandas as pd
import sidetable
import regex as re

In [125]:
df = pd.read_csv("datos/attacks_pandas8.csv", index_col = 0)

HIPOTESIS 

- ¿Es Australia es el sitio más peligroso y letal para estar relajada en la playa?
- ¿Cuál es el rango de edad que sufre la mayoría de los ataques?
- Independientemente de la edad, sufren los hombres más ataques que las mujeres?
- ¿En qué mes ocurren más ataques?
- ¿Cuál es la relación entre la especie y el tipo de ataque (si es fatal o no)?
- ¿Cómo han evolucionado los ataques a lo largo del tiempo?

En este ejercicio nos queda por limpiar las columnas de age y species. Trabajaremos con el archivo generado en limpieza 1

In [126]:
df.sample()

Unnamed: 0,case_number,year,country,area,location,sex_,age,species_,siglo,injury,date,mes,fatal_(y/n)_limpio,sex,country_
1661,ND.0011,0.0,asia?,,,M,,,,,,,,N,asia?


1 Columna de species: si exploramos esta columna en detalle nos podemos dar cuenta que tenemos muchos valores únicos y esto hace que sea muy difícil trabajar con esta columna. Lo que vamos a hacer es clasificar los tiburones en 5 especies diferentes, las más comunes, que incluyen el tiburón blanco (White), el tiburón tigre (Tiger ), el tiburón gris (Grey), el tiburón limón (Lemon) y el tiburón toro (Bull). El resto de las especies las incluiremos en un único grupo que podremos llamar "Unspecified".
- Los valores de las columnas son strings por lo que podremos usar regex para buscar palabras clave en cada celda y asignarlo a una de las categorías que hemos definido previamente.
- Tendremos que crearnos una función que aplicaremos sobre nuestra columna species para que nos devuelva una nueva columna con los valores clasificados en función de los patrones de regex que hayamos definido.

In [127]:
patron_blanco = r".*[Ww](hite|HITE).*"
patron_tigre = r".*[Tt](iger|IGER).*"
patron_gris = r".*[Gg](rey|REY).*"
patron_limon = r".*[Ll](emon|EMON).*"
patron_toro = r".*[Bb](ull|ULL).*"

lista_patrones = [r".*[Bb](ull|ULL).*", r".*[Ll](emon|EMON).*", r".*[Gg](rey|REY).*", r".*[Tt](iger|IGER).*", r".*[Ww](hite|HITE).*"]

In [128]:
def clasificar(df):
    df.replace(to_replace=patron_blanco, value="White Shark", inplace=True , regex=True)
    df.replace(to_replace=patron_tigre, value="Tiger Shark", inplace=True , regex=True)
    df.replace(to_replace=patron_gris, value="Grey Shark", inplace=True , regex=True)
    df.replace(to_replace=patron_limon, value="Lemon Shark", inplace=True , regex=True)
    df.replace(to_replace=patron_toro, value="Bull Shark", inplace=True , regex=True)
    if df not in lista_patrones:
        return "Unspecified"

In [129]:
df["species_"]= df["species_"].apply(clasificar)

TypeError: str.replace() takes no keyword arguments

In [None]:
df.head(2)

Unnamed: 0,case_number,year,country,area,location,sex_,age,species_,siglo,injury,date,mes,fatal_(y/n)_limpio,sex,country_
0,2018.06.25,2018.0,usa,California,"Oceanside, San Diego County",F,57,White shark,siglo XXI,"No injury to occupant, outrigger canoe and pad...",25-Jun-2018,['Jun'],N,Y,usa
1,2018.06.03.a,2018.0,brazil,Pernambuco,"Piedade Beach, Recife",M,18,Tiger shark,siglo XXI,FATAL,03-Jun-2018,['Jun'],Y,Y,brazil


In [None]:
def unspecified(col):
    if col != "White Shark" and col != "Tiger Shark" and col != "Lemon Shark" and col != "Grey Shark" and col != "Bull Shark":
        return "Unspecified"

In [None]:
df["species_"] = (df["species_"].apply(unspecified))

In [None]:
df.head(2)

Unnamed: 0,case_number,year,country,area,location,sex_,age,species_,siglo,injury,date,mes,fatal_(y/n)_limpio,sex,country_
0,2018.06.25,2018.0,usa,California,"Oceanside, San Diego County",F,57,Unspecified,siglo XXI,"No injury to occupant, outrigger canoe and pad...",25-Jun-2018,['Jun'],N,Y,usa
1,2018.06.03.a,2018.0,brazil,Pernambuco,"Piedade Beach, Recife",M,18,Unspecified,siglo XXI,FATAL,03-Jun-2018,['Jun'],Y,Y,brazil


Columna de age: es una columna de tipo string pero debería ser de tipo integer. Además, en esta columna nos vamos a encontrar con algunos errores tipográficos, estos incluyen:
- Edad en formato string
- Edades separadas por &, or, to, >
- Edades con ?

- Primero tendremos que eliminar todos esos símbolos especiales que nos aparecen.
- Una vez que hayáis extraido los números, os daréis cuenta que hay celdas que tienen más de una edad. Tendréis que decidir que hacer en esos casos. Os dejamos por aquí una posible opción usando un método de Pandas que os puede resultar super útil. El método explode, aqui.
- Por último cambiad el tipo de la columna de string a integer.


In [130]:
df["age"] = df["age"].str.replace("&", "")

3 Guarda el csv con las columnas limpias para seguir trabajando con este dataframe limpio.

In [131]:
df

Unnamed: 0,case_number,year,country,area,location,sex_,age,species_,siglo,injury,date,mes,fatal_(y/n)_limpio,sex,country_
0,2018.06.25,2018.0,usa,California,"Oceanside, San Diego County",F,57,White shark,siglo XXI,"No injury to occupant, outrigger canoe and pad...",25-Jun-2018,['Jun'],N,Y,usa
1,2018.06.03.a,2018.0,brazil,Pernambuco,"Piedade Beach, Recife",M,18,Tiger shark,siglo XXI,FATAL,03-Jun-2018,['Jun'],Y,Y,brazil
2,2018.05.26.b,2018.0,usa,Florida,"Cocoa Beach, Brevard County",M,15,"Bull shark, 6'",siglo XXI,Lower left leg bitten,26-May-2018,['May'],N,N,usa
3,2018.05.24,2018.0,australia,Queensland,Cairns Aquarium,M,32,Grey reef shark,siglo XXI,Minor bite to hand by captive shark. PROVOKED ...,24-May-2018,['May'],N,N,australia
4,2018.05.13.a,2018.0,england,Cornwall,Off Land's End,M,21,Invalid incident,siglo XXI,Injured by teeth of a dead porbeagle shark he ...,13-May-2018,['May'],N,N,england
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7784,ND.0003,,,,,,,,,FATAL,1900-1905,[],Y,N,
7785,ND.0002,,,,,,,,,FATAL,1883-1889,[],Y,N,
7786,ND.0001,,,,,,,,,"FATAL. ""Shark bit him in half, carrying away t...",1845-1853,[],Y,Y,
7787,0,,,,,,,,,,,,,N,


In [132]:
df["age"].unique()

array(['57', '18', '15', '32', '21', '30', '60', '33', '19', '25', '10',
       '69', '55', '35', '20', '54', '22', '31', '40', '37', '11', '13',
       '34', '50', '46', '48', '17', '28', '65', '73', '58', '36', '60s',
       '51', '61', '59', '42', '6', '27', '23', '29', '39', '24', '12',
       '26', '71', '43', '9', '44', '14', '62', '52', '38', '68', '16',
       '47', '63', '70', '41', '40s', '53', '20s', '7', '66', '45', '74',
       '64', '8', '56', '49', '18 or 20', 'Teen', '30s', '77', '8 or 10',
       '84', '\xa0 ', ' ', '30 or 36', '6½', '5', ' 30', ' 28', "60's",
       '67', '>50', '?  19', '21, 34,24  35', '30  32', '13 or 18',
       '7 or 8', '9 or 10', nan, 'young', '13 or 14'], dtype=object)