1- Columna de species: si exploramos esta columna en detalle nos podemos dar cuenta que tenemos muchos valores únicos y esto hace que sea muy difícil trabajar con esta columna. Lo que vamos a hacer es clasificar los tiburones en 5 especies diferentes, las más comunes, que incluyen el tiburón blanco (White), el tiburón tigre (Tiger ), el tiburón gris (Grey), el tiburón limón (Lemon) y el tiburón toro (Bull). El resto de las especies las incluiremos en un único grupo que podremos llamar "Unspecified". Ahora nos podemos sentir un poco abrumadas y no saber como enfrentarnos a este reto, pero don't worry, os dejamos por aquí unas 💡 pistas 💡 para que os ayuden a entender cómo hacerlo.
   - Los valores de las columnas son strings por lo que podremos usar regex para buscar palabras clave en cada celda y asignarlo a una de las categorías que hemos definido previamente.
   - Tendremos que crearnos una función que aplicaremos sobre nuestra columna species_ para que nos devuelva una nueva columna con los valores clasificados en función de los patrones de regex que hayamos definido.


In [1]:
import pandas as pd
import numpy as np
import re
df= pd.read_csv('../Ficheros/attack_limpieza1.csv', index_col = 0)

In [2]:
patron_blanco = r".*[Ww](hite|HITE).*"
patron_tiger = r".*[Tt](iger|IGER).*"
patron_grey = r".*[Gg](rey|REY).*"
patron_lemon = r".*[Ll](emon|EMON).*"
patron_bull = r".*[Bb](ull|ULL).*"
patron_nan = r"(NAN)"

In [3]:
df=df.fillna("NAN")

In [4]:
def cambiar_especie(x):
    if re.findall(patron_blanco,x):
        return x.replace(x,'White')
    elif re.findall(patron_tiger,x):
        return x.replace(x,'Tiger')
    elif re.findall(patron_grey,x):
        return x.replace(x,'Grey')
    elif re.findall(patron_lemon,x):
        return x.replace(x,'Lemon')
    elif re.findall(patron_bull,x):
        return x.replace(x,'Bull')
    elif re.findall(patron_nan,x):
        return x.replace(x,'NAN')
    else:
        return x.replace(x,"Unspecified") 


In [5]:
df['species_']= df['species_'].apply(cambiar_especie)

In [6]:
df= df.apply(lambda x: x.replace('NAN', np.nan))

In [7]:
df['species_'].unique()

array([nan, 'Tiger', 'White', 'Unspecified', 'Bull', 'Grey', 'Lemon'],
      dtype=object)

2.Columna de age: es una columna de tipo string pero debería ser de tipo integer. Además, en esta columna nos vamos a encontrar con algunos errores tipográficos, estos incluyen:

    Edad en formato string
    Edades separadas por &, or, to, >
    Edades con ?

Vamos con algunas :bombilla: pistas :bombilla: para que os ayuden a entender cómo hacerlo:

    Primero tendremos que eliminar todos esos símbolos especiales que nos aparecen. De nuevo, podremos usar regex para extraer unicamente los números que es lo que nos interesa. Usar este regex en una función para sacar solo los números.
    Puede que os salga un error similar a este:
    TypeError: expected string or bytes-like object
    Para solucionar este problema, antes de nada tendréis que ejecutar este código para que no os de error:
    df['nombre_columna'] = df['nombre_columna'].astype(str)
    Una vez que hayáis extraido los números, os daréis cuenta que hay celdas que tienen más de una edad. Tendréis que decidir que hacer en esos casos. Os dejamos por aquí una posible opción usando un método de Pandas que os puede resultar super útil. El método explode, aqui.
    Por último cambiad el tipo de la columna de string a integer.

In [8]:
df['age'].unique() 

array([nan, 'young', '14', '19', '20', '15', '21', '27', '36', '25', '6',
       '16', '50', '13 or 14', '57', '11', '48', '18', '52', '12', '32',
       '10', '34', '30', '60', '33', '29', '54', '41', '37', '56', '69',
       '38', '55', '35', '46', '45', '40s', '28', '24', '26', '49', '22',
       '7', '31', '17', '40', '13', '42', '3', '8', '82', '73', '20s',
       '68', '51', '39', '58', 'Teen', '47', '61', '65', '66', '43',
       '60s', '9', '72', '59', '64', '23', '71', '44', '62', '63', '70',
       '18 months', '53', '30s', '50s', 'teen', '77', '74', '28 & 26',
       '5', '86', '18 or 20', '12 or 13', '46 & 34', '28, 23 & 30',
       'Teens', '36 & 26', '8 or 10', '84', '\xa0 ', ' ', '30 or 36',
       '6½', '21 & ?', '75', '33 or 37', 'mid-30s', '23 & 20', ' 30',
       '7      &    31', ' 28', '20?', "60's", '32 & 30', '16 to 18',
       '87', '67', 'Elderly', 'mid-20s', 'Ca. 33', '74 ', '45 ',
       '21 or 26', '20 ', '>50', '18 to 22', 'adult', '9 & 12', '? & 19',
     

In [9]:
df=df.fillna("NAN")

In [10]:
patron_edades= r"[\d+]"

In [11]:
def cambiar_edades(x):
    if re.findall(patron_edades,x):
        return x
    else:
        return 'NAN'


In [12]:
df['nuevas_edades']= df['age'].apply(cambiar_edades)

In [13]:
df['nuevas_edades'].unique()

array(['NAN', '14', '19', '20', '15', '21', '27', '36', '25', '6', '16',
       '50', '13 or 14', '57', '11', '48', '18', '52', '12', '32', '10',
       '34', '30', '60', '33', '29', '54', '41', '37', '56', '69', '38',
       '55', '35', '46', '45', '40s', '28', '24', '26', '49', '22', '7',
       '31', '17', '40', '13', '42', '3', '8', '82', '73', '20s', '68',
       '51', '39', '58', '47', '61', '65', '66', '43', '60s', '9', '72',
       '59', '64', '23', '71', '44', '62', '63', '70', '18 months', '53',
       '30s', '50s', '77', '74', '28 & 26', '5', '86', '18 or 20',
       '12 or 13', '46 & 34', '28, 23 & 30', '36 & 26', '8 or 10', '84',
       '30 or 36', '6½', '21 & ?', '75', '33 or 37', 'mid-30s', '23 & 20',
       ' 30', '7      &    31', ' 28', '20?', "60's", '32 & 30',
       '16 to 18', '87', '67', 'mid-20s', 'Ca. 33', '74 ', '45 ',
       '21 or 26', '20 ', '>50', '18 to 22', '9 & 12', '? & 19',
       '9 months', '25 to 35', '23 & 26', '1', '33 & 37', '25 or 28',
       '

In [14]:
patron_s=r'[s]'

In [15]:
def cambiar_s(x):
    if re.findall(patron_s,x):
        return x.strip(patron_s)
    else:
        return x

In [16]:
df['nuevas_edades']=df['nuevas_edades'].apply(cambiar_s)

In [17]:
df['nuevas_edades'].unique() 

array(['NAN', '14', '19', '20', '15', '21', '27', '36', '25', '6', '16',
       '50', '13 or 14', '57', '11', '48', '18', '52', '12', '32', '10',
       '34', '30', '60', '33', '29', '54', '41', '37', '56', '69', '38',
       '55', '35', '46', '45', '40', '28', '24', '26', '49', '22', '7',
       '31', '17', '13', '42', '3', '8', '82', '73', '68', '51', '39',
       '58', '47', '61', '65', '66', '43', '9', '72', '59', '64', '23',
       '71', '44', '62', '63', '70', '18 month', '53', '77', '74',
       '28 & 26', '5', '86', '18 or 20', '12 or 13', '46 & 34',
       '28, 23 & 30', '36 & 26', '8 or 10', '84', '30 or 36', '6½',
       '21 & ?', '75', '33 or 37', 'mid-30', '23 & 20', ' 30',
       '7      &    31', ' 28', '20?', "60'", '32 & 30', '16 to 18', '87',
       '67', 'mid-20', 'Ca. 33', '74 ', '45 ', '21 or 26', '20 ', '>50',
       '18 to 22', '9 & 12', '? & 19', '9 month', '25 to 35', '23 & 26',
       '1', '33 & 37', '25 or 28', '37, 67, 35, 27,  ? & 27',
       '21, 34,24 & 3

In [18]:
patron_palabra=r'(month)|(Both)|(both)'

In [19]:
def cambiar_month(x):
    if re.findall(patron_palabra,x):
        return re.sub(patron_palabra, "", x)
    else:
        return x

In [20]:
df['nuevas_edades']=df['nuevas_edades'].apply(cambiar_month)

In [21]:
df['nuevas_edades'].unique() 

array(['NAN', '14', '19', '20', '15', '21', '27', '36', '25', '6', '16',
       '50', '13 or 14', '57', '11', '48', '18', '52', '12', '32', '10',
       '34', '30', '60', '33', '29', '54', '41', '37', '56', '69', '38',
       '55', '35', '46', '45', '40', '28', '24', '26', '49', '22', '7',
       '31', '17', '13', '42', '3', '8', '82', '73', '68', '51', '39',
       '58', '47', '61', '65', '66', '43', '9', '72', '59', '64', '23',
       '71', '44', '62', '63', '70', '18 ', '53', '77', '74', '28 & 26',
       '5', '86', '18 or 20', '12 or 13', '46 & 34', '28, 23 & 30',
       '36 & 26', '8 or 10', '84', '30 or 36', '6½', '21 & ?', '75',
       '33 or 37', 'mid-30', '23 & 20', ' 30', '7      &    31', ' 28',
       '20?', "60'", '32 & 30', '16 to 18', '87', '67', 'mid-20',
       'Ca. 33', '74 ', '45 ', '21 or 26', '20 ', '>50', '18 to 22',
       '9 & 12', '? & 19', '9 ', '25 to 35', '23 & 26', '1', '33 & 37',
       '25 or 28', '37, 67, 35, 27,  ? & 27', '21, 34,24 & 35', '30 & 32',
  

In [22]:
patron_or=r'[\D+]'

In [23]:
def cambiar_or(x):
    if re.findall(patron_or,x):
        return re.split(patron_or, x)[0]
    else:
        return x

In [24]:
df['nuevas_edades']=df['nuevas_edades'].apply(cambiar_or)

In [25]:
df['nuevas_edades'].unique()

array(['', '14', '19', '20', '15', '21', '27', '36', '25', '6', '16',
       '50', '13', '57', '11', '48', '18', '52', '12', '32', '10', '34',
       '30', '60', '33', '29', '54', '41', '37', '56', '69', '38', '55',
       '35', '46', '45', '40', '28', '24', '26', '49', '22', '7', '31',
       '17', '42', '3', '8', '82', '73', '68', '51', '39', '58', '47',
       '61', '65', '66', '43', '9', '72', '59', '64', '23', '71', '44',
       '62', '63', '70', '53', '77', '74', '5', '86', '84', '75', '87',
       '67', '1', '2', '81', '78'], dtype=object)

In [26]:
type(df.loc[162]["nuevas_edades"])

str

In [27]:
def buscar(x):
    if x == "":
        return np.nan
    else:
        return x

In [28]:
df['nuevas_edades']=df['nuevas_edades'].apply(buscar)

In [29]:
df['nuevas_edades'].unique()

array([nan, '14', '19', '20', '15', '21', '27', '36', '25', '6', '16',
       '50', '13', '57', '11', '48', '18', '52', '12', '32', '10', '34',
       '30', '60', '33', '29', '54', '41', '37', '56', '69', '38', '55',
       '35', '46', '45', '40', '28', '24', '26', '49', '22', '7', '31',
       '17', '42', '3', '8', '82', '73', '68', '51', '39', '58', '47',
       '61', '65', '66', '43', '9', '72', '59', '64', '23', '71', '44',
       '62', '63', '70', '53', '77', '74', '5', '86', '84', '75', '87',
       '67', '1', '2', '81', '78'], dtype=object)

In [30]:
df.sample(20)

Unnamed: 0,case_number,year,country,activity,age,species_,date,mes,fatal_,sex2,nuevas_edades
2138,2001.02.11,2001,malaysia,Unknown,NAN,Unspecified,11-Feb-2001,Feb,NAN,F,
1440,2008.04.09.R,2008,fiji,Spearfishing,NAN,NAN,Reported 09-Apr-2008,Apr,n,M,
545,2015.08.19,2015,usa,Walking,10,Unspecified,19-Aug-2015,Aug,n,F,10.0
4220,1959.09.10.R,1959,india,NAN,NAN,Unspecified,Reported 10-Sep-1959,Sep,y,NAN,
6126,1862.00.00.b,1862,usa,NAN,NAN,NAN,Circa 1862,NAN,n,F,
5681,1902.11.10,1902,australia,Swimming,17,NAN,10-Nov-1902,Nov,y,M,17.0
2173,2000.09.12,2000,usa,Surfing,26,NAN,12-Sep-2000,Sep,n,F,26.0
3463,1973.03.26,1973,australia,NAN,NAN,NAN,26-Mar-1973,Mar,n,M,
4003,1962.01.15,1962,new zealand,Spearfishing,44,NAN,15-Jan-1962,Jan,n,M,44.0
3075,1983.12.21,1983,south africa,Swimming,47,Unspecified,21-Dec-1983,Dec,n,M,47.0


In [31]:
def cambiar_int(x):
    if type(x) == str:
        return int(x)
    else:
        return x

In [32]:
df['nuevas_edades']=df['nuevas_edades'].apply(cambiar_int)

In [33]:
df['nuevas_edades'].unique()

array([nan, 14., 19., 20., 15., 21., 27., 36., 25.,  6., 16., 50., 13.,
       57., 11., 48., 18., 52., 12., 32., 10., 34., 30., 60., 33., 29.,
       54., 41., 37., 56., 69., 38., 55., 35., 46., 45., 40., 28., 24.,
       26., 49., 22.,  7., 31., 17., 42.,  3.,  8., 82., 73., 68., 51.,
       39., 58., 47., 61., 65., 66., 43.,  9., 72., 59., 64., 23., 71.,
       44., 62., 63., 70., 53., 77., 74.,  5., 86., 84., 75., 87., 67.,
        1.,  2., 81., 78.])

In [35]:
df= df.apply(lambda x: x.replace('NAN', np.nan))

In [36]:
df.isnull().sum()

case_number         1
year                0
country            50
activity          542
age              2820
species_         2831
date                0
mes               570
fatal_            607
sex2              564
nuevas_edades    2860
dtype: int64

3 Guarda el csv con las columnas limpias para seguir trabajando con este dataframe limpio

In [37]:
df.to_csv("../Ficheros/attack_limpieza2.csv")