`LIMPIEZA II`

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import re

Por lo tanto, en este ejercicio nos queda por limpiar las columnas de age y species, así que manos a la obra. Vamos a ver que podemos hacer para cada una de las columnas y os dejaremos algunas pistas 😉.


1. Columna de species: si exploramos esta columna en detalle nos podemos dar cuenta que tenemos muchos valores únicos y esto hace que sea muy difícil trabajar con esta columna. Lo que vamos a hacer es clasificar los tiburones en 5 especies diferentes, las más comunes, que incluyen el tiburón blanco (White), el tiburón tigre (Tiger ), el tiburón gris (Grey), el tiburón limón (Lemon) y el tiburón toro (Bull). El resto de las especies las incluiremos en un único grupo que podremos llamar "Unspecified". Ahora nos podemos sentir un poco abrumadas y no saber como enfrentarnos a este reto, pero don't worry, os dejamos por aquí unas 💡 pistas 💡 para que os ayuden a entender cómo hacerlo.

Los valores de las columnas son strings por lo que podremos usar regex para buscar palabras clave en cada celda y asignarlo a una de las categorías que hemos definido previamente.

Tendremos que crearnos una función que aplicaremos sobre nuestra columna species_ para que nos devuelva una nueva columna con los valores clasificados en función de los patrones de regex que hayamos definido.

In [2]:
df=pd.read_csv('../Datos/attacks_limpieza_I.csv')
df.head(2)

Unnamed: 0,case_number,year,type,country,area,location,activity,name,age,time,species,siglo,species_,injury,mes,fatal_bien,genero_bien
0,2018.06.25,2018,Boating,usa,California,"Oceanside, San Diego County",Paddling,Julie Wolfe,57,18h00,White shark,siglo - XXI,,"No injury to occupant, outrigger canoe and pad...",Jun,N,F
1,2018.06.03.a,2018,Unprovoked,brazil,Pernambuco,"Piedade Beach, Recife",Swimming,Jose Ernesto da Silva,18,Late afternoon,Tiger shark,siglo - XXI,,FATAL,Jun,Y,M


In [3]:
df1= df.copy()

In [4]:
#The above code is creating a new column in the dataframe called 'categorias_tiburones' and is applying the function renombrar_tiburones 
# to the column 'species'
def renombrar_tiburones(x):
    blanco = re.findall(".*[Ww](hite|HITE).*", str(x))
    tigre = re.findall(".*[Tt](iger|IGER).*", str(x))
    gris = re.findall(".*[Gg](rey|REY).*", str(x))
    limon = re.findall(".*[Ll](emon|EMON).*", str(x))
    toro = re.findall(".*[Bb](ull|ULL).*", str(x))

    if blanco:
        return ('White')
    elif tigre:
        return ('Tiger')
    elif gris:
        return ('Grey')
    elif limon:
        return ('Lemon')
    elif toro:
        return ('Bull')
    else:
        return np.nan

df1['categorias_tiburones']= df['species'].apply(renombrar_tiburones)

In [5]:
df1.head(1)

Unnamed: 0,case_number,year,type,country,area,location,activity,name,age,time,species,siglo,species_,injury,mes,fatal_bien,genero_bien,categorias_tiburones
0,2018.06.25,2018,Boating,usa,California,"Oceanside, San Diego County",Paddling,Julie Wolfe,57,18h00,White shark,siglo - XXI,,"No injury to occupant, outrigger canoe and pad...",Jun,N,F,White


In [6]:
df1['categorias_tiburones'].unique()

array(['White', 'Tiger', 'Bull', 'Grey', nan, 'Lemon'], dtype=object)

2. Columna de age: es una columna de tipo string pero debería ser de tipo integer. Además, en esta columna nos vamos a encontrar con algunos errores tipográficos, estos incluyen:
   
    -Edad en formato string
    
    -Edades separadas por &, or, to, >
    
    -Edades con ?
Vamos con algunas 💡 pistas 💡 para que os ayuden a entender cómo hacerlo:

-Primero tendremos que eliminar todos esos símbolos especiales que nos aparecen. De nuevo, podremos usar regex para extraer unicamente los números que es lo que nos interesa. Usar este regex en una función para sacar solo los números.

-Puede que os salga un error similar a este:
TypeError: expected string or bytes-like object
Para solucionar este problema, antes de nada tendréis que ejecutar este código para que no os de error:
df['nombre_columna'] = df['nombre_columna'].astype(str)

-Una vez que hayáis extraido los números, os daréis cuenta que hay celdas que tienen más de una edad. Tendréis que decidir que hacer en esos casos. Os dejamos por aquí una posible opción usando un método de Pandas que os puede resultar super útil. El método explode, aqui.

-Por último cambiad el tipo de la columna de string a integer.


In [7]:
df1.age.unique().size

95

In [8]:
df1.age.unique()

array(['57', '18', '15', '32', '21', '30', '60', '33', '19', '25', '10',
       '69', '55', '35', '20', '54', '22', '31', '40', '37', '11', '13',
       '34', '50', '46', '48', '17', '28', '65', '73', '58', '36', '60s',
       '51', '61', '59', '42', '6', '27', '23', '29', '39', '24', '12',
       '26', '71', '43', '9', '44', '14', '62', '52', '38', '68', '16',
       '47', '63', '70', '41', '40s', '53', '20s', '7', '66', '45', '74',
       '64', '8', '56', '49', '18 or 20', 'Teen', '30s', '77', '8 or 10',
       '84', '\xa0 ', ' ', '30 or 36', '6½', '5', ' 30', ' 28', "60's",
       '67', '>50', '? & 19', '21, 34,24 & 35', '30 & 32', '13 or 18',
       '7 or 8', '9 or 10', nan, 'young', '13 or 14'], dtype=object)

In [22]:
#Converting the age column to a string.
df1['age'] = df['age'].astype(str)

In [10]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1672 entries, 0 to 1671
Data columns (total 18 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   case_number           1672 non-null   object
 1   year                  1672 non-null   int64 
 2   type                  1672 non-null   object
 3   country               1662 non-null   object
 4   area                  1626 non-null   object
 5   location              1621 non-null   object
 6   activity              1641 non-null   object
 7   name                  1663 non-null   object
 8   age                   1672 non-null   object
 9   time                  1512 non-null   object
 10  species               1502 non-null   object
 11  siglo                 1502 non-null   object
 12  species_              44 non-null     object
 13  injury                1664 non-null   object
 14  mes                   1518 non-null   object
 15  fatal_bien            1573 non-null   

In [11]:
#Printing the type of the 'age'
print(type('age'))

<class 'str'>


In [12]:
#Creating a list of the ages in the dataframe.
lista_edades= list(df['age'])
lista_edades

['57',
 '18',
 '15',
 '32',
 '21',
 '30',
 '60',
 '32',
 '33',
 '19',
 '25',
 '10',
 '69',
 '18',
 '55',
 '35',
 '20',
 '54',
 '25',
 '25',
 '22',
 '31',
 '15',
 '54',
 '40',
 '33',
 '18',
 '35',
 '37',
 '11',
 '69',
 '13',
 '34',
 '10',
 '40',
 '50',
 '46',
 '13',
 '48',
 '32',
 '18',
 '17',
 '28',
 '17',
 '55',
 '48',
 '20',
 '55',
 '19',
 '20',
 '65',
 '73',
 '58',
 '36',
 '17',
 '60s',
 '51',
 '25',
 '21',
 '40',
 '31',
 '61',
 '59',
 '34',
 '42',
 '6',
 '19',
 '27',
 '60',
 '23',
 '29',
 '13',
 '22',
 '48',
 '23',
 '39',
 '24',
 '12',
 '22',
 '26',
 '69',
 '48',
 '11',
 '31',
 '71',
 '43',
 '55',
 '20',
 '9',
 '28',
 '42',
 '21',
 '21',
 '32',
 '44',
 '25',
 '13',
 '14',
 '22',
 '14',
 '27',
 '12',
 '42',
 '50',
 '29',
 '62',
 '37',
 '54',
 '21',
 '15',
 '10',
 '22',
 '10',
 '57',
 '52',
 '25',
 '35',
 '46',
 '38',
 '52',
 '32',
 '68',
 '12',
 '18',
 '19',
 '23',
 '43',
 '6',
 '37',
 '16',
 '12',
 '13',
 '11',
 '47',
 '19',
 '18',
 '29',
 '63',
 '26',
 '71',
 '13',
 '70',
 '23',
 

In [13]:
edad = re.findall("\d{1,2}", str(lista_edades))
print(edad)

['57', '18', '15', '32', '21', '30', '60', '32', '33', '19', '25', '10', '69', '18', '55', '35', '20', '54', '25', '25', '22', '31', '15', '54', '40', '33', '18', '35', '37', '11', '69', '13', '34', '10', '40', '50', '46', '13', '48', '32', '18', '17', '28', '17', '55', '48', '20', '55', '19', '20', '65', '73', '58', '36', '17', '60', '51', '25', '21', '40', '31', '61', '59', '34', '42', '6', '19', '27', '60', '23', '29', '13', '22', '48', '23', '39', '24', '12', '22', '26', '69', '48', '11', '31', '71', '43', '55', '20', '9', '28', '42', '21', '21', '32', '44', '25', '13', '14', '22', '14', '27', '12', '42', '50', '29', '62', '37', '54', '21', '15', '10', '22', '10', '57', '52', '25', '35', '46', '38', '52', '32', '68', '12', '18', '19', '23', '43', '6', '37', '16', '12', '13', '11', '47', '19', '18', '29', '63', '26', '71', '13', '70', '23', '58', '9', '22', '41', '35', '57', '20', '34', '15', '17', '50', '40', '17', '44', '53', '34', '13', '29', '15', '28', '23', '50', '43', '20', '

In [14]:

def edades(x):
    try: 
        edad = re.findall("\d{1,2}", str(x))
        return edad
    except:
      return np.nan
  
  
df1['edades']= df1['age'].apply(edades)

In [15]:
df1=df1.explode('edades')

In [16]:
df1['edades'].duplicated().sum()

1611

In [17]:
df1['edades'].value_counts()

19    71
18    62
20    61
15    57
17    57
      ..
64     1
74     1
84     1
5      1
67     1
Name: edades, Length: 71, dtype: int64

In [18]:
df1.duplicated().sum()

0

In [19]:
df1.head(1)

Unnamed: 0,case_number,year,type,country,area,location,activity,name,age,time,species,siglo,species_,injury,mes,fatal_bien,genero_bien,categorias_tiburones,edades
0,2018.06.25,2018,Boating,usa,California,"Oceanside, San Diego County",Paddling,Julie Wolfe,57,18h00,White shark,siglo - XXI,,"No injury to occupant, outrigger canoe and pad...",Jun,N,F,White,57


In [20]:
df1.drop('age', axis=1, inplace=True) #la eliminamos porque ya no la necesitamos


In [21]:
df1.head(1)

Unnamed: 0,case_number,year,type,country,area,location,activity,name,time,species,siglo,species_,injury,mes,fatal_bien,genero_bien,categorias_tiburones,edades
0,2018.06.25,2018,Boating,usa,California,"Oceanside, San Diego County",Paddling,Julie Wolfe,18h00,White shark,siglo - XXI,,"No injury to occupant, outrigger canoe and pad...",Jun,N,F,White,57


3. Guarda el csv con las columnas limpias para seguir trabajando con este dataframe limpio.
Happy coding 🦈