### Pair Programming - Limpieza II

In [1]:
import pandas as pd
import sidetable
import regex as re
import numpy as np

In [2]:
df = pd.read_pickle("datos/attacks_pandas_8.pickle")

En este ejercicio nos queda por limpiar las columnas de age y species. Trabajaremos con el archivo generado en limpieza 1

In [3]:
df.sample()

Unnamed: 0,case_number,year,type,country,area,location,age,species_,date,mes,fatal_(y/n)_limpio,sex,country_
2947,2006.07.29.b,,,,,,,,29-Jul-2006,Jul,N,F,


Columna de species: si exploramos esta columna en detalle nos podemos dar cuenta que tenemos muchos valores únicos y esto hace que sea muy difícil trabajar con esta columna. Lo que vamos a hacer es clasificar los tiburones en 5 especies diferentes, las más comunes, que incluyen el tiburón blanco (White), el tiburón tigre (Tiger ), el tiburón gris (Grey), el tiburón limón (Lemon) y el tiburón toro (Bull). El resto de las especies las incluiremos en un único grupo que podremos llamar "Unspecified".
- Los valores de las columnas son strings por lo que podremos usar regex para buscar palabras clave en cada celda y asignarlo a una de las categorías que hemos definido previamente.
- Tendremos que crearnos una función que aplicaremos sobre nuestra columna species para que nos devuelva una nueva columna con los valores clasificados en función de los patrones de regex que hayamos definido.

In [4]:
patron_blanco = r".*[Ww](hite|HITE).*"
patron_tigre = r".*[Tt](iger|IGER).*"
patron_gris = r".*[Gg](rey|REY).*"
patron_limon = r".*[Ll](emon|EMON).*"
patron_toro = r".*[Bb](ull|ULL).*"

In [5]:
def clasificacion(col):
    col = str(col)
    if re.findall(patron_blanco, col):
        return "White Shark"
    elif re.findall(patron_tigre, col):
        return "Tiger Shark"
    elif re.findall(patron_gris, col):
        return "Grey Shark"
    elif re.findall(patron_limon, col):
        return "Lemon Shark"
    elif re.findall(patron_toro, col):
        return "Bull Shark"
    else:
        return "Unspecified"

In [6]:
df["species_"]= df["species_"].apply(clasificacion)

In [7]:
df.sample(2)

Unnamed: 0,case_number,year,type,country,area,location,age,species_,date,mes,fatal_(y/n)_limpio,sex,country_
2214,2012.12.25,,,,,,,Unspecified,25-Dec-2012,Dec,Y,M,
3110,2005.01.19,,,,,,,Unspecified,19-Jan-2005,Jan,N,M,


Columna de age: es una columna de tipo string pero debería ser de tipo integer. Además, en esta columna nos vamos a encontrar con algunos errores tipográficos, estos incluyen:
- Edad en formato string
- Edades separadas por &, or, to, >
- Edades con ?

- Primero tendremos que eliminar todos esos símbolos especiales que nos aparecen.
- Una vez que hayáis extraido los números, os daréis cuenta que hay celdas que tienen más de una edad. Tendréis que decidir que hacer en esos casos. Os dejamos por aquí una posible opción usando un método de Pandas que os puede resultar super útil. El método explode, aqui.
- Por último cambiad el tipo de la columna de string a integer.


In [8]:
df["age"].value_counts()
# Haciendo una pequeña exploración de los valores noválidos vemos que son como 20, de ellos muy pocos con más de un valor en una celda, frente a los más de 6000 datos que tenemos por tanto 
# decidimos convertirlos a np.nan directamente

19          70
18          60
20          58
15          57
17          57
            ..
64           1
74           1
40s          1
60s          1
13 or 14     1
Name: age, Length: 94, dtype: int64

In [9]:
patron_num = "[0-99]+"

In [10]:
def num(col):
    try:
        return re.findall(patron_num, col)[0]
    except: 
        return np.nan

In [11]:
df["age"] = df["age"].apply(num)

In [12]:
# Comprobamos los datos únicos:

df["age"].unique()

array(['57', '18', '15', '32', '21', '30', '60', '33', '19', '25', '10',
       '69', '55', '35', '20', '54', '22', '31', '40', '37', '11', '13',
       '34', '50', '46', '48', '17', '28', '65', '73', '58', '36', '51',
       '61', '59', '42', '6', '27', '23', '29', '39', '24', '12', '26',
       '71', '43', '9', '44', '14', '62', '52', '38', '68', '16', '47',
       '63', '70', '41', '53', '7', '66', '45', '74', '64', '8', '56',
       '49', nan, '77', '84', '5', '67'], dtype=object)

In [13]:
df["age"] = pd.to_numeric(df["age"])

In [14]:
df.dtypes

case_number            object
year                    Int64
type                   object
country                object
area                   object
location               object
age                   float64
species_               object
date                   object
mes                    object
fatal_(y/n)_limpio     object
sex                    object
country_               object
dtype: object

Guarda el csv con las columnas limpias para seguir trabajando con este dataframe limpio.

In [15]:
df.to_csv("datos/attacks_pandas_8.csv")