In [1]:
import pandas as pd
import numpy as np
import geonamescache
import pycountry
import difflib
import warnings
import statistics as stat
import re

from countryinfo import CountryInfo
warnings.filterwarnings('ignore')
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows',None)

In [2]:
df = pd.read_csv("../data/7_shark_time.csv")

# Limpieza columna "Species"

Para la limpieza de esta columna se buscará encontrar en las strings fragmentos de los 20 tipos de tiburones más comunes. En caso de no encontrarse se categorizará como Other Species o Unknown Shark. Previamente a la transformación de los datos utilizaremos los registros obtenidos para obtener el tamaño del tiburón, dato que almacenaremos en una nueva columna para su posterior utilización.

In [3]:
df.Species = df.Species.apply(lambda x: str(x))
df.Species = df.Species.str.lower()

In [4]:
def tamaño(x):
    try:
        numeros = re.findall(r'\d+', x)
        return [int(numero) for numero in numeros]
    except:
        return x

In [5]:
df.Size = df.Species.apply(tamaño)

In [6]:
def especies(x):
    if "whit" in x or "blue" in x:
        return "White Shark"
    elif "hamm" in x:
        return "Hammerhead Shark"
    elif "Tige" in x:
        return "Tiger Shark"
    elif "bull" in x:
        return "Bull Shark"
    elif "lemo" in x:
        return "Lemon Shark"
    elif "mako" in x :
        return "Mako Shark"
    elif "nurs" in x:
        return "Nurse Shark"
    elif "blac" in x:
        return "Blacktip Shark"
    elif "ocea" in x:
        return "Oceanic Whitetip Shark"
    elif "thre" in x:
        return "Thresher shark"
    elif "silk" in x:
        return "Silky Shark"
    elif "dusk" in x:
        return "Dusky shark"
    elif "gala" in x:
        return "Galapagos Shark"
    elif "gobl" in x:
        return "Goblin Shark"
    elif "ange" in x:
        return "Angel Shark"
    elif "gree" in x:
        return "Greenland Shark"
    elif "carp" in x or "wobbe" in x:
        return "Carpet Shark"
    elif "shark" in x:
        return "Unknown Shark"
    elif "unkn" in x:
        return "Unknown Shark"
    elif "inval" in x:
        return "Unknown Shark"
    elif "quest" in x:
        return "Unknown Shark"
    elif "unid" in x:
        return "Unknown Shark"
    else:
        return "Other Species"

In [7]:
df.Species = df.Species.apply(especies)

# Creación columna "Size"

Para la creación de la columna Size hemos separado los números encontrados en la columna Species y los introducimos a una lista como valores enteros. Continuación Se devuelve la media fila por fila, esto es debido a que se detecto que en un gran número de ocasiones los datos introducidos eran un rango de tamaño (Size 10 to 15m). A continuación se eliminan los valores atípicos, considerando a estos los resultados superiores a 100m. Por último se redondea el tamaño a tan solo dos dígitos para facilitar la lectura de los datos.

Además se ha decidido no tratar los valores NaN de la columna Size debido a que la introducción de otro tipo de dato o el uso de la media o algún estadistico para el relleno podría alterar los valores.

In [8]:
df.Size = df.Size.apply(lambda x: round(np.mean(x),2))
df.Size = df.Size.apply(lambda x: np.nan if x > 100 else x)
df.Size = df.Size.apply(lambda x: round(x,2))

# Limpieza columna "Source"

Para la limpieza de la columna Source se ha decidido rellenar los valores nulos con la categoría "Unknown". Además, buscando legibilidad, y teniendo en cuenta que se trata de nombres, siglas e iniciales se ha decidido poner la primera letra de cada palabra en mayuscula.

In [9]:
df.Source = df.Source.apply(lambda x: str(x))
df.Source = df.Source.str.lower()
df.Source = df.Source.str.capitalize()
df.Source.replace(np.NaN,"Unknown", inplace=True)

In [10]:
df.to_csv("../data/8_shark_species.csv", index=False)