In [1]:
import pandas as pd

In [2]:
#Read the Macroinvertebrados.xlsx file
df = pd.read_excel('Macroinvertebrados.xlsx', sheet_name='Prepared_macros')

In [3]:
df.head()

Unnamed: 0,id,dive_date,dive_month,year,Transect.code,Island,Bioregion,MPA_Status,Sum_ind,Countsize_ind,...,ScientificName,CommonNameEnglish,CommonNameSpanish,Site,Latitude,Longitude,Subzone.name,Refuge_Level,depth_strata,epoca
0,7,2010-02-04,February,2010,ES01M040210A,Española,Sureste,Extractive use,1,1,...,Diadema mexicanum,Hatpin urchin,erizo aguja,ES01-Bahía Gardner Norte (1),-1.34421,-89.6682,Conservación,Extractive use,6m,Caliente
1,7,2010-02-04,February,2010,ES01M040210A,Española,Sureste,Extractive use,203,95,...,Eucidaris galapagensis,Slate pencil urchin,erizo lapicero,ES01-Bahía Gardner Norte (1),-1.34421,-89.6682,Conservación,Extractive use,6m,Caliente
2,7,2010-02-04,February,2010,ES01M040210A,Española,Sureste,Extractive use,4,4,...,Holothuria (Halodeima) kefersteini,Sea cucumber,pepino de mar,ES01-Bahía Gardner Norte (1),-1.34421,-89.6682,Conservación,Extractive use,6m,Caliente
3,7,2010-02-04,February,2010,ES01M040210A,Española,Sureste,Extractive use,45,45,...,Lytechinus semituberculatus,Green sea urchin,erizo verde,ES01-Bahía Gardner Norte (1),-1.34421,-89.6682,Conservación,Extractive use,6m,Caliente
4,7,2010-02-04,February,2010,ES01M040210B,Española,Sureste,Extractive use,5,5,...,Diadema mexicanum,Hatpin urchin,erizo aguja,ES01-Bahía Gardner Norte (1),-1.34421,-89.6682,Conservación,Extractive use,15m,Caliente


## Procesamiento y limpieza de datos

A continuación se detalla el proceso realizado para procesar y limpiar los datos. Se separa este proceso por las diferentes columnas que se tienen en el dataset.

#### Columna `id`

Se comprueban los valores únicos que tiene esta columna para ver si hay algún valor anómalo.

In [4]:
df['id'].unique()

array([ 7,  8,  9, 10, 11, 12, 13, 14, 15, 16])

#### Columnas `dive_date`, `dive_month` y `year`

Se comprobarán los valores nulos y anómalos para estas columnas.

Se comprueban primero los valores único de la columna `year`. Posteriormente, se comprueban los valores nulos de las columnas `dive_date` y `dive_month`.

In [5]:
df['year'].unique()

array([2010, 2011, 2012, 2013, 2014, 2016, 2017, 2018, 2019, 2020])

Se comprueba como los valores de la columna son correctos, teniendo datos desde 2010 a 2020.

Ahora se verán los datos nulos en las columnas `dive_date` y `dive_month`. En caso de no tener datos, se eliminarán, ya que con esos datos no se podrán realizar estimaciones temporales del resto de datos para sacar alguna conclusión.

Se comprueba primero si hay datos con valores no nulos de la columna `dive_date` y nulos en `dive_month`, ya que el mes sí que se podría extraer.

In [6]:
#Show the rows where dive_date is NaT and dive_month is not NaN
df[df['dive_date'].notnull() & df['dive_month'].isnull()]

Unnamed: 0,id,dive_date,dive_month,year,Transect.code,Island,Bioregion,MPA_Status,Sum_ind,Countsize_ind,...,ScientificName,CommonNameEnglish,CommonNameSpanish,Site,Latitude,Longitude,Subzone.name,Refuge_Level,depth_strata,epoca


Al no haber ninguno, se procede a eliminar los datos con valores nulos en ambas columnas.

In [7]:
df.shape

(7025, 27)

In [8]:
#Delete the rows where dive_date is 'NA' text and dive_month is 'NA' text
df.drop(df[df['dive_date'].isnull()].index, inplace = True)

In [9]:
df.shape

(6933, 27)

Se han eliminado 92 filas.

Ahora, se convierte la columna `dive_date` a tipo `datetime` y se comprueba si todos los meses de esa columna coinciden con los de la columna `dive_month`.

In [10]:
#Get the month of dive_month column
df['dive_date'] = pd.to_datetime(df['dive_date'])

#Get the month written in letters
(df['dive_date'].dt.month_name() == df['dive_month']).value_counts()

True    6933
dtype: int64

Se comprueba que todos los meses coinciden, por lo que se procede a eliminar la columna `dive_month` al no aportar información no contenida en la columna `dive_date`.

In [11]:
#Delete the dive_month column
df.drop('dive_month', axis=1, inplace=True)

Se vuelve a realizar lo mismo que con la columna `dive_month` con la columna `year`, comprobando que todos los años coinciden y eliminando la columna `year`.

In [12]:
#Get the month written in letters
(df['dive_date'].dt.year == df['year']).value_counts()

True     6910
False      23
dtype: int64

Se puede observar como hay 23 filas en las que no coincide el año. Se analizan estos datos.

In [13]:
df[df['dive_date'].dt.year != df['year']]

Unnamed: 0,id,dive_date,year,Transect.code,Island,Bioregion,MPA_Status,Sum_ind,Countsize_ind,TaxonID,...,ScientificName,CommonNameEnglish,CommonNameSpanish,Site,Latitude,Longitude,Subzone.name,Refuge_Level,depth_strata,epoca
884,8,2020-08-08,2011,FE01M080820A,Fernandina,Oeste,Sanctuary,360,0,7983.0,...,Eucidaris galapagensis,Slate pencil urchin,erizo lapicero,FE01-Cabo Douglas Piedra Blanca,-0.3018,-91.6524,Aprovechamiento Sustentable,Sanctuary,6m,Fría
885,8,2020-08-08,2011,FE01M080820A,Fernandina,Oeste,Sanctuary,2,2,,...,Holothuria (Stauropora) fuscocinerea,,,FE01-Cabo Douglas Piedra Blanca,-0.3018,-91.6524,Aprovechamiento Sustentable,Sanctuary,6m,Fría
886,8,2020-08-08,2011,FE01M080820A,Fernandina,Oeste,Sanctuary,378,55,7963.0,...,Rhynchocinetes typus,Hinge beak prawn,camarón de roca,FE01-Cabo Douglas Piedra Blanca,-0.3018,-91.6524,Aprovechamiento Sustentable,Sanctuary,6m,Fría
887,8,2020-08-08,2011,FE01M080820B,Fernandina,Oeste,Sanctuary,192,0,7983.0,...,Eucidaris galapagensis,Slate pencil urchin,erizo lapicero,FE01-Cabo Douglas Piedra Blanca,-0.3018,-91.6524,Aprovechamiento Sustentable,Sanctuary,15m,Fría
888,8,2020-08-08,2011,FE01M080820B,Fernandina,Oeste,Sanctuary,4,4,7974.0,...,Linckia columbiae,Variable sea star,estrella variable,FE01-Cabo Douglas Piedra Blanca,-0.3018,-91.6524,Aprovechamiento Sustentable,Sanctuary,15m,Fría
889,8,2020-08-08,2011,FE01M080820B,Fernandina,Oeste,Sanctuary,1,1,7967.0,...,Luidia bellonae,Banded sand star,estrella rayada,FE01-Cabo Douglas Piedra Blanca,-0.3018,-91.6524,Aprovechamiento Sustentable,Sanctuary,15m,Fría
890,8,2020-08-08,2011,FE01M080820B,Fernandina,Oeste,Sanctuary,17,13,7977.0,...,Nidorellia armata,Chocolate chip sea star,estrella chocolate chip,FE01-Cabo Douglas Piedra Blanca,-0.3018,-91.6524,Aprovechamiento Sustentable,Sanctuary,15m,Fría
891,8,2020-08-08,2011,FE01M080820B,Fernandina,Oeste,Sanctuary,2,2,,...,Triplofusus princeps,,,FE01-Cabo Douglas Piedra Blanca,-0.3018,-91.6524,Aprovechamiento Sustentable,Sanctuary,15m,Fría
892,8,2020-08-08,2011,FE01M080820B,Fernandina,Oeste,Sanctuary,114,60,7963.0,...,Rhynchocinetes typus,Hinge beak prawn,camarón de roca,FE01-Cabo Douglas Piedra Blanca,-0.3018,-91.6524,Aprovechamiento Sustentable,Sanctuary,15m,Fría
1325,8,2020-08-07,2011,IS37M070820A,Isabela,Bahía Elizabeth,Sanctuary,258,0,7979.0,...,Centrostephanus coronatus,Crowned sea urchin,erizo coronado,IS37-Caleta Tagus Turismo (2),-0.26766,-91.37229,Conservación,Sanctuary,6m,Fría


Todos estos datos se encuentran rodeadas de datos de 2011 (se ha estado visualizando el Excel para comprobarlo). Además, estos datos están en números de filas bajos (< 1500) mientras que los datos relativos al año 2020 se encuentran en la parte inferior de la tabla (índices > 6300).

Por tanto, se cambiará el año de los datos de 2020 a 2011 y se eliminiará la columna `year`.

In [14]:
#Substitute the year of the dive_date column to 2011 where the year of dive_date column is not the same as year column
df.loc[df['dive_date'].dt.year != df['year'], 'dive_date'] = df['dive_date'].dt.strftime('2011-%m-%d')

In [15]:
#Check if the changes are correctly done
df.iloc[894]['dive_date']

Timestamp('2011-08-09 00:00:00')

In [16]:
#Remove column year
df.drop('year', axis=1, inplace=True)

#### Columna `Island`

Se comprueba primero la columna `Island` para ver si hay algún valor nulo.

In [17]:
df['Island'].unique()

array(['Española', 'Fernandina', 'Floreana', 'Isabela', 'Santiago',
       'Darwin', 'Genovesa', 'Marchena', nan, 'Wolf'], dtype=object)

In [18]:
df[df['Island'].isnull()].shape

(106, 25)

In [19]:
#Two first letters of the Transect.code column
df['Transect.code'].str[:2].unique()

array(['ES', 'FE', 'FL', 'IS', 'SA', 'DA', 'GE', 'MA', 'PI', 'WO', 'SB'],
      dtype=object)

In [20]:
df[df['Island'].isnull()]['Transect.code'].unique()

array(['PI05M210310A', 'PI05M210310B', 'PI07M210310B', 'PI10M210310A',
       'PI10M210310B', 'PI01M210310A', 'PI01M210310B', 'PI14M210310B',
       'PI15M210310A', 'PI15M210310B', 'PI07M240612A', 'PI07M240612B',
       'SB01M150213A', 'SB01M150213B', 'SB03M150213A', 'SB03M150213B',
       'SB06M150213A', 'SB06M150213B', 'SB08M150213A', 'SB08M150213B',
       'SB11M150213A', 'SB11M150213B'], dtype=object)

Se comprueba que hay 106 filas cuyo valor es nulo.

Se ha visto que las dos primeras letras de la columna `Transec.code` son las iniciales de los nombres de las islas, por lo que fácilmente se puede rellenar este campo, viendo que los valores que faltan corresponden a las islas de Pinta (PI) y San Cristóbal (SB).

In [21]:
#Si la columna Transec.code empieza por PI y el valor de la columna Island es NaN, entonces el valor de la columna Island será Pinta
df.loc[(df['Transect.code'].str[:2] == 'PI') & (df['Island'].isnull()), 'Island'] = 'Pinta'

In [22]:
#Si la columna Transec.code empieza por SB y el valor de la columna Island es NaN, entonces el valor de la columna Island será San Cristóbal
df.loc[(df['Transect.code'].str[:2] == 'SB') & (df['Island'].isnull()), 'Island'] = 'San Cristóbal'

#### Columna `Transect_code`

Como se ha comentado anteriormente, las dos primeras letras de esta columna son las iniciales de las islas, por lo que se comprueba que hay coincidencia entre los valores de la columna `Island` y los dos primeros caracteres de la columna `Transect_code`.

La única excepción es que la Isla de Santa Cruz no aparece en los datos.

In [23]:
#Isla Isabela
print("Isabela:", df[(df['Transect.code'].str[:2] == 'IS') & (df['Island'] != 'Isabela')].shape[0])

#Fernandina
print("Fernandina:", df[(df['Transect.code'].str[:2] == 'FE') & (df['Island'] != 'Fernandina')].shape[0])

#Santiago
print("Santiago:", df[(df['Transect.code'].str[:2] == 'SA') & (df['Island'] != 'Santiago')].shape[0])

#San Cristóbal
print("San Cristóbal:", df[(df['Transect.code'].str[:2] == 'SB') & (df['Island'] != 'San Cristóbal')].shape[0])

#Floreana
print("Floreana:", df[(df['Transect.code'].str[:2] == 'FL') & (df['Island'] != 'Floreana')].shape[0])

#Marchena
print("Marchena:", df[(df['Transect.code'].str[:2] == 'MA') & (df['Island'] != 'Marchena')].shape[0])

#Española
print("Española:", df[(df['Transect.code'].str[:2] == 'ES') & (df['Island'] != 'Española')].shape[0])

#Pinta
print("Pinta:", df[(df['Transect.code'].str[:2] == 'PI') & (df['Island'] != 'Pinta')].shape[0])

#Darwin
print("Darwin:", df[(df['Transect.code'].str[:2] == 'DA') & (df['Island'] != 'Darwin')].shape[0])

#Genovesa
print("Genovesa:", df[(df['Transect.code'].str[:2] == 'GE') & (df['Island'] != 'Genovesa')].shape[0])

#Wolf
print("Wolf:", df[(df['Transect.code'].str[:2] == 'WO') & (df['Island'] != 'Wolf')].shape[0])

Isabela: 0
Fernandina: 0
Santiago: 0
San Cristóbal: 0
Floreana: 0
Marchena: 0
Española: 0
Pinta: 0
Darwin: 0
Genovesa: 0
Wolf: 0


In [24]:
df['Transect.code'].isnull().sum()

0

Se puede comprobar como todos los datos coinciden, así como que no hay ningún valor nulo.

#### Columna `Bioregion`

Se comprueba si hay valores nulos en esta columna.

In [25]:
df['Bioregion'].unique()

array(['Sureste', 'Oeste', 'Bahía Elizabeth', 'Lejano Norte', 'Norte',
       nan], dtype=object)

In [27]:
df[(df['Bioregion'].isnull()) & (df['Island'] != 'Fernandina')].shape

(0, 25)

Se puede ver que sí que hay valores nulos, y que todos ellos corresponden a la isla de Fernandina.

A continuación, se analiza la columna `Transect_code` para ver si se puede encontrar una relación entre los valores de esta columna y los valores de la columna `Bioregion`.

In [28]:
df[(df['Bioregion'].notnull()) & (df['Island'] == 'Fernandina')]['Bioregion'].unique()

array(['Oeste', 'Bahía Elizabeth'], dtype=object)

In [29]:
df[(df['Bioregion'] == 'Oeste') & (df['Island'] == 'Fernandina')]['Transect.code'].str[2:4].unique()

array(['01', '15', '14', '02', '34'], dtype=object)

In [30]:
df[(df['Bioregion'] == 'Bahía Elizabeth') & (df['Island'] == 'Fernandina')]['Transect.code'].str[2:4].unique()

array(['04', '06', '10', '09', '03', '05'], dtype=object)

Se puede observar como en la isla hay solo dos bioregiones, y que para cada una de ellas, el tercer y cuarto carácter de la columna `Transect_code` son unos en específico (por ejemplo, 01 para la bioregión Oeste y 04 para la bioregión de Bahía Elizabeth).

Es por ello, que en base a estas conclusiones, se procederá a rellanar los datos que faltan.

In [31]:
df[(df['Bioregion'].isnull()) & (df['Island'] == 'Fernandina')]['Transect.code'].str[2:4].unique()

array(['36', '35'], dtype=object)

Pese a la interpretación dada anteriormente, los transectos cuya bioregión es nula no se encuentran en ninguno de las otras dos bioregiones. Por tanto, se dejarán los valores nulos.

#### Columna `MPA_Status`

Se comprueban los valores de esta columna para ver si hay algún valor nulo.

In [32]:
df['MPA_Status'].unique()

array(['Extractive use', 'Sanctuary'], dtype=object)

No hay valores nulos.

Antes se ha comentado que cada isla tiene un serie de transectos. Un transecto es una zona de estudio delimitada, por lo que se entiende que para un mismo transecto de una isla, siempre el estatus de área protegida tiene que ser el mismo.

Por tanto, se comprueba ahora que para cada isla y transecto (4 primeros dígitos de `Transect.code`), siempre el estatus de área protegida es el mismo.

In [33]:
#For each 4 letters of Transect.code column, iterate
for i in df['Transect.code'].str[:4].unique():
    #Get the rows where Transect.code start with i
    df.loc[df['Transect.code'].str[:4] == i, 'MPA_Status'] = df[df['Transect.code'].str[:4] == i]['MPA_Status'].mode()[0]

    #Assign the value of the MPA_Status of the first row where Transect.code start with i
    status = df[df['Transect.code'].str[:4] == i]['MPA_Status'].mode()[0]

    #Check if all the rows where Transect.code start with i have the same MPA_Status
    if not (df[df['Transect.code'].str[:4] == i]['MPA_Status'] == status).all():
        print("Error")

No se imprime ningún error, por lo que se comprueba que todos los datos son correctos.

#### Columna `Sum_ind`

Se comprueban los valores mínimos y máximos de esta columna, para ver que no hay ningún valor anómalo. Además, se comprueban los valores nulos.

In [34]:
#Get the min and max values of the Sum_ind column
print("Min value:", df['Sum_ind'].min())
print("Max value:", df['Sum_ind'].max())
print("Null values:", df['Sum_ind'].isnull().sum())

Min value: 0
Max value: 2125
Null values: 0


No se observa la presencia de valores nulos ni anómalos.

#### Columnas `TaxonID`, `Domain`, `Kingdom`, `PhylumOrDivision`, `Class`, `Order`, `Family`, `ScientificName`, `CommonNameEnglish`, `CommonNameSpanish`

Todas estas columnas están relacionadas por el id de la taxonomia. Para cada identificador, se tiene un valor del resto de columnas (a excepción del `CommonNameSpanish`, que a veces puede tener varios).

Sabiendo lo anterior y viendo que hay veces que solo se cuenta con el nombre científico (columna `ScientificName`), se ha creado una función para extraer el valor del resto de columnas.

Esta función hace uso del 'datazone' de la web de la Charles Darwin Fundation. Realiznado peticiones a la web y procesando la respuesta, la función crea un diccionario con todos los valores de las columnas.

In [35]:
import requests

def getTaxID(name):

    #Perform a POST request to darwinfundation.org/es/datazone/checklist, setting in the form data name = 'Daidema mexicanum' and get the response
    response = requests.post('https://www.darwinfoundation.org/en/datazone/checklist', data={'name': name, 'option': 'com_ajax', 'module': 'checklist', 'format': 'raw'})

    #Get all the urls present in the response text
    urls = response.text.split("<a href=")[1:]

    #Split by ' all the urls and then by = and store the last element of the list
    taxIDs = [url.split("'")[1].split('=')[-1] for url in urls]

    if len(taxIDs) == 0:
        return None
    else:
        taxonId = taxIDs[0]

        #Make a request to darwinfundation.org/es/datazone/checklist, setting in the query parameter species = 14669 and get the response
        response = requests.get('https://www.darwinfoundation.org/en/datazone/checklist?species=' + taxonId)

        #Get the common names
        #If there is no common names, set it to none
        if (response.text.find("<div class='common-names'>") == -1):
            commonNames = [None, None]
        else:
            commonNames = response.text.split("<div class='common-names'>")[1].split("<p>")[1].split("</p>")[0].split(", ")

            #If there is only one common name, append it twice (same name in english and spanish)
            if len(commonNames) == 1:
                commonNames.append(commonNames[0])

        #Get the taxonomy elements
        taxonomy = response.text.split("<p><span class='label'>")[1:]
        taxonomy = [tax.split("</span><br />") for tax in taxonomy]
        taxonomy = [[tax[0], tax[1].split("</p>")[0]] for tax in taxonomy]

        #Create a dictionary with the taxonId, the taxonomy elements and the common names
        dict = {'TaxonID': taxonId,
                'Domain': taxonomy[0][1],
                'Kingdom': taxonomy[1][1],
                'PhylumOrDivision': taxonomy[2][1],
                'Class': taxonomy[3][1],
                'Order': taxonomy[4][1],
                'Family': taxonomy[5][1],
                'ScientificName': name,
                'CommonNameEnglish': commonNames[-1],
                'CommonNameSpanish': commonNames[-2]}

        return dict

Se comprueba el número de filas a las que les falta información.

In [36]:
#Show the columns where TaxonID or Domain or Kingdom or PhylumOrDivision or Class or Order or Family or CommonNameEnglish or CommonNameSpanish are NaN
df[df['TaxonID'].isnull() | df['Domain'].isnull() | df['Kingdom'].isnull() | df['PhylumOrDivision'].isnull() | df['Class'].isnull() | df['Order'].isnull() | df['Family'].isnull() | df['CommonNameEnglish'].isnull() | df['CommonNameSpanish'].isnull()].shape

(342, 25)

Hay 342 filas a las que les falta información. Por tanto, se itera sobre todas ellas y se completa, haciendo uso de la función anteriormente creada.

In [37]:
import tqdm

errors = 0

#Iterate over the rows where TaxonID or Domain or Kingdom or PhylumOrDivision or Class or Order or Family or CommonNameEnglish or CommonNameSpanish are NaN
#Use tqdm to show a progress bar
for i in tqdm.tqdm(df[df['TaxonID'].isnull() | df['Domain'].isnull() | df['Kingdom'].isnull() | df['PhylumOrDivision'].isnull() | df['Class'].isnull() | df['Order'].isnull() | df['Family'].isnull() | df['CommonNameEnglish'].isnull() | df['CommonNameSpanish'].isnull()].index):
    #Get the ScientificName of the row i
    name = df.loc[i, 'ScientificName']

    #Get the dictionary with the taxonomy elements and the common names
    dict = getTaxID(name)

    #If the dictionary is not None, then assign the values of the dictionary to the row i
    if dict is not None:
        df.loc[i, 'TaxonID'] = dict['TaxonID']
        df.loc[i, 'Domain'] = dict['Domain']
        df.loc[i, 'Kingdom'] = dict['Kingdom']
        df.loc[i, 'PhylumOrDivision'] = dict['PhylumOrDivision']
        df.loc[i, 'Class'] = dict['Class']
        df.loc[i, 'Order'] = dict['Order']
        df.loc[i, 'Family'] = dict['Family']
        df.loc[i, 'CommonNameEnglish'] = dict['CommonNameEnglish']
        df.loc[i, 'CommonNameSpanish'] = dict['CommonNameSpanish']

    else:
        errors += 1

 26%|██▋       | 90/342 [02:04<05:33,  1.32s/it]

In [None]:
print("Ha habido", errors, "errores")

Ha habido 118 errores


De las 342 filas, se han podido procesar 224 y han dado error 118. Por tanto, el 65% de los datos se han podido completar.

Se comprueban ahora los valores para los que no se ha podido completar la información.

In [None]:
df[df['TaxonID'].isnull() | df['Domain'].isnull() | df['Kingdom'].isnull() | df['PhylumOrDivision'].isnull() | df['Class'].isnull() | df['Order'].isnull() | df['Family'].isnull() | df['CommonNameEnglish'].isnull() | df['CommonNameSpanish'].isnull()]['ScientificName'].unique()

array(['Octopus sp.', 'Unidentified seastar', 'Coronaster marchenus',
       'Felimare lapislazuli\xa0', 'Discodoris sp.', 'Pseudobiceros sp.',
       'Unidentified bivalvia', 'Unidentified doridoidea',
       'Doriprismatica sedna', 'Unknown dorid'], dtype=object)

Se observa como la mayoría de ellos son a causa de que son especies desconocidas, las cuales no están en la web de la Charles Darwin Fundation.

Una de ellas, la 'Pseudobiceros sp.' sí que está presente, pero bajo el nombre 'Pseudobiceros splendidus'. Por tanto, se procede a cambiar el nombre de la especie y volver a ejecutar la función. Además, se borra el carácter especial que contiene la especie 'Felimare lapislazuli'.

In [None]:
#Get the rows where ScientificName is 'Pseudobiceros sp.' and change the ScientificName to 'Pseudobiceros splendidus'
df.loc[(df['ScientificName'] == 'Pseudobiceros sp.') & (df['TaxonID'].isnull() | df['Domain'].isnull() | df['Kingdom'].isnull() | df['PhylumOrDivision'].isnull() | df['Class'].isnull() | df['Order'].isnull() | df['Family'].isnull() | df['CommonNameEnglish'].isnull() | df['CommonNameSpanish'].isnull()), 'ScientificName'] = 'Pseudobiceros splendidus'

In [None]:
#Get the rows where ScientificName is 'Felimare lapislazuli\xa0' and change the ScientificName to 'Felimare lapislazuli'
df.loc[(df['ScientificName'] == 'Felimare lapislazuli\xa0') & (df['TaxonID'].isnull() | df['Domain'].isnull() | df['Kingdom'].isnull() | df['PhylumOrDivision'].isnull() | df['Class'].isnull() | df['Order'].isnull() | df['Family'].isnull() | df['CommonNameEnglish'].isnull() | df['CommonNameSpanish'].isnull()), 'ScientificName'] = 'Felimare lapislazuli'

In [None]:
import tqdm

errors = 0

#Iterate over the rows where TaxonID or Domain or Kingdom or PhylumOrDivision or Class or Order or Family or CommonNameEnglish or CommonNameSpanish are NaN
#Use tqdm to show a progress bar
for i in tqdm.tqdm(df[df['TaxonID'].isnull() | df['Domain'].isnull() | df['Kingdom'].isnull() | df['PhylumOrDivision'].isnull() | df['Class'].isnull() | df['Order'].isnull() | df['Family'].isnull() | df['CommonNameEnglish'].isnull() | df['CommonNameSpanish'].isnull()].index):
    #Get the ScientificName of the row i
    name = df.loc[i, 'ScientificName']

    #Get the dictionary with the taxonomy elements and the common names
    dict = getTaxID(name)

    #If the dictionary is not None, then assign the values of the dictionary to the row i
    if dict is not None:
        df.loc[i, 'TaxonID'] = dict['TaxonID']
        df.loc[i, 'Domain'] = dict['Domain']
        df.loc[i, 'Kingdom'] = dict['Kingdom']
        df.loc[i, 'PhylumOrDivision'] = dict['PhylumOrDivision']
        df.loc[i, 'Class'] = dict['Class']
        df.loc[i, 'Order'] = dict['Order']
        df.loc[i, 'Family'] = dict['Family']
        df.loc[i, 'CommonNameEnglish'] = dict['CommonNameEnglish']
        df.loc[i, 'CommonNameSpanish'] = dict['CommonNameSpanish']

    else:
        errors += 1

100%|██████████| 124/124 [01:32<00:00,  1.35it/s]


In [None]:
print("Ha habido", errors, "errores")

Ha habido 111 errores


Habiendo solucionado la gran mayoría de los datos, se procede a eliminar las filas que aún quedan con valores nulos.

In [None]:
#Delete the rows where TaxonID or Domain or Kingdom or PhylumOrDivision or Class or Order or Family or CommonNameEnglish or CommonNameSpanish are NaN
df.drop(df[df['TaxonID'].isnull() | df['Domain'].isnull() | df['Kingdom'].isnull() | df['PhylumOrDivision'].isnull() | df['Class'].isnull() | df['Order'].isnull() | df['Family'].isnull() | df['CommonNameEnglish'].isnull() | df['CommonNameSpanish'].isnull()].index, inplace=True)

#### Columna `Site`

Se comprueban los valores nulos de esta columna. Además, se imprimen los valores únicos de esta columna para ver si hay algún valor anómalo.

In [None]:
df['Site'].isnull().sum()

0

In [None]:
df['Site'].unique()

array(['ES01-Bahía Gardner Norte (1)', 'ES02-Cerro Colorado',
       'ES03-Bajo Gardner', 'ES04-Bahía Gardner Sur',
       'ES11-Bahía Gardner Norte (2)', 'ES12-Isla Gardner',
       'FE01-Cabo Douglas Piedra Blanca', 'FE04-Punta Espinosa Norte (2)',
       'FE06-Punta Espinosa Sur (2)', 'FE10-Punta Priscila (2)',
       'FL13-Punta Cormorán', 'FL01-Champion',
       'FL02-Corona del Diablo Norte', 'FL03-Enderby', 'FL05-La Botella',
       'FL09-Punta Luz de Día', 'FL10-Los Barrancos',
       'FL12-Corona del Diablo Sur', 'FL14-Tres Cuevitas',
       'FL15-Islote Caldwell', 'FL16-Islote Gardner',
       'FL17-Punta Luz de Día Oeste', 'IS18-Punta Moreno Pesca (1)',
       'IS19-Punta Moreno Pesca (2)', 'IS21-Punta Moreno Prot (2)',
       'IS23-Punta Moreno Turismo (2)', 'IS27-Los Cañones Pesca (2)',
       'IS29-Punta Vicente Roca Pesca (2)',
       'IS31-Punta Vicente Roca Prot (2)',
       'IS33-Punta Vicente Roca Turismo (2)', 'IS35-Caseta PNG (2)',
       'IS37-Caleta Tagus Turismo

No hay valores nulos y no se observa la presencia de valores anómalos.

#### Columna `Latitude` y `Longitude`

Respecto a las columnas de latitud y longitud, se ha establecido un rando en el que se sitúan todas las islas de las Galápagos. Se comprueba que todos los valores de estas columnas se encuentran dentro de este rango.

In [None]:
lat_range = [1.7, -1.7]
long_range = [-92.1, 89.2]

#Get the rows where Latitude is not in the range of lat_range or Longitude is not in the range of long_range
df[(df['Latitude'] > lat_range[0]) | (df['Latitude'] < lat_range[1]) | (df['Longitude'] < long_range[0]) | (df['Longitude'] > long_range[1])][['Site', 'Latitude', 'Longitude']]

Unnamed: 0,Site,Latitude,Longitude


No hay ninguna fila fuera del rango.

#### Columna `Subzone.name`

Se comprueban los valores únicos de esta columna para ver si hay algún valor anómalo.

In [None]:
df['Subzone.name'].unique()

array(['Conservación', 'Intangible', 'Aprovechamiento Sustentable', nan],
      dtype=object)

Se comprueban ahora los valores nulos presentes.

In [None]:
df[df['Subzone.name'].isnull() & df['Bioregion'].notnull()]

Unnamed: 0,id,dive_date,Transect.code,Island,Bioregion,MPA_Status,Sum_ind,Countsize_ind,TaxonID,Domain,...,ScientificName,CommonNameEnglish,CommonNameSpanish,Site,Latitude,Longitude,Subzone.name,Refuge_Level,depth_strata,epoca


Se observa como todos los valores nulos de la subzona corresponden a las filas que también tienen nula la columna `Bioregion`. Estas filas además, tienen nula la longitud y latitud, y el nivel de refugio.

Defido a la falta de tanta de información, se procede a eliminar estas filas.

In [None]:
df.drop(df[df['Subzone.name'].isnull() & df['Bioregion'].isnull()].index, inplace=True)

#### Columna `Refuge_Level`

Se comprueban los valores únicos de esta columna para ver si hay algún valor anómalo.

In [None]:
df['Refuge_Level'].unique()

array(['Extractive use', 'Sanctuary', nan], dtype=object)

In [None]:
df[df['Refuge_Level'].isnull()]

Unnamed: 0,id,dive_date,Transect.code,Island,Bioregion,MPA_Status,Sum_ind,Countsize_ind,TaxonID,Domain,...,ScientificName,CommonNameEnglish,CommonNameSpanish,Site,Latitude,Longitude,Subzone.name,Refuge_Level,depth_strata,epoca
531,7,2010-03-21,PI14M210310B,Pinta,Norte,Sanctuary,163,0,7983.0,Eukaryota,...,Eucidaris galapagensis,Slate pencil urchin,erizo lapicero,PI14-Nerus M2K (FR),0.64134,-90.766805,Aprovechamiento Sustentable,,15m,Caliente
532,7,2010-03-21,PI14M210310B,Pinta,Norte,Sanctuary,14,14,8061.0,Eukaryota,...,Hexaplex princeps,Chief rocksnail,murícido jefe,PI14-Nerus M2K (FR),0.64134,-90.766805,Aprovechamiento Sustentable,,15m,Caliente
533,7,2010-03-21,PI14M210310B,Pinta,Norte,Sanctuary,2,2,7977.0,Eukaryota,...,Nidorellia armata,Chocolate chip sea star,estrella chocolate chip,PI14-Nerus M2K (FR),0.64134,-90.766805,Aprovechamiento Sustentable,,15m,Caliente
696,7,2010-02-24,IS91M240210A,Isabela,Oeste,Extractive use,317,5,7983.0,Eukaryota,...,Eucidaris galapagensis,Slate pencil urchin,erizo lapicero,IS91-Caleta iguana sur 1,-0.9622,-91.4587,Intangible,,6m,Caliente
697,7,2010-02-24,IS91M240210A,Isabela,Oeste,Extractive use,1,1,7986.0,Eukaryota,...,Heliaster cumingi,Red sun star,sol de mar,IS91-Caleta iguana sur 1,-0.9622,-91.4587,Intangible,,6m,Caliente
698,7,2010-02-24,IS91M240210A,Isabela,Oeste,Extractive use,4,0,7960.0,Eukaryota,...,Panulirus gracilis,Green or blue spiny lobster,"langosta espinosa azul, verde",IS91-Caleta iguana sur 1,-0.9622,-91.4587,Intangible,,6m,Caliente
699,7,2010-02-24,IS91M240210A,Isabela,Oeste,Extractive use,21,0,7963.0,Eukaryota,...,Rhynchocinetes typus,Hinge beak prawn,camarón de roca,IS91-Caleta iguana sur 1,-0.9622,-91.4587,Intangible,,6m,Caliente
700,7,2010-02-24,IS91M240210B,Isabela,Oeste,Extractive use,104,3,7983.0,Eukaryota,...,Eucidaris galapagensis,Slate pencil urchin,erizo lapicero,IS91-Caleta iguana sur 1,-0.9622,-91.4587,Intangible,,15m,Caliente
701,7,2010-02-24,IS91M240210B,Isabela,Oeste,Extractive use,104,2,7981.0,Eukaryota,...,Lytechinus semituberculatus,Green sea urchin,erizo verde,IS91-Caleta iguana sur 1,-0.9622,-91.4587,Intangible,,15m,Caliente
702,7,2010-02-24,IS91M240210B,Isabela,Oeste,Extractive use,1,1,7977.0,Eukaryota,...,Nidorellia armata,Chocolate chip sea star,estrella chocolate chip,IS91-Caleta iguana sur 1,-0.9622,-91.4587,Intangible,,15m,Caliente


Como no se observa nada que pueda deducir los valores nulos, se procede a eliminar las filas con valores nulos.

In [None]:
df.drop(df[df['Refuge_Level'].isnull()].index, inplace=True)

#### Columna `depth_strata`

Se imprimen los valores únicos de esta columna para ver si hay algún valor anómalo.

In [None]:
df['depth_strata'].unique()

array(['6m', '15m', '12m', '10m', '11m', '-'], dtype=object)

Se ve que hay ciertos valores que tienen como profundidad '-'. Se visualizan estas filas.

In [None]:
df[df['depth_strata'] == '-']

Unnamed: 0,id,dive_date,Transect.code,Island,Bioregion,MPA_Status,Sum_ind,Countsize_ind,TaxonID,Domain,...,ScientificName,CommonNameEnglish,CommonNameSpanish,Site,Latitude,Longitude,Subzone.name,Refuge_Level,depth_strata,epoca
3549,11,2014-02-22,FE01M220214(99),Fernandina,Oeste,Sanctuary,4,0,7970.0,Eukaryota,...,Astropecten armatus,Spiny sand star,estrella de arena espinosa,FE01-Cabo Douglas Piedra Blanca,-0.3018,-91.6524,Aprovechamiento Sustentable,Sanctuary,-,Caliente
3550,11,2014-02-22,FE01M220214(99),Fernandina,Oeste,Sanctuary,10,0,7983.0,Eukaryota,...,Eucidaris galapagensis,Slate pencil urchin,erizo lapicero,FE01-Cabo Douglas Piedra Blanca,-0.3018,-91.6524,Aprovechamiento Sustentable,Sanctuary,-,Caliente
3551,11,2014-02-22,FE01M220214(99),Fernandina,Oeste,Sanctuary,1,0,8061.0,Eukaryota,...,Hexaplex princeps,Chief rocksnail,murícido jefe,FE01-Cabo Douglas Piedra Blanca,-0.3018,-91.6524,Aprovechamiento Sustentable,Sanctuary,-,Caliente
3552,11,2014-02-22,FE01M220214(99),Fernandina,Oeste,Sanctuary,1,0,8000.0,Eukaryota,...,Holothuria (Lessonothuria) pardalis,Sea cucumber,pepino de mar,FE01-Cabo Douglas Piedra Blanca,-0.3018,-91.6524,Aprovechamiento Sustentable,Sanctuary,-,Caliente
3553,11,2014-02-22,FE01M220214(99),Fernandina,Oeste,Sanctuary,5,0,7974.0,Eukaryota,...,Linckia columbiae,Variable sea star,estrella variable,FE01-Cabo Douglas Piedra Blanca,-0.3018,-91.6524,Aprovechamiento Sustentable,Sanctuary,-,Caliente
3554,11,2014-02-22,FE01M220214(99),Fernandina,Oeste,Sanctuary,5,0,7977.0,Eukaryota,...,Nidorellia armata,Chocolate chip sea star,estrella chocolate chip,FE01-Cabo Douglas Piedra Blanca,-0.3018,-91.6524,Aprovechamiento Sustentable,Sanctuary,-,Caliente
3555,11,2014-02-22,FE01M220214(99),Fernandina,Oeste,Sanctuary,7,0,7963.0,Eukaryota,...,Rhynchocinetes typus,Hinge beak prawn,camarón de roca,FE01-Cabo Douglas Piedra Blanca,-0.3018,-91.6524,Aprovechamiento Sustentable,Sanctuary,-,Caliente
3556,11,2014-02-22,FE01M220214(99),Fernandina,Oeste,Sanctuary,1,0,8067.0,Eukaryota,...,Tambja mullineri,Mulliner doris,doridáceo de Mullineri,FE01-Cabo Douglas Piedra Blanca,-0.3018,-91.6524,Aprovechamiento Sustentable,Sanctuary,-,Caliente


Se eliminan las 8 filas que tienen como profundidad '-' al no poder deducir la profundidad de las mismas.

In [None]:
df.drop(df[df['depth_strata'] == '-'].index, inplace=True)

#### Columna `epoca`

Se comprueban los valores únicos de esta columna para ver si hay algún valor anómalo.

In [None]:
df['epoca'].unique()

array(['Caliente', 'Fría'], dtype=object)

Se ve como todos los valores son correctos (o son 'Caliente' o 'Fria').