# EDA Marine Microplastics 🌊

## Importación de librerías y datos 📁

In [None]:
# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np

# Imputación de nulos usando métodos avanzados estadísticos
# -----------------------------------------------------------------------
from sklearn.impute import SimpleImputer
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from sklearn.impute import KNNImputer

# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

In [2]:
df_mp = pd.read_csv("../../Archivos/Marine_Microplastics.csv")
df_mp.head()

FileNotFoundError: [Errno 2] No such file or directory: '../../Archivos/Marine_Microplastics.csv'

### Primera exploración 🔎

In [None]:
# pip install geopandas

In [None]:
df_mp.sample(5)

Unnamed: 0,OBJECTID,Oceans,Regions,SubRegions,Sampling Method,Measurement,Unit,Density Range,Density Class,Short Reference,Long Reference,DOI,Organization,Keywords,Accession Number,Accession Link,Latitude,Longitude,Date,GlobalID,x,y
9198,19864,,,,Hand picking,,pieces/10 mins,40-200,High,Tunnell et al. 2020,"Tunnell, Jace W.; Dunning, Kelly H.; Scheef, L...",https://doi.org/10.1016/j.marpolbul.2019.110794,University of Texas Marine Science Institute,Nurdle Patrol,259486,https://www.ncei.noaa.gov/access/metadata/land...,43.0544,-78.9004,8/8/2021 12:00:00 AM,2219b0dc-6699-4acf-aaa9-bbb338cb85e4,-78.9004,43.0544
5518,16266,Atlantic Ocean,Gulf of Mexico,,Hand picking,,pieces/10 mins,2-40,Medium,Tunnell et al. 2020,"Tunnell, Jace W.; Dunning, Kelly H.; Scheef, L...",https://doi.org/10.1016/j.marpolbul.2019.110794,University of Texas Marine Science Institute,Nurdle Patrol,259486,https://www.ncei.noaa.gov/access/metadata/land...,30.3062,-89.3276,5/3/2019 12:00:00 AM,134b6a0d-b979-4ccf-9bac-88a30c5da7a0,-89.3276,30.3062
552,6874,Pacific Ocean,,,Neuston net,0.0,pieces/m3,0-0.0005,Very Low,Law et al.2014,"Law, K.L, S.K. Morét-Ferguson, D.S. Goodwin, E...",https://doi.org/10.1021/es4053076,Sea Education Association,SEA,211008,https://www.ncei.noaa.gov/access/metadata/land...,23.65,-149.74,2/16/2005 12:00:00 AM,97d8e70c-313a-4052-a77f-6bc82573552c,-149.74,23.65
16250,11699,Pacific Ocean,,,Neuston net,5.67537,pieces/m3,1-10,High,Eriksen et al.2014,"Eriksen, M., L.C.M. Lebreton, H.S. Carson, M. ...",https://doi.org/10.1371/journal.pone.0111913,5 Gyres Institute,SV Mir; ORV Alguita; SV Sea Dragon; RV Stad Am...,275968,https://www.ncei.noaa.gov/access/metadata/land...,36.0135,-140.1468,9/27/2009 12:00:00 AM,8f47431b-ac05-4190-82f6-8f1977e4247d,-140.1468,36.0135
10148,6345,Pacific Ocean,,,Neuston net,0.0,pieces/m3,0-0.0005,Very Low,Law et al.2014,"Law, K.L, S.K. Morét-Ferguson, D.S. Goodwin, E...",https://doi.org/10.1021/es4053076,Sea Education Association,SEA,211008,https://www.ncei.noaa.gov/access/metadata/land...,53.07,-133.66,7/6/2002 12:00:00 AM,adb83574-34d8-45bd-8d4f-4fa3bf3dff02,-133.66,53.07


In [None]:
# Función para conocer nulos y duplicados en un informe. Next step--> ETL

def nulos_duplicados(df_mp):
    # Cálculo del porcentaje de nulos
    porcentaje_nulos = df_mp.isna().sum() / df_mp.shape[0] * 100
    
    # Verificación de duplicados
    duplicados = df_mp.duplicated().sum()
    if duplicados == 0:
        mensaje_duplicados = "No hay duplicados"
    else:
        mensaje_duplicados = f"Hay {duplicados} duplicados"
    
    # Creación de un reporte bonito y visual
    reporte = f"""
    ===================== Informe de Datos =====================
    
    Porcentaje de Nulos por Columna:
    ------------------------------------------------------------
    {porcentaje_nulos.to_string()}
    
    ------------------------------------------------------------
    Duplicados:
    ------------------------------------------------------------
    {mensaje_duplicados}
    
    ============================================================
    """
    
    # Imprimir directamente el reporte
    print(reporte)

# Ejemplo de uso
# df_mp = pd.DataFrame(...)

# Llamar directamente a la función
nulos_duplicados(df_mp)



    
    Porcentaje de Nulos por Columna:
    ------------------------------------------------------------
    OBJECTID             0.000000
Oceans               0.000000
Regions              0.000000
SubRegions          93.600979
Sampling Method      0.000000
Measurement         28.455324
Unit                 0.000000
Density Range        0.000000
Density Class        0.000000
Short Reference      0.000000
Long Reference       0.000000
DOI                  0.000000
Organization         0.000000
Keywords             0.088127
Accession Number     0.000000
Accession Link       0.000000
Latitude             0.000000
Longitude            0.000000
Date                 0.000000
GlobalID             0.000000
x                    0.000000
y                    0.000000
    
    ------------------------------------------------------------
    Duplicados:
    ------------------------------------------------------------
    No hay duplicados
    
    


### Gestión de duplicados y nulos ✏️

In [None]:
# Gestión de duplicados: No procede. No hay duplicados

In [None]:
# Gestión de nulos:

In [None]:
#Comprobación de nulos para la columna 'Oceans' de un dataframe:
print(f"Número de puntos con 'Oceans' nulo: {df_mp['Oceans'].isna().sum()}")

In [None]:
#Conocer las columnas de mi capa .shp que suaremos en shapely
print(ocean_shapes.columns)

In [None]:
import geopandas as gpd
from shapely.geometry import Point

# Primero, seleccionamos los puntos que son nulos, en nuestra columna "Oceans"
df_nulos = df_mp[df_mp['Oceans'].isna()].copy()

# Creamos una geometría, con ayuda de nuestras columnas Lon y Lat (donde no hay nulos)
df_nulos['geometry'] = df_nulos.apply(lambda row: Point(row['Longitude'], row['Latitude']), axis=1)

# Creamos el "GeoDataFrame" para puntos nulos
gdf_nulos = gpd.GeoDataFrame(df_nulos, geometry='geometry', crs="EPSG:4326")

# Cargamos un archivo shapefile, una capa con información sobre los oceanos
# Este shapefle tiene esta info:
#'name', 'latitude', 'longitude', 'min_Y', 'min_X', 'max_Y', 'max_X','area_km2', 'geometry'
ocean_shapes = gpd.read_file("../../Archivos/goas_v01.shp")

# Realizamos la unión espacial más cercana con sjoin.nearest:
gdf_nulos_nearest = gpd.sjoin_nearest(gdf_nulos, ocean_shapes, how='left', distance_col='dist')

# Asignamos el nombre correcto de los océanos a la columna 'Oceans' que tiene relación con la unión.
gdf_nulos_nearest['Oceans'] = gdf_nulos_nearest['name']  

# Ahora actualizamos el DataFrame original 'df' con los valores de 'Oceans'
df_mp.loc[gdf_nulos_nearest.index, 'Oceans'] = gdf_nulos_nearest['Oceans']

# Volvemos a comprobar los puntos con oceano nulo, en 'Oceans:
print(f"Número de puntos con 'Oceans' nulo: {df_mp['Oceans'].isna().sum()}")


In [None]:
#Conocer las columnas de mi capa .shp
print(ocean_shapes.columns)

In [None]:
#comprobación de que la herramienta de geopandas, ha funcionado. Este océano ha sido "generado"
df_mp[df_mp['OBJECTID'] == 19864]

In [None]:
# Comprobamos los valores únicos para 'Oceans'
df_mp['Oceans'].unique()

In [None]:
# Cómo tienen mayor detalle geográfico del esperado, convertimos el resultado para obtener una región más amplia y acorde a los datos
df_mp=df_mp.replace("North Atlantic Ocean", "Atlantic Ocean")
df_mp=df_mp.replace("North Pacific Ocean","Pacific Ocean")

In [None]:
# Volvemos a comprobar los valores únicos para 'Oceans'
df_mp['Oceans'].unique()

In [None]:
#HACEMOS LO MISMO PARA REGIONES:

# Seleccionar solo los puntos nulos en 'Oceans'
df_nulos = df_mp[df_mp['Regions'].isna()].copy()

# Crear geometría a partir de latitud y longitud
df_nulos['geometry'] = df_nulos.apply(lambda row: Point(row['Longitude'], row['Latitude']), axis=1)

# Crear el GeoDataFrame para puntos nulos
gdf_nulos = gpd.GeoDataFrame(df_nulos, geometry='geometry', crs="EPSG:4326")

# Cargar el shapefile con las formas de los océanos
ocean_shapes = gpd.read_file("../../Archivos/goas_v01.shp")

# Realizar la unión espacial más cercana (nearest)
gdf_nulos_nearest = gpd.sjoin_nearest(gdf_nulos, ocean_shapes, how='left', distance_col='dist')

# Asignar el nombre correcto de los océanos a la columna 'Oceans'
gdf_nulos_nearest['Regions'] = gdf_nulos_nearest['name']  # o el nombre correcto de la columna en ocean_shapes

# Ahora actualizamos el DataFrame original 'df' con los valores de 'Oceans'
df_mp.loc[gdf_nulos_nearest.index, 'Regions'] = gdf_nulos_nearest['Regions']

# Imprimir el número de valores nulos en la columna 'Oceans'
print(f"Número de puntos con océano nulo: {df_mp['Regions'].isna().sum()}")

In [None]:
# Comprobaciones varias:
df_mp["Unit"].unique()

array(['pieces/m3', 'pieces kg-1 d.w.', 'pieces/10 mins'], dtype=object)

In [None]:
# Comprobaciones varias:
# saber a que método corresponden las medidas
# Tabla de contingencia entre Métodos y Unidades de Medida
contingencia = pd.crosstab(df_mp['Sampling Method'], df_mp['Unit'], margins=True)
display(contingencia)

Unit,pieces kg-1 d.w.,pieces/10 mins,pieces/m3,All
Sampling Method,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AVANI net,0,0,18,18
Aluminum bucket,0,0,57,57
CTD rosette sampler,0,0,36,36
Day grab,17,0,0,17
Grab sample,0,0,1181,1181
Hand picking,0,5812,18,5830
Intake seawater pump,0,0,181,181
Manta net,0,0,2342,2342
Megacorer,90,0,0,90
Metal spoon,76,0,0,76


In [None]:
# Se puede observar, que excepto "hand picking" las demás tienen una unidad definida.

#Como tenemos nulos en measurement, no en unit.

In [None]:
# Comprobaciones varias:

df_mp.groupby("Sampling Method")["Measurement"].apply(lambda x: x.isnull().sum())
# Podemos ver que todos los nulos son de Hand picking, "recogido a mano"--> No relevante --> No imputación

Sampling Method
AVANI net                       0
Aluminum bucket                 0
CTD rosette sampler             0
Day grab                        0
Grab sample                     0
Hand picking                 5812
Intake seawater pump            0
Manta net                       0
Megacorer                       0
Metal spoon                     0
Neuston net                     0
PVC cylinder                    0
Petite Ponar benthic grab       0
Plankton net                    0
Remotely operated vehicle       0
Shipek grab sampler             0
Stainless steel spoon           0
Van Dorn sampler                0
Van Veen grab sampler           0
Name: Measurement, dtype: int64

### Transformaciones 💻

In [None]:
# Transformaciones:

In [None]:
# En la columna Density range, tengo un rango. Quedarme con el valor central, para próximos cálculos. Pero sin eliminar la columna original

In [None]:
df_mp["Density Range"].unique()

array(['0.005-1', '0-0.0005', '>=10', '0.0005-0.005', '1-10', '0-2', '0',
       '2-40', '40-200', '500-30000', '0-100', '1-2', '2-20', '>200',
       '20-150', '>40000', '150-200', '30000-40000'], dtype=object)

In [None]:
# Función para eliminar el símbolo '>= y >'
def eliminar_menor_igual(rango):
    return rango.replace('>=','').replace('>','').strip()

# Aplicamos la función para eliminar '>=' de la columna 'Density Range'
df_mp['Density Range'] = df_mp['Density Range'].apply(eliminar_menor_igual)

In [None]:
df_mp["Density Range"].unique()

array(['0.005-1', '0-0.0005', '10', '0.0005-0.005', '1-10', '0-2', '0',
       '2-40', '40-200', '500-30000', '0-100', '1-2', '2-20', '200',
       '20-150', '40000', '150-200', '30000-40000'], dtype=object)

In [None]:
# Función para extraer los valores numéricos y calcular el valor central
def calcular_densidad_central(rango):
    # Si el valor es solo un número
    if '-' not in rango:  # Caso cuando no hay guion, es un solo número
        return float(rango.strip())
    
    # Si el valor es un rango (con '-')
    else:
        # Extraemos los valores del rango y calculamos el promedio
        min_val, max_val = map(float, rango.replace(' ', '').split('-'))  # Convertimos los valores en float
        return (min_val + max_val) / 2  # Calculamos el promedio del rango

# Aplicamos la función a la columna 'Density Range' y creamos la nueva columna 'Density_Center'
df_mp['Density_Center'] = df_mp['Density Range'].apply(calcular_densidad_central)


In [None]:
# Comprobaciones: Agrupar por 'Oceans' y obtener las regiones únicas para cada océano
oceans_regions = df_mp.groupby('Oceans')['Regions'].unique()

# Mostrar el resultado
print(oceans_regions)


Oceans
Arctic Ocean      [nan, norwegian sea, northwestern passages, be...
Atlantic Ocean    [nan, caribbean sea, mediterranean sea, north ...
Indian Ocean                     [nan, mozambique channel, red sea]
Pacific Ocean     [nan, gulf of california, coastal waters of so...
Name: Regions, dtype: object


In [None]:
# Agrupar por 'Oceans' y contar las ocurrencias de cada 'Regions'
oceans_regions_count = df_mp.groupby('Oceans')['Regions'].value_counts()

# Encontrar la región más frecuente en cada océano
most_frequent_region = oceans_regions_count.groupby('Oceans').idxmax()

# Contar la frecuencia de la región más frecuente
most_frequent_count = oceans_regions_count.groupby('Oceans').max()

# Calcular el total de registros por océano
total_by_ocean = df_mp.groupby('Oceans').size()

# Calcular el porcentaje de la región más frecuente dentro de cada océano
percentage_most_frequent = (most_frequent_count / total_by_ocean) * 100

# Crear un DataFrame con la región más frecuente y su porcentaje
result = pd.DataFrame({
    'Most Frequent Region': most_frequent_region,
    'Frequency': most_frequent_count,
    'Percentage': percentage_most_frequent
})

# Mostrar el resultado
print(result)


                               Most Frequent Region  Frequency  Percentage
Oceans                                                                    
Arctic Ocean          (Arctic Ocean, greenland sea)         35   19.662921
Atlantic Ocean     (Atlantic Ocean, gulf of mexico)       4817   31.083436
Indian Ocean     (Indian Ocean, mozambique channel)          3   15.000000
Pacific Ocean   (Pacific Ocean, gulf of california)        116    2.452431


In [None]:
# Guardar csv filtrado

# df_mp.to_csv('../../Archivos/Marine_Microplastics_POWERBI.csv', index=False)