# **Registro de la Flota Pesquera Española: Características y Distribución**

## **1. Descripción del dataset.**
* ¿Por qué es importante y qué pregunta/problema pretende responder?
* Resume brevemente las variables que lo forman y su tamaño.


In [5]:
import pandas as pd
import numpy as np
import re

In [6]:
data = pd.read_csv("./data/datos_buques_ESP.csv")

In [7]:
# Número de registros
len(data)

27364

In [8]:
# Variables
print(f"Columnas: {data.columns.tolist()}")

Columnas: ['CFR', 'Nombre', 'IMO', 'IRCS', 'Matrícula', 'Alta en RGFP', 'Estado', 'Eslora total', 'Arqueo GT', 'Potencia', 'Material del casco', 'Puerto base', 'Administración responsable del Registro', 'Censo por modalidad', 'Capacidad del buque no aportable por:', 'Tipo de auxiliar']


Este conjunto de datos recoge información técnica y administrativa de los buques registrados en el Registro de la Flota Pesquera Española, a partir de identificadores únicos (CFR) extraídos del registro europeo. Cada buque está identificado de forma unívoca, lo que garantiza la trazabilidad y evita duplicidades.  

Los datos cubren un período comprendido entre el 31 de diciembre de 1987 y el 25 de marzo de 2025, lo que permite realizar un análisis detallado y evolutivo de la flota pesquera española durante casi cuatro décadas. Esta información es fundamental para comprender la composición, características técnicas, distribución geográfica y evolución operativa de la flota.  

Nota: Con el fin de evitar redundancias con respecto a la práctica anterior, en la que ya se aplicó una preselección de los datos, se ha integrado el contenido del apartado 2 en este primer punto. En dicha práctica se filtraron los registros para incluir únicamente los buques españoles con código CFR válido, lo que constituye la base del conjunto de datos actual.  

Para el análisis se ha realizado una selección de las variables más relevantes, en función de los objetivos planteados: analizar la estructura de la flota, identificar patrones de distribución por regiones y modalidades de pesca, y detectar posibles tendencias históricas en la baja o modernización de buques.  

Las variables incluidas en el conjunto de datos son las siguientes:  

- CFR: Código de Referencia Comunitario (identificador único del buque).
- Nombre: Nombre registrado del buque.
- IMO: Número de identificación internacional del buque (si aplica).
- IRCS: Código de llamada internacional (señal de radio).
- Matrícula: Código de identificación nacional del buque.
- Alta en RGFP: Fecha de alta en el Registro General de la Flota Pesquera.
- Estado: Situación administrativa (activo, baja definitiva, etc.).
- Eslora total: Longitud total en metros.
- Arqueo GT: Arqueo bruto (volumen interior).
- Potencia: Potencia del motor en kilovatios (y caballos de vapor entre paréntesis).
- Material del casco: Tipo de material constructivo (ej. madera, acero).
- Puerto base: Localidad y provincia de registro.
- Administración responsable del Registro: Organismo responsable del registro.
- Censo por modalidad: Tipo de arte o modalidad de pesca asignada (ej. cerco, palangre).
- Capacidad del buque no aportable por: Campo que indica si hay datos no disponibles.
- Tipo de auxiliar: Especifica si el buque es auxiliar y su tipo.


La selección de este subconjunto está justificada por su relevancia directa para los objetivos del análisis y por la calidad y disponibilidad de los datos. Estas variables permiten realizar distintos tipos de análisis: técnicos, geográficos, históricos o funcionales.  

A continuación, se presentará una muestra y resumen estadístico de los datos seleccionados, que facilitará una visión general de las variables, sus rangos y su tipología.


In [9]:
data.head()

Unnamed: 0,CFR,Nombre,IMO,IRCS,Matrícula,Alta en RGFP,Estado,Eslora total,Arqueo GT,Potencia,Material del casco,Puerto base,Administración responsable del Registro,Censo por modalidad,Capacidad del buque no aportable por:,Tipo de auxiliar
0,ESP000000001,ARGOÑOS,-,EA7682,3ST-4-2467,10/05/1989,Baja Definitiva (desde el 02/12/1998),"0,00 m",5270,"202,26 kW (275,0 CV)",Madera,"21250 - Vicedo, LUGO (GALICIA)",Secretaría General de Pesca,CERCO EN CANTABRICO NW,,
1,ESP000000002,MARIA INSOLINA,-,EB6932,3ST-4-2181,10/05/1989,Baja Definitiva (desde el 30/06/1990),"10,75 m",0,"35,30 kW (48,0 CV)",Madera,"13400 - Santander, CANTABRIA",Secretaría General de Pesca,ARTES MENORES EN CANTABRICO NW,,
2,ESP000000003,MOWINKEL II,-,-,3ST-4-2500,10/05/1989,Baja Definitiva (desde el 16/02/2005),"11,25 m",676,"44,13 kW (60,0 CV)",Madera,43100 - Ceuta,Secretaría General de Pesca,PALANGRE DE FONDO EN CANTABRICO NW,,
3,ESP000000004,JULIA NUMERO TRES,-,-,3ST-4-2281,10/05/1989,Baja Definitiva (desde el 26/08/1994),"0,00 m",0,"44,13 kW (60,0 CV)",Madera,"13400 - Santander, CANTABRIA",Secretaría General de Pesca,VOLANTA EN CANTABRICO NW,,
4,ESP000000005,SIEMPRE HERMANOS EZQUIAGA,-,EA6583,3ST-4-2540,10/05/1989,Baja Definitiva (desde el 15/11/2006),"19,60 m",4000,"169,16 kW (230,0 CV)",Madera,"12200 - Bermeo, BIZKAIA (PAÍS VASCO)",Secretaría General de Pesca,ARTES MENORES EN CANTABRICO NW,,


Este análisis está diseñado para responder a preguntas como:    

- ¿Cómo ha evolucionado la flota pesquera española en términos de tamaño, potencia o composición desde los años 80 hasta hoy?  
- ¿Qué regiones o puertos concentran mayor actividad pesquera y con qué características técnicas?  
- ¿Cuáles son las modalidades de pesca más representativas y cómo han cambiado en el tiempo?  
- ¿Existen patrones asociados a la baja de buques según sus características (tamaño, antigüedad, material, etc.)?  

El estudio es de gran utilidad tanto para investigadores como para responsables de políticas públicas, ya que permite identificar tendencias, evaluar la sostenibilidad del esfuerzo pesquero y orientar decisiones en materia de ordenación y modernización del sector.


In [10]:
# Tipo de dato
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27364 entries, 0 to 27363
Data columns (total 16 columns):
 #   Column                                   Non-Null Count  Dtype 
---  ------                                   --------------  ----- 
 0   CFR                                      27364 non-null  object
 1   Nombre                                   27364 non-null  object
 2   IMO                                      27364 non-null  object
 3   IRCS                                     27364 non-null  object
 4   Matrícula                                27364 non-null  object
 5   Alta en RGFP                             27364 non-null  object
 6   Estado                                   27364 non-null  object
 7   Eslora total                             27364 non-null  object
 8   Arqueo GT                                27364 non-null  object
 9   Potencia                                 27364 non-null  object
 10  Material del casco                       27364 non-null  o

In [11]:
# Transformaciones y limpieza

# variables numéricas
data["Eslora total"] = data["Eslora total"].str.replace(",", ".").str.replace("m", "").astype(float)
data["Potencia (Kw)"] = data["Potencia"].str.split("kW").str[0].str.replace(",", ".").astype(float)
data["Arqueo GT"] = data["Arqueo GT"].str.replace(",", ".").astype(float)


In [12]:
# Variables tipo texto
# Material del casco
print(f"Tipos de material de casco: \n{data["Material del casco"].unique()}")

data["Material del casco"] = data["Material del casco"].str.replace("-", "Otros")

# Estado
data["Fecha de baja"] = data["Estado"].str.split("desde").str.get(1)
data["Estado"] = data["Estado"].str.split(" ").str.get(0)

data["Fecha de baja"] = np.where(data["Estado"] == "Alta", np.nan, data["Fecha de baja"])
print(f"Tipos estado: \n{data["Estado"].unique()}")

Tipos de material de casco: 
['Madera' 'Acero' 'Poliester' 'Madera forrada de Fibra'
 'Fibra de Vidrio/Plástico' '-' 'Otros' 'Aluminio']
Tipos estado: 
['Baja' 'Alta']


In [13]:
# Reemplazar "-" por NaN
data[["IMO", "IRCS", "Matrícula"]] = np.where(data[["IMO", "IRCS", "Matrícula"]] == "-", np.nan, data[["IMO", "IRCS", "Matrícula"]])

In [14]:
# Variables fecha
data["Alta en RGFP"] = pd.to_datetime(data["Alta en RGFP"], format= "%d/%m/%Y")

data["Fecha de baja"] = pd.to_datetime(data["Fecha de baja"].str.replace("el", "").str.replace(")", "").str.strip(), format= "%d/%m/%Y")

In [15]:
# Descripción de variables numéricas
data.describe()


# ESLORA Y ARQUEO = 0 KNN INPUTER

Unnamed: 0,Alta en RGFP,Eslora total,Arqueo GT,Potencia (Kw),Fecha de baja
count,27364,27364.0,27364.0,27364.0,19588
mean,1992-08-03 16:37:19.672562432,10.647576,40.236617,106.877588,2004-04-18 22:36:16.026138368
min,1987-12-31 00:00:00,0.0,0.0,0.0,1989-05-10 00:00:00
25%,1989-05-10 00:00:00,5.0,0.6875,8.83,1997-11-14 00:00:00
50%,1989-05-10 00:00:00,7.01,1.69,22.06,2002-12-19 00:00:00
75%,1992-06-29 00:00:00,13.0,11.015,94.14,2008-07-22 00:00:00
max,2025-03-25 00:00:00,116.0,4406.0,5851.63,2025-04-02 00:00:00
std,,10.067274,172.728886,262.638532,


In [16]:
# Eliminar variables que no aportan información relevante
data = data.drop(columns= ["Potencia", "Administración responsable del Registro", "Tipo de auxiliar", "Capacidad del buque no aportable por:"])

In [17]:
# Visualización tras la limpieza
data.head()

Unnamed: 0,CFR,Nombre,IMO,IRCS,Matrícula,Alta en RGFP,Estado,Eslora total,Arqueo GT,Material del casco,Puerto base,Censo por modalidad,Potencia (Kw),Fecha de baja
0,ESP000000001,ARGOÑOS,,EA7682,3ST-4-2467,1989-05-10,Baja,0.0,52.7,Madera,"21250 - Vicedo, LUGO (GALICIA)",CERCO EN CANTABRICO NW,202.26,1998-12-02
1,ESP000000002,MARIA INSOLINA,,EB6932,3ST-4-2181,1989-05-10,Baja,10.75,0.0,Madera,"13400 - Santander, CANTABRIA",ARTES MENORES EN CANTABRICO NW,35.3,1990-06-30
2,ESP000000003,MOWINKEL II,,,3ST-4-2500,1989-05-10,Baja,11.25,6.76,Madera,43100 - Ceuta,PALANGRE DE FONDO EN CANTABRICO NW,44.13,2005-02-16
3,ESP000000004,JULIA NUMERO TRES,,,3ST-4-2281,1989-05-10,Baja,0.0,0.0,Madera,"13400 - Santander, CANTABRIA",VOLANTA EN CANTABRICO NW,44.13,1994-08-26
4,ESP000000005,SIEMPRE HERMANOS EZQUIAGA,,EA6583,3ST-4-2540,1989-05-10,Baja,19.6,40.0,Madera,"12200 - Bermeo, BIZKAIA (PAÍS VASCO)",ARTES MENORES EN CANTABRICO NW,169.16,2006-11-15


In [18]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27364 entries, 0 to 27363
Data columns (total 14 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   CFR                  27364 non-null  object        
 1   Nombre               27364 non-null  object        
 2   IMO                  1097 non-null   object        
 3   IRCS                 6869 non-null   object        
 4   Matrícula            27364 non-null  object        
 5   Alta en RGFP         27364 non-null  datetime64[ns]
 6   Estado               27364 non-null  object        
 7   Eslora total         27364 non-null  float64       
 8   Arqueo GT            27364 non-null  float64       
 9   Material del casco   27364 non-null  object        
 10  Puerto base          27364 non-null  object        
 11  Censo por modalidad  27363 non-null  object        
 12  Potencia (Kw)        27364 non-null  float64       
 13  Fecha de baja        19588 non-

Las columnas 'Puerto base' y 'Censo por modalidad' contenían información valiosa pero no estructurada, lo que dificultaba su análisis y procesamiento.

En 'Puerto base', varios datos (código postal, puerto, provincia y comunidad autónoma) estaban combinados en una sola cadena. Esto impedía realizar análisis geográficos detallados o agrupar los registros por nivel administrativo. Separar estos elementos en columnas individuales permitió normalizar la información y facilitar operaciones como filtrado, agrupación o visualización por comunidad o provincia.

En 'Censo por modalidad', cada valor combinaba el tipo de arte de pesca con la zona de actividad, sin un formato homogéneo. Clasificar estos censos en categorías estandarizadas como "Arrastre", "Palangre", "Cerco", etc., permitió agrupar modalidades distintas bajo criterios comunes, simplificando el análisis técnico y operativo de la flota.

Ambas limpiezas fueron necesarias para convertir un texto desestructurado en un conjunto de datos relacional, facilitando el análisis.

In [19]:
provincias = [
    'A Coruña', 'Álava', 'Albacete', 'Alicante', 'Almería', 'Asturias', 'Ávila', 'Badajoz',
    'Barcelona', 'Burgos', 'Bizkaia', 'Cáceres', 'Cádiz', 'Cantabria', 'Castellón',
    'Ciudad Real', 'Córdoba', 'Cuenca', 'Girona', 'Granada', 'Guadalajara',
    'Gipuzkoa', 'Huelva', 'Huesca', 'Illes balears', 'Jaén', 'La Coruña',
    'La Rioja', 'Las Palmas', 'León', 'Lérida', 'Lugo', 'Madrid', 'Málaga',
    'Murcia', 'Navarra', 'Orense', 'Palencia', 'Pontevedra', 'Salamanca',
    'Santa Cruz de Tenerife', 'Segovia', 'Sevilla', 'Soria', 'Tarragona',
    'Teruel', 'Toledo', 'Valencia', 'Valladolid', 'Vizcaya', 'Zamora', 'Zaragoza',
    'Ceuta', 'Melilla'
]

comunidades_autonomas = [
    'Andalucía', 'Aragón', 'Asturias', 'Illes balears', 'Canarias', 'Cantabria',
    'Castilla-La Mancha', 'Castilla y León', 'Cataluña', 'Comunitat Valenciana',
    'Extremadura', 'Galicia', 'Madrid', 'Murcia', 'Navarra', 'La Rioja',
    'País Vasco', 'Ceuta', 'Melilla'
]


In [20]:
# Función para extraer la información
def extraer_info(puerto_base):
    codigo_postal = None
    puerto = None
    provincia = None
    comunidad = None

    if pd.isna(puerto_base):
        return pd.Series([codigo_postal, puerto, provincia, comunidad])

    # Extraer código postal (primeros 5 dígitos)
    match_cp = re.match(r'(\d{5})\s*-\s*(.*)', puerto_base)
    if match_cp:
        codigo_postal = match_cp.group(1)
        resto = match_cp.group(2).strip()
    else:
        resto = puerto_base.strip()

    # Buscar comunidad y provincia
    comunidad = next((c for c in comunidades_autonomas if c.upper() in resto.upper()), None)
    provincia = next((p for p in provincias if p.upper() in resto.upper()), None)

    # Eliminar contenido entre paréntesis
    resto = re.sub(r'\s*\(.*?\)', '', resto).strip()

    # Extraer el nombre del puerto (antes de la coma, si hay)
    if ',' in resto:
        puerto = resto.split(',')[0].strip()
    else:
        puerto = resto.strip()

    # Casos especiales como Ceuta, Melilla (son ciudad, provincia y CCAA al mismo tiempo)
    if provincia in ['Ceuta', 'Melilla']:
        comunidad = None
        puerto = provincia

    # Si no se encontró provincia pero sí comunidad que coincide con una provincia (ej: Cantabria)
    if not provincia and comunidad in provincias:
        provincia = comunidad

    return pd.Series([codigo_postal, puerto, provincia, comunidad])


In [21]:
data[['Código Postal', 'Puerto', 'Provincia', 'Comunidad Autónoma']] = data['Puerto base'].apply(extraer_info)

In [22]:
def clasificar_arte(censo):
    if pd.isna(censo) or censo.strip() == '-':
        return 'Desconocido'
    censo = censo.upper()
    if 'ARRASTRE' in censo or 'ARRASTREROS' in censo or 'BACALADEROS' in censo:
        return 'Arrastre'
    elif 'CERCO' in censo or 'CERQUEROS' in censo:
        return 'Cerco'
    elif 'PALANGRE' in censo:
        return 'Palangre'
    elif 'ARTES MENORES' in censo:
        return 'Artes menores'
    elif 'ARTES FIJAS' in censo or 'VOLANTA' in censo or 'RASCO' in censo:
        return 'Artes fijas'
    elif 'CAÑEROS' in censo:
        return 'Cañeros'
    else:
        return 'Otros'


In [23]:
data['Tipo de Arte'] = data['Censo por modalidad'].apply(clasificar_arte)

In [24]:
data

Unnamed: 0,CFR,Nombre,IMO,IRCS,Matrícula,Alta en RGFP,Estado,Eslora total,Arqueo GT,Material del casco,Puerto base,Censo por modalidad,Potencia (Kw),Fecha de baja,Código Postal,Puerto,Provincia,Comunidad Autónoma,Tipo de Arte
0,ESP000000001,ARGOÑOS,,EA7682,3ST-4-2467,1989-05-10,Baja,0.00,52.70,Madera,"21250 - Vicedo, LUGO (GALICIA)",CERCO EN CANTABRICO NW,202.26,1998-12-02,21250,Vicedo,Lugo,Galicia,Cerco
1,ESP000000002,MARIA INSOLINA,,EB6932,3ST-4-2181,1989-05-10,Baja,10.75,0.00,Madera,"13400 - Santander, CANTABRIA",ARTES MENORES EN CANTABRICO NW,35.30,1990-06-30,13400,Santander,Cantabria,Cantabria,Artes menores
2,ESP000000003,MOWINKEL II,,,3ST-4-2500,1989-05-10,Baja,11.25,6.76,Madera,43100 - Ceuta,PALANGRE DE FONDO EN CANTABRICO NW,44.13,2005-02-16,43100,Ceuta,Ceuta,,Palangre
3,ESP000000004,JULIA NUMERO TRES,,,3ST-4-2281,1989-05-10,Baja,0.00,0.00,Madera,"13400 - Santander, CANTABRIA",VOLANTA EN CANTABRICO NW,44.13,1994-08-26,13400,Santander,Cantabria,Cantabria,Artes fijas
4,ESP000000005,SIEMPRE HERMANOS EZQUIAGA,,EA6583,3ST-4-2540,1989-05-10,Baja,19.60,40.00,Madera,"12200 - Bermeo, BIZKAIA (PAÍS VASCO)",ARTES MENORES EN CANTABRICO NW,169.16,2006-11-15,12200,Bermeo,Bizkaia,País Vasco,Artes menores
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
27359,GBR000C20512,LODAIRO,9690676,EAEO,3VI-5-1-18,2018-10-16,Alta,86.10,4290.00,Acero,"24500 - Vigo, PONTEVEDRA (GALICIA)",BACALADEROS,4000.00,NaT,24500,Vigo,Pontevedra,Galicia,Arrastre
27360,IRL000I14607,ALANNAH RILEY,9782390,EAFC,3VI-5-3-20,2021-04-22,Baja,28.62,374.00,Acero,"24500 - Vigo, PONTEVEDRA (GALICIA)","ARRASTRE DE FONDO EN ZONAS CIEM VB, VI,VII y V...",709.00,2024-09-18,24500,Vigo,Pontevedra,Galicia,Arrastre
27361,PRT000019293,JOSE Y RAFAELA,8794657,EAVD,3CP-2-1-17,2017-08-30,Alta,29.46,167.00,Acero,"52200 - Santa Pola, ALICANTE/ALACANT (COMUNITA...",ARTES MENORES EN EL MEDITERRANEO,415.56,NaT,52200,Santa Pola,Alicante,Comunitat Valenciana,Artes menores
27362,PRT000020349,BRESO UNO,9193393,EADQ,3VI-5-2-16,2016-11-21,Alta,23.00,131.00,Acero,"21220 - Burela, LUGO (GALICIA)","ARTES FIJAS EN ZONAS CIEM VB, VI,VII y VIIIabde.",261.03,NaT,21220,Burela,Lugo,Galicia,Artes fijas


In [25]:
# Guardar el dataframe resultante
data.to_csv("./data/data_clean.csv", index= False)