In [1]:
import pandas as pd
import numpy as np

In [2]:
data = pd.read_csv("./data/datos_buques_ESP.csv")

In [3]:
# Número de registros
len(data)

27364

In [4]:
# Variables
print(f"Columnas: {[col for col in data.columns]}")

Columnas: ['CFR', 'Nombre', 'IMO', 'IRCS', 'Matrícula', 'Alta en RGFP', 'Estado', 'Eslora total', 'Arqueo GT', 'Potencia', 'Material del casco', 'Puerto base', 'Administración responsable del Registro', 'Censo por modalidad', 'Capacidad del buque no aportable por:', 'Tipo de auxiliar']


In [5]:
data.head()

Unnamed: 0,CFR,Nombre,IMO,IRCS,Matrícula,Alta en RGFP,Estado,Eslora total,Arqueo GT,Potencia,Material del casco,Puerto base,Administración responsable del Registro,Censo por modalidad,Capacidad del buque no aportable por:,Tipo de auxiliar
0,ESP000000001,ARGOÑOS,-,EA7682,3ST-4-2467,10/05/1989,Baja Definitiva (desde el 02/12/1998),"0,00 m",5270,"202,26 kW (275,0 CV)",Madera,"21250 - Vicedo, LUGO (GALICIA)",Secretaría General de Pesca,CERCO EN CANTABRICO NW,,
1,ESP000000002,MARIA INSOLINA,-,EB6932,3ST-4-2181,10/05/1989,Baja Definitiva (desde el 30/06/1990),"10,75 m",0,"35,30 kW (48,0 CV)",Madera,"13400 - Santander, CANTABRIA",Secretaría General de Pesca,ARTES MENORES EN CANTABRICO NW,,
2,ESP000000003,MOWINKEL II,-,-,3ST-4-2500,10/05/1989,Baja Definitiva (desde el 16/02/2005),"11,25 m",676,"44,13 kW (60,0 CV)",Madera,43100 - Ceuta,Secretaría General de Pesca,PALANGRE DE FONDO EN CANTABRICO NW,,
3,ESP000000004,JULIA NUMERO TRES,-,-,3ST-4-2281,10/05/1989,Baja Definitiva (desde el 26/08/1994),"0,00 m",0,"44,13 kW (60,0 CV)",Madera,"13400 - Santander, CANTABRIA",Secretaría General de Pesca,VOLANTA EN CANTABRICO NW,,
4,ESP000000005,SIEMPRE HERMANOS EZQUIAGA,-,EA6583,3ST-4-2540,10/05/1989,Baja Definitiva (desde el 15/11/2006),"19,60 m",4000,"169,16 kW (230,0 CV)",Madera,"12200 - Bermeo, BIZKAIA (PAÍS VASCO)",Secretaría General de Pesca,ARTES MENORES EN CANTABRICO NW,,


In [6]:
# Tipo de dato
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27364 entries, 0 to 27363
Data columns (total 16 columns):
 #   Column                                   Non-Null Count  Dtype 
---  ------                                   --------------  ----- 
 0   CFR                                      27364 non-null  object
 1   Nombre                                   27364 non-null  object
 2   IMO                                      27364 non-null  object
 3   IRCS                                     27364 non-null  object
 4   Matrícula                                27364 non-null  object
 5   Alta en RGFP                             27364 non-null  object
 6   Estado                                   27364 non-null  object
 7   Eslora total                             27364 non-null  object
 8   Arqueo GT                                27364 non-null  object
 9   Potencia                                 27364 non-null  object
 10  Material del casco                       27364 non-null  o

In [7]:
# Transformaciones y limpieza

# variables numéricas
data["Eslora total"] = data["Eslora total"].str.replace(",", ".").str.replace("m", "").astype(float)
data["Potencia (Kw)"] = data["Potencia"].str.split("kW").str[0].str.replace(",", ".").astype(float)
data["Arqueo GT"] = data["Arqueo GT"].str.replace(",", ".").astype(float)


In [8]:
# Variables tipo texto
# Material del casco
print(f"Tipos de material de casco: \n{data["Material del casco"].unique()}")

data["Material del casco"] = data["Material del casco"].str.replace("-", "Otros")

# Estado
data["Fecha de baja"] = data["Estado"].str.split("desde").str.get(1)
data["Estado"] = data["Estado"].str.split(" ").str.get(0)

data["Fecha de baja"] = np.where(data["Estado"] == "Alta", np.nan, data["Fecha de baja"])
print(f"Tipos estado: \n{data["Estado"].unique()}")

Tipos de material de casco: 
['Madera' 'Acero' 'Poliester' 'Madera forrada de Fibra'
 'Fibra de Vidrio/Plástico' '-' 'Otros' 'Aluminio']
Tipos estado: 
['Baja' 'Alta']


In [9]:
# Reemplazar "-" por NaN
data[["IMO", "IRCS", "Matrícula"]] = np.where(data[["IMO", "IRCS", "Matrícula"]] == "-", np.nan, data[["IMO", "IRCS", "Matrícula"]])

In [10]:
# Variables fecha
data["Alta en RGFP"] = pd.to_datetime(data["Alta en RGFP"], format= "%d/%m/%Y")

data["Fecha de baja"] = pd.to_datetime(data["Fecha de baja"].str.replace("el", "").str.replace(")", "").str.strip(), format= "%d/%m/%Y")

In [11]:
# Descripción de variables numéricas
data.describe()


# ESLORA Y ARQUEO = 0 KNN INPUTER

Unnamed: 0,Alta en RGFP,Eslora total,Arqueo GT,Potencia (Kw),Fecha de baja
count,27364,27364.0,27364.0,27364.0,19588
mean,1992-08-03 16:37:19.672562432,10.647576,40.236617,106.877588,2004-04-18 22:36:16.026138368
min,1987-12-31 00:00:00,0.0,0.0,0.0,1989-05-10 00:00:00
25%,1989-05-10 00:00:00,5.0,0.6875,8.83,1997-11-14 00:00:00
50%,1989-05-10 00:00:00,7.01,1.69,22.06,2002-12-19 00:00:00
75%,1992-06-29 00:00:00,13.0,11.015,94.14,2008-07-22 00:00:00
max,2025-03-25 00:00:00,116.0,4406.0,5851.63,2025-04-02 00:00:00
std,,10.067274,172.728886,262.638532,


In [12]:
# Eliminar variables que no aportan información relevante
data = data.drop(columns= ["Potencia", "Administración responsable del Registro", "Tipo de auxiliar", "Capacidad del buque no aportable por:"])

In [13]:
# Visualización tras la limpieza
data.head()

Unnamed: 0,CFR,Nombre,IMO,IRCS,Matrícula,Alta en RGFP,Estado,Eslora total,Arqueo GT,Material del casco,Puerto base,Censo por modalidad,Potencia (Kw),Fecha de baja
0,ESP000000001,ARGOÑOS,,EA7682,3ST-4-2467,1989-05-10,Baja,0.0,52.7,Madera,"21250 - Vicedo, LUGO (GALICIA)",CERCO EN CANTABRICO NW,202.26,1998-12-02
1,ESP000000002,MARIA INSOLINA,,EB6932,3ST-4-2181,1989-05-10,Baja,10.75,0.0,Madera,"13400 - Santander, CANTABRIA",ARTES MENORES EN CANTABRICO NW,35.3,1990-06-30
2,ESP000000003,MOWINKEL II,,,3ST-4-2500,1989-05-10,Baja,11.25,6.76,Madera,43100 - Ceuta,PALANGRE DE FONDO EN CANTABRICO NW,44.13,2005-02-16
3,ESP000000004,JULIA NUMERO TRES,,,3ST-4-2281,1989-05-10,Baja,0.0,0.0,Madera,"13400 - Santander, CANTABRIA",VOLANTA EN CANTABRICO NW,44.13,1994-08-26
4,ESP000000005,SIEMPRE HERMANOS EZQUIAGA,,EA6583,3ST-4-2540,1989-05-10,Baja,19.6,40.0,Madera,"12200 - Bermeo, BIZKAIA (PAÍS VASCO)",ARTES MENORES EN CANTABRICO NW,169.16,2006-11-15


In [14]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27364 entries, 0 to 27363
Data columns (total 14 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   CFR                  27364 non-null  object        
 1   Nombre               27364 non-null  object        
 2   IMO                  1097 non-null   object        
 3   IRCS                 6869 non-null   object        
 4   Matrícula            27364 non-null  object        
 5   Alta en RGFP         27364 non-null  datetime64[ns]
 6   Estado               27364 non-null  object        
 7   Eslora total         27364 non-null  float64       
 8   Arqueo GT            27364 non-null  float64       
 9   Material del casco   27364 non-null  object        
 10  Puerto base          27364 non-null  object        
 11  Censo por modalidad  27363 non-null  object        
 12  Potencia (Kw)        27364 non-null  float64       
 13  Fecha de baja        19588 non-

In [15]:
# Guardar el dataframe resultante
data.to_csv("./data/data_clean.csv", index= False)