En este archivo se lleva a cabo la limpieza de los datasets. Se usa la misma estructura de código. Para cada dataset hay que ir cambiando el nombre (viento, corrientes, velocidad...)

# CARGA DE DATOS

BUSCA DELIMITADOR

In [None]:
import pandas as pd
from collections import Counter

# Ruta del archivo
file_path = "/content/viento - copia.csv"  # Reemplaza con el archivo

# Leer las primeras líneas del archivo para analizar posibles delimitadores internos
with open(file_path, 'r') as file:
    lines = [file.readline() for _ in range(5)]  # Lee las primeras 5 líneas

# Contar posibles delimitadores internos en las columnas
possible_internal_delimiters = [',', '\t', ';', '|']
for i, line in enumerate(lines):
    print(f"Línea {i + 1}:")
    for delimiter in possible_internal_delimiters:
        count = line.count(delimiter)
        if count > 0:
            print(f"  Posible delimitador interno '{delimiter}' encontrado {count} veces.")
    print("-" * 50)

Línea 1:
  Posible delimitador interno ',' encontrado 1 veces.
  Posible delimitador interno '	' encontrado 2 veces.
--------------------------------------------------
Línea 2:
  Posible delimitador interno '	' encontrado 2 veces.
--------------------------------------------------
Línea 3:
  Posible delimitador interno '	' encontrado 2 veces.
--------------------------------------------------
Línea 4:
  Posible delimitador interno '	' encontrado 2 veces.
--------------------------------------------------
Línea 5:
  Posible delimitador interno '	' encontrado 2 veces.
--------------------------------------------------


CARGAR DATASET

In [None]:
# Leer el archivo usando espacios como delimitador y saltar la primera fila
raw_data = pd.read_csv(file_path, sep=r'\t', skiprows=0, engine='python', header=0)


# Mostrar las primeras filas del DataFrame limpio
print("Primeras filas de los datos procesados:")
print(raw_data.head())

Primeras filas de los datos procesados:
     "Fecha (GMT)  Velocidad del viento(m/s)  \
0  "2019 12 12 00                       7.33   
1  "2019 12 12 01                       5.82   
2  "2019 12 12 02                       5.84   
3  "2019 12 12 03                       5.61   
4  "2019 12 12 04                       5.36   

  Direc. de proced. del Viento(0=N,90=E)"  
0                                    262"  
1                                    243"  
2                                    253"  
3                                    252"  
4                                    236"  


# LIMPIEZA

QUITAMOS LAS COMILLAS INNECESARIAS

In [None]:
# Eliminar el primer carácter de cada fila en la columna 'Fecha (GMT)'
raw_data['"Fecha (GMT)'] = raw_data['"Fecha (GMT)'].str[1:]

# Mostrar las primeras filas para verificar
print("Primeras filas después de modificar 'Fecha (GMT)':")
print(raw_data.head())

Primeras filas después de modificar 'Fecha (GMT)':
    "Fecha (GMT)  Velocidad del viento(m/s)  \
0  2019 12 12 00                       7.33   
1  2019 12 12 01                       5.82   
2  2019 12 12 02                       5.84   
3  2019 12 12 03                       5.61   
4  2019 12 12 04                       5.36   

  Direc. de proced. del Viento(0=N,90=E)"  
0                                    262"  
1                                    243"  
2                                    253"  
3                                    252"  
4                                    236"  


In [None]:
# Obtener el nombre de la primera columna
primera_columna = raw_data.columns[0]

# Renombrar la primera columna eliminando su primer carácter
nuevo_nombre = primera_columna[1:]  # Eliminar el primer carácter del nombre
raw_data.rename(columns={primera_columna: nuevo_nombre}, inplace=True)

# Mostrar las primeras filas para verificar
print(f"Primeras filas después de modificar el nombre de la primera columna '{nuevo_nombre}':")
print(raw_data.head())

Primeras filas después de modificar el nombre de la primera columna 'Fecha (GMT)':
     Fecha (GMT)  Velocidad del viento(m/s)  \
0  2019 12 12 00                       7.33   
1  2019 12 12 01                       5.82   
2  2019 12 12 02                       5.84   
3  2019 12 12 03                       5.61   
4  2019 12 12 04                       5.36   

  Direc. de proced. del Viento(0=N,90=E)"  
0                                    262"  
1                                    243"  
2                                    253"  
3                                    252"  
4                                    236"  


In [None]:
# Eliminar el último carácter de cada fila en la última columna
ultima_columna = raw_data.columns[-1]  # Obtener el nombre de la última columna
raw_data[ultima_columna] = raw_data[ultima_columna].str[:-1]

# Mostrar las primeras filas para verificar
print(f"Primeras filas después de modificar '{ultima_columna}':")
print(raw_data.head())

Primeras filas después de modificar 'Direc. de proced. del Viento(0=N,90=E)"':
     Fecha (GMT)  Velocidad del viento(m/s)  \
0  2019 12 12 00                       7.33   
1  2019 12 12 01                       5.82   
2  2019 12 12 02                       5.84   
3  2019 12 12 03                       5.61   
4  2019 12 12 04                       5.36   

  Direc. de proced. del Viento(0=N,90=E)"  
0                                     262  
1                                     243  
2                                     253  
3                                     252  
4                                     236  


In [None]:
# Renombrar la columna eliminando el último carácter del nombre
nuevo_nombre = ultima_columna[:-1]  # Eliminar el último carácter del nombre
raw_data.rename(columns={ultima_columna: nuevo_nombre}, inplace=True)

# Mostrar las primeras filas para verificar
print(f"Primeras filas después de modificar '{nuevo_nombre}':")
print(raw_data.head())

Primeras filas después de modificar 'Direc. de proced. del Viento(0=N,90=E)':
     Fecha (GMT)  Velocidad del viento(m/s)  \
0  2019 12 12 00                       7.33   
1  2019 12 12 01                       5.82   
2  2019 12 12 02                       5.84   
3  2019 12 12 03                       5.61   
4  2019 12 12 04                       5.36   

  Direc. de proced. del Viento(0=N,90=E)  
0                                    262  
1                                    243  
2                                    253  
3                                    252  
4                                    236  


In [None]:
# Convertir la columna de fecha a un formato estándar (yyyy-MM-dd HH)
raw_data['Fecha (GMT)'] = pd.to_datetime(
    raw_data['Fecha (GMT)'],
    format='%Y %m %d %H'
)

# Mostrar las primeras filas para verificar
print("Primeras filas con la fecha en formato estándar:")
print(raw_data.head())

Primeras filas con la fecha en formato estándar:
          Fecha (GMT)  Velocidad del viento(m/s)  \
0 2019-12-12 00:00:00                       7.33   
1 2019-12-12 01:00:00                       5.82   
2 2019-12-12 02:00:00                       5.84   
3 2019-12-12 03:00:00                       5.61   
4 2019-12-12 04:00:00                       5.36   

  Direc. de proced. del Viento(0=N,90=E)  
0                                    262  
1                                    243  
2                                    253  
3                                    252  
4                                    236  


BUSQUEDA DE VALORES NULOS

In [None]:
# Reemplazar -9999.9 por valores nulos (NaN)
raw_data.replace(-9999.9, pd.NA, inplace=True)

# Analizar los datos nulos de cada columna
nulos_por_columna = raw_data.isnull().sum()

# Mostrar los resultados
print("Datos nulos por columna:")
print(nulos_por_columna)

Datos nulos por columna:
Fecha (GMT)                               0
Velocidad del viento(m/s)                 0
Direc. de proced. del Viento(0=N,90=E)    0
dtype: int64


GUARDAMOS EL DATASET LIMPIO

In [None]:
# Guardar el archivo procesado
raw_data.to_csv("viento_limpio.csv", index=False, sep=",")

print("El archivo limpio ha sido guardado como 'viento_limpio.csv'.")

El archivo limpio ha sido guardado como 'viento_limpio.csv'.


COMPROBAMOS QUE SE HA GUARDADO BIEN

In [None]:
# Leer el archivo recién creado
verificacion = pd.read_csv("viento_limpio.csv")

# Mostrar las primeras filas del archivo leído
print("Primeras filas del archivo 'viento_limpio.csv':")
print(verificacion.head())

Primeras filas del archivo 'viento_limpio.csv':
           Fecha (GMT)  Velocidad del viento(m/s)  \
0  2019-12-12 00:00:00                       7.33   
1  2019-12-12 01:00:00                       5.82   
2  2019-12-12 02:00:00                       5.84   
3  2019-12-12 03:00:00                       5.61   
4  2019-12-12 04:00:00                       5.36   

   Direc. de proced. del Viento(0=N,90=E)  
0                                     262  
1                                     243  
2                                     253  
3                                     252  
4                                     236  


# ANALISIS PRELIMINAR

In [None]:
# Contar el número total de filas en la base de datos
total_filas = verificacion.shape[0]

# Mostrar el resultado
print(f"Número total de filas en la base de datos: {total_filas}")

Número total de filas en la base de datos: 43465


In [None]:
# Obtener la primera fila
primera_fila = verificacion.head(1)

# Obtener la última fila
ultima_fila = verificacion.tail(1)

# Mostrar la primera y última fila
print("Primera fila del dataset:")
print(primera_fila)

print("\nÚltima fila del dataset:")
print(ultima_fila)

Primera fila del dataset:
           Fecha (GMT)  Velocidad del viento(m/s)  \
0  2019-12-12 00:00:00                       7.33   

   Direc. de proced. del Viento(0=N,90=E)  
0                                     262  

Última fila del dataset:
               Fecha (GMT)  Velocidad del viento(m/s)  \
43464  2024-12-09 23:00:00                       8.39   

       Direc. de proced. del Viento(0=N,90=E)  
43464                                      12  
