In [19]:
import csv
import os

# Define the directories
input_dir = '../resources/raw_data/'    # Directory containing the raw CSV files
new_data_dir = '../resources/new_data/' # Directory to save new CSV files after skipping rows
formatted_dir = '../resources/'         # Directory to save the final formatted files

# Ensure the output directories exist
os.makedirs(new_data_dir, exist_ok=True)

# Iterate over each CSV file in the raw data directory
for file_name in os.listdir(input_dir):
    if file_name.endswith('.csv'):  # Only process CSV files
        input_file = os.path.join(input_dir, file_name)
        output_file = os.path.join(new_data_dir, f'new_{file_name}')
        formatted_file = os.path.join(formatted_dir, f'formatted_{file_name}')

        # Step 1: Skip the first 687 rows and save the remaining data
        with open(input_file, mode='r') as infile:
            csv_reader = csv.reader(infile)
            with open(output_file, mode='w', newline='') as outfile:
                csv_writer = csv.writer(outfile)
                
                # Skip the first 687 rows
                for _ in range(687):
                    next(csv_reader, None)
                
                # Write the remaining rows to the new file
                for row in csv_reader:
                    csv_writer.writerow(row)

        # Step 2: Reformat the file by removing the first three rows
        with open(output_file, mode='r', encoding='utf-8') as outfile:
            input_file_reader = csv.DictReader(outfile, delimiter=',')
            
            # Read the first three rows to skip them later
            first_row = next(input_file_reader)
            second_row = next(input_file_reader)
            third_row = next(input_file_reader)

            # Write the formatted data to a new file
            with open(formatted_file, mode='w', newline='') as reformatted_file:
                reformatted_writer = csv.writer(reformatted_file)
                reformatted_writer.writerow(first_row.keys())
                for row in input_file_reader:
                    # Skip the first three rows
                    if row != first_row and row != second_row and row != third_row:
                        reformatted_writer.writerow(row.values())

print("Processing complete. Files have been saved in the respective directories.")


Processing complete. Files have been saved in the respective directories.


In [5]:
import csv
import os

# Ruta del archivo CSV donde se guardarán los datos combinados
merge_path = '../resources/merge_data.csv'  # Cambia esta ruta según la ubicación de tu archivo

# Inicializa una lista para almacenar todas las columnas de los archivos
all_columns = []

# Itera sobre los archivos CSV para leer sus columnas
for i in range(1, 5):
    filename = f'../resources/formatted_SPG_00{i}.csv'
    with open(filename, mode='r', encoding='utf-8') as file:
        # Crear un lector de CSV
        csv_reader = csv.reader(file)
        
        # Leer todas las filas del archivo y transponer filas a columnas
        rows = list(csv_reader)
        columns = list(zip(*rows))  # Transponer filas a columnas
        
        # Añadir cada columna a la lista de todas las columnas
        all_columns.extend(columns)

# Transponer las columnas de nuevo a filas para escribirlas correctamente
merged_rows = list(zip(*all_columns))

# Escribir las filas transpuestas en el archivo merged_data.csv
with open(merge_path, mode='w', newline='', encoding='utf-8') as merged_csv:
    csv_writer = csv.writer(merged_csv)
    # Escribir las filas en el archivo combinado
    for row in merged_rows:
        csv_writer.writerow(row)

print(f"Archivo combinado columna por columna creado en: {merge_path}")


Archivo combinado columna por columna creado en: ../resources/merge_data.csv


In [6]:
import csv

# Ruta del archivo combinado y el archivo limpio
merge_path = '../resources/merge_data.csv'  # Archivo a limpiar
cleaned_path = '../resources/cleaned_data.csv'  # Archivo limpio de salida

# Leer el archivo y transponer filas a columnas
with open(merge_path, mode='r', encoding='utf-8') as merged_csv:
    csv_reader = csv.reader(merged_csv)
    rows = list(csv_reader)
    columns = list(zip(*rows))  # Transponer filas a columnas

# Filtrar columnas vacías y columnas que comienzan con "Timestamp" (excepto la primera columna)
filtered_columns = []
for i, column in enumerate(columns):
    # Convertir la columna de tuplas a lista para facilitar el manejo
    column = list(column)
    # Verificar si la columna no está vacía y no empieza por "Timestamp" (excepto la primera columna)
    if any(column) and (i == 0 or not column[0].startswith('Timestamp')):
        filtered_columns.append(column)

# Transponer las columnas filtradas de nuevo a filas para escribirlas correctamente
filtered_rows = list(zip(*filtered_columns))

# Escribir las filas filtradas en un nuevo archivo limpio
with open(cleaned_path, mode='w', newline='', encoding='utf-8') as cleaned_csv:
    csv_writer = csv.writer(cleaned_csv)
    for row in filtered_rows:
        csv_writer.writerow(row)

print(f"Archivo limpio creado sin columnas vacías o innecesarias: {cleaned_path}")


Archivo limpio creado sin columnas vacías o innecesarias: ../resources/cleaned_data.csv
