In [2]:
import pandas as pd
import sys
import os

In [None]:
# Obtener la ruta del archivo CSV
csv_file_path = os.path.abspath(os.path.join('../data/API_data.csv'))

# Cargar el archivo CSV en un DataFrame
data = pd.read_csv(csv_file_path)

pd.set_option('display.max_columns', None)

# a) Eliminar filas que tienen demasiados valores nulos (aquí se establece un umbral del 50%)
data_clean = data.dropna(thresh=len(data.columns) * 0.5)

# b) Para columnas específicas, eliminar filas donde hay valores nulos
data_clean = data_clean.dropna(subset=['latitude', 'longitude', 'crash_date'])

# 2. Convertir `crash_date` y `crash_time` a formato datetime
data_clean['crash_date'] = pd.to_datetime(data_clean['crash_date'], errors='coerce')
data_clean['crash_time'] = pd.to_datetime(data_clean['crash_time'], format='%H:%M', errors='coerce')

# 3. Corregir valores inconsistentes (ejemplo: corregir espacios en blanco o capitalización en la columna `borough`)
data_clean['borough'] = data_clean['borough'].str.strip().str.title()

# 4. Eliminar duplicados basados en la columna `collision_id` (asumido como único para cada accidente)
data_clean = data_clean.drop_duplicates(subset='collision_id')

# 5. Eliminar columnas irrelevantes (puedes personalizar esta lista según sea necesario)
cols_to_drop = ['contributing_factor_vehicle_3', 'contributing_factor_vehicle_4', 'contributing_factor_vehicle_5', 
                'vehicle_type_code_3', 'vehicle_type_code_4', 'vehicle_type_code_5']
data_clean = data_clean.drop(columns=cols_to_drop)



# 6. Verificar el resultado de la limpieza
print(data_clean.info())
print(data_clean.head())

data_clean.to_csv('../data/API_data.csv', index=False, encoding='utf-8')
print(data_clean.isnull().sum())
print(f"El tamaño del archivo es de : {data_clean.shape[0]}")
print("Archivo limpiado correctamente")

In [27]:
file_path = os.path.abspath(os.path.join('../data/API_data.csv'))

# Cargar el archivo CSV con pandas
data = pd.read_csv(file_path)

pd.set_option('display.max_columns', None)

# 2. Convertir `crash_date` y `crash_time` a formato datetime
data['crash_date'] = pd.to_datetime(data['crash_date'], errors='coerce')
data['crash_time'] = pd.to_datetime(data['crash_time'], format='%H:%M', errors='coerce')

# 3. Corregir valores inconsistentes (ejemplo: corregir espacios en blanco o capitalización en la columna `borough`)
data['borough'] = data['borough'].str.strip().str.title()

data = data[data['crash_date'].notna() & (data['crash_date'].dt.year >= 2021)]

# 4. Eliminar duplicados basados en la columna `collision_id` (asumido como único para cada accidente)
data = data.drop_duplicates(subset='collision_id')

data['crash_date'] = data['crash_date'].dt.date
# Borrar columnas
data = data.drop(['vehicle_type_code_5','contributing_factor_vehicle_5',
                                    'vehicle_type_code_4','contributing_factor_vehicle_4',
                                    'vehicle_type_code_3','contributing_factor_vehicle_3',
                                    'cross_street_name'], axis=1)

print("\nDatos filtrados y ordenados: \n")

data = data.dropna()

#print(data_filtered.isnull().sum())
print(f"La cantidad de datos repetidos son: {data.duplicated().sum()}\n")
print(f"Datos: {data.shape[0]} \n")
data.to_csv('../data/API_data_Cleaned.csv', index=False, encoding='utf-8')
print("Archivo limpiado correctamente")


Datos filtrados y ordenados: 

La cantidad de datos repetidos son: 
0
Datos: 46436 

Archivo limpiado correctamente
