In [1]:
import pandas as pd

# Ruta del archivo
ruta = r"C:\Users\Javi\Downloads\Accidente del 2009 al 2023  Municipio de Rio Grande - Hoja1 (1) (1).csv"

# Cargar el dataset  con la ruta seleccionada 
df = pd.read_csv(ruta)

# Reemplazar '-' por 0 en todo el DataFrame
df = df.replace('-', 0)

# Mostrar los primeros valores para verificar
print(df)
print(df.columns)

                                                   año    mes  \
0                                                 2009   ene    
1                                                 2009   feb    
2                                                 2009   mar    
3                                                 2009   abr    
4                                                 2009   may    
..                                                 ...    ...   
178                                               2023    nov   
179                                               2023    dic   
180                                                NaN    NaN   
181  Fuente: Direccion de transito Municipio de Rio...    NaN   
182  Obervciones: en el año 2020 no se tomaron regi...    NaN   

      cantidad de accidentes   mortal hechos   mortal víctimas   \
0                       157.0              -                 -    
1                       178.0              -                 -    
2                 

In [2]:
# Guardar el DataFrame en un nuevo archivo CSV
df.to_csv(r"C:\Users\Javi\Downloads\Accidentes_Modificado.csv", index=False)

print("Archivo guardado exitosamente en C:\\Users\\Javi\\Downloads\\Accidentes_Modificado.csv")

Archivo guardado exitosamente en C:\Users\Javi\Downloads\Accidentes_Modificado.csv


In [5]:
# Usar el DataFrame nuevo para realizar la limpieza y transformación de datos

#  Eliminar espacios en los nombres de las columnas antes de renombrar
df.columns = df.columns.str.strip()

# Renombrar columnas para estandarizar nombres
df = df.rename(columns={
    'año': 'año',
    'mes': 'mes',
    'cantidad de accidentes': 'cantidad_accidentes',
    'mortal hechos': 'mortales_hechos',
    'mortal víctimas': 'mortales_victimas',
    'lesiones hechos': 'lesiones_hechos',
    'lesionados': 'cantidad_lesionados',
    'Urbano': 'accidentes_urbano',
    'Rural': 'accidentes_rural',
    'alcohol positivo': 'alcohol_positivo'
})

#  Reemplazar '-' por NaN para las columnas numéricas y texto irrelevante
df.replace('-', pd.NA, inplace=True)

#  Convertir 'año' a numérico para eliminar filas n
df['año'] = pd.to_numeric(df['año'], errors='coerce')

#  Eliminar filas donde 'año' sea nulo (NaN) o donde 'mes' sea nulo
df = df.dropna(subset=['año', 'mes'])

# Convertir 'año' a entero
df['año'] = df['año'].astype(int)

# Convertir otras columnas a tipo numérico (float)
columnas_numericas = [
    'cantidad_accidentes',
    'mortales_hechos',
    'mortales_victimas',
    'lesiones_hechos',
    'cantidad_lesionados',
    'accidentes_urbano',
    'accidentes_rural',
    'alcohol_positivo'
]
for col in columnas_numericas:
    df[col] = pd.to_numeric(df[col], errors='coerce')


mapa_meses = {
    'ene': 1, 'feb': 2, 'mar': 3, 'abr': 4, 'may': 5, 'jun': 6,
    'jul': 7, 'ago': 8, 'sep': 9, 'oct': 10, 'nov': 11, 'dic': 12
}
df['mes_letra'] = df['mes'].str.lower()
df['mes_num'] = df['mes_letra'].map(mapa_meses)

#  Crear columna de fecha (primer día del mes)
df['fecha'] = pd.to_datetime(
    dict(year=df['año'], month=df['mes_num'], day=1),
    errors='coerce'
)

#  Eliminar filas con fecha inválida (por ejemplo, mes mal escrito)
df = df.dropna(subset=['fecha'])

#  Resetear índice tras filtrados
df.reset_index(drop=True, inplace=True)

#  Load: guardar el DataFrame limpio en un nuevo CSV
ruta_salida = r"C:\Users\Javi\Downloads\Accidentes_Limpio.csv"
df.to_csv(ruta_salida, index=False, encoding='utf-8')

# Mostrar resultados para verificación
print("Cinco primeras filas del DataFrame limpio:")
display(df.head())

print("\nInformación de tipos de dato y conteo de filas finales:")
print(df.info())

Cinco primeras filas del DataFrame limpio:


Unnamed: 0,año,mes,cantidad_accidentes,mortales_hechos,mortales_victimas,lesiones_hechos,cantidad_lesionados,accidentes_urbano,accidentes_rural,alcohol_positivo,mes_letra,mes_num,fecha
0,2014,ene,152.0,,,19.0,34.0,148.0,4.0,17.0,ene,1.0,2014-01-01
1,2014,feb,211.0,1.0,2.0,32.0,42.0,205.0,6.0,23.0,feb,2.0,2014-02-01
2,2014,mar,244.0,3.0,4.0,24.0,42.0,241.0,3.0,14.0,mar,3.0,2014-03-01
3,2014,abr,223.0,1.0,,30.0,54.0,222.0,1.0,7.0,abr,4.0,2014-04-01
4,2014,may,174.0,,,17.0,29.0,173.0,1.0,9.0,may,5.0,2014-05-01



Información de tipos de dato y conteo de filas finales:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 118 entries, 0 to 117
Data columns (total 13 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   año                  118 non-null    int64         
 1   mes                  118 non-null    object        
 2   cantidad_accidentes  118 non-null    float64       
 3   mortales_hechos      31 non-null     float64       
 4   mortales_victimas    31 non-null     float64       
 5   lesiones_hechos      107 non-null    float64       
 6   cantidad_lesionados  107 non-null    float64       
 7   accidentes_urbano    107 non-null    float64       
 8   accidentes_rural     90 non-null     float64       
 9   alcohol_positivo     118 non-null    float64       
 10  mes_letra            118 non-null    object        
 11  mes_num              118 non-null    float64       
 12  fecha                118 non-null  