# Importacion de Datos

In [2]:
import pandas as pd
import numpy as np
from datetime import datetime

# Importar el archivo CSV
df = pd.read_csv('Accidentes de tránsito en carreteras-2020-2021-Sutran.csv', 
                 sep=';',  # El separador es punto y coma
                 encoding='latin-1')  # Cambiado a latin-1 para solucionar el problema de encoding


In [3]:
# Verificar la importación
print("Dimensiones del dataset:", df.shape)
print("\nPrimeras 5 filas:")
print(df.head())

Dimensiones del dataset: (8155, 9)

Primeras 5 filas:
   FECHA_CORTE     FECHA   HORA DEPARTAMENTO CODIGO_VÍA KILOMETRO MODALIDAD  \
0     20211222  20200101  05:40         LIMA      PE-1S        24  DESPISTE   
1     20211222  20200101  16:30    CAJAMARCA      PE-3N        74  DESPISTE   
2     20211222  20200101  07:45        PASCO      PE-3N       103  DESPISTE   
3     20211222  20200101  18:30    CAJAMARCA      PE-08       111  DESPISTE   
4     20211222  20200101  18:40         LIMA      PE-1N       174  DESPISTE   

  FALLECIDOS HERIDOS  
0          0       0  
1          0       0  
2          0       1  
3          0       2  
4          0       5  


In [4]:
print("\nNombres de las columnas:")
print(df.columns.tolist())


Nombres de las columnas:
['FECHA_CORTE', 'FECHA', 'HORA', 'DEPARTAMENTO', 'CODIGO_VÍA', 'KILOMETRO', 'MODALIDAD', 'FALLECIDOS', 'HERIDOS']


In [5]:
print("\nTipos de datos:")
print(df.dtypes)


Tipos de datos:
FECHA_CORTE      int64
FECHA            int64
HORA            object
DEPARTAMENTO    object
CODIGO_VÍA      object
KILOMETRO       object
MODALIDAD       object
FALLECIDOS      object
HERIDOS         object
dtype: object


In [6]:
print("\nInformación general del dataset:")
print(df.info())


Información general del dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8155 entries, 0 to 8154
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   FECHA_CORTE   8155 non-null   int64 
 1   FECHA         8155 non-null   int64 
 2   HORA          8155 non-null   object
 3   DEPARTAMENTO  8155 non-null   object
 4   CODIGO_VÍA    8155 non-null   object
 5   KILOMETRO     8155 non-null   object
 6   MODALIDAD     8155 non-null   object
 7   FALLECIDOS    8155 non-null   object
 8   HERIDOS       8155 non-null   object
dtypes: int64(2), object(7)
memory usage: 573.5+ KB
None


In [7]:
# Revisar valores únicos en columnas categóricas
print("\nValores únicos en MODALIDAD:")
print(df['MODALIDAD'].value_counts())


Valores únicos en MODALIDAD:
MODALIDAD
DESPISTE     3829
CHOQUE       3623
ATROPELLO     361
ESPECIAL      186
VOLCADURA     128
N.I.           28
Name: count, dtype: int64


In [8]:
print("\nValores únicos en DEPARTAMENTO:")
print(df['DEPARTAMENTO'].value_counts())


Valores únicos en DEPARTAMENTO:
DEPARTAMENTO
LIMA             1558
AREQUIPA          795
JUNIN             715
ANCASH            602
PUNO              529
ICA               377
CAJAMARCA         350
CUSCO             346
LAMBAYEQUE        343
LA LIBERTAD       329
PIURA             327
SAN MARTIN        274
APURIMAC          202
MADRE DE DIOS     191
HUANUCO           174
AYACUCHO          168
MOQUEGUA          155
UCAYALI           154
AMAZONAS          152
TACNA             151
LORETO             82
PASCO              77
HUANCAVELICA       62
TUMBES             25
N.I.                7
CALLAO              6
Arequipa            2
Puno                1
Cusco               1
Name: count, dtype: int64


In [9]:
# Verificar valores faltantes o 'N.I.'
print("\nConteo de valores 'N.I.' por columna:")
for col in df.columns:
    ni_count = (df[col] == 'N.I.').sum()
    if ni_count > 0:
        print(f"{col}: {ni_count} valores N.I.")


Conteo de valores 'N.I.' por columna:
HORA: 88 valores N.I.
DEPARTAMENTO: 7 valores N.I.
CODIGO_VÍA: 46 valores N.I.
KILOMETRO: 45 valores N.I.
MODALIDAD: 28 valores N.I.
FALLECIDOS: 3 valores N.I.
HERIDOS: 10 valores N.I.


In [10]:
# Verificar valores nulos
print("\nValores nulos por columna:")
print(df.isnull().sum())


Valores nulos por columna:
FECHA_CORTE     0
FECHA           0
HORA            0
DEPARTAMENTO    0
CODIGO_VÍA      0
KILOMETRO       0
MODALIDAD       0
FALLECIDOS      0
HERIDOS         0
dtype: int64


# LIMPIEZA DE DATOS - ACCIDENTES DE TRÁNSITO

In [11]:
print("=== ANTES DE LA LIMPIEZA ===")
print(f"Número total de registros: {len(df)}")
print(f"Valores N.I. en FALLECIDOS: {(df['FALLECIDOS'] == 'N.I.').sum()}")
print(f"Valores N.I. en HERIDOS: {(df['HERIDOS'] == 'N.I.').sum()}")

=== ANTES DE LA LIMPIEZA ===
Número total de registros: 8155
Valores N.I. en FALLECIDOS: 3
Valores N.I. en HERIDOS: 10


In [12]:
# 1. REEMPLAZAR 'N.I.' POR NaN (valores faltantes)
df_clean = df.copy()

In [13]:
# Reemplazar 'N.I.' por NaN en todas las columnas
df_clean = df_clean.replace('N.I.', np.nan)

In [14]:
print("\n=== DESPUÉS DE REEMPLAZAR N.I. POR NaN ===")
print("Valores faltantes por columna:")
print(df_clean.isnull().sum())


=== DESPUÉS DE REEMPLAZAR N.I. POR NaN ===
Valores faltantes por columna:
FECHA_CORTE      0
FECHA            0
HORA            88
DEPARTAMENTO     7
CODIGO_VÍA      46
KILOMETRO       45
MODALIDAD       28
FALLECIDOS       3
HERIDOS         10
dtype: int64


In [15]:
# 2. CONVERTIR VARIABLES NUMÉRICAS
print("\n=== CONVERSIÓN A NUMÉRICO ===")


=== CONVERSIÓN A NUMÉRICO ===


In [16]:
# Convertir KILOMETRO a numérico
df_clean['KILOMETRO'] = pd.to_numeric(df_clean['KILOMETRO'], errors='coerce')


In [17]:
# Convertir FALLECIDOS a numérico (CRUCIAL para tu tesis)
df_clean['FALLECIDOS'] = pd.to_numeric(df_clean['FALLECIDOS'], errors='coerce')


In [18]:
# Convertir HERIDOS a numérico (CRUCIAL para tu tesis)
df_clean['HERIDOS'] = pd.to_numeric(df_clean['HERIDOS'], errors='coerce')

In [19]:
print("Tipos de datos después de la conversión:")
print(df_clean[['KILOMETRO', 'FALLECIDOS', 'HERIDOS']].dtypes)

Tipos de datos después de la conversión:
KILOMETRO     float64
FALLECIDOS    float64
HERIDOS       float64
dtype: object


In [20]:
# 3. VERIFICAR LA LIMPIEZA
print("\n=== VERIFICACIÓN DE LA LIMPIEZA ===")
print(f"Registros totales: {len(df_clean)}")
print(f"FALLECIDOS - Valores faltantes: {df_clean['FALLECIDOS'].isnull().sum()}")
print(f"HERIDOS - Valores faltantes: {df_clean['HERIDOS'].isnull().sum()}")


=== VERIFICACIÓN DE LA LIMPIEZA ===
Registros totales: 8155
FALLECIDOS - Valores faltantes: 3
HERIDOS - Valores faltantes: 10


In [21]:
# 4. ESTADÍSTICAS BÁSICAS DE LAS VARIABLES PRINCIPALES
print("\n=== ESTADÍSTICAS BÁSICAS - FALLECIDOS ===")
print(df_clean['FALLECIDOS'].describe())


=== ESTADÍSTICAS BÁSICAS - FALLECIDOS ===
count    8152.000000
mean        0.168916
std         0.792586
min         0.000000
25%         0.000000
50%         0.000000
75%         0.000000
max        33.000000
Name: FALLECIDOS, dtype: float64


In [22]:
print("\n=== ESTADÍSTICAS BÁSICAS - HERIDOS ===")
print(df_clean['HERIDOS'].describe())


=== ESTADÍSTICAS BÁSICAS - HERIDOS ===
count    8145.000000
mean        1.310129
std         2.546730
min         0.000000
25%         0.000000
50%         1.000000
75%         2.000000
max        71.000000
Name: HERIDOS, dtype: float64


In [23]:
# 5. CONTEO DE CEROS (IMPORTANTE PARA TU TESIS)
print("\n=== ANÁLISIS DE CEROS ===")
fallecidos_ceros = (df_clean['FALLECIDOS'] == 0).sum()
heridos_ceros = (df_clean['HERIDOS'] == 0).sum()


=== ANÁLISIS DE CEROS ===


In [24]:
print(f"FALLECIDOS:")
print(f"  - Total de ceros: {fallecidos_ceros}")
print(f"  - Porcentaje de ceros: {(fallecidos_ceros/len(df_clean))*100:.2f}%")

FALLECIDOS:
  - Total de ceros: 7199
  - Porcentaje de ceros: 88.28%


In [25]:
print(f"HERIDOS:")
print(f"  - Total de ceros: {heridos_ceros}")
print(f"  - Porcentaje de ceros: {(heridos_ceros/len(df_clean))*100:.2f}%")

HERIDOS:
  - Total de ceros: 3452
  - Porcentaje de ceros: 42.33%


In [26]:
# 6. GUARDAR DATASET LIMPIO (OPCIONAL)
# df_clean.to_csv('accidentes_limpio.csv', index=False, encoding='utf-8')
print("\n✓ Limpieza completada")


✓ Limpieza completada


In [27]:
# RENOMBRAR COLUMNAS PARA MEJOR COMPRENSIÓN

print("=== NOMBRES ORIGINALES ===")
print("Columnas actuales:")
print(df_clean.columns.tolist())

# Diccionario con los nuevos nombres más descriptivos
nuevos_nombres = {
    'FECHA_CORTE': 'fecha_corte',
    'FECHA': 'fecha_accidente', 
    'HORA': 'hora_accidente',
    'DEPARTAMENTO': 'departamento',
    'CODIGO_VÍA': 'codigo_via',
    'KILOMETRO': 'kilometro',
    'MODALIDAD': 'tipo_accidente',
    'FALLECIDOS': 'num_fallecidos',
    'HERIDOS': 'num_heridos'
}

# Aplicar el renombrado
df_final = df_clean.rename(columns=nuevos_nombres)

print("\n=== NOMBRES NUEVOS ===")
print("Columnas renombradas:")
print(df_final.columns.tolist())

# Verificar que todo esté correcto
print("\n=== VERIFICACIÓN ===")
print("Primeras 3 filas con nuevos nombres:")
print(df_final.head(3))

print("\nTipos de datos:")
print(df_final.dtypes)

print("\n=== VARIABLES PRINCIPALES PARA LA TESIS ===")
print("Variable 1: num_fallecidos")
print("Variable 2: num_heridos")

print(f"\nResumen rápido:")
print(f"- Registros totales: {len(df_final)}")
print(f"- Ceros en num_fallecidos: {(df_final['num_fallecidos'] == 0).sum()} ({((df_final['num_fallecidos'] == 0).sum()/len(df_final))*100:.1f}%)")
print(f"- Ceros en num_heridos: {(df_final['num_heridos'] == 0).sum()} ({((df_final['num_heridos'] == 0).sum()/len(df_final))*100:.1f}%)")

print("\n✓ Columnas renombradas exitosamente")

=== NOMBRES ORIGINALES ===
Columnas actuales:
['FECHA_CORTE', 'FECHA', 'HORA', 'DEPARTAMENTO', 'CODIGO_VÍA', 'KILOMETRO', 'MODALIDAD', 'FALLECIDOS', 'HERIDOS']

=== NOMBRES NUEVOS ===
Columnas renombradas:
['fecha_corte', 'fecha_accidente', 'hora_accidente', 'departamento', 'codigo_via', 'kilometro', 'tipo_accidente', 'num_fallecidos', 'num_heridos']

=== VERIFICACIÓN ===
Primeras 3 filas con nuevos nombres:
   fecha_corte  fecha_accidente hora_accidente departamento codigo_via  \
0     20211222         20200101          05:40         LIMA      PE-1S   
1     20211222         20200101          16:30    CAJAMARCA      PE-3N   
2     20211222         20200101          07:45        PASCO      PE-3N   

   kilometro tipo_accidente  num_fallecidos  num_heridos  
0       24.0       DESPISTE             0.0          0.0  
1       74.0       DESPISTE             0.0          0.0  
2      103.0       DESPISTE             0.0          1.0  

Tipos de datos:
fecha_corte          int64
fecha_accid

In [28]:
# SEGUNDA MEJORA DE NOMBRES - Sobre df_final existente

print("=== NOMBRES ACTUALES ===")
print("Columnas actuales en df_final:")
print(df_final.columns.tolist())

# Mejoras adicionales para mayor claridad
mejoras_adicionales = {
    'departamento': 'departamento_ubicacion',
    'codigo_via': 'codigo_carretera', 
    'kilometro': 'kilometro_via'
}

# Aplicar las mejoras adicionales
df_final = df_final.rename(columns=mejoras_adicionales)

print("\n=== NOMBRES MEJORADOS ===")
print("Columnas con mejoras adicionales:")
print(df_final.columns.tolist())

# Verificar el resultado final
print("\n=== VERIFICACIÓN FINAL ===")
print("Primeras 3 filas con nombres finales:")
print(df_final[['fecha_accidente', 'departamento_ubicacion', 'codigo_carretera', 
                'kilometro_via', 'tipo_accidente', 'num_fallecidos', 'num_heridos']].head(3))

print("\n=== NOMBRES FINALES PARA LA TESIS ===")
print("✓ fecha_corte")
print("✓ fecha_accidente") 
print("✓ hora_accidente")
print("✓ departamento_ubicacion")
print("✓ codigo_carretera")
print("✓ kilometro_via")
print("✓ tipo_accidente")
print("⭐ num_fallecidos (variable principal)")
print("⭐ num_heridos (variable principal)")

print("\n✓ Mejoras adicionales aplicadas exitosamente")

=== NOMBRES ACTUALES ===
Columnas actuales en df_final:
['fecha_corte', 'fecha_accidente', 'hora_accidente', 'departamento', 'codigo_via', 'kilometro', 'tipo_accidente', 'num_fallecidos', 'num_heridos']

=== NOMBRES MEJORADOS ===
Columnas con mejoras adicionales:
['fecha_corte', 'fecha_accidente', 'hora_accidente', 'departamento_ubicacion', 'codigo_carretera', 'kilometro_via', 'tipo_accidente', 'num_fallecidos', 'num_heridos']

=== VERIFICACIÓN FINAL ===
Primeras 3 filas con nombres finales:
   fecha_accidente departamento_ubicacion codigo_carretera  kilometro_via  \
0         20200101                   LIMA            PE-1S           24.0   
1         20200101              CAJAMARCA            PE-3N           74.0   
2         20200101                  PASCO            PE-3N          103.0   

  tipo_accidente  num_fallecidos  num_heridos  
0       DESPISTE             0.0          0.0  
1       DESPISTE             0.0          0.0  
2       DESPISTE             0.0          1.0  

=

# Exportacion despues de Preprocesamiento

In [29]:
# EXPORTAR DATASET LIMPIO Y DICCIONARIO ACTUALIZADO A EXCEL

# Crear el diccionario de datos actualizado
diccionario_actualizado = {
    'Variable': [
        'fecha_corte',
        'fecha_accidente', 
        'hora_accidente',
        'departamento_ubicacion',
        'codigo_carretera',
        'kilometro_via',
        'tipo_accidente',
        'num_fallecidos',
        'num_heridos'
    ],
    'Descripción': [
        'Fecha de corte de la información',
        'Fecha del accidente de tránsito',
        'Hora del accidente de tránsito',
        'Departamento donde se localizó el accidente de tránsito',
        'Código de la carretera en la que se reportó el accidente',
        'Kilómetro de la vía en la que se reportó el accidente',
        'Modalidad del accidente: atropello, choque, despiste, especial, volcadura',
        'Número de personas reportadas como fallecidas',
        'Número de personas reportadas como heridas'
    ],
    'Tipo_de_Dato': [
        'Entero',
        'Entero',
        'Texto',
        'Texto',
        'Texto',
        'Decimal',
        'Texto',
        'Decimal',
        'Decimal'
    ],
    'Valores_Faltantes': [
        0,
        0,
        88,
        7,
        46,
        45,
        28,
        3,
        10
    ],
    'Información_Adicional': [
        'Formato: AAAAMMDD',
        'Formato: AAAAMMDD',
        'Formato: HH:MM. 88 valores como NaN',
        '7 valores como NaN',
        '46 valores como NaN. Códigos tipo PE-1S, PE-3N',
        '45 valores como NaN',
        '28 valores como NaN. Categorías principales',
        '3 valores como NaN. Variable principal para análisis de exceso de ceros',
        '10 valores como NaN. Variable principal para análisis de exceso de ceros'
    ]
}

# Convertir a DataFrame
dict_df = pd.DataFrame(diccionario_actualizado)

# Información del dataset
info_dataset = {
    'Estadística': [
        'Total de registros',
        'Período de datos',
        'Ceros en num_fallecidos',
        'Porcentaje ceros num_fallecidos',
        'Ceros en num_heridos', 
        'Porcentaje ceros num_heridos',
        'Media num_fallecidos',
        'Media num_heridos',
        'Máximo num_fallecidos',
        'Máximo num_heridos'
    ],
    'Valor': [
        len(df_final),
        '2020-2021',
        (df_final['num_fallecidos'] == 0).sum(),
        f"{((df_final['num_fallecidos'] == 0).sum()/len(df_final))*100:.2f}%",
        (df_final['num_heridos'] == 0).sum(),
        f"{((df_final['num_heridos'] == 0).sum()/len(df_final))*100:.2f}%",
        f"{df_final['num_fallecidos'].mean():.3f}",
        f"{df_final['num_heridos'].mean():.3f}",
        df_final['num_fallecidos'].max(),
        df_final['num_heridos'].max()
    ]
}

info_df = pd.DataFrame(info_dataset)

# Exportar a Excel con múltiples hojas
nombre_archivo = 'Accidentes_Transito_Limpio.xlsx'

with pd.ExcelWriter(nombre_archivo, engine='openpyxl') as writer:
    # Hoja 1: Dataset limpio
    df_final.to_excel(writer, sheet_name='Datos_Limpios', index=False)
    
    # Hoja 2: Diccionario de variables
    dict_df.to_excel(writer, sheet_name='Diccionario_Variables', index=False)
    
    # Hoja 3: Estadísticas generales
    info_df.to_excel(writer, sheet_name='Estadisticas_Generales', index=False)

print("✅ EXPORTACIÓN COMPLETADA")
print(f"📁 Archivo creado: {nombre_archivo}")
print("\n📊 CONTENIDO DEL ARCHIVO:")
print("📋 Hoja 1: 'Datos_Limpios' - Dataset completo limpio (8,155 registros)")
print("📋 Hoja 2: 'Diccionario_Variables' - Descripción de todas las variables")
print("📋 Hoja 3: 'Estadisticas_Generales' - Resumen estadístico del dataset")

print("\n🎯 VARIABLES PRINCIPALES PARA TU TESIS:")
print("⭐ num_fallecidos: 88.28% de ceros")
print("⭐ num_heridos: 42.33% de ceros")
print("\n✅ Dataset listo para análisis de exceso de ceros")

✅ EXPORTACIÓN COMPLETADA
📁 Archivo creado: Accidentes_Transito_Limpio.xlsx

📊 CONTENIDO DEL ARCHIVO:
📋 Hoja 1: 'Datos_Limpios' - Dataset completo limpio (8,155 registros)
📋 Hoja 2: 'Diccionario_Variables' - Descripción de todas las variables
📋 Hoja 3: 'Estadisticas_Generales' - Resumen estadístico del dataset

🎯 VARIABLES PRINCIPALES PARA TU TESIS:
⭐ num_fallecidos: 88.28% de ceros
⭐ num_heridos: 42.33% de ceros

✅ Dataset listo para análisis de exceso de ceros
