---
---
### Lista de encabezados
1. Piezas del Vehículo:
- 1:"Antiniebla delantero derecho", 2:"Antiniebla delantero izquierdo", 3:"Asiento", 4:"Brazo del techo", 5:"Brazo transversal", 6:"Capó", 7:"Cerradura capo", 8:"Cerradura Maletero", 9:"Cerradura puerta", 10:"Espejo lateral derecho", 11:"Espejo lateral izquierdo", 12:"Espejo retrovisor", 13:"Faros derecho", 14:"Faros izquierdo", 15:"Guardabarros delantero derecho", 16:"Guardabarros delantero izquierdo", 
17:"Guardabarros trasero derecho", 18:"Guardabarros trasero izquierdo", 19:"Limpiaparabrisas", 20:"Luz indicadora delantera derecha", 21:"Luz indicadora delantera izquierda", 22:"Luz indicadora trasera derecha", 23:"Luz indicadora trasera izquierda", 24:"Luz trasera derecho", 
25:"Luz trasera izquierdo", 26:"Maletero", 27:"Manija derecha", 28:"Manija izquierda", 29:"Marco de la ventana", 30:"Marco de las puertas", 31:"Matrícula", 32:"Moldura capó", 33:"Moldura maletro", 34:"Moldura puerta delantera derecha", 35:"Moldura puerta delantera izquierda", 
36:"Moldura puerta trasera derecha", 37:"Moldura puerta trasera izquierda", 38:"Parabrisas delantero", 39:"Parabrisas trasero", 40:"Parachoques delantero", 41:"Parachoques trasero", 42:"Poste del techo", 43:"Puerta delantera derecha", 44:"Puerta delantera izquierda", 45:"Puerta trasera derecha", 46:"Puerta trasera izquierda", 47:"Radiador", 48:"Rejilla o parrilla", 49:"Rueda", 50:"Silenciador o mofle", 51:"Tapa de combustible", 52:"Tapa de rueda", 53:"Techo", 54:"Techo corredizo", 55:"Ventana delantera derecha", 56:"Ventana delantera izquierda", 57:"Ventana trasera derecha", 58:"Ventana trasera izquierda", 59:"Ventanilla delantera derecha", 60:"Ventanilla delantera izquierda", 61:"Ventanilla trasera derecha", 62:"Ventanilla trasera izquierda", 63:"Volante"     

2. Tipos de Daño:
- 1:"Abolladura", 2:"Corrosión", 3:"Deformación", 
4:"Desprendimiento", 5:"Fractura", 6:"Rayón", 7:"Rotura"

3. Sugerencia:
- 1:"Reparar", 
2:"Reemplazar"

Todos los mapeos completos para piezas, daños y sugerencias.

In [None]:
import pandas as pd
import seaborn as sns

# =============================================
# 1. DICCIONARIOS COMPLETOS DE MAPEO
# =============================================

# Diccionario para Piezas del Vehículo (completo y corregido)
label_to_cls_piezas = {
    1: "Antiniebla delantero derecho",
    2: "Antiniebla delantero izquierdo",
    3: "Asiento",
    4: "Brazo del techo",
    5: "Brazo transversal",
    6: "Capó",
    7: "Cerradura capo",
    8: "Cerradura maletero",
    9: "Cerradura puerta",
    10: "Espejo lateral derecho",
    11: "Espejo lateral izquierdo",
    12: "Espejo retrovisor",
    13: "Faros derecho",
    14: "Faros izquierdo",
    15: "Guardabarros delantero derecho",
    16: "Guardabarros delantero izquierdo",
    17: "Guardabarros trasero derecho",
    18: "Guardabarros trasero izquierdo",
    19: "Limpiaparabrisas",
    20: "Luz indicadora delantera derecha",
    21: "Luz indicadora delantera izquierda",
    22: "Luz indicadora trasera derecha",
    23: "Luz indicadora trasera izquierda",
    24: "Luz trasera derecho",
    25: "Luz trasera izquierdo",
    26: "Maletero",
    27: "Manija derecha",
    28: "Manija izquierda",
    29: "Marco de la ventana",
    30: "Marco de las puertas",
    31: "Matrícula",
    32: "Moldura capó",
    33: "Moldura maletro",
    34: "Moldura puerta delantera derecha",
    35: "Moldura puerta delantera izquierda",
    36: "Moldura puerta trasera derecha",
    37: "Moldura puerta trasera izquierda",
    38: "Parabrisas delantero",
    39: "Parabrisas trasero",
    40: "Parachoques delantero",
    41: "Parachoques trasero",
    42: "Poste del techo",
    43: "Puerta delantera derecha",
    44: "Puerta delantera izquierda",
    45: "Puerta trasera derecha",
    46: "Puerta trasera izquierda",
    47: "Radiador",
    48: "Rejilla, parrilla",
    49: "Rueda",
    50: "Silenciador, el mofle",
    51: "Tapa de combustible",
    52: "Tapa de rueda",
    53: "Techo",
    54: "Techo corredizo",
    55: "Ventana delantera derecha",
    56: "Ventana delantera izquierda",
    57: "Ventana trasera derecha",
    58: "Ventana trasera izquierda",
    59: "Ventanilla delantera derecha",
    60: "Ventanilla delantera izquierda",
    61: "Ventanilla trasera derecha",
    62: "Ventanilla trasera izquierda",
    63: "Volante"
}

# Diccionario para Tipos de Daño (completo)
label_to_cls_danos = {
    1: "Abolladura",
    2: "Corrosión",
    3: "Deformación",
    4: "Desprendimiento",
    5: "Fractura",
    6: "Rayón",
    7: "Rotura"
}

# Diccionario para Sugerencia (completo)
label_to_cls_sugerencia = {
    1: "Reparar",
    2: "Reemplazar"
}

Procesamiento robusto:

    - Limpieza de texto (minúsculas, eliminar espacios)
    - Manejo de valores compuestos (ej. "Abolladura-dent")
    - Manejo de errores y valores no encontrados

In [None]:
# Crear diccionarios inversos (texto -> número)
cls_to_label_piezas = {v.lower().strip(): k for k, v in label_to_cls_piezas.items()}
cls_to_label_danos = {v.lower().strip(): k for k, v in label_to_cls_danos.items()}
cls_to_label_sugerencia = {v.lower().strip(): k for k, v in label_to_cls_sugerencia.items()}

    - Valores nulos o faltantes
    - Texto con formatos inconsistentes

In [None]:
# =============================================
# 2. FUNCIONES DE PROCESAMIENTO
# =============================================

def limpiar_texto(texto):
    """Limpia y estandariza el texto para comparación"""
    if pd.isna(texto):
        return ""
    return texto.lower().strip()

def procesar_dano(texto):
    """Procesa la columna Tipos de Daño (maneja casos como 'Abolladura-dent')"""
    texto = limpiar_texto(texto)
    if '-' in texto:
        return texto.split('-')[0]
    return texto

def mapear_valor(texto, diccionario, columna):
    """Mapea texto a valor numérico con manejo de errores"""
    try:
        texto = limpiar_texto(texto)
        if columna == 'Tipos de Daño':
            texto = procesar_dano(texto)
        return diccionario.get(texto, -1)  # -1 para valores no encontrados
    except Exception as e:
        print(f"Error procesando valor: {texto} - {str(e)}")
        return -1

    - Reporte de valores no encontrados
    - Confirmación del proceso completado

In [None]:
# =============================================
# 3. PROCESAR EL ARCHIVO CSV
# =============================================

# Leer el archivo original (ajusta el separador según tu archivo)
df = pd.read_csv('data/fotos_siniestros/clasificacion_fotos_partes_reducida.csv', sep='|')

# Aplicar el mapeo a cada columna
df['Tipos de Daño_encoded'] = df['Tipos de Daño'].apply(
    lambda x: mapear_valor(x, cls_to_label_danos, 'Tipos de Daño'))
df['Piezas del Vehículo_encoded'] = df['Piezas del Vehículo'].apply(
    lambda x: mapear_valor(x, cls_to_label_piezas, 'Piezas del Vehículo'))
df['Sugerencia_encoded'] = df['Sugerencia'].apply(
    lambda x: mapear_valor(x, cls_to_label_sugerencia, 'Sugerencia'))

# Verificar valores no mapeados (-1)
for col in ['Tipos de Daño', 'Piezas del Vehículo', 'Sugerencia']:
    no_encontrados = df[df[f'{col}_encoded'] == -1][col].unique()
    if len(no_encontrados) > 0:
        print(f"\nADVERTENCIA: Valores no mapeados en {col}:")
        print(no_encontrados)

In [None]:
# =============================================
# 4. CREAR NUEVO CSV CON ETIQUETAS
# =============================================

# Seleccionar y renombrar columnas
df_encoded = df[[
    'Imagen',
    'Tipos de Daño_encoded',
    'Piezas del Vehículo_encoded',
    'Sugerencia_encoded'
]].rename(columns={
    'Tipos de Daño_encoded': 'Tipos de Daño',
    'Piezas del Vehículo_encoded': 'Piezas del Vehículo',
    'Sugerencia_encoded': 'Sugerencia'
})

# Guardar el nuevo archivo CSV
df_encoded.to_csv('data/fotos_siniestros/datos_vehiculos_encoded.csv', index=False, sep='|')

print("\nProceso completado exitosamente!")
print(f"Archivo original: {len(df)} registros")
print(f"Archivo codificado: {len(df_encoded)} registros")
print("Nuevo archivo guardado como: datos_vehiculos_encoded.csv")

Separar los datos para entrenamientos y pruebas.

- Manejo de imágenes múltiples: Agrupa y consolida correctamente imágenes con múltiples registros (como 9.jpg y 15.jpg en tu ejemplo).
- División estratificada: Mantiene proporciones similares de clases en todos los conjuntos, especialmente para la columna "Sugerencia".
- Reconstrucción precisa: Después de la división, expande los registros para mantener la estructura original del CSV.
- Validación incluida: Crea tres conjuntos (entrenamiento, validación y prueba) con proporciones 60%-20%-20%.
- Reporte detallado: Genera estadísticas de distribución para cada conjunto.
- Semilla aleatoria: Garantiza reproducibilidad en las divisiones.

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
import os

# Configuración
SEED = 42
TEST_SIZE = 0.2  # 20% para prueba
VAL_SIZE = 0.25  # 25% del entrenamiento para validación (20% del total)

# 1. Cargar los datos codificados
df = pd.read_csv('data/fotos_siniestros/datos_vehiculos_encoded.csv', sep='|')

### Mejorando el manejo de imagenes:

    - Selección explícita de columnas: Al incluir [['Tipos de Daño', 'Piezas del Vehículo', 'Sugerencia']] después del groupby, estamos siendo explícitos sobre qué columnas queremos procesar.
    - group_keys=False: Este parámetro evita que Pandas incluya las claves de agrupación en el resultado.
    - Manejo mejorado de NaN: La función clean_unique ahora usa dropna() que es más eficiente que filter(pd.notna, ...).

In [None]:
# 2. Manejar imágenes con múltiples registros (como 9.jpg, 15.jpg)
# Agrupamos por imagen y consolidamos las etiquetas
def consolidar_etiquetas(group):
    result = {
        'Tipos de Daño': [],
        'Piezas del Vehículo': [],
        'Sugerencia': []
    }
    
    for col in result.keys():
        unique_values = group[col].dropna().unique()
        result[col] = unique_values.tolist()
    
    return pd.Series(result)

df_consolidado = (
    df.groupby('Imagen', group_keys=False)
    [['Tipos de Daño', 'Piezas del Vehículo', 'Sugerencia']]  # Selección explícita de columnas
    .apply(consolidar_etiquetas)
    .reset_index()
)

In [None]:
# 3. Dividir los datos
# Primero dividimos en entrenamiento+validación (80%) y prueba (20%)
train_val_df, test_df = train_test_split(
    df_consolidado,
    test_size=TEST_SIZE,
    random_state=SEED,
    stratify=df_consolidado['Sugerencia'].apply(lambda x: x[0])  # Estratificar por primera sugerencia
)

In [None]:
# Luego dividimos el entrenamiento en entrenamiento (60%) y validación (20%)
train_df, val_df = train_test_split(
    train_val_df,
    test_size=VAL_SIZE/(1-TEST_SIZE),  # Ajustar para que sea 20% del total
    random_state=SEED,
    stratify=train_val_df['Sugerencia'].apply(lambda x: x[0])
)

In [None]:
# 4. Reconstruir los DataFrames originales (desagrupar las listas)
def expandir_registros(df):
    records = []
    for _, row in df.iterrows():
        for tipo in row['Tipos de Daño']:
            for pieza in row['Piezas del Vehículo']:
                for sugerencia in row['Sugerencia']:
                    records.append({
                        'Imagen': row['Imagen'],
                        'Tipos de Daño': tipo,
                        'Piezas del Vehículo': pieza,
                        'Sugerencia': sugerencia
                    })
    return pd.DataFrame(records)# Aplicar oversampling con SMOTE

# Aplicar oversampling con SMOTE
from imblearn.over_sampling import SMOTE

smote = SMOTE(random_state=42)
X_res, y_res = smote.fit_resample(df[['Tipos de Daño', 'Piezas del Vehículo']], df['Sugerencia'])

train_expanded = expandir_registros(train_df)
val_expanded = expandir_registros(val_df)
test_expanded = expandir_registros(test_df)

In [None]:
# 5. Guardar los conjuntos de datos
os.makedirs('data/fotos_siniestros/datasets', exist_ok=True)

train_expanded.to_csv('data/fotos_siniestros/datasets/train.csv', index=False, sep='|')
val_expanded.to_csv('data/fotos_siniestros/datasets/val.csv', index=False, sep='|')
test_expanded.to_csv('data/fotos_siniestros/datasets/test.csv', index=False, sep='|')

In [None]:
# Cargar los datasets
train_expanded = pd.read_csv('data/fotos_siniestros/datasets/train.csv', sep='|')
val_expanded = pd.read_csv('data/fotos_siniestros/datasets/val.csv', sep='|')
test_expanded = pd.read_csv('data/fotos_siniestros/datasets/test.csv', sep='|')

Análisis Estadístico Básico

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# Cargar los datos
df = pd.read_csv('data/fotos_siniestros/datos_vehiculos_encoded.csv', sep='|')

# 1. Análisis para 'Sugerencia'
sugerencia_dist = df['Sugerencia'].value_counts(normalize=True)
print("Distribución de Sugerencias:")
print(sugerencia_dist)

# 2. Análisis para 'Tipos de Daño'
danos_dist = df['Tipos de Daño'].value_counts(normalize=True)
print("\nDistribución de Tipos de Daño:")
print(danos_dist)

# 3. Análisis para 'Piezas del Vehículo' (top 20)
piezas_dist = df['Piezas del Vehículo'].value_counts(normalize=True)
print("\nDistribución de Piezas (Top 20):")
print(piezas_dist.head(20))

Visualización Gráfica de los datos

In [None]:
# Configurar el estilo de los gráficos
### plt.style.use('ggplot')
plt.style.use('tableau-colorblind10')
### plt.style.use(mystyle)
plt.figure(figsize=(15, 10))
###plt.figure(figsize=(16, 12))
plt.suptitle('Distribución de Variables', fontsize=16, y=1.02)

# 1. Gráfico para Sugerencia
plt.subplot(3, 1, 1)
### df['Sugerencia'].map({1: 'Reparar', 2: 'Reemplazar'}).value_counts().plot(kind='bar')
df['Sugerencia'].map({1: 'Reparar', 2: 'Reemplazar'}).value_counts().plot(kind='barh')
plt.title('Distribución de Sugerencias')
plt.xlabel('Sugerencia')
plt.ylabel('Cantidad')

# 2. Gráfico para Tipos de Daño
plt.subplot(3, 1, 2)
### df['Tipos de Daño'].map(label_to_cls_danos).value_counts().plot(kind='bar')
df['Tipos de Daño'].map(label_to_cls_danos).value_counts().plot(kind='barh')
plt.title('Distribución de Tipos de Daño')
plt.xlabel('Tipo de Daño')
plt.ylabel('Cantidad')

# 3. Gráfico para Piezas (Top 15)
plt.subplot(3, 1, 3)
### df['Piezas del Vehículo'].map(label_to_cls_piezas).value_counts().head(15).plot(kind='bar')
df['Piezas del Vehículo'].map(label_to_cls_piezas).value_counts().head(15).plot(kind='barh')
plt.title('Distribución de Piezas (Top 15)')
plt.xlabel('Pieza del Vehículo')
plt.ylabel('Cantidad')

plt.tight_layout()
plt.show()

---
---