## Imports

In [1]:
import pandas as pd
import unidecode
import re

## Cargar dataset

In [9]:
piezas = pd.read_csv("./preprocessing/input_files/informe_de_tasacion.csv")

## Normalizar piezas

In [10]:
def clean_string(input):
    result = input.replace(".", "")
    result = result.lower()
    result = result.replace("/s", " ")
    result = result.replace("/", "")
    result = result.replace("-", "")
    result = unidecode.unidecode(result)
    result = re.sub(' +', ' ', result)
    result = result.strip()
    return result

def matches(expr, val):
    pattern = re.compile(expr)
    return pattern.match(val)

expr_reg = [
    (r'guardabarro.*del.*der.*', 'Guardabarro Delantero Derecho'),
    (r'guardabarro.*del.*izq.*', 'Guardabarro Delantero Izquierdo'),
    (r'guardabarro.*tra.*der.*', 'Guardabarro Trasero Derecho'),
    (r'guardabarro.*tra.*izq.*', 'Guardabarro Trasero Izquierdo'),
    (r'puerta.*del.*der.*', 'Puerta Delantera Derecha'),
    (r'puerta.*del.*izq.*', 'Puerta Delantera Izquierda'),
    (r'puerta.*tra.*der.*', 'Puerta Trasera Derecha'),
    (r'puerta.*tra.*izq.*', 'Puerta Trasera Izquierda'),
    (r'(panel trasero.*)', 'Panel Trasero'),
    (r'capo.*', 'Capot'),
    (r'(tapa.*(baul|vali).*)|(porton.*)', 'Tapa de Baul'),
    (r'.*zoc.*der.*', 'Zocalo Derecho'),
    (r'.*zoc.*izq.*', 'Zocalo Izquierdo'),
    (r'farol.*del.*der.*', 'Farol Delantero Derecho'),
    (r'farol.*del.*izq.*', 'Farol Delantero Izquierdo'),
    (r'farol.*tra.*der.*', 'Farol Trasero Derecho'),
    (r'farol.*tra.*izq', 'Farol Trasero Izquierdo'),
    (r'techo', 'Techo'),
    (r'lateral caja.*der.*', 'Lateral de Caja Derecho'),
    (r'lateral caja.*izq.*', 'Lateral de Caja Izquierdo'),
    (r'parag.*del.*', 'Paragolpe Delantero'),
    (r'parag.*tra.*', 'Paragolpe Trasero'),
]

def normalizar_pieza(pieza):
    for (expr, name) in expr_reg:
        if matches(expr, pieza):
            return name

    return 'Otro'

In [11]:
piezas["Pieza"] = piezas["Pieza"].apply(clean_string)

In [12]:
len(piezas["Pieza"].unique())

7965

In [13]:
piezas['pieza_normalizada'] = piezas["Pieza"].apply(normalizar_pieza)

In [14]:
piezas.to_csv('./preprocessing/piezas_normalizadas.csv', index=False)

In [19]:
# count de piezas
piezas.groupby(['Pieza', 'pieza_normalizada']).size().reset_index(name='counts').sort_values(by='counts', ascending=False).to_csv('piezas_count.csv', index = False)

## Prueba

In [9]:
guardabarro_del = piezas[piezas["Pieza"].str.match(r'guardabarro.*del.*')] # front_fender

In [10]:
guardabarro_del.head()

Unnamed: 0,Siniestro,DENUNCIA,Pieza,Tarea,Horas,pieza_normalizada
16,661/2020,M305946,guardabarro delantero der,Reparar,0.0,Guardabarro Delantero
27,821/2020,M304093,guardabarro delantero izq,Sustituir,1.5,Guardabarro Delantero
48,844/2020,M304973,guardabarro delantero ajustar izq,Reparar,1.5,Guardabarro Delantero
62,903/2020,M304977,guardabarro delantero der,Reparar,2.0,Guardabarro Delantero
68,925/2020,M305984,guardabarro delantero cagujero der,Sustituir,1.5,Guardabarro Delantero
