In [9]:
import pandas as pd
import os
import re
import unicodedata
from rapidfuzz import fuzz, process as fuzzprocess
import numpy as np
import os
import unicodedata
import pandas as pd

In [10]:
_re_non_alnum = re.compile(r"[^0-9a-z]+")
_re_multi_unders = re.compile(r"_+")

def normalizar_texto(texto: str) -> str:
    """Normaliza texto : sin acentos, min√∫sculas, underscores limpios."""
    if not isinstance(texto, str):
        return texto

    texto = unicodedata.normalize("NFKD", texto)
    texto = "".join(c for c in texto if not unicodedata.combining(c))
    texto = texto.lower()

    texto = _re_non_alnum.sub("_", texto)
    texto = _re_multi_unders.sub("_", texto)
    return texto.strip("_")

In [11]:
def normalize_sheet_name(name):
    """Normaliza y singulariza para evitar 'vehiculos' / 'vehiculo'."""
    norm = normalizar_texto(name)
    # singularizaci√≥n simple
    if norm.endswith("es") and len(norm) > 3:
        norm = norm[:-2]
    elif norm.endswith("s") and len(norm) > 2:
        norm = norm[:-1]
    return norm

In [12]:
# 

root_excels = r"C:\\Users\\hiros\\Desktop\\CMS-PRUEBA-TECNICA\\descargas"

MESES = {
    "enero": 1, "febrero": 2, "marzo": 3, "abril": 4,
    "mayo": 5, "junio": 6, "julio": 7, "agosto": 8,
    "septiembre": 9, "octubre": 10, "noviembre": 11, "diciembre": 12
}
a√±os = ['2025','2024','2023','2022','2021','2020','2019','2018','2017','2016','2015','2014','2013','2012','2011','2010']


def extraer_mes_nomb_excel(nombre_archivo):
    # quitar extensi√≥n
    nombre = os.path.splitext(nombre_archivo)[0].lower()

    # separar por espacios, guiones, underscores, etc.
    partes = re.split(r"[ _\-]+", nombre)

    # buscar coincidencia exacta
    for parte in partes:
        if parte in MESES:
            return parte  # retorna el nombre del mes encontrado

    # b√∫squeda m√°s flexible: " - diciembre 2012"
    for mes in MESES:
        if mes in nombre:
            return mes

    return None


def extraer_a√±o(nombre_archivo):
    
    # quitar extensi√≥n
    nombre = os.path.splitext(nombre_archivo)[0].lower()

    # separar por espacios, guiones, underscores, etc.
    partes = re.split(r"[ _\-]+", nombre)

    # buscar coincidencia exacta
    for parte in partes:
        if parte in a√±os:
            return parte  # retorna el a√±o encontrado

    # b√∫squeda m√°s flexible: " - diciembre 2012"
    for a√±o in a√±os:
        if a√±o in nombre:
            return a√±o

    return None

In [13]:
def es_hoja_vehiculo(sheet_name: str) -> bool:
    norm = normalize_sheet_name(sheet_name)  # e.g. "Servicios" ‚Üí "servicios"
    tokens = norm.split("_")

    # 1) Token empieza con "veh" ‚Üí MUY seguro
    for t in tokens:
        if t.startswith("veh"):
            return True

    # 2) Excluir expl√≠citamente cosas tipo "servicio" / "servicios"
    if any(t.startswith(("serv", "servi", "servic")) for t in tokens):
        return False

    # 3) Fuzzy matching seguro contra "vehiculo"
    score = fuzz.partial_ratio(norm, "vehiculo")
    if score >= 75:
        return True

    # 4) Fuzzy por token con longitud m√≠nima (evita match con "ser")
    for t in tokens:
        if len(t) >= 3:
            if fuzz.partial_ratio(t, "veh") >= 90:
                return True

    return False


In [14]:
def leer_excels_vehiculos(root_path):
    todos = []

    for year_folder in os.listdir(root_path):
        ruta_a√±o = os.path.join(root_path, year_folder)
        if not os.path.isdir(ruta_a√±o):
            continue

        for archivo in os.listdir(ruta_a√±o):
            if not archivo.lower().endswith((".xlsx", ".xls", ".xlsm")):
                continue

            ruta_file = os.path.join(ruta_a√±o, archivo)

            a√±o_det = extraer_a√±o(archivo)
            mes_det = extraer_mes_nomb_excel(archivo)

            try:
                excel = pd.ExcelFile(ruta_file)
            except Exception as e:
                print(f"‚ùå Error abriendo {archivo}: {e}")
                continue

            # Flag para saber si encontramos una hoja v√°lida
            encontro_hoja = False

            for hoja in excel.sheet_names:
                if es_hoja_vehiculo(hoja):
                    print(f"‚úî Leyendo {archivo} | hoja autom√°tica: {hoja}")
                    try:
                        df = pd.read_excel(ruta_file, sheet_name=hoja)
                        df["a√±o_archivo"] = a√±o_det
                        df["mes_archivo"] = mes_det
                        df["archivo"] = archivo
                        df["hoja"] = hoja
                        todos.append(df)
                        encontro_hoja = True
                    except Exception as e:
                        print(f"‚ùå Error leyendo hoja {hoja} en {archivo}: {e}")
                    continue

            # -----------------------------------------
            # Fallback interactivo si NO encontr√≥ nada
            # -----------------------------------------
            if not encontro_hoja:
                print(f"\n‚ö† No encontr√© ninguna hoja tipo 'vehiculo' en el archivo:")
                print(f"   ‚Üí {archivo}")
                print("   Hojas disponibles:")

                for i, h in enumerate(excel.sheet_names):
                    print(f"   [{i}] {h}")

                try:
                    idx = int(input(f"üëâ Ingresa el n√∫mero de la hoja que quieres usar (o -1 para saltar) opciones{list(range(len(excel.sheet_names)))}: "))
                except:
                    print("Entrada inv√°lida. Saltando archivo.")
                    continue

                if idx == -1:
                    print("‚è≠ Saltando archivo.")
                    continue
                if idx < 0 or idx >= len(excel.sheet_names):
                    print("‚ùå √çndice fuera de rango. Saltando archivo.")
                    continue

                hoja_manual = excel.sheet_names[idx]
                print(f"‚úî Leyendo manualmente: {archivo} | hoja: {hoja_manual}")

                try:
                    df = pd.read_excel(ruta_file, sheet_name=hoja_manual)
                    df["a√±o_archivo"] = a√±o_det
                    df["mes_archivo"] = mes_det
                    df["archivo"] = archivo
                    df["hoja"] = hoja_manual
                    todos.append(df)
                except Exception as e:
                    print(f"‚ùå Error leyendo hoja manual {hoja_manual} en {archivo}: {e}")
                    continue

    if todos:
        return pd.concat(todos, ignore_index=True)
    return pd.DataFrame()


In [15]:
df_vehiculos = leer_excels_vehiculos(root_excels)
df_vehiculos 


‚úî Leyendo Base de Datos de Transporte P√∫blico - Abril 2021.xlsx | hoja autom√°tica: Veh√≠culos
‚úî Leyendo Base de Datos de Transporte P√∫blico - Agosto 2021.xlsx | hoja autom√°tica: Veh√≠culo
‚úî Leyendo Base de Datos de Transporte P√∫blico - Diciembre 2021.xlsx | hoja autom√°tica: Veh√≠culo
‚úî Leyendo Base de Datos de Transporte P√∫blico - Enero 2021.xlsx | hoja autom√°tica: Vehiculos
‚úî Leyendo Base de Datos de Transporte P√∫blico - Febrero 2021.xlsx | hoja autom√°tica: Veh√≠culo
‚úî Leyendo Base de Datos de Transporte P√∫blico - Julio 2021.xlsx | hoja autom√°tica: Veh√≠culos
‚úî Leyendo Base de Datos de Transporte P√∫blico - Junio 2021.xlsx | hoja autom√°tica: Vehiculos
‚úî Leyendo Base de Datos de Transporte P√∫blico - Marzo 2021.xlsx | hoja autom√°tica: Vehiculos vig
‚úî Leyendo Base de Datos de Transporte P√∫blico - Mayo 2021.xlsx | hoja autom√°tica: Vehiculos
‚úî Leyendo Base de Datos de Transporte P√∫blico - Noviembre 2021.xlsx | hoja autom√°tica: Veh√≠culo
‚úî Leyendo Ba

Unnamed: 0,REGION,FOLIO,TIPO_SERVICIO,PPU,FECHA_INGRESO_RNT,MARCA,MODELO,ANO_FABRICACION,CAPACIDAD,a√±o_archivo,...,TIPO_SERVCIO,TIPO_COMBUSTIBLE,FECHA_INGRESO_RNT.1,TIPO_COMBUSTIBLE.1,COMBUSTIBLE,FECHA_INGRESO_RNTT,TIPO SERVICIO,LINEA,A√ëO FABRICACION,A√ëOFABRICACION
0,1.0,10,TAXI COLECTIVO RURAL,RW2882,2007-06-26,HYUNDAI,ACCENT GL 1.5,2007.0,4.0,2021,...,,,,,,,,,,
1,1.0,12,TAXI COLECTIVO RURAL,BCRH67,2019-10-07,HYUNDAI,ACCENT 1.6,2015.0,,2021,...,,,,,,,,,,
2,1.0,18,TAXI COLECTIVO RURAL,DWCY37,2012-05-15,HYUNDAI,ACCENT RB GL 1.6,2012.0,4.0,2021,...,,,,,,,,,,
3,1.0,19,TAXI COLECTIVO RURAL,DGFX88,2011-08-30,HYUNDAI,ACCENT RB GL 1.6,2011.0,4.0,2021,...,,,,,,,,,,
4,1.0,24,TAXI COLECTIVO RURAL,FPCP93,2013-05-03,HYUNDAI,ACCENT RB GL 1.6,2013.0,4.0,2021,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
10480787,16.0,500700,,DKWJ44,2013-06-03-15.58.03.000000,SCANIA,K380B,,44.0,2019,...,,,,,,,,,,
10480788,16.0,500936,,BXDK27,2015-11-10-17.26.01.000000,MERCEDES BENZ,0500 RS,,,2019,...,,,,,,,,,,
10480789,16.0,500825,,KXBT57,2018-11-09-00.00.00.000000,MERCEDES BENZ,OF 1724,,46.0,2019,...,,,,,,,,,,
10480790,16.0,400080,,WK7479,2007-08-10-12.00.00.000000,MERCEDES BENZ,LO 914 42,,,2019,...,,,,,,,,,,


In [None]:
import datetime

def detect_and_convert_datetime(df, sample_size=100):
	"""Detect object columns that contain datetimes and convert them to datetime64[ns]."""
	df = df.copy()
	obj_cols = df.select_dtypes(include=["object"]).columns
	date_cols = []
	for col in obj_cols:
		nonnull = df[col].dropna()
		if nonnull.empty:
			continue
		sample = nonnull.head(sample_size)
		# If any sample item is a Timestamp / datetime, treat column as datetime
		if sample.map(lambda x: isinstance(x, (pd.Timestamp, datetime.datetime))).any():
			date_cols.append(col)
			continue
		# Otherwise try parsing the sample; if any parses, treat as datetime
		parsed = pd.to_datetime(sample, errors="coerce", infer_datetime_format=True)
		if parsed.notna().any():
			date_cols.append(col)

	# Convert detected columns
	for col in date_cols:
		df[col] = pd.to_datetime(df[col], errors="coerce", infer_datetime_format=True)

	return df, date_cols

df_vehiculos, converted_cols = detect_and_convert_datetime(df_vehiculos)
print("Converted to datetime:", converted_cols)

# Ensure object columns are converted to pandas string dtype to avoid pyarrow ArrowTypeError
obj_cols = df_vehiculos.select_dtypes(include=["object"]).columns
if len(obj_cols) > 0:
	# pandas 'string' dtype is arrow-friendly and avoids mixed-type issues (e.g. ints in object column)
	df_vehiculos[obj_cols] = df_vehiculos[obj_cols].astype("string")

# write parquet (avoid index if not needed)
df_vehiculos.to_parquet("veh_raw.parquet", index=False)

  parsed = pd.to_datetime(sample, errors="coerce", infer_datetime_format=True)
  parsed = pd.to_datetime(sample, errors="coerce", infer_datetime_format=True)
  parsed = pd.to_datetime(sample, errors="coerce", infer_datetime_format=True)
  parsed = pd.to_datetime(sample, errors="coerce", infer_datetime_format=True)
  parsed = pd.to_datetime(sample, errors="coerce", infer_datetime_format=True)
  parsed = pd.to_datetime(sample, errors="coerce", infer_datetime_format=True)
  parsed = pd.to_datetime(sample, errors="coerce", infer_datetime_format=True)
  parsed = pd.to_datetime(sample, errors="coerce", infer_datetime_format=True)
  parsed = pd.to_datetime(sample, errors="coerce", infer_datetime_format=True)
  parsed = pd.to_datetime(sample, errors="coerce", infer_datetime_format=True)
  parsed = pd.to_datetime(sample, errors="coerce", infer_datetime_format=True)
  parsed = pd.to_datetime(sample, errors="coerce", infer_datetime_format=True)
  parsed = pd.to_datetime(sample, errors="coerce", i

Converted to datetime: ['FECHA_INGRESO_RNT', 'a√±o_archivo', 'FECHA_INGRESO_SERVICIO', 'FECHA _INGRESO_RNT', 'FECHA_INGRESO_RNTTT', 'FECHA_INGRESO', 'FECHA INGRESO RNT', 'FECHA_INGRESO_RNT.1', 'FECHA_INGRESO_RNTT']


ArrowTypeError: ("Expected bytes, got a 'int' object", 'Conversion failed for column MARCA with type object')

In [18]:
df_vehiculos.to_csv("vehiculos_extraidos.csv", index=False)


In [19]:
df_vehiculos

Unnamed: 0,REGION,FOLIO,TIPO_SERVICIO,PPU,FECHA_INGRESO_RNT,MARCA,MODELO,ANO_FABRICACION,CAPACIDAD,a√±o_archivo,...,TIPO_SERVCIO,TIPO_COMBUSTIBLE,FECHA_INGRESO_RNT.1,TIPO_COMBUSTIBLE.1,COMBUSTIBLE,FECHA_INGRESO_RNTT,TIPO SERVICIO,LINEA,A√ëO FABRICACION,A√ëOFABRICACION
0,1.0,10,TAXI COLECTIVO RURAL,RW2882,2007-06-26,HYUNDAI,ACCENT GL 1.5,2007.0,4.0,2021-01-01,...,,,NaT,,,NaT,,,,
1,1.0,12,TAXI COLECTIVO RURAL,BCRH67,2019-10-07,HYUNDAI,ACCENT 1.6,2015.0,,2021-01-01,...,,,NaT,,,NaT,,,,
2,1.0,18,TAXI COLECTIVO RURAL,DWCY37,2012-05-15,HYUNDAI,ACCENT RB GL 1.6,2012.0,4.0,2021-01-01,...,,,NaT,,,NaT,,,,
3,1.0,19,TAXI COLECTIVO RURAL,DGFX88,2011-08-30,HYUNDAI,ACCENT RB GL 1.6,2011.0,4.0,2021-01-01,...,,,NaT,,,NaT,,,,
4,1.0,24,TAXI COLECTIVO RURAL,FPCP93,2013-05-03,HYUNDAI,ACCENT RB GL 1.6,2013.0,4.0,2021-01-01,...,,,NaT,,,NaT,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
10480787,16.0,500700,,DKWJ44,NaT,SCANIA,K380B,,44.0,2019-01-01,...,,,NaT,,,NaT,,,,
10480788,16.0,500936,,BXDK27,NaT,MERCEDES BENZ,0500 RS,,,2019-01-01,...,,,NaT,,,NaT,,,,
10480789,16.0,500825,,KXBT57,NaT,MERCEDES BENZ,OF 1724,,46.0,2019-01-01,...,,,NaT,,,NaT,,,,
10480790,16.0,400080,,WK7479,NaT,MERCEDES BENZ,LO 914 42,,,2019-01-01,...,,,NaT,,,NaT,,,,


In [None]:
asdasd

In [None]:
vehiculos_df = df_vehiculos.copy()

In [None]:
df_vehiculos.columns

Index(['REGION', 'FOLIO', 'TIPO_SERVICIO', 'PPU', 'FECHA_INGRESO_RNT', 'MARCA',
       'MODELO', 'ANO_FABRICACION', 'CAPACIDAD', 'a√±o_archivo', 'mes_archivo',
       'archivo', 'hoja', 'ANOFABRICACION', 'TIPOSERVICIO',
       'FECHA_INGRESO_SERVICIO', ' TIPO_SERVICIO', 'FECHA _INGRESO_RNT',
       'Tipo_Servicio', 'TIPO_SERVICCIO', 'FECHA_INGRESO_RNTTT',
       'FECHA_INGRESO', 'FECHA INGRESO RNT', 'TIPO_SERVCIO',
       'TIPO_COMBUSTIBLE', 'FECHA_INGRESO_RNT.1', 'TIPO_COMBUSTIBLE ',
       'COMBUSTIBLE', 'FECHA_INGRESO_RNTT', 'TIPO SERVICIO', 'LINEA',
       'A√ëO FABRICACION', 'A√ëOFABRICACION'],
      dtype='object')

In [None]:

vehiculos_df = vehiculos_df.copy()
vehiculos_df.columns = [normalizar_texto(c) for c in vehiculos_df.columns]


In [None]:
column_groups = {
    "tipo_servicio": [
        "tipo_servicio", "tiposervicio", "tipo_serviccio",
        "tipo_servcio", "tipo_servicio_", "tipo_servicio_1",
        "tipo_servicio1"
    ],
    "fecha_ingreso_rnt": [
        "fecha_ingreso_rnt", "fecha_ingreso_rntt", "fecha_ingreso_rnttt",
        "fecha_ingreso_rnt_1", "fecha_ingreso_rnt1",
        "fecha_ingreso_rnt_", "fecha_ingreso_rnt_"
    ],
    "combustible": [
        "combustible", "tipo_combustible", "tipo_combustible_",
        "tipo_combustible1"
    ],
    "fecha_ingreso": [
        "fecha_ingreso", "fecha_ingreso_servicio", "fecha_ingreso1"
    ],
    "ano_fabricacion": [
        "ano_fabricacion", "anofabricacion", "a√±o_fabricacion",
        "ano_fabricacion_", "ano_fabricacion1"
    ]
}


In [None]:
def unificar_columnas(df, groups):
    df = df.copy()
    for final_col, variantes in groups.items():
        existentes = [c for c in variantes if c in df.columns]
        if not existentes:
            continue
        
        df[final_col] = df[existentes].bfill(axis=1).iloc[:, 0]
        
        # eliminar columnas usadas excepto la final
        to_drop = [c for c in existentes if c != final_col]
        df = df.drop(columns=to_drop)
    return df


In [None]:
vehiculos_df = unificar_columnas(vehiculos_df, column_groups)


MemoryError: 

In [None]:
asdasd

### Consolidar columnas

In [None]:
# Ordenar dataframe
column_order = [
    "folio",
    "region",
    "ppu",
    "linea",
    "marca",
    "modelo",
    "a√±o_fabricacion",
    "capacidad",
    "tipo_servicio",
    "combustible",
    "fecha_ingreso",
    "fecha_ingreso_rnt",
    "mes",
    "ano"
]

column_order = [c for c in column_order if c in vehiculos_df.columns] + \
               [c for c in vehiculos_df.columns if c not in column_order]

vehiculos_df = vehiculos_df[column_order]

vehiculos_df.head()

Unnamed: 0,folio,region,ppu,linea,marca,modelo,a√±o_fabricacion,capacidad,tipo_servicio,combustible,fecha_ingreso,fecha_ingreso_rnt,mes,ano,ano_fabricacion,anofabricacion
0,10,1.0,RW2882,,HYUNDAI,ACCENT GL 1.5,2007.0,4.0,TAXI COLECTIVO RURAL,,,2007-06-26,abril,2021,2007.0,
1,12,1.0,BCRH67,,HYUNDAI,ACCENT 1.6,2015.0,,TAXI COLECTIVO RURAL,,,2019-10-07,abril,2021,2015.0,
2,18,1.0,DWCY37,,HYUNDAI,ACCENT RB GL 1.6,2012.0,4.0,TAXI COLECTIVO RURAL,,,2012-05-15,abril,2021,2012.0,
3,19,1.0,DGFX88,,HYUNDAI,ACCENT RB GL 1.6,2011.0,4.0,TAXI COLECTIVO RURAL,,,2011-08-30,abril,2021,2011.0,
4,24,1.0,FPCP93,,HYUNDAI,ACCENT RB GL 1.6,2013.0,4.0,TAXI COLECTIVO RURAL,,,2013-05-03,abril,2021,2013.0,


In [None]:
vehiculos_df

Unnamed: 0,folio,region,ppu,linea,marca,modelo,a√±o_fabricacion,capacidad,tipo_servicio,combustible,fecha_ingreso,fecha_ingreso_rnt,mes,ano,ano_fabricacion,anofabricacion
0,10,1.0,RW2882,,HYUNDAI,ACCENT GL 1.5,2007.0,4.0,TAXI COLECTIVO RURAL,,,2007-06-26,abril,2021,2007.0,
1,12,1.0,BCRH67,,HYUNDAI,ACCENT 1.6,2015.0,,TAXI COLECTIVO RURAL,,,2019-10-07,abril,2021,2015.0,
2,18,1.0,DWCY37,,HYUNDAI,ACCENT RB GL 1.6,2012.0,4.0,TAXI COLECTIVO RURAL,,,2012-05-15,abril,2021,2012.0,
3,19,1.0,DGFX88,,HYUNDAI,ACCENT RB GL 1.6,2011.0,4.0,TAXI COLECTIVO RURAL,,,2011-08-30,abril,2021,2011.0,
4,24,1.0,FPCP93,,HYUNDAI,ACCENT RB GL 1.6,2013.0,4.0,TAXI COLECTIVO RURAL,,,2013-05-03,abril,2021,2013.0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
10480787,500700,16.0,DKWJ44,,SCANIA,K380B,2012.0,44.0,,,,2013-06-03-15.58.03.000000,diciembre,2019,,2012.0
10480788,500936,16.0,BXDK27,,MERCEDES BENZ,0500 RS,2009.0,,,,,2015-11-10-17.26.01.000000,diciembre,2019,,2009.0
10480789,500825,16.0,KXBT57,,MERCEDES BENZ,OF 1724,2019.0,46.0,,,,2018-11-09-00.00.00.000000,diciembre,2019,,2019.0
10480790,400080,16.0,WK7479,,MERCEDES BENZ,LO 914 42,2007.0,,,,,2007-08-10-12.00.00.000000,diciembre,2019,,2007.0
