In [None]:
from glob import glob
import pandas as pd
import json

In [None]:
def get_car_data(id_car, df):
    return df[df['ID_Auto'] == id_car]

def get_last_file(path: str, ext: str):
    filenames = glob(f"{path}/*{ext}")
    filenames.sort()
    return filenames[-1]

csv_path = get_last_file('../data/processed/csv/', '.csv')
json_path = get_last_file('../data/processed/json/', '.jsonl')

df = pd.read_csv(csv_path)
df.sample(1)

#### Configuracion

In [None]:
from IPython.display import display, HTML

# Configuraci칩n visual para Jupyter (Ancho completo)
display(HTML("<style>.container { width:100% !important; }</style>"))

# Muestra todas las columnas evitando el "..."
pd.set_option('display.max_columns', None)

# Ajustar el ancho de visualizaci칩n 
pd.set_option('display.width', 1000)

# Muestra todo el contenido de la celda evitando que corte textos largos
pd.set_option('display.max_colwidth', None)

# Evita la notaci칩n cient칤fica (ej: 1.5e6 -> 1500000.00)
pd.set_option('display.float_format', '{:.2f}'.format)

### Estadisticas basicas

In [None]:
print("---2. Dimensiones ---")
print(f"Filas: {df.shape[0]}, Columnas: {df.shape[1]}, Autos: {df.shape[0]//6}")
print("\n---3. Tipos de datos ---")
print(df.info())

In [None]:

print("\n---4. Conteo de autos unicos")
unique_cars = df['ID_Auto'].nunique()
print(f"Total de autos unicos: {unique_cars}")


In [None]:

print("---5. Estadisticas Rapidas ---")
print(df[['Precio', 'Mensualidad', 'Tasa', 'Enganche_Simulado', 'Enganche_Min', 'Enganche_Max']].describe())

### Encontrando Insights

### Bono por Financiamiento y Precio de Contado (PoC).

El auto vale 400k, pero si te endeudas con nosotros, te lo dejamos en 380k, una diferencia de 20k. Sin embargo, no es real porque recuperan ese descuento (y mucho m치s) con los intereses que te cobran. 
En este peque침o ejemplo se haya una peque침a correlacion oculta, donde a mayor precio, mayor es el porcentaje de descuento: en un auto caro, el margen de ganancia es mayor y el pr칠stamo es m치s grande (m치s intereses para Kavak), as칤 que pueden ofrecer un "Bono" m치s agresivo para engancharte. Esto sugiere que el precio de contado no es aleatorio sino una variable dependiente del precio y la categor칤a del auto donde incluso con una regresi칩n lineal simple puede utilizarse para imputarlo, es decir, inventarlo con base cient칤fica.

Auto caro (391k) -> Descuento ~6.5%
Auto medio (375k) -> Descuento ~6.2%
Auto "barato" (360k) -> Descuento ~4.6%

In [None]:
def get_contado_porcentaje(precio_contado, precio_meses):
    return ((precio_contado - precio_meses)*100)/precio_meses

print(get_contado_porcentaje(399999,375999))
print(get_contado_porcentaje(391999,367999))
print(get_contado_porcentaje(385999,368999))
print(get_contado_porcentaje(375999,353999))
print(get_contado_porcentaje(360999,340999))

"""
Salida:
6.3829956994566475
6.521756852600143
4.607058555714243
6.214706821205709
5.865119839061111
"""

### Modelado del dataframe final limpio

In [None]:
### Extraccion de Marca, Modelo, Anio, Version y Tipo del slug.
df_fin = pd.read_csv(csv_path)

#Diccionario {'auto_id':'Nombre del auto'}
autos_dict = {}
with open('../data/dataset_autos_V2.jsonl', 'r', encoding='utf-8') as f: #TODO Cambiar las rutas
    for line in f:
        car = json.loads(line)
        name = car['slug'].split('/')[-1].replace('-', ' ').title()
        autos_dict[car['id']] = name

#VLOOKUP by ID
df_fin['Nombre'] = df_fin['ID_Auto'].astype(str).map(autos_dict)

# Separate name into ['Marca', 'Modelo', 'Version', 'Tipo', 'A침o']
df_fin[['Marca', 'Modelo', 'Version', 'Tipo', 'A침o']] = (
    df_fin['Nombre']
    .str.strip()
    .str.split(' ', expand=True)
)
df_fin = df_fin.drop(columns=['Nombre'])

# Calculo de datos financieros
df_fin['Total_a_Pagar'] = (df_fin['Mensualidad'] * df_fin['Plazo']) + df_fin['Enganche_Simulado'] # Plazo * Mensualidad + enganche 

df_fin['Interes'] = df_fin['Total_a_Pagar'] - df_fin['Precio'] # Costo extra
df_fin['Interes_%'] = (df_fin['Interes'] * 100) / df_fin['Precio'] # % de costo extra respecto al precio  

df_fin['Enganche_Min_%'] = (df['Enganche_Min'] * 100) / df_fin['Precio']
df_fin['Enganche_Max_%'] = (df['Enganche_Max'] * 100) / df_fin['Precio']

# Casting
df_fin['ID_Auto'] = df_fin['ID_Auto'].astype('string')
df_fin['Marca'] = df_fin['Marca'].astype('category')
df_fin['Modelo'] = df_fin['Modelo'].astype('string')
df_fin['Version'] = df_fin['Version'].astype('string')
df_fin['A침o'] = df_fin['A침o'].astype('Int64')
df_fin['Plazo'] = df_fin['Plazo'].astype('category')
df_fin['Tipo'] = df_fin['Tipo'].astype('category')

### Integracion de datos faltantes (km, sucursal, caja, oferta)
df_prod = pd.read_json('../data/dataset_autos_V2_cleaned.jsonl', lines=True) #TODO Cambiar las rutas

df_prod['id'] = df_prod['id'].astype('string')
df_prod = df_prod.drop(columns=['slug', 'price', 'details']) # Elimina cols innecesarias
df_prod.rename(columns={'id':'ID_Auto', 'A침o':'A침o', 'sucursal':'Ciudad', 'caja':'Caja', 'km':'Km', 'oferta':'Oferta'}, inplace=True)

df_merged = df_fin.merge(
    df_prod, 
    how='inner', 
    on='ID_Auto', 
    suffixes=('_fin', '_prod')
    )

if (df_merged[df_merged['Year_fin'] != df_merged['Year_prod']]).empty:
    #print("Los datos son identicos. Eliminando...")
    df_merged.rename(columns={'Year_prod':'A침o', 'Tipo':'Tipo'}, inplace=True)
    df_merged = df_merged.drop(columns=['Year_fin'])
    

# Casting
df_merged['Ciudad'] = df_merged['Ciudad'].astype('category')
df_merged['A침o'] = df_merged['A침o'].astype('Int64')
df_merged['Caja'] = df_merged['Caja'].astype('category')
df_merged['Km'] = df_merged['Km'].astype('Int64')
df_merged['Oferta'] = df_merged['Oferta'].astype('category')

In [None]:
df_merged.info()
df_merged.to_csv('../data/csv/cleaned_final_csv_scrap_completo.csv', encoding='utf-8', index=False)

### Matriz de Correlaci칩n (Heatmap)

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

cols_interes = ['Total_a_Pagar', 'A침o', 'Km', 'Tasa', 'Mensualidad', 'Enganche_Min_%']

df_subset = df_merged[cols_interes]

matriz_corr = df_subset.corr()

plt.figure(figsize=(10, 8))
sns.heatmap(matriz_corr,
            annot=True,
            cmap='coolwarm',
            fmt=".2f")
plt.show()

### Regresion para evaluacion de precio justo

### Insights

In [None]:
print("--- TOP 5 AUTOS CON LAS MENSUALIDADES MAS BAJA (Plazo 48) y mayor porcentaje de enganche min y max ---")
df_48 = df_fin[df_fin['Plazo'] == 48].copy()

best_rates = df_48.sort_values('Mensualidad').head(5)
print(
    best_rates[['Marca','Modelo', 'A침o', 'Mensualidad', 'Precio', 'Interes_Total', 'Total_a_Pagar', 'Porcentaje_Extra', 
         'Enganche_Min_%', 'Enganche_Max_%']].sort_values('Enganche_Max_%', ascending=False))

In [None]:
car_data  = get_car_data(458889, df_fin).sort_values('Plazo', ascending=True)
car_data.loc[:, ['Marca', 'Modelo', 'A침o', 'Tipo']]

In [None]:
# Smart Buys
# Autos donde el financiamiento sea menor al 40% del valor del auto con un plazo de 48 meses
smart_buys = df_fin[
    (df_fin['Plazo'] == 48) &
    #(df_fin['Porcentaje_Extra'] < 45) & # Limite porcentual maximo de financiamiento respecto al precio del auto
    (df_fin['Total_a_Pagar'] < 250000)
].sort_values('Porcentaje_Extra', ascending=True)

if not smart_buys.empty:
    print(smart_buys[['ID_Auto', 'Marca', 'Modelo', 'A침o', 'Tipo', 'Plazo', 'Precio', 'Interes_Total', 'Mensualidad', 'Total_a_Pagar', 'Porcentaje_Extra']].head(10))
else:
    print("No hay autos con financiamiento en este porcentaje")

In [None]:

worst_deals = df_fin[df_fin['Plazo'] == 60].sort_values('Porcentaje_Extra', ascending=False).head(10)
print("Los 10 autos donde pagas m치s intereses proporcionales (a 60 meses):")
print(worst_deals[['Marca', 'Modelo', 'Plazo', 'Precio', 'Total_a_Pagar', 'Porcentaje_Extra']])

In [None]:
#The cashflow King
print("\n--- AUTOS CON VALOR MAYOR A 300k CON MENSUALIDAD MENORES A 10K ---")

luxury_cheap = df_fin[
    (df_fin['Precio'] > 300000) &
    (df_fin['Mensualidad'] < 10000)
].sort_values('Porcentaje_Extra', ascending=True).head()



print(luxury_cheap[['ID_Auto', 'Marca', 'Modelo', 'Tipo', 'A침o', 'Precio', 'Tasa', 'Plazo', 'Mensualidad', 'Total_a_Pagar', 'Porcentaje_Extra']])

In [None]:
# Filtramos espec칤ficamente ese Nissan Sentra usando tu DataFrame ya cargado
# (Aseg칰rate de tener df_fin cargado del paso anterior)

sentra_id = 1003531 # Lo vi en tu tabla anterior del an치lisis "Premium"
sentra_real = df_fin[
    (df_fin['ID_Auto'] == sentra_id) & 
    (df_fin['Plazo'] == 72)
].copy()

# Calculamos la realidad
sentra_real['Total_a_Pagar'] = (sentra_real['Mensualidad'] * sentra_real['Plazo']) + sentra_real['Enganche_Simulado']
sentra_real['Interes_Pagado'] = sentra_real['Total_a_Pagar'] - sentra_real['Precio']

print("--- 游눶 LA VERDAD DEL NISSAN SENTRA 2023 ---")
print(f"Precio de Contado:      ${sentra_real['Precio'].values[0]:,.2f}")
print(f"Enganche M칤nimo (16%):  ${sentra_real['Enganche_Simulado'].values[0]:,.2f}")
print(f"Tu Mensualidad Real:    ${sentra_real['Mensualidad'].values[0]:,.2f}")
print(f"Total a pagar (6 a침os): ${sentra_real['Total_a_Pagar'].values[0]:,.2f}")
print(f"Intereses Extra:        ${sentra_real['Interes_Pagado'].values[0]:,.2f}")
print(f"Intere Porcentual Extra: {sentra_real['Porcentaje_Extra'].values[0]:,.2f}%")