In [9]:
import pandas as pd
import numpy as np
import importlib.metadata
import mysql.connector
import streamlit as st
import os

from datetime import datetime

In [2]:
# Cargar csv
df_combustibles = pd.read_csv("../bin/listado_combustibles.csv")
df_concesionarios = pd.read_csv("../bin/listado_concesionarios.csv")
df_distintivo_ambiental = pd.read_csv("../bin/listado_distintivo_ambiental.csv")
df_marcas = pd.read_csv("../bin/listado_marcas.csv")
df_modelos = pd.read_csv("../bin/listado_modelos.csv")
df_provincias = pd.read_csv("../bin/listado_provincias.csv")
df_sobrealimentacion = pd.read_csv("../bin/listado_sobrealimentacion.csv")
df_traccion = pd.read_csv("../bin/listado_traccion.csv")
df_cambio = pd.read_csv("../bin/listado_tipos_cambio.csv")
df_prestaciones = pd.read_csv("../bin/prestaciones.csv")

In [3]:
df_prestaciones['fecha_extraccion'] = pd.to_datetime(df_prestaciones['fecha_extraccion'], format='%d/%m/%Y', errors='coerce' )
df_prestaciones['fecha_extraccion'] = df_prestaciones['fecha_extraccion'].dt.strftime('%Y-%m-%d %H:%M:%S')

In [4]:
#Comprobar si hay nans
df_prestaciones.isna().sum()

id_provincia                  1
fecha_extraccion              0
kilometraje                 107
id_concesionario              0
id_distintivo_ambiental     319
garantia                    609
precio_contado                0
precio_nuevo               1065
largo                      1102
ancho                      1092
alto                       1106
capacidad_maletero         1229
num_plazas                 1088
batalla                    1098
peso                        865
num_puertas                  34
consumo_medio              3152
consumo_carretera          3511
consumo_urbano             3511
deposito                   1526
cilindrada                 1760
id_traccion                1088
num_marchas                 900
potencia_kw                1078
potencia_cv                  36
par                        1199
velocidad_max              1223
aceleracion                1208
mes_matriculacion             0
ano_matriculacion             0
co2                        3521
num_cili

In [5]:
#Convertir a nan a none
for columna in df_prestaciones.columns:
    df_prestaciones[columna] = df_prestaciones[columna].replace([np.nan, pd.NA], None)

In [6]:
directorio_pkl = "../bin/imagenes_coches/"
os.makedirs(directorio_pkl, exist_ok=True)

archivos_pkl = sorted([f for f in os.listdir(directorio_pkl) if f.endswith(".pkl")])
dfs = [pd.read_pickle(os.path.join(directorio_pkl, archivo)) for archivo in archivos_pkl]

df_concatenado = pd.concat(dfs, ignore_index=True) if dfs else pd.DataFrame(columns=["link_anuncio", "foto_binaria"])

df_concatenado = df_concatenado.reset_index(drop=True).reset_index()
df_concatenado = df_concatenado.rename(columns={"index": "id_coche"})
df_concatenado["id_coche"] += 1

In [7]:
# Conectar a la base de datos usando los valores almacenados en `secrets.toml`
def conectar_base_datos():
    conn = mysql.connector.connect(
        host=st.secrets["database"]["host"],
        user=st.secrets["database"]["user"],
        password=st.secrets["database"]["password"],
        database=st.secrets["database"]["database"]
    )
    return conn

In [8]:
contraseña_miguel = "password"
contraseña_moran = 'Deportivo96'
contraseña_carlos = "Whereisbotus1996"

In [9]:
def insertar_datos_en_lotes(df, nombre_tabla, lote=100):
    # Conexión a la base de datos MySQL
    conn = mysql.connector.connect(
        host="localhost",
        user="root",
        password=contraseña_moran,
        database="coches_segunda_mano"
    )
    cursor = conn.cursor()

    columnas = df.columns.tolist()
    query = f"""
        INSERT INTO {nombre_tabla} ({', '.join(columnas)})
        VALUES ({', '.join(['%s'] * len(columnas))})
    """

    # Dividir el DataFrame en lotes
    for i in range(0, len(df), lote):
        valores = [tuple(row) for row in df.iloc[i:i + lote].to_numpy()]
        cursor.executemany(query, valores)
        conn.commit()

    cursor.close()
    conn.close()
    print(f"Datos insertados en {nombre_tabla} correctamente.")

In [19]:
# Llamar a la funcion para insertar los datos en la tabla
insertar_datos_en_lotes(df_combustibles, 'combustibles')
insertar_datos_en_lotes(df_concesionarios, 'concesionarios')
insertar_datos_en_lotes(df_distintivo_ambiental, 'distintivos_ambientales')
insertar_datos_en_lotes(df_marcas, 'marcas')
insertar_datos_en_lotes(df_modelos, 'modelos')
insertar_datos_en_lotes(df_provincias, 'provincias')
insertar_datos_en_lotes(df_sobrealimentacion, 'sobrealimentaciones')
insertar_datos_en_lotes(df_traccion, 'tipo_traccion')
insertar_datos_en_lotes(df_cambio, 'tipos_cambio')
insertar_datos_en_lotes(df_concatenado, 'links_coches')
insertar_datos_en_lotes(df_prestaciones, 'prestaciones')

Datos insertados en combustibles correctamente.
Datos insertados en concesionarios correctamente.
Datos insertados en distintivos_ambientales correctamente.
Datos insertados en marcas correctamente.
Datos insertados en modelos correctamente.
Datos insertados en provincias correctamente.
Datos insertados en sobrealimentaciones correctamente.
Datos insertados en tipo_traccion correctamente.
Datos insertados en tipos_cambio correctamente.
Datos insertados en links_coches correctamente.
Datos insertados en prestaciones correctamente.


## Función para extraer datos

In [12]:
# Funcion para extraer datos
def extraer_datos(nombre_tabla, columna = '*'):
    
    try:
        # Conexión a la base de datos de MySQL
        conn = mysql.connector.connect(
            host = "localhost",
            user = "root",
            password = contraseña_moran,
            database = "coches_segunda_mano"
        )
        # Crear un cursor para ejecutar comandos SQL
        cursor = conn.cursor()

        # Crear la consulta SQL para seleccionar todos los datos de la tabla
        query = f"SELECT {columna} FROM {nombre_tabla}"

        # Ejecutar la consulta y recuperar los datos
        cursor.execute(query)
        resultado = cursor.fetchall()

        # Obtener los nombres de las columnas de la tabla
        columnas = [desc[0] for desc in cursor.description]

        # Convertir los resultados a un DataFrame
        df = pd.DataFrame(resultado, columns=columnas)

        # Cerrar el cursor y la conexión
        cursor.close()
        conn.close()

        # Devolver el DataFrame
        print(f"Datos de {nombre_tabla} extraidos correctamente")
        return df
    
    except mysql.connector.Error as e:
        print(f"Error al conectar con la base de datos: {e}")
        return pd.DataFrame() 
    
    finally:
        # Asegurarse de cerrar la conexión y el cursor
        if 'cursor' in locals():
            cursor.close()
        if 'conn' in locals():
            conn.close()

In [13]:
# Cargar el CSV original
df = pd.read_csv("../bin/datos_img_completos.csv")

# Dividir el DataFrame en 10 partes
partes = np.array_split(df, 15)

# Guardar cada parte en un archivo CSV
for i, parte in enumerate(partes):
    nombre_archivo = f"../bin/datos_img_completos_{i+1}.csv"
    parte.to_csv(nombre_archivo, index=False)
    print(f"Guardado: {nombre_archivo}")

  return bound(*args, **kwds)


Guardado: ../bin/datos_img_completos_1.csv
Guardado: ../bin/datos_img_completos_2.csv
Guardado: ../bin/datos_img_completos_3.csv
Guardado: ../bin/datos_img_completos_4.csv
Guardado: ../bin/datos_img_completos_5.csv
Guardado: ../bin/datos_img_completos_6.csv
Guardado: ../bin/datos_img_completos_7.csv
Guardado: ../bin/datos_img_completos_8.csv
Guardado: ../bin/datos_img_completos_9.csv
Guardado: ../bin/datos_img_completos_10.csv
Guardado: ../bin/datos_img_completos_11.csv
Guardado: ../bin/datos_img_completos_12.csv
Guardado: ../bin/datos_img_completos_13.csv
Guardado: ../bin/datos_img_completos_14.csv
Guardado: ../bin/datos_img_completos_15.csv
