In [14]:
import pandas as pd
import numpy as np
from geopy.geocoders import Nominatim
from time import sleep
import os

In [18]:
import os
import toml

# Verificar el sistema operativo usando os.name
if os.name == 'posix':  # Linux, macOS
    import mysql.connector  # Usar MySQL en Linux, macOS
elif os.name == 'nt':  # Windows
    import pymysql  # Usar PyMySQL en Windows
else:
    raise Exception("Sistema operativo no soportado")

# Cargar las credenciales desde el archivo secrets.toml
config = toml.load("../.streamlit/secrets.toml")
db_config = config["database"]
database = db_config["database"]

# Conexión a la base de datos dependiendo del sistema operativo
if os.name == 'posix':  # Linux/macOS
    conn = mysql.connector.connect(
        host=db_config["host"],
        user=db_config["user"],
        password=db_config["password"],
        database=database
    )
elif os.name == 'nt':  # Windows
    conn = pymysql.connect(
        host=db_config["host"],
        user=db_config["user"],
        password=db_config["password"],
        database=database,
        cursorclass=pymysql.cursors.DictCursor)

cursor = conn.cursor()

# Consulta: Obtener todas las ciudades
query_ciudades = """
SELECT ciudad 
FROM ciudades_coordenadas;
"""
cursor.execute(query_ciudades)

# Obtener todas las ciudades en una lista
ciudades_originales = [ciudad[0] for ciudad in cursor.fetchall()]

# Cerrar la conexión
cursor.close()
conn.close()

In [15]:
ofertas_nuevas = pd.read_pickle("/Pickles/ofertas_nuevas.pkl")
ciudades_nueva_extraccion = ofertas_nuevas[["id", "ciudad"]]  # Extraemos las columnas necesarias del DataFrame original

In [16]:
def split_presencial(row):
    # Verificar si "Presencial" no es NaN y contiene "OR" o "O"
    if pd.notna(row["ciudad"]) and (" OR " in row["ciudad"] or " O " in row["ciudad"]):
        ciudades = [ciudad.strip() for ciudad in row["ciudad"].replace(" O ", " OR ").split(" OR ")]
        return pd.DataFrame({
            "id": [row["id"]] * len(ciudades),
            "ciudades": ciudades})
    else:
        return pd.DataFrame({"id": [row["id"]], "ciudades": [row["ciudad"]]})

# Aplicar la función y concatenamos el resultado
ciudades_nuevas = pd.concat(ciudades_nueva_extraccion.apply(split_presencial, axis=1).tolist(), ignore_index=True)
ciudades_nuevas["ciudades"] = ciudades_nuevas["ciudades"].apply(lambda x: x.title() if isinstance(x, str) else x)
ciudades_nuevas.to_pickle("ciudades_nuevas.pkl")

In [26]:
ciudades_a_procesar = [ciudad for ciudad in ciudades_nuevas["ciudades"].unique()
                       if ciudad not in ciudades_originales and pd.notna(ciudad)]

def obtener_coordenadas(ciudades_a_procesar):

    # Inicializamos el geolocalizador
    geolocalizador = Nominatim(user_agent="geoapi")
    
    # Lista para almacenar los datos
    datos = []

    for ciudad in ciudades_a_procesar:
        try:
            ubicacion = geolocalizador.geocode(ciudad, timeout=10, addressdetails=True)
            if ubicacion:
                direccion = ubicacion.raw.get("address", {})
                datos.append({
                    "Ciudad": ciudad.title(),
                    "País": direccion.get("country", "Desconocido"),
                    "Comunidad Autónoma": direccion.get("state", "Desconocido"),
                    "Latitud": ubicacion.latitude,
                    "Longitud": ubicacion.longitude
                })
            else:
                print(f"No se encontraron coordenadas para: {ciudad}")
            sleep(1)  # Esperar para evitar bloqueos de la API
        except Exception as e:
            print(f"Error con {ciudad}: {e}")

    # Convertimos a DataFrame e ignoramos filas con 
    df = pd.DataFrame(datos).dropna()

    # Guardamos en CSV
    df.to_pickle("/Pickles/ciudades_coordenadas_nuevas")  
    
    return df
    

In [27]:
obtener_coordenadas(ciudades_a_procesar)