# Importaci√≥n de los pa√≠ses en la base de datos

### 1. Importar librer√≠as y cargar datos

En esta secci√≥n importamos las librer√≠as necesarias (`pandas`, `os`, `dotenv` y `pymysql`), cargamos las variables de entorno desde un archivo `.env` y leemos el CSV con la informaci√≥n de pa√≠ses, subcontinentes y continentes.


In [7]:
import os
from dotenv import load_dotenv
import pandas as pd
import pymysql
from pymysql.constants import CLIENT
 
load_dotenv()
DB_HOST     = os.getenv('DB_HOST')
DB_USER     = os.getenv('DB_USER')
DB_PASSWORD = os.getenv('DB_PASSWORD')
DB_NAME     = os.getenv('DB_NAME')

df_geo = pd.read_csv('../../data/fuentes/paises/Pa_sos.csv')
df_geo.head()


Unnamed: 0,Codi,Nom,Codi A3,Codi Divisa,Codi Regi√≥ UN M49,Continent Codi,Continent Nom,Subcontinent Codi,Subcontinent Nom,Nom en angl√®s,Nom en castell√†
0,AF,Afganistan,AFG,AFN,34,4,√Äsia,12,√Äsia meridional,Afghanistan,Afganist√°n
1,AX,Aland,ALA,EUR,154,5,Europa,17,Uni√≥ Europea,Aland Islands,Islas Aland
2,AL,Alb√†nia,ALB,ALL,39,5,Europa,16,Europa (no UE),Albania,Albania
3,DE,Alemanya,DEU,EUR,155,5,Europa,17,Uni√≥ Europea,Germany,Alemania
4,DZ,Alg√®ria,DZA,DZD,15,1,√Äfrica,5,√Äfrica septentrional,Algeria,Argelia


### 2. Traducci√≥n de nombres

Los campos `Continent Nom` y `Subcontinent Nom` est√°n en catal√°n. Definimos diccionarios de traducci√≥n y creamos nuevas columnas en castellano.


In [8]:
continent_map = {
    '√Äsia':'Asia',
    'Europa':'Europa',
    '√Äfrica':'√Åfrica',
    'Am√®rica':'Am√©rica',
    'Ant√†rtida i territoris propers':'Ant√°rtida y territorios cercanos',
    'Oceania':'Ocean√≠a'
}

# Aplicar traducci√≥n
df_geo['continent_es']= df_geo['Continent Nom'].map(continent_map)

# Verificar
df_geo[['Continent Nom','continent_es']].drop_duplicates().head()


Unnamed: 0,Continent Nom,continent_es
0,√Äsia,Asia
1,Europa,Europa
4,√Äfrica,√Åfrica
7,Am√®rica,Am√©rica
8,Ant√†rtida i territoris propers,Ant√°rtida y territorios cercanos


### 3. Conexi√≥n a la base de datos

Abrimos una conexi√≥n a MySQL usando `pymysql`, con la bandera `MULTI_STATEMENTS` para permitir m√∫ltiples sentencias.


In [9]:
# 1) Conexi√≥n
conexion = pymysql.connect(
    host=DB_HOST,
    user=DB_USER,
    password=DB_PASSWORD,
    database=DB_NAME,
    client_flag=CLIENT.MULTI_STATEMENTS
)
cursor = conexion.cursor()

### 4. Inserci√≥n de Continentes

Extraemos los continentes √∫nicos, asignamos su `id` (tal como vienen en el CSV) y los insertamos.

In [10]:
# 1) Extraer y desduplicar
continentes = df_geo[['Continent Codi', 'continent_es']].drop_duplicates() 
# 2) Filtrar filas con c√≥digo o nombre nulo
continentes = continentes.dropna(subset=['Continent Codi', 'continent_es']) 
# 3) Convertir el c√≥digo a entero
continentes['Continent Codi'] = continentes['Continent Codi'].astype(int) 
# 4) Ahora s√≠, preparar los datos y ejecutar el INSERT
sql_ins_cont = "INSERT INTO Continentes (id, nombre) VALUES (%s, %s)" 
print(continentes) 
data = list(zip( continentes['Continent Codi'], continentes['continent_es'] )) 
cursor.executemany(sql_ins_cont, data) 
conexion.commit() 
print("Continentes insertados:", len(data))

    Continent Codi                      continent_es
0                4                              Asia
1                5                            Europa
4                1                            √Åfrica
7                2                           Am√©rica
8                3  Ant√°rtida y territorios cercanos
14               6                           Ocean√≠a
Continentes insertados: 6


### 5. Inserci√≥n de Pa√≠ses

Por √∫ltimo, insertamos cada pa√≠s con su c√≥digo, nombre en castellano y la referencia al subcontinente.

In [11]:
paises = df_geo[['Codi','Nom en castell√†', 'Nom en angl√®s','Continent Codi']].drop_duplicates()
paises = paises.dropna(subset=['Codi','Nom en castell√†','Nom en angl√®s','Continent Codi'])
paises['Codi'] = paises['Codi'].astype(str) 
paises['Continent Codi'] = paises['Continent Codi'].astype(int)
paises['Nom en angl√®s'] = paises['Nom en angl√®s'] .str.replace(r'\s*\(the\)$', '', regex=True) 
# üîπ Filtrar pa√≠ses no deseados
paises = paises[~paises['Nom en castell√†'].isin(['Otros/Varios', 'No consta'])]
data = list(zip( paises['Codi'], paises['Nom en castell√†'], paises['Nom en angl√®s'], paises['Continent Codi'] ))
sql_ins_pais = """ INSERT INTO Paises (codigo, nombre, nombre_en, continente_id) VALUES (%s, %s, %s, %s) """
cursor.executemany(sql_ins_pais, data)
conexion.commit()
print("Pa√≠ses insertados:", len(data))

Pa√≠ses insertados: 248


### 7. Cierre de la conexi√≥n

Cerramos el cursor y la conexi√≥n a la base de datos.

In [12]:
cursor.close()
conexion.close()
print("Conexi√≥n cerrada.")

Conexi√≥n cerrada.
