Tabla con 100 paises obtenidos de la api, en los cuales se ve el nombre del pais, capital, region, poblacion, area e idiomas.

In [5]:
import requests
import pandas as pd

# 1. Obtener datos de todos los países
url = "https://restcountries.com/v3.1/all"
response = requests.get(url)
data = response.json()

# 2. Extraer campos relevantes
rows = []
for country in data:
    name = country.get('name', {}).get('common', 'N/A')
    capital = country.get('capital', ['N/A'])[0]
    region = country.get('region', 'N/A')
    population = country.get('population', 'N/A')
    area = country.get('area', 'N/A')
    languages = ', '.join(country.get('languages', {}).values()) if 'languages' in country else 'N/A'

    rows.append({
        'País': name,
        'Capital': capital,
        'Región': region,
        'Población': population,
        'Área (km²)': area,
        'Idiomas': languages
    })

# 3. Crear el DataFrame
df = pd.DataFrame(rows)
df.head(100)




Unnamed: 0,País,Capital,Región,Población,Área (km²),Idiomas
0,Eritrea,Asmara,Africa,5352000,117600.0,"Arabic, English, Tigrinya"
1,Cameroon,Yaoundé,Africa,26545864,475442.0,"English, French"
2,Montenegro,Podgorica,Europe,621718,13812.0,Montenegrin
3,Fiji,Suva,Oceania,896444,18272.0,"English, Fijian, Fiji Hindi"
4,Tunisia,Tunis,Africa,11818618,163610.0,Arabic
5,Senegal,Dakar,Africa,16743930,196722.0,French
6,South Georgia,King Edward Point,Antarctic,30,3903.0,English
7,Brazil,Brasília,Americas,212559409,8515767.0,Portuguese
8,Liechtenstein,Vaduz,Europe,38137,160.0,German
9,Mexico,Mexico City,Americas,128932753,1964375.0,Spanish


Todos los datos que contiene la api por pais, en este caso chile.

In [2]:
import requests
import pandas as pd
import json

# 1. Obtener datos de Chile
url = "https://restcountries.com/v3.1/name/chile"
response = requests.get(url)
data = response.json()

# 2. Seleccionar el primer resultado (Chile)
country = data[0]

# 3. Aplanar los datos para mostrarlos en un DataFrame
def flatten_dict(d, parent_key='', sep='.'):
    items = []
    for k, v in d.items():
        new_key = f"{parent_key}{sep}{k}" if parent_key else k
        if isinstance(v, dict):
            items.extend(flatten_dict(v, new_key, sep=sep).items())
        elif isinstance(v, list):
            items.append((new_key, ', '.join(str(i) for i in v)))
        else:
            items.append((new_key, v))
    return dict(items)

flat_data = flatten_dict(country)

# 4. Convertir a DataFrame para visualización
df = pd.DataFrame(list(flat_data.items()), columns=["Categoría", "Valor"])

# 5. Mostrar el DataFrame completo
pd.set_option('display.max_rows', None)  # Mostrar todas las filas
df

Unnamed: 0,Categoría,Valor
0,name.common,Chile
1,name.official,Republic of Chile
2,name.nativeName.spa.official,República de Chile
3,name.nativeName.spa.common,Chile
4,tld,.cl
5,cca2,CL
6,ccn3,152
7,cioc,CHI
8,independent,True
9,status,officially-assigned


Explicacion para algunas de las filas

In [3]:
import requests
import pandas as pd

# 1. Obtener datos de Chile
url = "https://restcountries.com/v3.1/name/chile"
response = requests.get(url)
data = response.json()
country = data[0]

# 2. Aplanar el diccionario
def flatten_dict(d, parent_key='', sep='.'):
    items = []
    for k, v in d.items():
        new_key = f"{parent_key}{sep}{k}" if parent_key else k
        if isinstance(v, dict):
            items.extend(flatten_dict(v, new_key, sep=sep).items())
        elif isinstance(v, list):
            items.append((new_key, ', '.join(str(i) for i in v)))
        else:
            items.append((new_key, v))
    return dict(items)

flat_data = flatten_dict(country)

# 3. Diccionario de descripciones COMPLETAS para Chile
descripciones = {
    "name.common": "Nombre común del país.",
    "name.official": "Nombre oficial del país.",
    "name.nativeName.spa.official": "Nombre oficial en español.",
    "name.nativeName.spa.common": "Nombre común en español.",
    "tld": "Dominio de nivel superior del país.",
    "cca2": "Código ISO 3166-1 alfa-2.",
    "ccn3": "Código numérico ISO 3166-1.",
    "cca3": "Código ISO 3166-1 alfa-3.",
    "cioc": "Código olímpico del país.",
    "independent": "Indica si es un país independiente.",
    "status": "Estatus oficial asignado.",
    "unMember": "Es miembro de las Naciones Unidas.",
    "currencies.CLP.name": "Nombre de la moneda oficial.",
    "currencies.CLP.symbol": "Símbolo de la moneda.",
    "idd.root": "Prefijo raíz telefónico internacional.",
    "idd.suffixes": "Sufijos telefónicos internacionales.",
    "capital": "Capital del país.",
    "altSpellings": "Otras formas de nombrar al país.",
    "region": "Región geográfica (continente).",
    "subregion": "Subregión geográfica.",
    "languages.spa": "Idioma oficial (español).",
    "translations.spa.official": "Traducción oficial al español.",
    "translations.spa.common": "Traducción común al español.",
    "latlng": "Coordenadas de latitud y longitud.",
    "landlocked": "Indica si el país no tiene costa.",
    "borders": "Países con los que comparte frontera.",
    "area": "Área total del país (en km²).",
    "demonyms.eng.m": "Gentilicio masculino en inglés.",
    "demonyms.eng.f": "Gentilicio femenino en inglés.",
    "flag": "Emoji de la bandera del país.",
    "maps.googleMaps": "URL de Google Maps.",
    "maps.openStreetMaps": "URL de OpenStreetMap.",
    "population": "Población total.",
    "gini.2017": "Índice de Gini (desigualdad) en 2017.",
    "fifa": "Código FIFA del país.",
    "car.signs": "Símbolo en matrículas de autos.",
    "car.side": "Lado de conducción (izquierda/derecha).",
    "timezones": "Zonas horarias del país.",
    "continents": "Continente al que pertenece.",
    "flags.png": "URL de la imagen de la bandera (PNG).",
    "flags.svg": "URL de la imagen de la bandera (SVG).",
    "coatOfArms.png": "Escudo de armas (imagen PNG).",
    "coatOfArms.svg": "Escudo de armas (imagen SVG).",
    "startOfWeek": "Día en que comienza la semana.",
    "capitalInfo.latlng": "Coordenadas de la capital.",
    "postalCode.format": "Formato del código postal.",
    "postalCode.regex": "Expresión regular del código postal.",
}

# 4. Construir el DataFrame con descripciones completas
df = pd.DataFrame([
    {
        "Categoría": clave,
        "Valor": valor,
        "Descripción": descripciones[clave]
    }
    for clave, valor in flat_data.items() if clave in descripciones
])

# 5. Mostrar todas las filas
pd.set_option('display.max_rows', None)
df


Unnamed: 0,Categoría,Valor,Descripción
0,name.common,Chile,Nombre común del país.
1,name.official,Republic of Chile,Nombre oficial del país.
2,name.nativeName.spa.official,República de Chile,Nombre oficial en español.
3,name.nativeName.spa.common,Chile,Nombre común en español.
4,tld,.cl,Dominio de nivel superior del país.
5,cca2,CL,Código ISO 3166-1 alfa-2.
6,ccn3,152,Código numérico ISO 3166-1.
7,cioc,CHI,Código olímpico del país.
8,independent,True,Indica si es un país independiente.
9,status,officially-assigned,Estatus oficial asignado.


Modelo de prueba

In [6]:
import requests
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report

# 1. Obtener datos de la API REST Countries
url = "https://restcountries.com/v3.1/all"
response = requests.get(url)
data = response.json()

# 2. Extraer campos relevantes
rows = []
for country in data:
    name = country.get('name', {}).get('common', 'N/A')
    capital = country.get('capital', ['N/A'])[0]
    region = country.get('region', 'N/A')
    population = country.get('population', None)
    area = country.get('area', None)
    languages = ', '.join(country.get('languages', {}).values()) if 'languages' in country else None

    # Validamos que existan todos los campos numéricos y categóricos necesarios
    if region and population and area and languages:
        rows.append({
            'País': name,
            'Capital': capital,
            'Región': region,
            'Población': population,
            'Área (km²)': area,
            'Idiomas': languages
        })

# 3. Crear DataFrame
df = pd.DataFrame(rows)

# 4. Feature engineering
df['Densidad'] = df['Población'] / df['Área (km²)']  # nueva columna: densidad poblacional
df['Idioma_principal'] = df['Idiomas'].apply(lambda x: x.split(',')[0].strip())  # primer idioma

# 5. Filtrar regiones válidas
df = df[df['Región'].isin(['Africa', 'Asia', 'Europe', 'Oceania', 'Americas'])]

# 6. One-hot encoding del idioma principal
idiomas_dummies = pd.get_dummies(df['Idioma_principal'], prefix='lang')

# 7. Variables numéricas + codificadas
X = pd.concat([df[['Población', 'Área (km²)', 'Densidad']], idiomas_dummies], axis=1)
y = df['Región']

# 8. Escalado de variables numéricas
scaler = StandardScaler()
X[['Población', 'Área (km²)', 'Densidad']] = scaler.fit_transform(X[['Población', 'Área (km²)', 'Densidad']])

# 9. División en entrenamiento/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 10. Entrenar modelo
clf = RandomForestClassifier(random_state=42)
clf.fit(X_train, y_train)

# 11. Predicción y evaluación
y_pred = clf.predict(X_test)
print(classification_report(y_test, y_pred))



              precision    recall  f1-score   support

      Africa       0.50      0.62      0.55        13
    Americas       0.20      0.18      0.19        11
        Asia       0.86      0.55      0.67        11
      Europe       0.55      0.75      0.63         8
     Oceania       0.40      0.33      0.36         6

    accuracy                           0.49        49
   macro avg       0.50      0.49      0.48        49
weighted avg       0.51      0.49      0.49        49



Data Frame

In [4]:
import requests
import pandas as pd

# 1. Obtener datos de todos los países
url = "https://restcountries.com/v3.1/all"
response = requests.get(url)
data = response.json()

# 2. Extraer campos relevantes
rows = []
for country in data:
    name_common = country.get('name', {}).get('common', 'N/A')
    independent = country.get('independent', 'N/A')
    un_member = country.get('unMember', 'N/A')
    capital = country.get('capital', ['N/A'])[0]
    region = country.get('region', 'N/A')
    subregion = country.get('subregion', 'N/A')
    languages = ', '.join(country.get('languages', {}).values()) if 'languages' in country else 'N/A'
    latlng = country.get('latlng', 'N/A')
    landlocked = country.get('landlocked', 'N/A')
    area = country.get('area', 'N/A')
    population = country.get('population', 'N/A')
    gini_2017 = country.get('gini', {}).get('2017', 'N/A')
    car_side = country.get('car', {}).get('side', 'N/A') if 'car' in country else 'N/A'
    timezones = ', '.join(country.get('timezones', []))
    continents = ', '.join(country.get('continents', []))
    start_of_week = country.get('startOfWeek', 'N/A')
    
    rows.append({
        'name.common': name_common,
        'Independent': independent,
        'unMember': un_member,
        'capital': capital,
        'region': region,
        'subregion': subregion,
        'languaje': languages,
        'latlng': latlng,
        'landlocked': landlocked,
        'area': area,
        'population': population,
        'gini.2017': gini_2017,
        'car.side': car_side,
        'timezones': timezones,
        'continents': continents,
        'startOfWeek': start_of_week
    })

# 3. Crear el DataFrame
df = pd.DataFrame(rows)

# 4. Mostrar el DataFrame de manera más ordenada y visual
pd.set_option('display.max_columns', None)  # Asegura que todas las columnas se muestren
pd.set_option('display.width', 1000)        # Aumenta el ancho de la visualización
pd.set_option('display.max_rows', 253)      # Limita la cantidad de filas mostradas

# 5. Mostrar las primeras filas del DataFrame
print(df.head(253))  # Puedes ajustar el número de filas que quieres ver



                                      name.common  Independent  unMember                    capital     region                  subregion                                           languaje                         latlng  landlocked         area  population gini.2017 car.side                                          timezones     continents startOfWeek
0                                         Eritrea         True      True                     Asmara     Africa             Eastern Africa                          Arabic, English, Tigrinya                   [15.0, 39.0]       False    117600.00     5352000       N/A    right                                          UTC+03:00         Africa      monday
1                                        Cameroon         True      True                    Yaoundé     Africa              Middle Africa                                    English, French                    [6.0, 12.0]       False    475442.00    26545864       N/A    right                 

Crear CSV

In [1]:
import requests
import csv

# URL de la API
url = "https://restcountries.com/v3.1/all"
response = requests.get(url)
data = response.json()

# Extraer los datos deseados
records = []
for country in data:
    record = {
        "name.common": country.get("name", {}).get("common", None),
        "independent": country.get("independent", None),
        "unMember": country.get("unMember", None),
        "capital": ", ".join(country.get("capital", [])) if country.get("capital") else None,
        "region": country.get("region", None),
        "subregion": country.get("subregion", None),
        "language": ", ".join(country.get("languages", {}).values()) if country.get("languages") else None,
        "latlng": str(country.get("latlng", None)),
        "landlocked": country.get("landlocked", None),
        "area": country.get("area", None),
        "population": country.get("population", None),
        "borders": ", ".join(country.get("borders", [])) if country.get("borders") else None,
        "car.side": country.get("car", {}).get("side", None),
        "timezones": ", ".join(country.get("timezones", [])) if country.get("timezones") else None,
        "continents": ", ".join(country.get("continents", [])) if country.get("continents") else None,
        "startOfWeek": country.get("startOfWeek", None)
    }
    records.append(record)

# Guardar en archivo CSV
with open("paises_con_borders.csv", mode="w", newline="", encoding="utf-8") as file:
    writer = csv.DictWriter(file, fieldnames=records[0].keys())
    writer.writeheader()
    writer.writerows(records)

print("✅ Archivo CSV generado: paises_con_borders.csv")


✅ Archivo CSV generado: paises_con_borders.csv


Modelo (aun no terminado)

In [22]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import classification_report, accuracy_score

# 1. Cargar el dataset
df = pd.read_csv('paises_todos_atributos.csv')

# 2. Eliminar columnas no útiles o duplicadas si existen
df = df.drop(columns=[col for col in df.columns if 'unnamed' in col.lower()], errors='ignore')

# 3. Codificar variables categóricas
label_cols = ['name.common', 'independent', 'unMember', 'capital', 'region', 'subregion', 'language', 'latlng', 'landlocked', 'area', 'population', 'gini.2017', 'car.side', 'timezones', 'continents', 'startOfWeek']
le_dict = {}

for col in label_cols:
    le = LabelEncoder()
    df[col] = df[col].fillna('Desconocido').astype(str)
    df[col] = le.fit_transform(df[col])
    le_dict[col] = le  # Guardamos los encoders por si queremos predecir luego

# 4. Rellenar valores nulos restantes
df['gini.2017'] = df['gini.2017'].fillna(df['gini.2017'].median())

# 5. Definir variables predictoras (X) y variable objetivo (y)
X = df.drop(columns=['unMember'])  # Variable objetivo
y = df['unMember']

# 6. Separar en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 7. Entrenar el modelo
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# 8. Evaluar
y_pred = model.predict(X_test)
print("Accuracy:", accuracy_score(y_test, y_pred))
print(classification_report(y_test, y_pred))

print(df.columns.tolist())



Accuracy: 1.0
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        10
           1       1.00      1.00      1.00        40

    accuracy                           1.00        50
   macro avg       1.00      1.00      1.00        50
weighted avg       1.00      1.00      1.00        50

['name.common', 'independent', 'unMember', 'capital', 'region', 'subregion', 'language', 'latlng', 'landlocked', 'area', 'population', 'gini.2017', 'car.side', 'timezones', 'continents', 'startOfWeek']


ENCODER

In [6]:
from sklearn.preprocessing import LabelEncoder
import joblib
import pandas as pd

# 1. Cargar tu conjunto de datos
df = pd.read_csv('paises_todos_atributos.csv')

# 2. Crear un diccionario de LabelEncoders para cada columna categórica
columns_to_encode = ['region', 'subregion', 'language', 'car.side', 'timezones', 'continents', 'startOfWeek', 'latlng']  # Ajustamos para incluir 'latlng'
le_dict = {}

# 3. Ajustar LabelEncoder para cada columna categórica
for col in columns_to_encode:
    le = LabelEncoder()
    df[col] = df[col].fillna('Desconocido')  # Reemplazar valores NaN por 'Desconocido'
    
    # Si la columna es 'latlng' y tiene coordenadas (como una lista de latitud y longitud)
    if col == 'latlng':
        # Para latlng, si es una cadena de coordenadas separadas por coma (ejemplo: '12.34,-56.78'), podemos convertirlo en una cadena única
        df[col] = df[col].apply(lambda x: x if isinstance(x, str) else 'Desconocido')  # Si no es una cadena, lo marcamos como 'Desconocido'
    
    # Ajustar y transformar los datos
    df[col] = le.fit_transform(df[col])  # Ajustar y transformar los datos
    le_dict[col] = le  # Guardar el encoder para futuras predicciones

# 4. Guardar los encoders para usarlos en el futuro
joblib.dump(le_dict, 'encoders.pickle')

# 5. Verifica que el DataFrame ahora tiene las columnas transformadas
print(df.head())


        name.common  independent  unMember     capital  region  subregion  language  latlng  landlocked      area  population  gini.2017  car.side  timezones  continents  startOfWeek
0          Botswana         True      True    Gaborone       0         19        75      32        True  582000.0     2351625        NaN         0          4           0            0
1             Tonga         True      True  Nuku'alofa       5         15        74      24       False     747.0      105697        NaN         0         28           6            0
2            Greece         True      True      Athens       4         21        93     164       False  131990.0    10715549        NaN         1          4           3            0
3  Marshall Islands         True      True      Majuro       5         10        62     248       False     181.0       59194        NaN         1         26           6            0
4           Belarus         True      True       Minsk       4          8        18  

In [1]:
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder
import joblib

# 1. Cargar el modelo entrenado y los encoders
model = joblib.load("modelo_un.pickle")
le_dict = joblib.load("encoders.pickle")

# 2. Cargar el CSV con los datos de los países
df = pd.read_csv('paises_todos_atributos.csv')  # Reemplaza con el nombre de tu archivo CSV

# 3. Columnas requeridas
cols = ['name.common', 'independent', 'capital', 'region', 'subregion', 'language', 'latlng', 'landlocked',
        'area', 'population', 'gini.2017', 'car.side', 'timezones', 'continents', 'startOfWeek']

# 4. Especifica aquí el nombre del país para hacer la predicción
pais = "Chile"  # Cambia "Chile" por el nombre del país que deseas predecir

# 5. Función para predecir si un país debería ser miembro de la ONU
def predecir_pais():
    # Filtrar el dataframe para obtener los datos del país
    input_df = df[df['name.common'] == pais]

    if input_df.empty:
        print(f"\n🔴 No se encontró el país '{pais}' en los datos.")
        return

    # Solo tomar las columnas necesarias
    input_df = input_df[cols]

    # Convertir tipos según necesidad
    input_df['area'] = input_df['area'].astype(float)
    input_df['population'] = input_df['population'].astype(int)
    input_df['gini.2017'] = input_df['gini.2017'].fillna(0.0).astype(float)

    # Aplicar los mismos encoders
    for col in le_dict:
        if col in input_df.columns:
            le = le_dict[col]
            input_df[col] = input_df[col].fillna('Desconocido').astype(str)
            input_df[col] = le.transform(input_df[col])

    # Asegurar que tenga las columnas correctas
    input_df = input_df[model.feature_names_in_]

    # Predecir
    pred = model.predict(input_df)[0]
    print("\n➡ El modelo predice que este país " +
          ("🟢 DEBERÍA" if pred == 1 else "🔴 NO DEBERÍA") + " ser miembro de las Naciones Unidas.")

# 6. Ejecutar la función
predecir_pais()



➡ El modelo predice que este país 🟢 DEBERÍA ser miembro de las Naciones Unidas.


In [14]:
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder
import joblib
from sklearn.metrics import classification_report, accuracy_score

# 1. Cargar el modelo entrenado y los encoders (si los tienes guardados)
# Si aún no tienes el archivo de encoders, no lo cargues, creémoslo al vuelo
try:
    model = joblib.load("modelo_un.pickle")
    le_dict = joblib.load("encoders.pickle")
except FileNotFoundError:
    print("🔴 No se encontraron los archivos del modelo o los encoders guardados.")
    le_dict = {}

# 2. Cargar el CSV con los datos de los países
df = pd.read_csv('paises_todos_atributos.csv')  # Reemplaza con el nombre de tu archivo CSV

# 3. Columnas requeridas
cols = ['name.common', 'independent','unMember', 'capital', 'region', 'subregion', 'language', 'latlng', 'landlocked',
        'area', 'population', 'gini.2017', 'car.side', 'timezones', 'continents', 'startOfWeek']

# 4. Especifica aquí el nombre del país para hacer la predicción
pais = "Chile"  # Cambia "Chile" por el nombre del país que deseas predecir

# 5. Cargar el conjunto de datos de prueba (si tienes uno)
df_test = pd.read_csv('paises_todos_atributos.csv')  # Reemplaza con tu archivo de prueba

# 6. Verificar que las columnas necesarias están presentes en df_test
if not all(col in df_test.columns for col in cols):
    print("🔴 Algunas columnas necesarias no están presentes en el conjunto de datos de prueba.")
else:
    # 7. Filtrar solo las columnas necesarias del conjunto de datos de prueba
    df_test = df_test[cols]

    # Crear LabelEncoders si no existen
    columns_to_encode = ['region', 'subregion', 'language', 'car.side', 'timezones', 'continents', 'startOfWeek']
    if not le_dict:  # Si no tenemos encoders cargados, los creamos
        le_dict = {}
        for col in columns_to_encode:
            le = LabelEncoder()
            df[col] = df[col].fillna('Desconocido')  # Reemplazar valores NaN por 'Desconocido'
            df[col] = le.fit_transform(df[col])  # Ajustar y transformar los datos
            le_dict[col] = le  # Guardar el encoder para futuras predicciones
        # Guardar los encoders
        joblib.dump(le_dict, 'encoders.pickle')

    # 8. Función para predecir si un país debería ser miembro de la ONU
    def predecir_pais():
        # Filtrar el dataframe para obtener los datos del país
        input_df = df[df['name.common'] == pais]

        if input_df.empty:
            print(f"\n🔴 No se encontró el país '{pais}' en los datos.")
            return

        # Solo tomar las columnas necesarias
        input_df = input_df[cols]

        # Convertir tipos según necesidad
        input_df['area'] = input_df['area'].astype(float)
        input_df['population'] = input_df['population'].astype(int)
        input_df['gini.2017'] = input_df['gini.2017'].fillna(0.0).astype(float)

        # Aplicar los mismos encoders
        for col in le_dict:
            if col in input_df.columns:
                le = le_dict[col]
                input_df[col] = input_df[col].fillna('Desconocido').astype(str)
                input_df[col] = le.transform(input_df[col])

        # Asegurar que tenga las columnas correctas
        input_df = input_df[model.feature_names_in_]

        # Predecir
        pred = model.predict(input_df)[0]
        print("\n➡ El modelo predice que este país " +
              ("🟢 DEBERÍA" if pred == 1 else "🔴 NO DEBERÍA") + " ser miembro de las Naciones Unidas.")

        # Asegurarse de que las columnas categóricas de df_test estén correctamente transformadas
        for col in le_dict:
            if col in df_test.columns:
                le = le_dict[col]
                df_test[col] = df_test[col].fillna('Desconocido').astype(str)
                df_test[col] = le.transform(df_test[col])

        # Convertir las columnas numéricas de texto a números
        df_test['area'] = df_test['area'].astype(float)
        df_test['population'] = df_test['population'].astype(int)
        df_test['gini.2017'] = df_test['gini.2017'].fillna(0.0).astype(float)

        # Asegurarse de que las columnas estén alineadas con las características de entrada del modelo
        df_test = df_test[model.feature_names_in_]

        # Verificar que la columna 'unMember' esté en el conjunto de prueba
        if 'unMember' not in df_test.columns:
            print("🔴 La columna 'unMember' no está presente en el conjunto de prueba.")
            return

        # Calcular y mostrar las métricas de clasificación en el conjunto de datos de prueba
        y_true = df_test['unMember']  # Asegúrate de que la columna 'unMember' esté en tus datos de prueba
        y_pred = model.predict(df_test)

        print("\nMétricas de rendimiento:")
        print(f"Accuracy: {accuracy_score(y_true, y_pred):.2f}")
        print(classification_report(y_true, y_pred))

    # 9. Ejecutar la función
    predecir_pais()



➡ El modelo predice que este país 🟢 DEBERÍA ser miembro de las Naciones Unidas.


UnboundLocalError: cannot access local variable 'df_test' where it is not associated with a value

In [35]:
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder
import joblib
from sklearn.metrics import classification_report, accuracy_score

# 1. Cargar modelo y encoders
def cargar_modelo_y_encoders():
    try:
        model = joblib.load("modelo_un.pickle")
        le_dict = joblib.load("encoders.pickle")
    except FileNotFoundError:
        print("🔴 No se encontraron los archivos del modelo o los encoders guardados.")
        model = None
        le_dict = {}
    return model, le_dict

# 2. Preparar el dataset
def preparar_datos(filepath, cols, le_dict):
    df = pd.read_csv(filepath)

    if not all(col in df.columns for col in cols):
        print("🔴 Algunas columnas necesarias no están presentes en el conjunto de datos.")
        return None, None

    df = df[cols].copy()
    
    # Codificar variables categóricas
    columns_to_encode = ['region', 'subregion', 'language', 'car.side', 'timezones', 'continents', 'startOfWeek', 'latlng']
    if not le_dict:
        le_dict = {}
        for col in columns_to_encode:
            le = LabelEncoder()
            df[col] = df[col].fillna('Desconocido').astype(str)
            df[col] = le.fit_transform(df[col])
            le_dict[col] = le
        joblib.dump(le_dict, 'encoders.pickle')
    else:
        for col in le_dict:
            if col in df.columns:
                le = le_dict[col]
                df[col] = df[col].fillna('Desconocido').astype(str)
                df[col] = le.transform(df[col])

    # Asegurar tipo numérico
    df['area'] = df['area'].astype(float)
    df['population'] = df['population'].astype(int)

    return df, le_dict

# 3. Función de predicción
def predecir_pais(pais, model, df_full, le_dict):
    input_df = df_full[df_full['name.common'] == pais].copy()

    if input_df.empty:
        print(f"\n🔴 No se encontró el país '{pais}' en los datos.")
        return

    try:
        input_df = input_df[model.feature_names_in_]
        pred = model.predict(input_df)[0]
        print("\n➡ El modelo predice que este país " +
              ("🟢 DEBERÍA" if pred == 1 else "🔴 NO DEBERÍA") +
              " ser miembro de las Naciones Unidas.")
    except Exception as e:
        print("🔴 Error durante la predicción:", e)

# 4. Evaluación del modelo completo
def evaluar_modelo(model, df_test):
    if 'unMember' not in df_test.columns:
        print("🔴 La columna 'unMember' no está presente en el conjunto de prueba.")
        return

    try:
        y_true = df_test['unMember'].copy()  # ← Guardar antes de eliminar columnas
        df_test = df_test[model.feature_names_in_]
        y_pred = model.predict(df_test)

        print("\n📊 Métricas del modelo:")
        print(f"Accuracy: {accuracy_score(y_true, y_pred):.2f}")
        print(classification_report(y_true, y_pred))
    except Exception as e:
        print("🔴 Error al evaluar el modelo:", e)


# =============================
# Ejecutar todo el pipeline
# =============================
if __name__ == "__main__":
    cols = ['name.common', 'independent', 'unMember', 'capital', 'region', 'subregion', 'language', 'latlng',
            'landlocked', 'area', 'population', 'car.side', 'timezones', 'continents', 'startOfWeek']
    pais = "Hong Kong"  # Cambia el país aquí si lo deseas
    filepath = 'paises_todos_atributos.csv'

    model, le_dict = cargar_modelo_y_encoders()

    if model:
        df_full, le_dict = preparar_datos(filepath, cols, le_dict)
        if df_full is not None:
            predecir_pais(pais, model, df_full, le_dict)
            evaluar_modelo(model, df_full)



➡ El modelo predice que este país 🔴 NO DEBERÍA ser miembro de las Naciones Unidas.

📊 Métricas del modelo:
Accuracy: 1.00
              precision    recall  f1-score   support

       False       1.00      1.00      1.00        58
        True       1.00      1.00      1.00       192

    accuracy                           1.00       250
   macro avg       1.00      1.00      1.00       250
weighted avg       1.00      1.00      1.00       250



In [30]:
from sklearn.preprocessing import LabelEncoder
import joblib
import pandas as pd

# 1. Cargar tu conjunto de datos
df = pd.read_csv('paises_todos_atributos.csv')

# 2. Crear un diccionario de LabelEncoders para cada columna categórica
columns_to_encode = ['region', 'subregion', 'language', 'car.side', 'timezones', 'continents', 'startOfWeek', 'latlng']
le_dict = {}

# 3. Ajustar LabelEncoder para cada columna categórica
for col in columns_to_encode:
    le = LabelEncoder()
    df[col] = df[col].fillna('Desconocido').astype(str)  # Reemplazar NaN y asegurar tipo string
    df[col] = le.fit_transform(df[col])  # Ajustar y transformar los datos
    le_dict[col] = le  # Guardar el encoder para futuras predicciones

# 4. Guardar los encoders para usarlos en el futuro
joblib.dump(le_dict, 'encoders.pickle')

# 5. Verifica que el DataFrame ahora tiene las columnas transformadas
print(df.head())


        name.common  independent  unMember     capital  region  subregion  \
0          Botswana         True      True    Gaborone       0         19   
1             Tonga         True      True  Nuku'alofa       5         15   
2            Greece         True      True      Athens       4         21   
3  Marshall Islands         True      True      Majuro       5         10   
4           Belarus         True      True       Minsk       4          8   

   language  latlng  landlocked      area  population  gini.2017  car.side  \
0        75      32        True  582000.0     2351625        NaN         0   
1        74      24       False     747.0      105697        NaN         0   
2        93     164       False  131990.0    10715549        NaN         1   
3        62     248       False     181.0       59194        NaN         1   
4        18     216        True  207600.0     9398861        NaN         1   

   timezones  continents  startOfWeek  
0          4           0    

In [37]:
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import LabelEncoder
import joblib
from sklearn.metrics import classification_report, accuracy_score

# 1. Cargar modelo y encoders
def cargar_modelo_y_encoders():
    try:
        model = joblib.load("modelo_un.pickle")
        le_dict = joblib.load("encoders.pickle")
    except FileNotFoundError:
        print("🔴 No se encontraron los archivos del modelo o los encoders guardados.")
        model = None
        le_dict = {}
    return model, le_dict

# 2. Preparar el dataset
def preparar_datos(filepath, cols, le_dict):
    df = pd.read_csv(filepath)

    if not all(col in df.columns for col in cols):
        print("🔴 Algunas columnas necesarias no están presentes en el conjunto de datos.")
        return None, None, None

    df = df[cols].copy()

    # Guardar target y quitarlo de las features
    y_true = df['unMember'].copy()
    df = df.drop(columns=['unMember'])

    # Codificar variables categóricas
    columns_to_encode = ['region', 'subregion', 'language', 'car.side', 'timezones', 'continents', 'startOfWeek', 'latlng']
    if not le_dict:
        le_dict = {}
        for col in columns_to_encode:
            le = LabelEncoder()
            df[col] = df[col].fillna('Desconocido').astype(str)
            df[col] = le.fit_transform(df[col])
            le_dict[col] = le
        joblib.dump(le_dict, 'encoders.pickle')
    else:
        for col in le_dict:
            if col in df.columns:
                le = le_dict[col]
                df[col] = df[col].fillna('Desconocido').astype(str)
                df[col] = le.transform(df[col])

    # Asegurar tipo numérico
    df['area'] = df['area'].astype(float)
    df['population'] = df['population'].astype(int)

    return df, y_true, le_dict

# 3. Función de predicción
def predecir_pais(pais, model, df_full_original, le_dict):
    input_df = df_full_original[df_full_original['name.common'] == pais].copy()

    if input_df.empty:
        print(f"\n🔴 No se encontró el país '{pais}' en los datos.")
        return

    try:
        input_df = input_df[model.feature_names_in_]
        pred = model.predict(input_df)[0]
        print("\n➡ El modelo predice que este país " +
              ("🟢 DEBERÍA" if pred == 1 else "🔴 NO DEBERÍA") +
              " ser miembro de las Naciones Unidas.")
    except Exception as e:
        print("🔴 Error durante la predicción:", e)

# 4. Evaluación del modelo completo
def evaluar_modelo(model, df_test, y_true):
    try:
        df_test = df_test[model.feature_names_in_]
        y_pred = model.predict(df_test)

        print("\n📊 Métricas del modelo:")
        print(f"Accuracy: {accuracy_score(y_true, y_pred):.2f}")
        print(classification_report(y_true, y_pred))
    except Exception as e:
        print("🔴 Error al evaluar el modelo:", e)


# =============================
# Ejecutar todo el pipeline
# =============================
if __name__ == "__main__":
    cols = ['name.common', 'independent', 'unMember', 'capital', 'region', 'subregion', 'language', 'latlng',
            'landlocked', 'area', 'population', 'car.side', 'timezones', 'continents', 'startOfWeek']
    pais = "Sint Maarten"  # Cambia el país aquí si lo deseas
    filepath = 'paises_todos_atributos.csv'

    model, le_dict = cargar_modelo_y_encoders()

    if model:
        df_features, y_true, le_dict = preparar_datos(filepath, cols, le_dict)
        if df_features is not None:
            predecir_pais(pais, model, df_features, le_dict)
            evaluar_modelo(model, df_features, y_true)



➡ El modelo predice que este país 🔴 NO DEBERÍA ser miembro de las Naciones Unidas.

📊 Métricas del modelo:
Accuracy: 1.00
              precision    recall  f1-score   support

       False       1.00      1.00      1.00        58
        True       1.00      1.00      1.00       192

    accuracy                           1.00       250
   macro avg       1.00      1.00      1.00       250
weighted avg       1.00      1.00      1.00       250



In [1]:
import requests
import csv

# URL de la API
url = "https://restcountries.com/v3.1/all"
response = requests.get(url)
data = response.json()

# Extraer los datos deseados
records = []
for country in data:
    latlng = country.get("latlng", [None, None])
    lat = latlng[0] if len(latlng) > 0 else None
    lng = latlng[1] if len(latlng) > 1 else None

    record = {
        "name.common": country.get("name", {}).get("common", None),
        "independent": country.get("independent", None),
        "unMember": country.get("unMember", None),
        "capital": ", ".join(country.get("capital", [])) if country.get("capital") else None,
        "region": country.get("region", None),
        "subregion": country.get("subregion", None),
        "language": ", ".join(country.get("languages", {}).values()) if country.get("languages") else None,
        "latitude": lat,
        "longitude": lng,
        "landlocked": country.get("landlocked", None),
        "area": country.get("area", None),
        "population": country.get("population", None),
        "borders": ", ".join(country.get("borders", [])) if country.get("borders") else None,
        "car.side": country.get("car", {}).get("side", None),
        "timezones": ", ".join(country.get("timezones", [])) if country.get("timezones") else None,
        "continents": ", ".join(country.get("continents", [])) if country.get("continents") else None,
        "startOfWeek": country.get("startOfWeek", None)
    }
    records.append(record)

# Guardar en archivo CSV
with open("paises_con_lat_lon.csv", mode="w", newline="", encoding="utf-8") as file:
    writer = csv.DictWriter(file, fieldnames=records[0].keys())
    writer.writeheader()
    writer.writerows(records)

print("✅ Archivo CSV generado: paises_con_lat_lon.csv")


✅ Archivo CSV generado: paises_con_lat_lon.csv


In [2]:
import requests
import csv

# URL de la API
url = "https://restcountries.com/v3.1/all"
response = requests.get(url)
data = response.json()

# Diccionarios para codificar variables categóricas
region_codes = {}
subregion_codes = {}
language_codes = {}
capital_codes = {}
continent_codes = {}
start_of_week_codes = {}
car_side_codes = {}

def get_code(value, code_dict):
    if value not in code_dict:
        code_dict[value] = len(code_dict) + 1
    return code_dict[value]

# Extraer y codificar datos
records = []
for country in data:
    latlng = country.get("latlng", [None, None])
    lat = latlng[0] if len(latlng) > 0 else None
    lng = latlng[1] if len(latlng) > 1 else None

    record = {
        "independent": int(country.get("independent", False)),
        "unMember": int(country.get("unMember", False)),
        "capital_code": get_code(", ".join(country.get("capital", [])) if country.get("capital") else "None", capital_codes),
        "region_code": get_code(country.get("region", "None"), region_codes),
        "subregion_code": get_code(country.get("subregion", "None"), subregion_codes),
        "language_code": get_code(", ".join(country.get("languages", {}).values()) if country.get("languages") else "None", language_codes),
        "latitude": lat,
        "longitude": lng,
        "landlocked": int(country.get("landlocked", False)),
        "area": country.get("area", 0),
        "population": country.get("population", 0),
        "borders_count": len(country.get("borders", [])),
        "car_side_code": get_code(country.get("car", {}).get("side", "None"), car_side_codes),
        "timezones_count": len(country.get("timezones", [])),
        "continents_code": get_code(", ".join(country.get("continents", [])) if country.get("continents") else "None", continent_codes),
        "startOfWeek_code": get_code(country.get("startOfWeek", "None"), start_of_week_codes)
    }
    records.append(record)

# Guardar en archivo CSV
with open("paises_numericos.csv", mode="w", newline="", encoding="utf-8") as file:
    writer = csv.DictWriter(file, fieldnames=records[0].keys())
    writer.writeheader()
    writer.writerows(records)

print("✅ Archivo CSV generado: paises_numericos.csv")


✅ Archivo CSV generado: paises_numericos.csv


In [3]:
import requests

url = "https://restcountries.com/v3.1/all"
response = requests.get(url)
data = response.json()

def get_code(value, dictionary):
    if value not in dictionary:
        dictionary[value] = len(dictionary) + 1
    return dictionary[value]

capital_codes = {}
subregion_codes = {}
language_codes = {}

for country in data:
    capital = ", ".join(country.get("capital", [])) if country.get("capital") else "None"
    get_code(capital, capital_codes)

    subregion = country.get("subregion", "None")
    get_code(subregion, subregion_codes)

    language = ", ".join(country.get("languages", {}).values()) if country.get("languages") else "None"
    get_code(language, language_codes)

print("Capital Codes:", capital_codes)
print("Subregion Codes:", subregion_codes)
print("Language Codes:", language_codes)


Capital Codes: {'Asmara': 1, 'Yaoundé': 2, 'Podgorica': 3, 'Suva': 4, 'Tunis': 5, 'Dakar': 6, 'King Edward Point': 7, 'Brasília': 8, 'Vaduz': 9, 'Mexico City': 10, 'Ramallah, Jerusalem': 11, 'Nuuk': 12, 'Washington DC': 13, 'Malabo': 14, 'Basse-Terre': 15, 'Jamestown': 16, 'Ankara': 17, "N'Djamena": 18, 'Tegucigalpa': 19, 'Vienna': 20, 'Bucharest': 21, 'Libreville': 22, 'Windhoek': 23, 'Kigali': 24, 'Kingstown': 25, 'Sofia': 26, 'Bogotá': 27, 'Paramaribo': 28, 'Harare': 29, 'Caracas': 30, 'Mbabane': 31, 'Manila': 32, 'Ashgabat': 33, 'Algiers': 34, 'Niamey': 35, 'Kingston': 36, 'Yerevan': 37, 'Kralendijk': 38, 'Honiara': 39, 'Havana': 40, 'Port-aux-Français': 41, 'Mariehamn': 42, 'Charlotte Amalie': 43, 'Monrovia': 44, 'Khartoum': 45, 'Road Town': 46, 'Dodoma': 47, 'Zagreb': 48, 'Andorra la Vella': 49, 'Belmopan': 50, 'Bridgetown': 51, 'Bratislava': 52, 'Vatican City': 53, 'Beirut': 54, 'Chișinău': 55, 'Helsinki': 56, 'Taipei': 57, 'Palikir': 58, 'Hanoi': 59, 'Papeetē': 60, 'Fakaofo': 6