### Ejercicio 1 

PASO 1: Importacion de base de datos y conexion

In [22]:
import pandas as pd
import numpy as np
from sqlalchemy import create_engine

# Configuración de la conexión a MySQL
usuario = 'root'  # Reemplaza con tu usuario
contraseña = '12345'  # Reemplaza con tu contraseña
host = 'localhost:3306'  # O la dirección de tu servidor MySQL
base_de_datos = 'world'  # Reemplaza con el nombre de tu base de datos

# Crear la cadena de conexión
cadena_conexion = f'mysql+pymysql://{usuario}:{contraseña}@{host}/{base_de_datos}'

# Crear el motor de conexión
motor = create_engine(cadena_conexion)

# Consulta SQL para obtener los datos
consulta = "SELECT * FROM country"  # Reemplaza con tu tabla real

# Cargar datos en un DataFrame
df = pd.read_sql(consulta, motor)

# Mostrar las primeras filas
df.head()

Unnamed: 0,Code,Name,Continent,Region,SurfaceArea,IndepYear,Population,LifeExpectancy,GNP,GNPOld,LocalName,GovernmentForm,HeadOfState,Capital,Code2
0,ABW,Aruba,North America,Caribbean,193.0,,103000,78.4,828.0,793.0,Aruba,Nonmetropolitan Territory of The Netherlands,Beatrix,129.0,AW
1,AFG,Afghanistan,Asia,Southern and Central Asia,652090.0,1919.0,22720000,45.9,5976.0,,Afganistan/Afqanestan,Islamic Emirate,Mohammad Omar,1.0,AF
2,AGO,Angola,Africa,Central Africa,1246700.0,1975.0,12878000,38.3,6648.0,7984.0,Angola,Republic,José Eduardo dos Santos,56.0,AO
3,AIA,Anguilla,North America,Caribbean,96.0,,8000,76.1,63.2,,Anguilla,Dependent Territory of the UK,Elisabeth II,62.0,AI
4,ALB,Albania,Europe,Southern Europe,28748.0,1912.0,3401200,71.6,3205.0,2500.0,Shqipëria,Republic,Rexhep Mejdani,34.0,AL


### 1.1 Comprovacion de datos 

In [27]:
# 1. Análisis inicial de valores nulos
print("=== Valores nulos por columna ===")
print(df.isnull().sum())

# 2. Porcentaje de valores nulos por columna
print("\n=== Porcentaje de valores nulos ===")
print((df.isnull().sum() / len(df)) * 100)

# 3. Verificación de duplicados completos
print("\n=== Filas duplicadas exactas ===")
print("Número de duplicados exactos:", df.duplicated().sum())

# 4. Verificación de duplicados en columnas clave (Code y Name)
print("\n=== Duplicados en columnas clave ===")
print("Países con mismo Code:", df.duplicated(subset=['Code']).sum())
print("Países con mismo Name:", df.duplicated(subset=['Name']).sum())

# 5. Mostrar algunas filas con valores nulos para inspección
print("\n=== Ejemplo de filas con valores nulos ===")
print(df[df.isnull().any(axis=1)].head())

=== Valores nulos por columna ===
Code               0
Name               0
Continent          0
Region             0
SurfaceArea        0
IndepYear         47
Population         0
LifeExpectancy    17
GNP                0
GNPOld            61
LocalName          0
GovernmentForm     0
HeadOfState        1
Capital            7
Code2              0
dtype: int64

=== Porcentaje de valores nulos ===
Code               0.000000
Name               0.000000
Continent          0.000000
Region             0.000000
SurfaceArea        0.000000
IndepYear         19.665272
Population         0.000000
LifeExpectancy     7.112971
GNP                0.000000
GNPOld            25.523013
LocalName          0.000000
GovernmentForm     0.000000
HeadOfState        0.418410
Capital            2.928870
Code2              0.000000
dtype: float64

=== Filas duplicadas exactas ===
Número de duplicados exactos: 0

=== Duplicados en columnas clave ===
Países con mismo Code: 0
Países con mismo Name: 0

=== Ejemplo

### Limpieza de datos

In [28]:
import pandas as pd
from sqlalchemy import create_engine

# Configuración de la conexión a MySQL
usuario = 'root'  # Reemplaza con tu usuario
contraseña = '12345'  # Reemplaza con tu contraseña
host = 'localhost:3306'  # O la dirección de tu servidor MySQL
base_de_datos = 'world'  # Reemplaza con el nombre de tu base de datos

# 2. Crear la conexión (esto debe ejecutarse siempre primero)
engine = create_engine(f'mysql+pymysql://{usuario}:{contraseña}@{host}/{base_de_datos}')

# 3. Cargar datos
df = pd.read_sql('SELECT * FROM country', engine)

# 4. Limpieza básica
df_limpio = df.dropna()

# 5. Verificación
print(f"Filas originales: {len(df)}")
print(f"Filas limpias: {len(df_limpio)}")

# 6. Exportar a NUEVA tabla (se creará automáticamente)
try:
    df_limpio.to_sql('country_sin_nulos', engine, if_exists='replace', index=False)
    print("Tabla 'country_sin_nulos' creada exitosamente en MySQL!")
except Exception as e:
    print(f"Error al exportar: {e}")

Filas originales: 239
Filas limpias: 167
Tabla 'country_sin_nulos' creada exitosamente en MySQL!


### Ejercicio 2

In [60]:
# Importación de librerías
import requests
import pandas as pd
from sqlalchemy import create_engine

print("✅ Librerías importadas correctamente")

✅ Librerías importadas correctamente


### 1. Configuracion de conexion de bases de datos

In [61]:
# Configuración de la base de datos
config_mysql = {
    'usuario': 'root',        # Cambiar por tu usuario
    'contraseña': '12345',    # Cambiar por tu contraseña
    'host': 'localhost',      # Servidor de la base de datos
    'puerto': '3306',         # Puerto de MySQL
    'base_de_datos': 'world'  # Nombre de la base de datos
}

# Crear cadena de conexión
cadena_conexion = f"mysql+pymysql://{config_mysql['usuario']}:{config_mysql['contraseña']}@{config_mysql['host']}:{config_mysql['puerto']}/{config_mysql['base_de_datos']}"

print("⚙️ Configuración de MySQL completada")
print(f"Cadena de conexión: {cadena_conexion[:20]}...") 

⚙️ Configuración de MySQL completada
Cadena de conexión: mysql+pymysql://root...


### 2. Obtencion de datos de la api

In [62]:
# Función para obtener datos de países
def obtener_datos_paises():
    url = "https://countriesnow.space/api/v0.1/countries"
    try:
        print("🌍 Conectando a la API de países...")
        respuesta = requests.get(url)
        respuesta.raise_for_status()  # Verificar errores HTTP
        print("✅ Datos obtenidos correctamente de la API")
        return respuesta.json().get('data', [])
    except Exception as e:
        print(f"❌ Error al obtener datos: {e}")
        return None

# Ejecutar la función
datos_paises = obtener_datos_paises()

# Mostrar cantidad de países obtenidos
if datos_paises:
    print(f"📊 Total de países recibidos: {len(datos_paises)}")
    print("\nEjemplo del primer país:")
    print({k: datos_paises[0][k] for k in list(datos_paises[0].keys())[:3]})

🌍 Conectando a la API de países...
✅ Datos obtenidos correctamente de la API
📊 Total de países recibidos: 227

Ejemplo del primer país:
{'iso2': 'AF', 'iso3': 'AFG', 'country': 'Afghanistan'}


### 3. Limpieza de datos

In [63]:
if datos_paises:
    # Procesamiento de TODOS los datos (eliminamos el [:5])
    print("\n🧹 Iniciando limpieza de datos para TODOS los países...")
    
    datos_procesados = []
    for pais in datos_paises:
        datos = {
            'nombre': pais.get('country', 'Desconocido'),
            'capital': pais.get('capital', 'Desconocido'),
            'iso2': pais.get('iso2', None),
            'iso3': pais.get('iso3', None),
            'poblacion': pais.get('population', 0),
            'continente': pais.get('continent', 'Desconocido')
        }
        datos_procesados.append(datos)
    
    # Convertir a DataFrame
    df = pd.DataFrame(datos_procesados)
    
    # Eliminar filas con valores nulos en campos clave
    df_limpio = df.dropna(subset=['nombre', 'capital', 'continente'])
    
    print("\n🔍 Muestra de datos limpios (de todos los países):")
    display(df_limpio.head())
    print(f"\n📝 Total de países después de limpieza: {len(df_limpio)}")
else:
    print("No hay datos para limpiar")


🧹 Iniciando limpieza de datos para TODOS los países...

🔍 Muestra de datos limpios (de todos los países):


Unnamed: 0,nombre,capital,iso2,iso3,poblacion,continente
0,Afghanistan,Desconocido,AF,AFG,0,Desconocido
1,Albania,Desconocido,AL,ALB,0,Desconocido
2,Algeria,Desconocido,DZ,DZA,0,Desconocido
3,Andorra,Desconocido,AD,AND,0,Desconocido
4,Angola,Desconocido,AO,AGO,0,Desconocido



📝 Total de países después de limpieza: 227


### 4.Transformacion de datos 

In [64]:
if 'df_limpio' in locals() and not df_limpio.empty:
    print("\n🔄 Iniciando transformación de datos...")
    
    # Clasificación por población
    bins = [0, 1000000, 10000000, 50000000, 100000000, float('inf')]
    labels = ['Muy pequeña', 'Pequeña', 'Mediana', 'Grande', 'Muy grande']
    
    df_limpio['tamano_poblacion'] = pd.cut(
        df_limpio['poblacion'],
        bins=bins,
        labels=labels
    )
    
    print("\n📊 Distribución por tamaño de población:")
    print(df_limpio['tamano_poblacion'].value_counts())
    
    print("\n🔍 Muestra de datos transformados:")
    display(df_limpio.head())
else:
    print("No hay datos para transformar")


🔄 Iniciando transformación de datos...

📊 Distribución por tamaño de población:
tamano_poblacion
Muy pequeña    0
Pequeña        0
Mediana        0
Grande         0
Muy grande     0
Name: count, dtype: int64

🔍 Muestra de datos transformados:


Unnamed: 0,nombre,capital,iso2,iso3,poblacion,continente,tamano_poblacion
0,Afghanistan,Desconocido,AF,AFG,0,Desconocido,
1,Albania,Desconocido,AL,ALB,0,Desconocido,
2,Algeria,Desconocido,DZ,DZA,0,Desconocido,
3,Andorra,Desconocido,AD,AND,0,Desconocido,
4,Angola,Desconocido,AO,AGO,0,Desconocido,


### 5. Exportacion de datos 

In [58]:
if 'df_limpio' in locals() and not df_limpio.empty:
    try:
        print("\n💾 Conectando a MySQL para exportar datos...")
        engine = create_engine(cadena_conexion)
        
        # Verificar conexión
        with engine.connect() as conn:
            print("✅ Conexión a MySQL exitosa")
        
        # Exportar datos
        df_limpio.to_sql(
            name='paises_api_limpios',
            con=engine,
            if_exists='replace',
            index=False
        )
        
        print(f"💾 Datos exportados correctamente a la tabla 'paises_api_limpios'")
        print(f"📌 Total de registros exportados: {len(df_limpio)}")
        
    except Exception as e:
        print(f"❌ Error al exportar a MySQL: {e}")
else:
    print("No hay datos para exportar")


💾 Conectando a MySQL para exportar datos...
✅ Conexión a MySQL exitosa
💾 Datos exportados correctamente a la tabla 'paises_api_limpios'
📌 Total de registros exportados: 227


In [41]:
import requests
import pandas as pd
from sqlalchemy import create_engine

# 1. Configuración de la conexión a MySQL
config_mysql = {
    'usuario': 'root',        
    'contraseña': '12345',    
    'host': 'localhost',      
    'puerto': '3306',        
    'base_de_datos': 'world' 
}

# 2. Función para obtener datos de la API
def obtener_datos_paises():
    url = "https://countriesnow.space/api/v0.1/countries"
    try:
        respuesta = requests.get(url)
        respuesta.raise_for_status()
        return respuesta.json().get('data', [])
    except requests.exceptions.RequestException as e:
        print(f"Error al obtener datos: {e}")
        return None

# Obtener los datos
datos_paises = obtener_datos_paises()

if datos_paises:
    # 3. Procesamiento de datos
    datos_procesados = []
    
    for pais in datos_paises:
        datos = {
            'nombre': pais.get('country', 'Desconocido'),
            'capital': pais.get('capital', 'Desconocido'),
            'iso2': pais.get('iso2', None),
            'iso3': pais.get('iso3', None),
            'poblacion': pais.get('population', 0),
            'continente': pais.get('continent', 'Desconocido')
        }
        datos_procesados.append(datos)
    
    df = pd.DataFrame(datos_procesados)
    df_limpio = df.dropna(subset=['nombre', 'capital', 'continente'])
    
    # 4. Conexión a MySQL 
    try:
        # Crear cadena de conexión 
        cadena_conexion = f"mysql+pymysql://{config_mysql['usuario']}:{config_mysql['contraseña']}@{config_mysql['host']}:{config_mysql['puerto']}/{config_mysql['base_de_datos']}"
        
        engine = create_engine(cadena_conexion)
        
        with engine.connect() as conn:
            print("¡Conexión a MySQL exitosa!")
        
        # 5. Exportar datos
        df_limpio.to_sql(
            'paises_api_alternativa', 
            engine, 
            if_exists='replace', 
            index=False
        )
        
        print("\n¡Datos exportados correctamente a MySQL!")
        print(f"Tabla 'paises_api_alternativa' creada en la base de datos '{config_mysql['base_de_datos']}'")
        print(f"Total de países exportados: {len(df_limpio)}")
        
    except Exception as e:
        print(f"\nError al conectar/exportar a MySQL: {e}")
        print("Verifica lo siguiente:")
        print(f"- Usuario: {config_mysql['usuario']}")
        print(f"- Contraseña: {'*' * len(config_mysql['contraseña'])}")
        print(f"- Host: {config_mysql['host']}")
        print(f"- Puerto: {config_mysql['puerto']}")
        print(f"- Base de datos: {config_mysql['base_de_datos']}")
        print("\n¿Está corriendo el servidor MySQL? ¿Tienes los privilegios adecuados?")
else:
    print("No se pudieron obtener datos de la API para procesar")

¡Conexión a MySQL exitosa!

¡Datos exportados correctamente a MySQL!
Tabla 'paises_api_alternativa' creada en la base de datos 'world'
Total de países exportados: 227
