# **QLAB - PostgreSQL para Ciencia de Datos - Avance 1**
15-FEB-2025

## **1.** Importamos las librer√≠as necesarias

In [1]:
import pandas as pd
import psycopg2
import os

## **2.** Hacemos la carga de archivos y hacemos las transformaciones necesarias

In [2]:
# üìå 1Ô∏è‚É£ Cargar los archivos CSV y normalizar los datos
files = {
    "2015": "data-2015.csv",
    "2016": "data-2016.csv",
    "2017": "data-2017.csv",
    "2018": "data-2018.csv",
    "2019": "data-2019.csv",
    "migration": "net_migration_by_country.csv"
}

# Lista para almacenar los dataframes de felicidad
happiness_data = []

# Procesar cada archivo de felicidad (2015-2019)
for year, path in files.items():
    if year != "migration":  # Excluir dataset de migraci√≥n
        df = pd.read_csv(path)
        
        # Renombrar columnas para estandarizarlas
        rename_dict = {
            f"Score {year}": "happiness_score",
            f"GDP {year}": "gdp_per_capita",
            f"Family {year}": "social_support",
            f"Life Expectancy {year}": "healthy_life_expectancy",
            f"Freedom {year}": "freedom_to_make_choices",
            f"Trust {year}": "corruption_perception",
            f"Generosity {year}": "generosity"
        }
        
        # Aplicar cambios de nombre y seleccionar solo las columnas necesarias
        df = df.rename(columns=rename_dict)
        df = df[["Country", "Region","happiness_score", "gdp_per_capita", "social_support",
                 "healthy_life_expectancy", "freedom_to_make_choices", "corruption_perception", "generosity"]]
        
        # Agregar la columna del a√±o
        df["year"] = int(year)
        
        # Agregar a la lista de dataframes
        happiness_data.append(df)

# Unir todos los datasets de felicidad en uno solo
happiness_df = pd.concat(happiness_data, ignore_index=True)

# Renombrar columna "Country" a "country" para que coincida con el dataset de migraci√≥n
happiness_df = happiness_df.rename(columns={"Country": "country"})
happiness_df = happiness_df.rename(columns={"Region": "region"})


# üìå 2Ô∏è‚É£ Cargar y filtrar los datos de migraci√≥n
migration_df = pd.read_csv(files["migration"])
migration_df = migration_df[(migration_df["year"] >= 2015) & (migration_df["year"] <= 2019)]

# Renombrar columnas para que coincidan con happiness_df
migration_df = migration_df.rename(columns={
    "country_name": "country",
    "value": "net_migration"
})

# Seleccionar solo las columnas necesarias
migration_df = migration_df[["country", "year", "net_migration"]]

## **3.** Conexi√≥n a postgre, creaci√≥n de BBDD y carga de tablas 
Recordar cambiar las credenciales necesarias para hacer la conexi√≥n con PostgreSQL y tener este script en la misma carpeta que los dataset (.csv).

In [3]:
# üìå 3Ô∏è‚É£ Conectar a PostgreSQL y crear la base de datos "avance_1" si no existe
def crear_base_de_datos():
    try:
        conn = psycopg2.connect(
            dbname="postgres",
            user="postgres",
            password="485174",
            host="localhost",
            port="7777"
        )
        conn.autocommit = True
        cursor = conn.cursor()

        # Crear la base de datos si no existe
        cursor.execute("SELECT 1 FROM pg_database WHERE datname = 'avance_1';")
        existe = cursor.fetchone()

        if not existe:
            cursor.execute("CREATE DATABASE avance_1;")
            print("‚úÖ Base de datos 'avance_1' creada correctamente.")
        else:
            print("‚ö†Ô∏è La base de datos 'avance_1' ya existe.")

        cursor.close()
        conn.close()
    except Exception as e:
        print(f"‚ùå Error al crear la base de datos: {e}")

crear_base_de_datos()

# üìå 4Ô∏è‚É£ Conectar a la nueva base de datos "avance_1"
def conectar_a_base_de_datos():
    try:
        conn = psycopg2.connect(
            dbname="avance_1",
            user="postgres",
            password="485174",
            host="localhost",
            port="7777"
        )
        print("‚úÖ Conexi√≥n exitosa a la base de datos 'avance_1'.")
        return conn
    except Exception as e:
        print(f"‚ùå Error al conectar a la base de datos: {e}")
        return None

conn = conectar_a_base_de_datos()
cursor = conn.cursor()

# üìå 5Ô∏è‚É£ Crear las tablas en PostgreSQL
cursor.execute("""
    CREATE TABLE IF NOT EXISTS Country (
    id SERIAL PRIMARY KEY,
    country VARCHAR(25) UNIQUE,
    region VARCHAR(32) UNIQUE
    )
""")

cursor.execute("""
    CREATE TABLE IF NOT EXISTS Happiness (
    id SERIAL PRIMARY KEY,
    country_id INT REFERENCES Country(id),
    year INT,
    happiness_score FLOAT,
    gdp_per_capita FLOAT,
    social_support FLOAT,
    healthy_life_expectancy FLOAT,
    freedom_to_make_choices FLOAT,
    corruption_perception FLOAT,
    generosity FLOAT
    )
""")

cursor.execute("""
    CREATE TABLE IF NOT EXISTS Migration (
    id SERIAL PRIMARY KEY,
    country_id INT REFERENCES Country(id),
    year INT,
    net_migration INT
    )
""")
conn.commit()
print("‚úÖ Tablas 'Country', 'Happiness' y 'Migration' creadas correctamente en 'avance_1'.")

# üìå 6Ô∏è‚É£ Insertar datos en la tabla Country
print("‚è≥ Insertando datos en Country...")
cursor.execute("""
        INSERT INTO Country (country, region)
        VALUES (%s, %s)
    """, (row["country"][:25], row["region"][:25]))  # Recorta a 25 caracteres

print("‚úÖ Datos insertados en Country.")

# üìå 7Ô∏è‚É£ Insertar datos en la tabla Happiness
print("‚è≥ Insertando datos en Happiness...")
for _, row in happiness_df.iterrows():
    cursor.execute("""
        INSERT INTO Happiness (year, happiness_score, gdp_per_capita, social_support, 
                                      healthy_life_expectancy, freedom_to_make_choices, corruption_perception, 
                                      generosity)
        VALUES (%s, %s, %s, %s, %s, %s, %s, %s)
    """, (row["year"], row["happiness_score"], row["gdp_per_capita"], 
          row["social_support"], row["healthy_life_expectancy"], row["freedom_to_make_choices"],
          row["corruption_perception"], row["generosity"]))

print("‚úÖ Datos insertados en migration_data.")

# üìå 8Ô∏è‚É£ Insertar datos en la tabla Migration
print("‚è≥ Insertando datos en Migration...")
for _, row in migration_df.iterrows():
    cursor.execute("""
        INSERT INTO Migration (year, net_migration)
        VALUES (%s, %s)
    """, (row["year"], row["net_migration"]))

print("‚úÖ Datos insertados en Migration.")

# üìå 8Ô∏è‚É£ Confirmar y cerrar conexi√≥n
conn.commit()
cursor.close()
conn.close()
print("‚úÖ Conexi√≥n cerrada.")

‚ö†Ô∏è La base de datos 'avance_1' ya existe.
‚úÖ Conexi√≥n exitosa a la base de datos 'avance_1'.
‚úÖ Tablas 'Country', 'Happiness' y 'Migration' creadas correctamente en 'avance_1'.
‚è≥ Insertando datos en Country...


NameError: name 'row' is not defined

In [28]:
print(happiness_df["country"].apply(len).max())  # M√°xima longitud de 'country'
print(happiness_df["region"].apply(len).max())   # M√°xima longitud de 'region'

24
31
