## Importaciones

In [24]:
import pandas as pd
import psycopg2

from sqlalchemy import create_engine

## Limpieza de datos

In [None]:

# Leer CSVs

csv1 = "./data/clase_1.csv"  # Data Science Septiembre
csv2 = "./data/clase_2.csv"  # Data Science Febrero
csv3 = "./data/clase_3.csv"  # Full Stack Septiembre
csv4 = "./data/clase_4.csv"  # Full Stack Febrero
csv5 = "./data/claustro.csv"  # Profesores

df_ds_sep = pd.read_csv(csv1, sep=";")
df_ds_feb = pd.read_csv(csv2, sep=";")
df_fs_sep = pd.read_csv(csv3, sep=";")
df_fs_feb = pd.read_csv(csv4, sep=";")
df_profesores = pd.read_csv(csv5, sep=";")







In [None]:
#Campus

campus_list = pd.concat([
    df_ds_sep[['Campus']],
    df_ds_feb[['Campus']],
    df_fs_sep[['Campus']],
    df_fs_feb[['Campus']],
    df_profesores[['Campus']]
]).drop_duplicates().reset_index(drop=True)

df_campus = pd.DataFrame({
    'campus_id': range(1, len(campus_list)+1),
    'nombre': campus_list['Campus'],
    'ciudad': campus_list['Campus']  
})



In [None]:

# Modalidad

modalidad_list = df_profesores['Modalidad'].drop_duplicates().reset_index(drop=True)
df_modalidad = pd.DataFrame({
    'modalidad_id': range(1, len(modalidad_list)+1),
    'nombre_modalidad': modalidad_list
})



In [None]:

#  Promocion
# Extraemos todas las promociones de los alumnos
promociones_alumnos = pd.concat([
    df_ds_sep[['Promoción','Campus']],
    df_ds_feb[['Promoción','Campus']],
    df_fs_sep[['Promoción','Campus']],
    df_fs_feb[['Promoción','Campus']]
]).drop_duplicates().reset_index(drop=True)

# Mapear campus_id y modalidad_id
def get_campus_id(campus_name):
    return df_campus[df_campus['nombre']==campus_name]['campus_id'].values[0]

def get_modalidad_id(campus_name, promocion_name):
    
    subset = df_profesores[df_profesores['Campus']==campus_name]
    if not subset.empty:
        return df_modalidad[df_modalidad['nombre_modalidad']==subset.iloc[0]['Modalidad']]['modalidad_id'].values[0]
    else:
        return 1

df_promocion = pd.DataFrame({
    'promocion_id': range(1, len(promociones_alumnos)+1),
    'nombre': promociones_alumnos['Promoción'],
    'modalidad_id': [get_modalidad_id(row['Campus'], row['Promoción']) for i,row in promociones_alumnos.iterrows()],
    'campus_id': [get_campus_id(row['Campus']) for i,row in promociones_alumnos.iterrows()]
})



In [None]:

# Alumno

def split_nombre_apellido(fullname):
    parts = fullname.split()
    nombre = parts[0]
    apellido = ' '.join(parts[1:]) if len(parts)>1 else ''
    return nombre, apellido

df_alumnos_all = pd.concat([df_ds_sep, df_ds_feb, df_fs_sep, df_fs_feb]).reset_index(drop=True)

alumno_data = []
for idx, row in df_alumnos_all.iterrows():
    nombre, apellido = split_nombre_apellido(row['Nombre'])
    
    promocion_id = df_promocion[(df_promocion['nombre']==row['Promoción']) &
                                (df_promocion['campus_id']==get_campus_id(row['Campus']))]['promocion_id'].values[0]
    alumno_data.append({
        'alumno_id': idx+1,
        'nombre': nombre,
        'apellido': apellido,
        'email': row['Email'],
        'fecha_comienzo': pd.to_datetime(row['Fecha_comienzo'], dayfirst=True),
        'promocion_id': promocion_id
    })

df_alumno = pd.DataFrame(alumno_data)





In [None]:

#  Rol

roles = df_profesores['Rol'].drop_duplicates().reset_index(drop=True)
df_rol = pd.DataFrame({
    'rol_id': range(1, len(roles)+1),
    'tipo_rol': roles
})

In [None]:

#  Profesor

profesor_data = []
for idx, row in df_profesores.iterrows():
    nombre, apellido = split_nombre_apellido(row['Nombre'])
    rol_id = df_rol[df_rol['tipo_rol']==row['Rol']]['rol_id'].values[0]
    campus_id = get_campus_id(row['Campus'])
    profesor_data.append({
        'profesor_id': idx+1,
        'nombre': nombre,
        'apellido': apellido,
        'email': row.get('Email', None),
        'rol_id': rol_id,
        'campus_id': campus_id
    })

df_profesor = pd.DataFrame(profesor_data)



In [None]:

#  Tipo_Bootcamp

df_tipo_bootcamp = pd.DataFrame({
    'tipo_bootcamp_id': [1,2],
    'nombre_tipo': ['Data Science','Full Stack'],
    'duracion_semanas': [24,24]  
})

In [None]:

#  Proyecto


proyectos_ds = ['Proyecto_HLF','Proyecto_EDA','Proyecto_BBDD','Proyecto_ML','Proyecto_Deployment']
proyectos_fs = ['Proyecto_WebDev','Proyecto_FrontEnd','Proyecto_Backend','Proyecto_React','Proyecto_FullSatck']

proyecto_data = []
pid = 1
for p in proyectos_ds:
    proyecto_data.append({'proyecto_id': pid, 'nombre_proyecto': p, 'tipo_bootcamp_id': 1})
    pid += 1
for p in proyectos_fs:
    proyecto_data.append({'proyecto_id': pid, 'nombre_proyecto': p, 'tipo_bootcamp_id': 2})
    pid += 1

df_proyecto = pd.DataFrame(proyecto_data)

In [None]:

#  Alumno_Proyecto 


alumno_proyecto_data = []

# Data Science (CSV1 + CSV2)
df_ds_all = pd.concat([df_ds_sep, df_ds_feb], ignore_index=True)

for idx, row in df_ds_all.iterrows():
    alumno_id = df_alumno[df_alumno['email'] == row['Email']]['alumno_id'].values[0]
    for p in proyectos_ds:
        proyecto_id = df_proyecto[df_proyecto['nombre_proyecto'] == p]['proyecto_id'].values[0]
        resultado = row[p]
        alumno_proyecto_data.append({
            'alumno_proyecto_id': len(alumno_proyecto_data) + 1,
            'alumno_id': alumno_id,
            'proyecto_id': proyecto_id,
            'resultado': resultado
        })

# Full Stack (CSV3 + CSV4)
df_fs_all = pd.concat([df_fs_sep, df_fs_feb], ignore_index=True)

for idx, row in df_fs_all.iterrows():
    alumno_id = df_alumno[df_alumno['email'] == row['Email']]['alumno_id'].values[0]
    for p in proyectos_fs:
        proyecto_id = df_proyecto[df_proyecto['nombre_proyecto'] == p]['proyecto_id'].values[0]
        resultado = row[p]
        alumno_proyecto_data.append({
            'alumno_proyecto_id': len(alumno_proyecto_data) + 1,
            'alumno_id': alumno_id,
            'proyecto_id': proyecto_id,
            'resultado': resultado
        })

df_alumno_proyecto = pd.DataFrame(alumno_proyecto_data)


In [None]:

df_alumno

Unnamed: 0,alumno_id,nombre,apellido,email,fecha_comienzo,promocion_id
0,1,Jafet,Casals,Jafet_Casals@gmail.com,2023-09-18,1
1,2,Jorge,Manzanares,Jorge_Manzanares@gmail.com,2023-09-18,1
2,3,Onofre,Adadia,Onofre_Adadia@gmail.com,2023-09-18,1
3,4,Merche,Prada,Merche_Prada@gmail.com,2023-09-18,1
4,5,Pilar,Abella,Pilar_Abella@gmail.com,2023-09-18,1
5,6,Leoncio,Tena,Leoncio_Tena@gmail.com,2023-09-18,1
6,7,Odalys,Torrijos,Odalys_Torrijos@gmail.com,2023-09-18,1
7,8,Eduardo,Caparrós,Eduardo_Caparrós@gmail.com,2023-09-18,1
8,9,Ignacio,Goicoechea,Ignacio_Goicoechea@gmail.com,2023-09-18,1
9,10,Clementina,Santos,Clementina_Santos@gmail.com,2023-09-18,1


In [16]:
df_campus


Unnamed: 0,campus_id,nombre,ciudad
0,1,Madrid,Madrid
1,2,Valencia,Valencia


In [17]:
df_modalidad


Unnamed: 0,modalidad_id,nombre_modalidad
0,1,Presencial
1,2,Online


In [18]:
df_promocion 

Unnamed: 0,promocion_id,nombre,modalidad_id,campus_id
0,1,Septiembre,1,1
1,2,Febrero,1,1
2,3,Febrero,1,2


In [19]:
df_rol

Unnamed: 0,rol_id,tipo_rol
0,1,TA
1,2,LI


In [20]:
df_profesor

Unnamed: 0,profesor_id,nombre,apellido,email,rol_id,campus_id
0,1,Noa,Yáñez,,1,1
1,2,Saturnina,Benitez,,1,1
2,3,Anna,Feliu,,1,1
3,4,Rosalva,Ayuso,,1,2
4,5,Ana,Sofía Ferrer,,1,2
5,6,Angélica,Corral,,1,1
6,7,Ariel,Lledó,,1,1
7,8,Mario,Prats,,2,2
8,9,Luis,Ángel Suárez,,2,1
9,10,María,Dolores Diaz,,2,1


In [21]:
df_tipo_bootcamp

Unnamed: 0,tipo_bootcamp_id,nombre_tipo,duracion_semanas
0,1,Data Science,24
1,2,Full Stack,24


In [22]:
df_proyecto

Unnamed: 0,proyecto_id,nombre_proyecto,tipo_bootcamp_id
0,1,Proyecto_HLF,1
1,2,Proyecto_EDA,1
2,3,Proyecto_BBDD,1
3,4,Proyecto_ML,1
4,5,Proyecto_Deployment,1
5,6,Proyecto_WebDev,2
6,7,Proyecto_FrontEnd,2
7,8,Proyecto_Backend,2
8,9,Proyecto_React,2
9,10,Proyecto_FullSatck,2


In [23]:
df_alumno_proyecto

Unnamed: 0,alumno_proyecto_id,alumno_id,proyecto_id,resultado
0,1,1,1,Apto
1,2,1,2,No Apto
2,3,1,3,Apto
3,4,1,4,Apto
4,5,1,5,Apto
...,...,...,...,...
255,256,52,6,Apto
256,257,52,7,No Apto
257,258,52,8,No Apto
258,259,52,9,Apto


Cambios. Añadimos una tabla intermedia entre alumno y promocion por si hay un alumno que quiere aplicar en varias promociones

In [57]:
df_alumno_sin_id = df_alumno[["alumno_id", "nombre", "apellido","email"]]

In [58]:
df_alumno_sin_id

Unnamed: 0,alumno_id,nombre,apellido,email
0,1,Jafet,Casals,Jafet_Casals@gmail.com
1,2,Jorge,Manzanares,Jorge_Manzanares@gmail.com
2,3,Onofre,Adadia,Onofre_Adadia@gmail.com
3,4,Merche,Prada,Merche_Prada@gmail.com
4,5,Pilar,Abella,Pilar_Abella@gmail.com
5,6,Leoncio,Tena,Leoncio_Tena@gmail.com
6,7,Odalys,Torrijos,Odalys_Torrijos@gmail.com
7,8,Eduardo,Caparrós,Eduardo_Caparrós@gmail.com
8,9,Ignacio,Goicoechea,Ignacio_Goicoechea@gmail.com
9,10,Clementina,Santos,Clementina_Santos@gmail.com


In [64]:
df_alumno_promocion = df_alumno[['alumno_id','promocion_id']].copy()


In [65]:
# Crear ID de la tabla intermedia
df_alumno_promocion['id'] = range(1, len(df_alumno_promocion) + 1)



In [67]:
# Reordenar columnas
df_alumno_promocion = df_alumno_promocion[['id', 'promocion_id', 'alumno_id']]

In [68]:
df_alumno_promocion

Unnamed: 0,id,promocion_id,alumno_id
0,1,1,1
1,2,1,2
2,3,1,3
3,4,1,4
4,5,1,5
5,6,1,6
6,7,1,7
7,8,1,8
8,9,1,9
9,10,1,10


## Conexión a Render

In [25]:
def conexion(hosting, puerto, nombre_db, usuario, pswd):
        conn = psycopg2.connect(
                host = hosting,
                port = puerto,
                dbname = nombre_db,
                user = usuario,
                password = pswd
        )
        cursor = conn.cursor()
        return conn, cursor

def sql_query(query,cursor):   # SELECT * FROM TRACKS

    # Ejecuta la query
    cursor.execute(query)

    # Almacena los datos de la query 
    ans = cursor.fetchall()

    # Obtenemos los nombres de las columnas de la tabla
    names = [description[0] for description in cursor.description]

    return pd.DataFrame(ans,columns=names)

def sql_insert(query,cursor):
  try:
    cursor.execute(query)
    return "OK"
  except:
    return "error"

In [26]:
hosting = "dpg-d4eup28gjchc73fpd0q0-a.oregon-postgres.render.com"
puerto = "5432"
nombre_db = "proyecto_bbdd_8wcv"
usuario = "admin"
pswd = "u3BkUaIcfmFxjJusrCM2OP0plh4LNSUb"

In [27]:
conn, cursor = conexion(hosting, puerto, nombre_db, usuario, pswd)

Insertamos los datos. Solo queda reflejado la ultima subida

In [69]:
engine = create_engine("postgresql://admin:u3BkUaIcfmFxjJusrCM2OP0plh4LNSUb@dpg-d4eup28gjchc73fpd0q0-a.frankfurt-postgres.render.com/proyecto_bbdd_8wcv")
df_alumno_promocion.to_sql("alumno_promocion", engine ,if_exists="append", index=False)

52

In [70]:
conn.commit()