# extraccion y carga del raw

Este notebook extrae datos del archivo `candidates.csv` y los carga en la tabla `raw_candidates` de una base de datos PostgreSQL.

## Configuración del Entorno


Importamos las librerías necesarias y establecemos la conexión a la base de datos utilizando variables de entorno.

In [1]:
import pandas as pd
import os
from sqlalchemy import create_engine, text
from dotenv import load_dotenv



In [2]:
load_dotenv()

# Construir la cadena de conexión
db_user = os.getenv("DB_USER")
db_password = os.getenv("DB_PASSWORD")
db_host = os.getenv("DB_HOST")
db_port = os.getenv("DB_PORT")
db_name = os.getenv("DB_NAME")
connection_str = f"postgresql://{db_user}:{db_password}@{db_host}:{db_port}/{db_name}"

# Crear el motor de conexión
engine = create_engine(connection_str)
print("Conexión a la base de datos establecida.")

Conexión a la base de datos establecida.


## Lectura del Archivo CSV

Leemos el archivo `candidates.csv` que se encuentra en la carpeta `data`. Usamos un separador `;` y mostramos un mensaje de confirmación.

In [None]:

csv_path = "../data/candidates.csv"  
df = pd.read_csv(csv_path, sep=";", encoding="latin1")
print(f"Datos cargados: {df.shape[0]} filas, {df.shape[1]} columnas.")


Datos cargados: 50000 filas, 10 columnas.


## Carga de Datos en la Base de Datos

Utilizamos el método `to_sql` para cargar el DataFrame en la tabla `candidates_raw`. Si la tabla existe, se reemplaza.

In [4]:
# Cargar datos a PostgreSQL
df.to_sql('raw_candidates', engine, if_exists='replace', index=False)
print("Datos cargados en la tabla 'raw_candidates'.")



Datos cargados en la tabla 'raw_candidates'.


### confirmacion de la carga

In [7]:
query = "SELECT * FROM raw_candidates LIMIT 5;"
#print(pd.read_sql(query, engine))
pd.read_sql(query, engine)

Unnamed: 0,ï»¿First Name,Last Name,Email,Application Date,Country,YOE,Seniority,Technology,Code Challenge Score,Technical Interview Score
0,Bernadette,Langworth,leonard91@yahoo.com,2021-02-26,Norway,2,Intern,Data Engineer,3,3
1,Camryn,Reynolds,zelda56@hotmail.com,2021-09-09,Panama,10,Intern,Data Engineer,2,10
2,Larue,Spinka,okey_schultz41@gmail.com,2020-04-14,Belarus,4,Mid-Level,Client Success,10,9
3,Arch,Spinka,elvera_kulas@yahoo.com,2020-10-01,Eritrea,25,Trainee,QA Manual,7,1
4,Larue,Altenwerth,minnie.gislason@gmail.com,2020-05-20,Myanmar,13,Mid-Level,Social Media Community Management,9,7
