# Workshop 001: Proceso ETL de Datos de Candidatos

Universidad Autónoma de Occidente

Maestría en Inteligencia Artificial y Ciencia de Datos

Procesamiento y Extracción de Información

**Estudiante:** Juan Diego Díaz Guzmán

**Código de Estudiante:** 22500222

**Profesor:** Javier Alejandro Vergara

**Fecha:** 20/02/2025

## Introducción

Este nootebook implementa un proceso ETL, para analizar los candidatos de proceso de selección. El proyecto incluye las siguientes etapas:

1. **Extracción**: Lectura de datos desde un archivo CSV que contiene información de 50,000 candidatos.
2. **Transformación**: Procesamiento y limpieza de datos, incluyendo:
   - Normalización de campos
   - Cálculo de métricas de contratación
   - Categorización de candidatos
3. **Carga**: Almacenamiento de datos en una base de datos PostgreSQL para su posterior análisis.


# Importación de Librerías

In [1]:
import yaml
from datetime import datetime
import pandas as pd
import numpy as np
import psycopg2
from psycopg2 import sql

# Configuración de visualización de pandas
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_rows', 20)

print("Librerías importadas exitosamente!")


Librerías importadas exitosamente!


# Lectura y Exploración del CSV

In [3]:
try:
    # ruta del archivo CSV
    csv_path = '../data/candidates.csv'
    
    print(f"Leyendo archivo: {csv_path}")
    
    # Lectura del CSV
    df = pd.read_csv(csv_path, 
                     delimiter=';',
                     encoding='utf-8')
    
    print("\nArchivo leído exitosamente!")
    
except Exception as e:
    print(f"Error al leer el archivo: {e}")
    
#Exploración inicial de datos
if 'df' in locals():
    print("\nDimensiones del DataFrame:")
    print(f"Filas: {df.shape[0]}, Columnas: {df.shape[1]}")
    
    print("\nColumnas del DataFrame:")
    print(df.columns.tolist())
    
    print("\nPrimeras 5 filas:")
    print(df.head())a
    
    print("\nInformación del DataFrame:")
    print(df.info())
    
    print("\nEstadísticas descriptivas:")
    print(df.describe())
    
    print("\nValores nulos por columna:")
    print(df.isnull().sum())

#Validación básica de datos
def validate_data(df):
    """
    Realiza validaciones básicas en los datos.
    """
    validations = {
        "Registros totales": len(df),
        "Columnas esperadas presentes": all(col in df.columns for col in [
            'First Name', 'Last Name', 'Email', 'Application Date', 'Country',
            'YOE', 'Seniority', 'Technology', 'Code Challenge Score', 'Technical Interview Score'
        ]),
        "Emails únicos": df['Email'].nunique(),
        "Rango de scores válido": (
            (df['Code Challenge Score'].between(0, 10)) & 
            (df['Technical Interview Score'].between(0, 10))
        ).all()
    }
    
    print("\nResultados de la validación:")
    for check, result in validations.items():
        print(f"{check}: {result}")

SyntaxError: invalid syntax (2091992626.py, line 26)