# PROCESO DE ANALISIS DE DATOS

## Importacion de Librerias

In [7]:
import time
import os
from tqdm import tqdm
from pdf2image import convert_from_path

## Funcion para convertir pdf en imagen

In [17]:
def pdf_to_image(pdf_path, image_prefix):
    try:
        images = convert_from_path(pdf_path, dpi=300)
        progress_bar = tqdm(total=len(images), desc="Convirtiendo páginas")
        for i, image in enumerate(images):
            image_path = f"{image_prefix}_page{i + 1}.jpg"
            image.save(image_path, 'JPEG')
            progress_bar.update(1)
        progress_bar.close()
    except Exception as e:
        print(f"Error al convertir el archivo: {pdf_path}")
        print(f"Mensaje de error: {str(e)}")

In [18]:
def ejecutar_pdf_to_image(ruta_base_input, ruta_base_output):
    for archivo in tqdm(os.listdir(ruta_base_input)):
        if archivo.endswith('.pdf'):
            nombre_archivo = os.path.splitext(archivo)[0]
            carpeta_archivo = os.path.join(ruta_base_output, nombre_archivo) +'/'
            os.makedirs(carpeta_archivo, exist_ok=True)
            ruta_input = os.path.join(ruta_base_input, archivo)
            pdf_to_image(ruta_input, carpeta_archivo)

## Rutas de archivos

In [28]:
import os
ruta_pdf = "../postulantes/pdf"
ruta_jpg = "../postulantes/jpg"
ruta_txt = "../postulantes/txt"

In [22]:
ejecutar_pdf_to_image(ruta_pdf, ruta_jpg)

  0%|          | 0/3 [00:00<?, ?it/s]
Convirtiendo páginas:   0%|          | 0/4 [00:00<?, ?it/s][A
Convirtiendo páginas: 100%|██████████| 4/4 [00:00<00:00, 28.21it/s][A
 33%|███▎      | 1/3 [00:00<00:00,  2.58it/s]
Convirtiendo páginas: 100%|██████████| 2/2 [00:00<00:00, 28.27it/s]
 67%|██████▋   | 2/3 [00:00<00:00,  3.21it/s]
Convirtiendo páginas:   0%|          | 0/3 [00:00<?, ?it/s][A
Convirtiendo páginas: 100%|██████████| 3/3 [00:00<00:00, 28.64it/s][A
100%|██████████| 3/3 [00:00<00:00,  3.11it/s]


# Convertir JPG en formato Texto

## Importacion de librerias

In [23]:
from PIL import Image
from pytesseract import image_to_string

In [29]:
def lectura_jpg_to_txt(ruta_jpg,ruta_txt,folder):
    text = ''
    if os.path.isdir(ruta_jpg):
        print(f"Archivos en la carpeta {folder}")
        for archivo in sorted(os.listdir(ruta_jpg)):
            if archivo.endswith(".jpg"):
                ruta_image = os.path.join(ruta_jpg,archivo)
                # text = image_to_string(Image.open(ruta_image))
                text += image_to_string(Image.open(ruta_image)) + '\n'
                
    with open(ruta_txt, 'w') as file:
        file.write(text)

In [30]:
def lectura_folder(ruta_jpg,ruta_txt):
    for folder in os.listdir(ruta_jpg):
        ruta_input_folder = os.path.join(ruta_jpg,folder) +'/'
        output_file = os.path.join(ruta_txt,f'{folder}.txt')
        
        lectura_jpg_to_txt(ruta_input_folder,output_file,folder)

In [32]:
lectura_folder(ruta_jpg,ruta_txt)

Archivos en la carpeta postulante1
Archivos en la carpeta postulante2
Archivos en la carpeta postulante3


# Separacion en bloques del curriculum segun los encabezados

## Importacion de librerias

In [34]:
import json

In [35]:
def leer_archivo(ruta_archivo):
    with open(ruta_archivo,'r') as archivo:
        contenido = archivo.read()
    return contenido

In [36]:
def separar_bloques(texto):
    informacion_personal = ["Personal information",
                            "Personal details",
                            "Personal Profile",
                            "Personal data", 
                            "Personal details", 
                            "Identity information", 
                            "Confidential information", 
                            "Private information", 
                            "Sensitive information",
                            "Personal Dossier",
                            "Resume"]
    
    objetivos_profesionales = ["Professional objectives",
                               "Career aspirations",
                               "Professional goal",
                               "Occupational objectives" 
                               "Career goals",
                               "Professional ambitions",
                               "Professional summary",
                               "Professional overview",
                               "Work experience summary",
                               "Career Objective",
                               "Job target","Goal"]
    experiencia_laboral = ["Work experience", 
                           "Laboral experience",
                           "Professional background",
                           "Career history",
                           "Professional experience",
                           "Professional Trainings",
                           "Job experience",
                           "Employment record",
                           "Employment history",
                           "Working Experience",
                           "Projects",
                           "Experience"]
    education = ["Education",
                 "Academic and Professional",
                 "academics","ACADEMICS",
                 "Academic background",
                 "Educational history", 
                 "Academic record", 
                 "Scholarly background",
                 "Educational qualifications",
                 "Educational credentials", 
                 "Academic qualifications", 
                 "Educational achievements",
                 "Academic Qualification",
                 "Educational Background",
                 "Academic degree",
                 "Educational degree", 
                 "Qualification",
                "academic details",
                 "Educational details",
                 "Scholastics",
                 "Academic information", 
                 "Schooling particulars"]
    habilidades = ["Technical and personal skills",
                   "Technical and personal competencies",
                   "Technical Skills",
                   "Technical and personal expertise",
                   "Abilities", 
                   "Competencies",
                   "Personality Traits",
                   "Software Skill",
                   "Technical Proficiency",
                  "Skills"]
    logros_premios = ["Achievements and awards", 
                      "Accomplishments and honors", 
                      "Recognition and accolades"]
    
    actividades_extracurriculares = ["Extracurricular activities", 
                                     "Extra Curricular Activities",
                                     "Additional activities",
                                     "Extra Curricular Activitis",
                                     "Extra Co-Curricutar Activities",
                                     "Non-academic involvement"]
    referencias = ["References", 
                   "Referees", 
                   "Recommendations",
                   "Other Information"]
    cv_titulos = [informacion_personal,objetivos_profesionales,experiencia_laboral,
                  education,habilidades,logros_premios,actividades_extracurriculares,referencias]
    cv_titulos_dict = {
    'informacion_personal': informacion_personal,
    'objetivos_profesionales': objetivos_profesionales,
    'experiencia_laboral': experiencia_laboral,
    'education':education,
    'habilidades':habilidades,
    'logros_premios':logros_premios,
    'actividades_extracurriculares':actividades_extracurriculares,
    'referencias'   :referencias
    }
    cadenas_cv = []
    cadenas_pos = []
    cadenas_name = []
    for cv_titulos in cv_titulos_dict.keys():
        for find in cv_titulos_dict[cv_titulos]:
            numero = texto.count(find.lower())
            if(numero!=0):
                print(find)
                print(numero)
            if numero!=0 and numero <2:
                
                pos_texto = texto.find(find.lower())
                
                if pos_texto != -1:
                    cadenas_cv.append(find.lower())
                    cadenas_pos.append(pos_texto)
                    cadenas_name.append(cv_titulos)
                    break
    diccionario = {
        'cadenas_name': cadenas_name,
        'cadenas_cv': cadenas_cv,
        'cadenas_pos': cadenas_pos,
    }
    
    json_data = {}

    diccionario_ordenado = dict(sorted(zip( diccionario['cadenas_name'],diccionario['cadenas_pos']),key=lambda x: x[1]))
    name_bloque = 'Introduccion'
    posicion_inicial_text = 0
    count = 0
    for key, value  in list(diccionario_ordenado.items()):        
        json_data[name_bloque] = texto[posicion_inicial_text:value]    
        name_bloque = key
        posicion_inicial_text = value
        count +=1
    json_data[name_bloque] = texto[posicion_inicial_text:len(texto)]
    
    return json.dumps(json_data)

# Asignacion de Puntaje

# Graficas de rendimiento

# Resultados