# **Proyecto: Chatbot de Análisis de Currículums**

## **Descripción**
El objetivo de este proyecto es desarrollar un chatbot que permita subir currículums en diferentes formatos (PDF, DOCX, TXT, HTML), analizar su contenido y responder a preguntas relacionadas con habilidades, experiencia, localización y otros detalles relevantes. Este proyecto usará herramientas de código abierto y gratuitas para garantizar accesibilidad y aprendizaje.



### **Plan del Proyecto: Chatbot de Análisis de Currículums**

#### **1. Requisitos del Proyecto**
- **Entrada**: Subir currículums en formatos como PDF, DOCX, TXT o HTML.
- **Procesamiento**: Extraer texto de los documentos y estructurar los datos relevantes.
- **Salida**: Responder a preguntas basadas en las habilidades, experiencia, ubicación y otros detalles de los candidatos.
- **Almacenamiento**: Decidiremos entre bases de datos vectoriales (para búsquedas semánticas) o bases relacionales.
- **Tecnologías**:
  - Preprocesamiento de documentos: `PyPDF2`, `python-docx`, `BeautifulSoup`.
  - Modelo de lenguaje gratuito: `Hugging Face` (ej. `Llama 2` o `distilbert`).
  - Framework para la aplicación: `Streamlit` para despliegue en Google Colab.
  - Almacenamiento vectorial: `FAISS` o `Chroma`.

---

## **Fases del Proyecto**

---

#### **2. Fases del Desarrollo**
##### **Fase 1: Configuración Inicial**
1. Crear un entorno en **Google Colab**.
2. Instalar las bibliotecas necesarias:
   ```python
   !pip install pypdf2 python-docx beautifulsoup4 sentence-transformers faiss-cpu streamlit
   ```
3. Crear un script que permita subir archivos y extraer texto.

---

##### **Fase 2: Procesamiento de Documentos**
1. **Subir archivos**:
   - Permitir que los usuarios suban archivos PDF, DOCX, TXT o HTML.
   - Usar el widget de carga de archivos en Streamlit para recibir documentos del usuario.
2. **Extraer texto**:
   - Usar `PyPDF2` para PDFs.
   - Usar `python-docx` para DOCX.
   - Usar `BeautifulSoup` para HTML.
3. **Limpieza del texto**:
   - Eliminar caracteres innecesarios y estructurar el texto para su análisis.
---

##### **Fase 3: Vectorización del Texto**
1. Usar un modelo preentrenado de Hugging Face (como `all-MiniLM-L6-v2`) para convertir el texto en **representaciones vectoriales**:
   ```python
   from sentence_transformers import SentenceTransformer
   model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')
   embeddings = model.encode(["Texto del documento"])
   ```
2. **Almacenamiento vectorial**:
   - Almacenar los embeddings usando **FAISS** o **Chroma** para realizar búsquedas rápidas.

---

##### **Fase 4: Creación del Chatbot**
1. Implementar una **interfaz gráfica** usando **Streamlit**:
   - Permitir al usuario escribir preguntas relacionadas con los currículums.
2. Consultar los embeddings y devolver respuestas basadas en las consultas.

---

##### **Fase 5: Despliegue en Google Colab**
1. Configurar Streamlit para ejecutarse dentro de Google Colab:
   - Usar `pyngrok` para generar un enlace público a la aplicación.
2. Realizar pruebas funcionales:
  - Para verificar que el chatbot responde correctamente.
  - Validar que las librerías seleccionadas (como BeautifulSoup) son suficientes para procesar los documentos en HTML.

---

## **Herramientas Utilizadas**
- **Preprocesamiento de documentos**:
  - `PyPDF2`: Para extraer texto de PDFs.
  - `python-docx`: Para extraer texto de archivos DOCX.
  - `BeautifulSoup`: Para procesar HTML.
- **Modelos de lenguaje**:
  - `Hugging Face`: Modelos como `all-MiniLM-L6-v2`.
- **Almacenamiento vectorial**:
  - `FAISS` o `Chroma`.
  - `FAISS`: Para búsquedas eficientes.
- **Framework de desarrollo**:
  - `Streamlit`: Para crear la interfaz del usuario.
- **Entorno**:
  - Google Colab como plataforma de desarrollo y pruebas.

---

#### **3. Próximos Pasos**

1. Agregar funcionalidades avanzadas como:
  - Uso de **bases de datos relacionales** para almacenar información adicional de los candidatos.
  - **Clasificación automática de candidatos** según criterios predefinidos.
2. Mejorar la capacidad del chatbot para realizar inferencias más complejas.
3. **Implementar métricas de evaluación** para medir la precisión de las respuestas del chatbot.
4. Permitir subir **currículums en formato de imagen** (usando el Reconocimiento Óptico de Caracteres (OCR)).
5. Considerar qué otras funcionalidades agregar, como extracción de datos más compleja (por ejemplo, **identificar automáticamente años de experiencia laboral o idiomas**).
6. Optimizar el flujo de trabajo para un entorno de producción.

---

## **Notas**

Este proyecto es una introducción práctica al uso de herramientas de procesamiento de lenguaje natural, con énfasis en el aprendizaje y la accesibilidad.<br>

Está diseñado para ser educativo y funcional, proporcionando una base sólida para aprender sobre procesamiento de documentos, embeddings y construcción de chatbots. 😊

## Estructura de Carpetas del Proyecto `Chatbot_Analisis_CV`


## Descripción de Carpetas

```
Chatbot_Analisis_CV/
│
├── data/                 # Para almacenar datasets y documentos de entrada
│   ├── input/            # Archivos originales, como CVs en formatos PDF, DOCX, etc.
│   └── processed/        # Archivos procesados (texto extraído, embeddings, etc.)
│
├── embeddings/           # Para almacenar archivos de embeddings generados
│
├── scripts/              # Scripts Python utilizados en el proyecto
│   ├── preprocess/       # Scripts de preprocesamiento (extracción de texto, limpieza)
│   ├── vectorization/    # Scripts para generar y manejar embeddings
│   └── chatbot/          # Scripts relacionados con la interfaz del chatbot
│
├── notebooks/            # Notebooks de desarrollo y análisis
│
├── models/               # Modelos guardados (si es necesario entrenar alguno)
│
└── logs/                 # Archivos de registro para guardar errores o procesos
```



## ⚙️ **Configuración del Ambiente e Importación de Datos**<a name="configuracion-del-ambiente"></a>

En esta sección, se importan las bibliotecas necesarias para trabajar en el proyecto. Configuramos el entorno para visualizar todas las columnas de la tabla sin que la información se corte. También habilitamos el acceso a Google Drive para la lectura del archivo CSV y, finalmente, importamos y organizamos el conjunto de datos.

### ✔️Instalar las bibliotecas necesarias<a name="instalar-las-bibliotecas-necesarias"></a>

In [1]:
%%time
import sys
import subprocess
from importlib.metadata import version, PackageNotFoundError

# Lista de librerías requeridas para el proyecto
required_libraries = [
    'pypdf2',             # Para extraer texto de archivos PDF
    'python-docx',        # Para procesar archivos DOCX
    'beautifulsoup4',     # Para analizar archivos HTML
    'sentence-transformers', # Para generar embeddings
    'faiss-cpu',          # Para almacenamiento vectorial
    'streamlit',          # Para la interfaz gráfica
    'pyngrok'             # Para desplegar la aplicación
]

# Función para instalar librerías de Python faltantes
def install_libraries(libraries):
    for lib in libraries:
        try:
            print(f"Instalando {lib}...")
            subprocess.check_call([sys.executable, '-m', 'pip', 'install', lib])
        except Exception as e:
            print(f"Error instalando {lib}: {e}")

# Instalar librerías requeridas
install_libraries(required_libraries)

# Imprimir las versiones de las librerías instaladas
print("\nVersiones de las librerías instaladas:")
for lib in required_libraries:
    try:
        print(f"{lib}: {version(lib.split('==')[0])}")
    except PackageNotFoundError:
        print(f"{lib}: No instalado")


Instalando pypdf2...
Instalando python-docx...
Instalando beautifulsoup4...
Instalando sentence-transformers...
Instalando faiss-cpu...
Instalando streamlit...
Instalando pyngrok...

Versiones de las librerías instaladas:
pypdf2: 3.0.1
python-docx: 1.1.2
beautifulsoup4: 4.12.3
sentence-transformers: 3.3.1
faiss-cpu: 1.9.0.post1
streamlit: 1.41.1
pyngrok: 7.2.2
CPU times: user 287 ms, sys: 48.8 ms, total: 336 ms
Wall time: 51.9 s


### ✔️Importar las bibliotecas necesarias<a name="importar-las-bibliotecas-necesarias"></a>

- PyPDF2, docx y BeautifulSoup se usarán para extraer texto de distintos formatos de currículums.
- pandas será útil para estructurar y analizar datos tabulares, como listas de candidatos y resultados.
- SentenceTransformer y FAISS se usarán para procesar el texto y permitir búsquedas semánticas.
- Streamlit y pyngrok se usarán para crear y desplegar el chatbot.
- Matplotlib y Seaborn se usarán para gráficos estáticos básicos y análisis de datos.
- Plotly será útil para crear gráficos interactivos directamente en Streamlit.
- Elige una de estas librerías según la necesidad de visualización.

In [2]:
# Importación de librerías necesarias para el proyecto

# Manejo de archivos PDF
import PyPDF2  # Para extraer texto de archivos PDF

# Manejo de archivos DOCX (Word)
import docx  # Para extraer texto de archivos .docx

# Manejo de archivos HTML
from bs4 import BeautifulSoup  # Para procesar y extraer texto de archivos HTML

# Manipulación de datos estructurados
import pandas as pd  # Para manejar y procesar datos tabulares, como listas de candidatos

# Creación de embeddings y procesamiento de texto
from sentence_transformers import SentenceTransformer  # Para generar embeddings del texto

# Almacenamiento vectorial
import faiss  # Para indexar y realizar búsquedas en embeddings

# Interfaz gráfica
import streamlit as st  # Para crear una interfaz interactiva para el chatbot

# Herramientas adicionales
import numpy as np  # Para manejo de arrays y cálculos matemáticos
import os  # Para manejar rutas y archivos en el sistema operativo
import re  # Para limpieza y procesamiento de texto
from typing import List  # Para especificar tipos en las funciones

# Herramientas para pruebas locales y despliegue
from pyngrok import ngrok  # Para generar enlaces públicos al ejecutar Streamlit en Google Colab

# Librerías para visualización de datos
import matplotlib.pyplot as plt  # Para gráficos básicos y personalizables
import seaborn as sns  # Para gráficos estadísticos y más estilizados
import plotly.express as px  # Para gráficos interactivos en Streamlit


### ✔️Configurar el entorno<a name="configurar-el-entorno"></a>

In [3]:
import warnings
warnings.filterwarnings("ignore", category=FutureWarning)

pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
pd.options.display.float_format = '{:.8f}'.format
#pd.set_option('display.width', 1000)

# Ajustar el ancho del contenedor de Jupyter/Colab:
from IPython.display import display, HTML
display(HTML("<style>.container { width:100% !important; }</style>"))


plt.style.use('ggplot')

#plt.style.use('fivethirtyeight')
#plt.rcParams['figure.figsize'] = (10, 6)

### ✔️Configurar Drive<a name="configurar-drive"></a>

#### Montar el Google Drive en Google Colab

In [7]:
%%time
# Montar el drive para obtener el csv
from google.colab import drive
from google.colab import userdata

# Monta Google Drive
drive.mount('/content/drive')
userdata.get('TOKEN_GITHUB')

# Ruta completa a la carpeta del proyecto
project_path = '/content/drive/My Drive/Colab Notebooks/Chatbot_Analisis_CV'

# Token Github
token_github = userdata.get('TOKEN_GITHUB')


Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
CPU times: user 71.6 ms, sys: 7.1 ms, total: 78.7 ms
Wall time: 5.27 s


### Integración con Github

#### Clonar el repositorio y fusionar los archivos existentes
Si decides clonar el repositorio vacío antes de subir tus carpetas, debes fusionar tus archivos locales con los del repositorio para evitar sobrescribir.<br>

**Importante!**<br>
El Google Drive debe ser montado en Google Colab antes de realizar el clone del repositorio que esta en Github para que los archivos sean colocados dentro de Google Drive.<br>

Antes de clonar el respoitorio de Github en Google Colab, esta claro que la carpeta del proyecto "Chatbo_Analisis_CV" todavía no existe (y no debe existir).<br>

Luego de darnos el comando para clonar el repositorio de Github se creará, pero para que se cree en la ubicación correcta, debemos primeor ejecutar el comando para navegar hacia la carpeta dentro de Google Drive: `%cd /content/drive/My Drive/Colab Notebooks/`



In [2]:
%cd /content/drive/My Drive/Colab Notebooks/

# Clona el repositorio vacío:
!git clone https://github.com/ea-analisisdatos/Chatbot_Analisis_CV.git


/content/drive/My Drive/Colab Notebooks
Cloning into 'Chatbot_Analisis_CV'...
remote: Enumerating objects: 7, done.[K
remote: Counting objects: 100% (7/7), done.[K
remote: Compressing objects: 100% (7/7), done.[K
remote: Total 7 (delta 0), reused 0 (delta 0), pack-reused 0 (from 0)[K
Receiving objects: 100% (7/7), 14.00 KiB | 2.00 MiB/s, done.


#### Crear la estructura de carpetas en el repositorio
Usa el siguiente código en una celda de Python para crear la estructura de carpetas del proyecto dentro del repositorio clonado:

In [4]:
import os

# Ruta del repositorio clonado
repo_path = "/content/drive/My Drive/Colab Notebooks/Chatbot_Analisis_CV"

# Estructura de carpetas
folders = [
    "data/input", "data/processed", "embeddings",
    "scripts/preprocess", "scripts/vectorization", "scripts/chatbot",
    "notebooks", "models", "logs"
]

# Crear las carpetas
for folder in folders:
    os.makedirs(os.path.join(repo_path, folder), exist_ok=True)
    print(f"Carpeta creada: {os.path.join(repo_path, folder)}")


Carpeta creada: /content/drive/My Drive/Colab Notebooks/Chatbot_Analisis_CV/data/input
Carpeta creada: /content/drive/My Drive/Colab Notebooks/Chatbot_Analisis_CV/data/processed
Carpeta creada: /content/drive/My Drive/Colab Notebooks/Chatbot_Analisis_CV/embeddings
Carpeta creada: /content/drive/My Drive/Colab Notebooks/Chatbot_Analisis_CV/scripts/preprocess
Carpeta creada: /content/drive/My Drive/Colab Notebooks/Chatbot_Analisis_CV/scripts/vectorization
Carpeta creada: /content/drive/My Drive/Colab Notebooks/Chatbot_Analisis_CV/scripts/chatbot
Carpeta creada: /content/drive/My Drive/Colab Notebooks/Chatbot_Analisis_CV/notebooks
Carpeta creada: /content/drive/My Drive/Colab Notebooks/Chatbot_Analisis_CV/models
Carpeta creada: /content/drive/My Drive/Colab Notebooks/Chatbot_Analisis_CV/logs


In [8]:
# Configura tus credenciales de Git
#!git config --global user.name "ea-analisisdatos"
#!git config --global user.email "erikaalvares.analisisdatos@gmail.com"

!git remote set-url origin https://token_github@github.com/ea-analisisdatos/Chatbot_Analisis_CV.git

# Sube los cambios al repositorio:
%cd /content/drive/My Drive/Colab Notebooks/Chatbot_Analisis_CV
!git add .
!git commit -m "Subir estructura inicial del proyecto desde Google Colab"
# !git branch -M main  # Renombrar la rama a 'main'
!git push origin main





/content/drive/My Drive/Colab Notebooks/Chatbot_Analisis_CV
[main 018bade] Subir estructura inicial del proyecto desde Google Colab
 1 file changed, 1 insertion(+), 1 deletion(-)
fatal: could not read Password for 'https://token_github@github.com': No such device or address


#### Subir primero tus archivos y carpetas al repositorio vacío
Antes de clonar el repositorio, puedes subir todo lo que ya has creado (las carpetas y los archivos del proyecto) al repositorio en GitHub. Así tendrás una sincronización inicial sin perder nada.

In [3]:
# Configura tus credenciales de Git
!git config --global user.name "ea-analisisdatos"
!git config --global user.email "erikaalvares.analisisdatos@gmail.com"


In [15]:
# Verificar la conexión con el repositorio remoto:
!git remote -v


fatal: not a git repository (or any parent up to mount point /content)
Stopping at filesystem boundary (GIT_DISCOVERY_ACROSS_FILESYSTEM not set).


#### Subir los cambios al repositorio en GitHub

Usa los siguientes comandos para agregar, hacer commit y subir las carpetas al repositorio.

- Reemplaza tu_usuario y tu_email con tus credenciales de GitHub.
- Si tu rama principal no se llama main, cámbiala por el nombre correcto.

In [5]:
# Configura tus credenciales de Git
!git config --global user.name "ea-analisisdatos"
!git config --global user.email "erikaalvares.analisisdatos@gmail.com"

# Agrega los archivos al área de staging
!git add .

# Crea un commit con un mensaje
!git commit -m "Añadir estructura inicial de carpetas"

# Sube los cambios al repositorio
!git push origin main


fatal: not a git repository (or any parent up to mount point /content)
Stopping at filesystem boundary (GIT_DISCOVERY_ACROSS_FILESYSTEM not set).
fatal: not a git repository (or any parent up to mount point /content)
Stopping at filesystem boundary (GIT_DISCOVERY_ACROSS_FILESYSTEM not set).
fatal: not a git repository (or any parent up to mount point /content)
Stopping at filesystem boundary (GIT_DISCOVERY_ACROSS_FILESYSTEM not set).


#### Verificar el estado del repositorio

Puedes verificar el estado del repositorio para confirmar qué archivos están listos para ser subidos o si hay conflictos.

In [15]:
!git status


On branch main
nothing to commit, working tree clean


---
## Procesamiento de Documentos

### Subir archivos

Usar el widget de carga de archivos en Streamlit para recibir documentos del usuario.

In [16]:
import streamlit as st

uploaded_files = st.file_uploader("Sube tus documentos", accept_multiple_files=True)


2024-12-23 00:19:40.962 
  command:

    streamlit run /usr/local/lib/python3.10/dist-packages/colab_kernel_launcher.py [ARGUMENTS]


### Extraer texto
Procesar los documentos dependiendo del formato

In [17]:
# PDF
from PyPDF2 import PdfReader

def extract_text_from_pdf(file):
    reader = PdfReader(file)
    text = ""
    for page in reader.pages:
        text += page.extract_text()
    return text


In [18]:
# DOCX
from docx import Document

def extract_text_from_docx(file):
    doc = Document(file)
    text = ""
    for paragraph in doc.paragraphs:
        text += paragraph.text + "\n"
    return text


In [19]:
# HTML
from bs4 import BeautifulSoup

def extract_text_from_html(file):
    soup = BeautifulSoup(file, "html.parser")
    return soup.get_text()


In [20]:
# TXT
def extract_text_from_txt(file):
    return file.read().decode("utf-8")


### Limpieza del texto
Eliminar caracteres innecesarios como saltos de línea repetidos o espacios en blanco.

In [21]:
import re

def clean_text(text):
    text = re.sub(r"\s+", " ", text)  # Reemplazar múltiples espacios por uno
    return text.strip()


## Vectorización del Texto

### Convertir texto en embeddings

Usar un modelo de Hugging Face (como all-MiniLM-L6-v2) para transformar el texto en representaciones vectoriales.

In [22]:
from sentence_transformers import SentenceTransformer

model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')
# embeddings = model.encode(["texto del documento"])

def generate_embeddings(text):
    return model.encode(text)


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/10.7k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/612 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

### Almacenamiento vectorial

Usar **FAISS** para almacenar y buscar en los embeddings generados.

In [23]:
import faiss
import numpy as np

def create_faiss_index(embeddings):
    dimension = embeddings.shape[1]
    index = faiss.IndexFlatL2(dimension)
    index.add(embeddings)
    return index


## Creación del Chatbot

***Implementar una interfaz gráfica usando Streamlit:***<br>
- Permitir al usuario escribir preguntas relacionadas con los currículums.
- Consultar los embeddings y devolver respuestas basadas en las consultas.

### Interfaz gráfica con Streamlit

Crear una interfaz para que los usuarios interactúen con el chatbot.

In [24]:
import streamlit as st

st.title("Chatbot de Análisis de Currículums")
question = st.text_input("Haz una pregunta sobre los currículums:")


2024-12-23 00:19:46.521 Session state does not function when running a script without `streamlit run`


### Consulta de embeddings
Permitir que los usuarios hagan preguntas y obtener respuestas relevantes de los documentos.

In [25]:
def search_in_index(index, query_embedding, k=5):
    distances, indices = index.search(np.array([query_embedding]), k)
    return indices


## Despliegue en Google Colab

***Configurar Streamlit para ejecutarse dentro de Google Colab:***
- Usar pyngrok para generar un enlace público a la aplicación.

### Configurar Streamlit con pyngrok

Ejecutar la aplicación Streamlit y exponerla a través de un enlace público.

In [26]:
from pyngrok import ngrok

def start_streamlit():
    public_url = ngrok.connect(port='8501')
    print("La aplicación está disponible en:", public_url)


### Pruebas

Verificar que el chatbot funcione correctamente al cargar documentos y responder preguntas.