# **Proyecto: Chatbot de Análisis de Currículum Vitae**

## **Descripción**
El objetivo de este proyecto es desarrollar un chatbot que permita subir currículums en diferentes formatos (PDF, DOCX, TXT, HTML), analizar su contenido y responder a preguntas relacionadas con habilidades, experiencia, localización y otros detalles relevantes. Este proyecto usará herramientas de código abierto y gratuitas para garantizar accesibilidad y aprendizaje.



### **Plan del Proyecto: Chatbot de Análisis de Currículum Vitae**

#### **1. Requisitos del Proyecto**
- **Entrada**: Subir currículums en formatos como PDF, DOCX, TXT o HTML.
- **Procesamiento**: Extraer texto de los documentos y estructurar los datos relevantes.
- **Salida**: Responder a preguntas basadas en las habilidades, experiencia, ubicación y otros detalles de los candidatos.
- **Almacenamiento**: Decidiremos entre bases de datos vectoriales (para búsquedas semánticas) o bases relacionales.
- **Tecnologías**:
  - Preprocesamiento de documentos: `PyPDF2`, `python-docx`, `BeautifulSoup`.
  - Modelo de lenguaje gratuito: `Hugging Face` (ej. `Llama 2` o `distilbert`).
  - Framework para la aplicación: `Streamlit` para despliegue en Google Colab.
  - Almacenamiento vectorial: `FAISS` o `Chroma`.

---

## **Fases del Proyecto**

---

#### **2. Fases del Desarrollo**
##### **Fase 1: Configuración Inicial**
1. Crear repositorio en Github para almacenar el proyecto.
2. Crear la Estructura de Carpetas del Proyecto en Google Drive.
3. Crear un entorno en **Google Colab**.
4. Instalar las bibliotecas necesarias:
  - ***PyPDF2:*** para extraer texto de PDFs.
  - ***python-docx:*** para extraer texto de DOCX.
  - ***beautifulSoup:*** para extraer texto de HTML.
  - ***sentence-transformers:*** para generar embeddings.
  - ***faiss-cpu:*** para almacenamiento vectorial.
  - ***streamlit:*** para la interfaz gráfica.
  - ***pyngrok:*** para desplegar la aplicación.

5. Crear un script que permita subir archivos y extraer texto.

---

##### **Fase 2: Procesamiento de Documentos**
1. **Subir archivos**: Permitir la carga de archivos en diferentes formatos
  - Usar el widget de carga de archivos en Streamlit para recibir documentos del usuario.
  - Extraer texto de archivos PDF, DOCX, TXT y HTML:
    - Usar `PyPDF2` para PDFs.
    - Usar `python-docx` para DOCX.
    - Usar `BeautifulSoup` para HTML.
  - **Limpieza del texto**:
    - Limpiar y estructurar el texto extraído.
    - Eliminar caracteres innecesarios y estructurar el texto para su análisis.
---

##### **Fase 3: Vectorización del Texto**
1. Convertir el texto en ***representaciones vectoriales*** utilizando modelos de Hugging Face.
  - Usar un modelo preentrenado de Hugging Face (como `all-MiniLM-L6-v2`):
   ```python
   from sentence_transformers import SentenceTransformer
   model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')
   embeddings = model.encode(["Texto del documento"])
   ```
2. **Almacenamiento vectorial**:
   - Almacenar los embeddings usando **FAISS** para realizar búsquedas rápidas. - Analisar el almacenamiento con **Chroma** caso no funcione con **FAISS**.

---

##### **Fase 4: Creación del Chatbot**
1. Implementar una **interfaz gráfica** usando **Streamlit**:
2. Permitir al usuario escribir preguntas y obtener respuestas basadas en los embeddings.
3. Consultar los embeddings y devolver respuestas basadas en las consultas.

---

##### **Fase 5: Despliegue en Google Colab**
1. **Configurar Streamlit** para ejecutarse dentro de Google Colab:
   - Usar `pyngrok` para generar un enlace público a la aplicación.
2. **Realizar pruebas funcionales:** Realizar pruebas funcionales y verificar el correcto funcionamiento del chatbot.
  - Validar que las librerías seleccionadas (como BeautifulSoup) son suficientes para procesar los documentos en HTML.
3. **Funcionalidades Avanzadas:**
  - Agregar funcionalidades avanzadas como clasificación automática de candidatos y extracción de datos más compleja.
  - Implementar métricas de evaluación para medir la precisión de las respuestas del chatbot.
4. **Optimización y Seguridad:**
  - Optimizar el flujo de trabajo para un entorno de producción.
  - Considerar aspectos de seguridad para el despliegue del chatbot.


---

## **Herramientas Utilizadas**
- **Preprocesamiento de documentos**:
  - `PyPDF2`: Para extraer texto de PDFs.
  - `python-docx`: Para extraer texto de archivos DOCX.
  - `BeautifulSoup`: Para procesar HTML.
- **Modelos de lenguaje**:
  - `Hugging Face`: Modelos como `all-MiniLM-L6-v2`.
- **Almacenamiento vectorial**:
  - `FAISS` o `Chroma`.
  - `FAISS`: Para búsquedas eficientes.
- **Framework de desarrollo**:
  - `Streamlit`: Para crear la interfaz del usuario.
- **Entorno**:
  - Google Colab como plataforma de desarrollo y pruebas.

---

#### **3. Próximos Pasos**

1. **Funcionalidades Avanzadas:**
  - Uso de ***bases de datos relacionales*** para almacenar información adicional de los candidatos.
  - ***Clasificación automática de candidatos*** según criterios predefinidos.
  - Extracción de datos más compleja (por ejemplo, ***identificar automáticamente años de experiencia laboral o idiomas***).
2. **Mejora del Chatbot:**
  - Mejorar la capacidad del chatbot para realizar ***inferencias más complejas***.
  - ***Implementar métricas de evaluación*** para medir la precisión de las respuestas del chatbot.
3. **Soporte para Imágenes:**
  - Permitir la carga de ***currículums en formato de imagen*** utilizando OCR(Reconocimiento Óptico de Caracteres (OCR)).
4. **Optimización para Producción:**
  - Optimizar el flujo de trabajo para un entorno de producción.

---

## **Notas**

Este proyecto es una introducción práctica al uso de herramientas de procesamiento de lenguaje natural, con énfasis en el aprendizaje y la accesibilidad.<br>

Está diseñado para ser educativo y funcional, proporcionando una base sólida para aprender sobre procesamiento de documentos, embeddings y construcción de chatbots. 😊

## Estructura de Carpetas del Proyecto `Chatbot_Analisis_CV`


## Descripción de Carpetas

```
Chatbot_Analisis_CV/
│
├── data/                 # Para almacenar datasets y documentos de entrada
│   ├── input/            # Archivos originales, como CVs en formatos PDF, DOCX, etc.
│   └── processed/        # Archivos procesados (texto extraído, embeddings, etc.)
│
├── embeddings/           # Para almacenar archivos de embeddings generados
│
├── scripts/              # Scripts Python utilizados en el proyecto
│   ├── preprocess/       # Scripts de preprocesamiento (extracción de texto, limpieza)
│   ├── vectorization/    # Scripts para generar y manejar embeddings
│   └── chatbot/          # Scripts relacionados con la interfaz del chatbot
│
├── notebooks/            # Notebooks de desarrollo y análisis
│
├── models/               # Modelos guardados (si es necesario entrenar alguno)
│
└── logs/                 # Archivos de registro para guardar errores o procesos
```



## ⚙️ **Configuración del Ambiente e Importación de Datos**<a name="configuracion-del-ambiente"></a>

En esta sección, se hace la Configuración Inicial del Ambiente de Trabajo.
- Se importan las bibliotecas necesarias para trabajar en el proyecto.
- Configuramos el entorno para visualizar todas las columnas de la tabla sin que la información se corte.
- También habilitamos el acceso a Google Drive para la lectura del archivo CSV y, finalmente, importamos y organizamos el conjunto de datos.

### ✔️Instalar las bibliotecas necesarias<a name="instalar-las-bibliotecas-necesarias"></a>

In [23]:
%%time
import sys
import subprocess
from importlib.metadata import version, PackageNotFoundError

# Lista de librerías requeridas para el proyecto
required_libraries = [
    'pypdf2',             # Para extraer texto de archivos PDF
    'python-docx',        # Para procesar archivos DOCX
    'beautifulsoup4',     # Para analizar archivos HTML
    'sentence-transformers', # Para generar embeddings
    'faiss-cpu',          # Para almacenamiento vectorial
    'streamlit',          # Para la interfaz gráfica
    'pyngrok',            # Added pyngrok to the list of required libraries
    'google-colab-user-data'
]

# Función para instalar librerías de Python faltantes
def install_libraries(libraries):
    for lib in libraries:
        try:
            print(f"Instalando {lib}...")
            subprocess.check_call([sys.executable, '-m', 'pip', 'install', lib])
        except Exception as e:
            print(f"Error instalando {lib}: {e}")

# Instalar librerías requeridas
install_libraries(required_libraries)

# Instalar localtunnel usando npm
!apt-get install -y nodejs npm
!npm install -g localtunnel

# Imprimir las versiones de las librerías instaladas
print("\nVersiones de las librerías instaladas:")
for lib in required_libraries:
    try:
        print(f"{lib}: {version(lib)}")
    except PackageNotFoundError:
        print(f"{lib}: No instalado")

# Verificar la instalación de localtunnel
#!lt --version

Instalando pypdf2...
Instalando python-docx...
Instalando beautifulsoup4...
Instalando sentence-transformers...
Instalando faiss-cpu...
Instalando streamlit...
Instalando pyngrok...
Instalando google-colab-user-data...
Error instalando google-colab-user-data: Command '['/usr/bin/python3', '-m', 'pip', 'install', 'google-colab-user-data']' returned non-zero exit status 1.
Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
npm is already the newest version (8.5.1~ds-1).
nodejs is already the newest version (12.22.9~dfsg-1ubuntu3.6).
0 upgraded, 0 newly installed, 0 to remove and 49 not upgraded.
[K[?25h
changed 22 packages, and audited 23 packages in 2s

3 packages are looking for funding
  run `npm fund` for details

1 [33m[1mmoderate[22m[39m severity vulnerability

To address all issues (including breaking changes), run:
  npm audit fix --force

Run `npm audit` for details.

Versiones de las librerías instaladas:
pypdf2: 3.0.1
python-

### ✔️Importar las bibliotecas necesarias<a name="importar-las-bibliotecas-necesarias"></a>

- PyPDF2, docx y BeautifulSoup se usarán para extraer texto de distintos formatos de currículums.
- pandas será útil para estructurar y analizar datos tabulares, como listas de candidatos y resultados.
- SentenceTransformer y FAISS se usarán para procesar el texto y permitir búsquedas semánticas.
- Streamlit y pyngrok se usarán para crear y desplegar el chatbot.
- Matplotlib y Seaborn se usarán para gráficos estáticos básicos y análisis de datos.
- Plotly será útil para crear gráficos interactivos directamente en Streamlit.
- Elige una de estas librerías según la necesidad de visualización.

In [24]:
# Importación de librerías necesarias para el proyecto

# Manejo de archivos PDF
import PyPDF2  # Para extraer texto de archivos PDF

# Manejo de archivos DOCX (Word)
import docx  # Para extraer texto de archivos .docx

# Manejo de archivos HTML
from bs4 import BeautifulSoup  # Para procesar y extraer texto de archivos HTML

# Manipulación de datos estructurados
import pandas as pd  # Para manejar y procesar datos tabulares, como listas de candidatos

# Creación de embeddings y procesamiento de texto
from sentence_transformers import SentenceTransformer  # Para generar embeddings del texto

# Almacenamiento vectorial
import faiss  # Para indexar y realizar búsquedas en embeddings

# Interfaz gráfica
import streamlit as st  # Para crear una interfaz interactiva para el chatbot

# Herramientas adicionales
import numpy as np  # Para manejo de arrays y cálculos matemáticos
import os  # Para manejar rutas y archivos en el sistema operativo
import re  # Para limpieza y procesamiento de texto
from typing import List  # Para especificar tipos en las funciones

# Herramientas para pruebas locales y despliegue
from pyngrok import ngrok  # Para generar enlaces públicos al ejecutar Streamlit en Google Colab

# Librerías para visualización de datos
import matplotlib.pyplot as plt  # Para gráficos básicos y personalizables
import seaborn as sns  # Para gráficos estadísticos y más estilizados
import plotly.express as px  # Para gráficos interactivos en Streamlit

# Google Colab
from google.colab import userdata


### ✔️Configurar el entorno<a name="configurar-el-entorno"></a>

In [25]:
import warnings
warnings.filterwarnings("ignore", category=FutureWarning)

pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
pd.options.display.float_format = '{:.8f}'.format
#pd.set_option('display.width', 1000)

# Ajustar el ancho del contenedor de Jupyter/Colab:
from IPython.display import display, HTML
display(HTML("<style>.container { width:100% !important; }</style>"))


plt.style.use('ggplot')

#plt.style.use('fivethirtyeight')
#plt.rcParams['figure.figsize'] = (10, 6)

### ✔️Configurar Colab - Seguridad<a name="configurar-drive"></a>

In [26]:
# PyNgrok
token_ngrok = userdata.get('TOKEN_NGROK')
#print(f"Token de Ngrok: {token_ngrok}")


### ✔️Configurar Drive<a name="configurar-drive"></a>

#### Montar el Google Drive en Google Colab

In [27]:
%%time
# Montar el drive para obtener el csv
from google.colab import drive

# Monta Google Drive
drive.mount('/content/drive')


Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
CPU times: user 17 ms, sys: 2.92 ms, total: 20 ms
Wall time: 1.19 s


#### Crear la estructura de carpetas en el repositorio
Usa el siguiente código en una celda de Python para crear la estructura de carpetas del proyecto dentro del repositorio clonado:

In [28]:
# Configurar la estructura de carpetas
import os

# Ruta completa a la carpeta del proyecto
project_path = '/content/drive/MyDrive/Colab Notebooks/Chatbot_Analisis_CV'

# Estructura de carpetas
folders = [
    'data/input',
    'data/processed',
    'embeddings',
    'scripts/preprocess',
    'scripts/vectorization',
    'scripts/chatbot',
    'notebooks',
    'models',
    'logs'
]

# Verificar si la carpeta existe
if os.path.exists(project_path):
    print(f"Carpeta encontrada: {project_path}")
    print("Archivos y carpetas:", os.listdir(project_path))
else:
    print(f"La carpeta no existe en la ruta: {project_path}")
    print("Creando carpetas...")
    # Crear las carpetas
    for folder in folders:
        os.makedirs(os.path.join(project_path, folder), exist_ok=True)
        print(f"Carpeta creada: {os.path.join(project_path, folder)}")

print("\nEstructura de carpetas creada exitosamente.")

# Si necesitas acceder a archivos dentro de esta carpeta, puedes usar
# os.path.join para manejar rutas, por ejemplo: %% [markdown] #### Crear la
# estructura de carpetas en el repositorio Usa el siguiente código en una celda
# de Python para crear la estructura de carpetas del proyecto dentro del
# repositorio clonado: %% Estructura de carpetas
file_path = os.path.join(project_path, 'Chatbot_Analisis_CV.ipynb')

Carpeta encontrada: /content/drive/MyDrive/Colab Notebooks/Chatbot_Analisis_CV
Archivos y carpetas: ['README.md', 'notebooks', 'data', 'embeddings', 'scripts', 'models', 'logs', 'CVAnexo-Cronologico-ErikaSamaraAlvaresAngelim (1).pdf']

Estructura de carpetas creada exitosamente.


---
## Procesamiento de Documentos
- Permitir la carga de archivos en diferentes formatos.
- Extraer texto de los archivos cargados.
- Limpiar y estructurar el texto extraído.

In [29]:
# Función para extraer texto de un archivo PDF
def extract_text_from_pdf(file):
    reader = PyPDF2.PdfReader(file)
    text = ""
    for page in reader.pages:
        text += page.extract_text()
    return text

# Función para extraer texto de un archivo DOCX
def extract_text_from_docx(file):
    doc = docx.Document(file)
    text = ""
    for paragraph in doc.paragraphs:
        text += paragraph.text + "\n"
    return text

# Función para extraer texto de un archivo HTML
def extract_text_from_html(file):
    soup = BeautifulSoup(file, "html.parser")
    return soup.get_text()

# Función para extraer texto de un archivo TXT
def extract_text_from_txt(file):
    return file.read().decode('utf-8')

# Función para limpiar el texto
def clean_text(text):
    text = re.sub(r"\s+", " ", text)  # Reemplazar múltiples espacios por uno
    return text.strip()


## Vectorización del Texto

- Convertir el texto en representaciones vectoriales utilizando modelos de Hugging Face.
- Almacenar los embeddings utilizando FAISS.

In [30]:
# Cargar el modelo de Hugging Face
model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')

# Función para generar embeddings
def generate_embeddings(text):
    return model.encode(text)

# Función para crear un índice FAISS
def create_faiss_index(embeddings):
    dimension = embeddings.shape[1]
    index = faiss.IndexFlatL2(dimension)
    index.add(embeddings)
    return index


## Creación del Chatbot

- Implementar una interfaz gráfica usando Streamlit.
- Permitir al usuario escribir preguntas y obtener respuestas basadas en los embeddings.<br>

---

**Importante:**
- ***Instalación de Dependencias:*** Asegúrate de que todas las bibliotecas necesarias estén instaladas.
- ***Creación del Archivo app.py:*** Este archivo contiene todo el código de Streamlit.
- ***Ejecución de Streamlit con pyngrok:*** pyngrok crea un túnel que permite acceder a tu aplicación Streamlit desde una URL pública.


### Interfaz gráfica con Streamlit
Crea automaticamente el archivo app.py en Google Drive, en la siguiente ruta: /content/drive/MyDrive/Colab Notebooks/Chatbot_Analisis_CV/scripts/chatbot/app.py

In [31]:
# Ruta para guardar el archivo app.py en la carpeta scripts/chatbot/
file_path = "/content/drive/MyDrive/Colab Notebooks/Chatbot_Analisis_CV/scripts/chatbot/app.py"

# Escribir el archivo app.py en la ruta especificada
with open(file_path, "w") as f:
    f.write("""
import streamlit as st
from PyPDF2 import PdfReader
from docx import Document
from bs4 import BeautifulSoup
from sentence_transformers import SentenceTransformer
import faiss
import numpy as np
import re

# Función para extraer texto de un archivo PDF
def extract_text_from_pdf(file):
    reader = PdfReader(file)
    text = ""
    for page in reader.pages:
        text += page.extract_text()
    return text

# Función para extraer texto de un archivo DOCX
def extract_text_from_docx(file):
    doc = Document(file)
    text = ""
    for paragraph in doc.paragraphs:
        text += paragraph.text + "\\n"
    return text

# Función para extraer texto de un archivo HTML
def extract_text_from_html(file):
    soup = BeautifulSoup(file, "html.parser")
    return soup.get_text()

# Función para extraer texto de un archivo TXT
def extract_text_from_txt(file):
    return file.read().decode('utf-8')

# Función para limpiar el texto
def clean_text(text):
    text = re.sub(r"\\s+", " ", text)  # Reemplazar múltiples espacios por uno
    return text.strip()

# Cargar el modelo de Hugging Face
model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')

# Función para generar embeddings
def generate_embeddings(text):
    return model.encode(text)

# Función para crear un índice FAISS
def create_faiss_index(embeddings):
    dimension = embeddings.shape[1]
    index = faiss.IndexFlatL2(dimension)
    index.add(embeddings)
    return index

# Interfaz gráfica con Streamlit
st.title("Chatbot de Análisis de Currículum Vitae")
uploaded_files = st.file_uploader("Sube tus documentos", accept_multiple_files=True)

if uploaded_files:
    # Combinar todo el texto de los archivos subidos
    all_text = ""
    for uploaded_file in uploaded_files:
        file_type = uploaded_file.type
        if file_type == "application/pdf":
            text = extract_text_from_pdf(uploaded_file)
        elif file_type == "application/vnd.openxmlformats-officedocument.wordprocessingml.document":
            text = extract_text_from_docx(uploaded_file)
        elif file_type == "text/plain":
            text = extract_text_from_txt(uploaded_file)
        elif file_type == "text/html":
            text = extract_text_from_html(uploaded_file)
        else:
            st.warning(f"Formato de archivo no soportado: {uploaded_file.name}")
            continue  # Saltar al siguiente archivo

        # Limpiar y añadir texto
        text = clean_text(text)
        all_text += text + "\\n"

    # Generar embeddings para el texto combinado
    embeddings = generate_embeddings([all_text])

    # Crear índice FAISS
    index = create_faiss_index(embeddings)

    # Mostrar texto extraído
    st.text_area("Texto extraído de los currículums:", all_text, height=300)

    # Permitir al usuario escribir preguntas
    question = st.text_input("Haz una pregunta sobre los currículums:")
    if question:
        # Generar embedding de la pregunta
        query_embedding = generate_embeddings([question])

        # Buscar en el índice FAISS
        distances, indices = index.search(np.array([query_embedding[0]]), k=5)

        # Mostrar respuestas
        st.write("Respuestas encontradas:")
        for i in indices[0]:
            st.write(all_text)
""")

print(f"Archivo app.py guardado en: {file_path}")

# Update ngrok and pyngrok
!pip install --upgrade pyngrok
!ngrok update


# Convertir token_ngrok a string si no es None
if token_ngrok is not None:
    token_ngrok = str(token_ngrok)
#print(token_ngrok)

# Configurar pyngrok con tu authtoken
from pyngrok import ngrok
ngrok.set_auth_token(token_ngrok)


# 2. Ejecutar Streamlit
# Ejecutar la aplicación Streamlit en el puerto 8501
!streamlit run /content/drive/MyDrive/Colab\ Notebooks/Chatbot_Analisis_CV/scripts/chatbot/app.py --server.port 8501 &>/dev/null&


# 3. Iniciar ngrok
# Iniciar el túnel ngrok
ngrok_process = ngrok.connect(addr="8501", bind_tls=True)

# Obtener la URL pública
public_url = ngrok_process.public_url
print(f"Aplicación pública: {public_url}")


# 4. Verificación de la Ejecución de Streamlit
import requests

# Intentar conectarse a la aplicación Streamlit en el puerto 8501
try:
    response = requests.get("http://localhost:8501")
    if response.status_code == 200:
        print("Streamlit está ejecutándose correctamente en el puerto 8501.")
    else:
        print(f"Error al conectar a Streamlit: {response.status_code}")
except requests.exceptions.ConnectionError:
    print("No se puede conectar a Streamlit en el puerto 8501. Asegúrate de que la aplicación esté ejecutándose.")




Archivo app.py guardado en: /content/drive/MyDrive/Colab Notebooks/Chatbot_Analisis_CV/scripts/chatbot/app.py
[32mINFO[0m[12-23|17:19:41] no configuration paths supplied 
[36mDBUG[0m[12-23|17:19:41] ngrok config file at legacy location does not exist [36mlegacy_path[0m=/root/.config/ngrok/ngrok.yml
[32mINFO[0m[12-23|17:19:41] using configuration at default config path [32mpath[0m=/root/.config/ngrok/ngrok.yml
[32mINFO[0m[12-23|17:19:41] open config file                         [32mpath[0m=/root/.config/ngrok/ngrok.yml [32merr[0m=nil
No update available, this is the latest version.
2qckWQXFBzoi9jrpcOvmlSsZWLm_4bRfqkLrQY7WBG3AgVb8o
Aplicación pública: https://e8c4-34-55-32-160.ngrok-free.app
Streamlit está ejecutándose correctamente en el puerto 8501.


In [14]:
# Ejecutar la aplicación Streamlit
#!streamlit run /content/drive/MyDrive/Colab\ Notebooks/Chatbot_Analisis_CV/scripts/chatbot/app.py &>/dev/null&


In [None]:
# Instalar LocalTunnel usando npm
!npm install -g localtunnel

# Crear el archivo app.py en la ruta especificada
file_path = "/content/drive/MyDrive/Colab Notebooks/Chatbot_Analisis_CV/scripts/chatbot/app.py"
with open(file_path, "w") as f:
    f.write("""
import streamlit as st
from PyPDF2 import PdfReader
from docx import Document
from bs4 import BeautifulSoup
from sentence_transformers import SentenceTransformer
import faiss
import numpy as np
import re

# Función para extraer texto de un archivo PDF
def extract_text_from_pdf(file):
    reader = PdfReader(file)
    text = ""
    for page in reader.pages:
        text += page.extract_text()
    return text

# Función para extraer texto de un archivo DOCX
def extract_text_from_docx(file):
    doc = Document(file)
    text = ""
    for paragraph in doc.paragraphs:
        text += paragraph.text + "\\n"
    return text

# Función para extraer texto de un archivo HTML
def extract_text_from_html(file):
    soup = BeautifulSoup(file, "html.parser")
    return soup.get_text()

# Función para extraer texto de un archivo TXT
def extract_text_from_txt(file):
    return file.read().decode('utf-8')

# Función para limpiar el texto
def clean_text(text):
    text = re.sub(r"\\s+", " ", text)  # Reemplazar múltiples espacios por uno
    return text.strip()

# Cargar el modelo de Hugging Face
model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')

# Función para generar embeddings
def generate_embeddings(text):
    return model.encode(text)

# Función para crear un índice FAISS
def create_faiss_index(embeddings):
    dimension = embeddings.shape[1]
    index = faiss.IndexFlatL2(dimension)
    index.add(embeddings)
    return index

# Interfaz gráfica con Streamlit
st.title("Chatbot de Análisis de Currículum Vitae")
uploaded_files = st.file_uploader("Sube tus documentos", accept_multiple_files=True)

if uploaded_files:
    # Combinar todo el texto de los archivos subidos
    all_text = ""
    for uploaded_file in uploaded_files:
        file_type = uploaded_file.type
        if file_type == "application/pdf":
            text = extract_text_from_pdf(uploaded_file)
        elif file_type == "application/vnd.openxmlformats-officedocument.wordprocessingml.document":
            text = extract_text_from_docx(uploaded_file)
        elif file_type == "text/plain":
            text = extract_text_from_txt(uploaded_file)
        elif file_type == "text/html":
            text = extract_text_from_html(uploaded_file)
        else:
            st.warning(f"Formato de archivo no soportado: {uploaded_file.name}")
            continue  # Saltar al siguiente archivo

        # Limpiar y añadir texto
        text = clean_text(text)
        all_text += text + "\\n"

    # Generar embeddings para el texto combinado
    embeddings = generate_embeddings([all_text])

    # Crear índice FAISS
    index = create_faiss_index(embeddings)

    # Mostrar texto extraído
    st.text_area("Texto extraído de los currículums:", all_text, height=300)

    # Permitir al usuario escribir preguntas
    question = st.text_input("Haz una pregunta sobre los currículums:")
    if question:
        # Generar embedding de la pregunta
        query_embedding = generate_embeddings([question])

        # Buscar en el índice FAISS
        distances, indices = index.search(np.array([query_embedding[0]]), k=5)

        # Mostrar respuestas
        st.write("Respuestas encontradas:")
        for i in indices[0]:
            st.write(all_text)
""")

print(f"Archivo app.py guardado en: {file_path}")

# Ejecutar la aplicación Streamlit en el puerto 8501
!streamlit run /content/drive/MyDrive/Colab\ Notebooks/Chatbot_Analisis_CV/scripts/chatbot/app.py --server.port 8501 &>/dev/null&

import requests

# Obtener la contraseña del túnel
response = requests.get("https://loca.lt/mytunnelpassword")
password = response.text.strip()
print(f"Contraseña del túnel: {password}")

# Intentar conectarse a la aplicación Streamlit en el puerto 8501
try:
    response = requests.get("http://localhost:8501")
    if response.status_code == 200:
        print("Streamlit está ejecutándose correctamente en el puerto 8501.")
    else:
        print(f"Error al conectar a Streamlit: {response.status_code}")
except requests.exceptions.ConnectionError:
    print("No se puede conectar a Streamlit en el puerto 8501. Asegúrate de que la aplicación esté ejecutándose.")

# Iniciar LocalTunnel para crear un túnel al puerto 8502
!lt --port 8502



[K[?25h
changed 22 packages, and audited 23 packages in 2s

3 packages are looking for funding
  run `npm fund` for details

1 [33m[1mmoderate[22m[39m severity vulnerability

To address all issues (including breaking changes), run:
  npm audit fix --force

Run `npm audit` for details.
Archivo app.py guardado en: /content/drive/MyDrive/Colab Notebooks/Chatbot_Analisis_CV/scripts/chatbot/app.py
Contraseña del túnel: 34.55.32.160
No se puede conectar a Streamlit en el puerto 8501. Asegúrate de que la aplicación esté ejecutándose.
your url is: https://kind-flies-knock.loca.lt


## Despliegue en Google Colab

- Configurar Streamlit para ejecutarse dentro de Google Colab.
- Realizar pruebas funcionales y verificar el correcto funcionamiento del chatbot.

### Pruebas

Verificar que el chatbot funcione correctamente al cargar documentos y responder preguntas.

## Visualizaciones

- ¿Cómo integrar estos gráficos en el proyecto?
- Decide qué datos quieres mostrar (distribución de habilidades, experiencia, etc.).
- Crea una celda para cada gráfico con la librería que prefieras.
- Integra los gráficos interactivos directamente en la interfaz de Streamlit para enriquecer la experiencia del usuario.

### Matplotlib: Gráfico básico de barras

In [None]:
import matplotlib.pyplot as plt

# Ejemplo de datos: Distribución de habilidades entre los candidatos
skills = ['Python', 'Data Analysis', 'Machine Learning', 'Project Management']
counts = [15, 20, 10, 8]

# Crear un gráfico de barras
plt.figure(figsize=(8, 5))
plt.bar(skills, counts, color='skyblue')
plt.title('Distribución de Habilidades entre los Candidatos')
plt.xlabel('Habilidades')
plt.ylabel('Cantidad de Candidatos')
plt.show()


### Seaborn: Gráfico de violín para distribución de experiencia

In [None]:
import seaborn as sns
import pandas as pd

# Ejemplo de datos: Años de experiencia de los candidatos
data = {'Años de Experiencia': [2, 3, 5, 7, 1, 4, 6, 2, 5, 3]}
df = pd.DataFrame(data)

# Crear un gráfico de violín
plt.figure(figsize=(8, 5))
sns.violinplot(data=df, x='Años de Experiencia', color='lightcoral')
plt.title('Distribución de Años de Experiencia entre los Candidatos')
plt.show()


### Plotly: Gráfico interactivo de pastel para la proporción de habilidades

Si estás trabajando con Streamlit y deseas incluir gráficos interactivos directamente en la interfaz:

In [None]:
import streamlit as st
import plotly.express as px

# Ejemplo de datos
skills = ['Python', 'Data Analysis', 'Machine Learning', 'Project Management']
counts = [15, 20, 10, 8]

# Crear un gráfico de pastel interactivo
fig = px.pie(names=skills, values=counts, title='Distribución de Habilidades entre los Candidatos')

# Mostrar en Streamlit
st.plotly_chart(fig)
