# 0\_Introduccion.ipynb 

> **Propósito:** notebook introductorio que explica el proyecto, objetivos, requisitos y cómo reproducir la pipeline usando el `sample_data`. Debe ser el primer notebook que lea cualquier persona interesada en reproducir el trabajo.

---

##  Contenido y objetivo

Este notebook contiene:

1. **Resumen del proyecto** — Qué hace y por qué.
2. **Requisitos** — Librerías, versión de Python.
3. **Estructura del repositorio** — Breve descripción de carpetas importantes.
4. **Guía rápida** — Cómo ejecutar los notebooks posteriores con `sample_data`.
5. **Resultados finales (reportados)** — Valores agregados (métricas) del entrenamiento con los datos reales, *sin exponer los datos crudos*.
6. **Notas de privacidad y reproducibilidad** — Qué está público y qué queda local.

---

### 1) Título y metadata 

```markdown
# Recomendador de Profesores — Resumen e Introducción
**Autor:** Jorge
**Proyecto:** NLP - Recomendador de Profesores (Sistema IIC)
**Contacto:** (opcional)
**Fecha:** 2025-08-25
```

### 2) Objetivo del proyecto 

```markdown
Explicación breve:
- Objetivo: construir un sistema de recomendación de profesores a partir de reseñas estudiantiles.
- Componentes: extracción (PDF / web), limpieza, embeddings multilingües, red neuronal ligera optimizada, sistema de pesos IIC, recomendador final.
- Alcance público: notebooks reproducibles con `sample_data`  que demuestran todo el flujo sin exponer datos sensibles.
```

### 3) Requisitos (Código)

```python
requirements = '''
numpy
pandas
scikit-learn
torch
transformers
sentence-transformers
tqdm
matplotlib
seaborn
pdfplumber
beautifulsoup4
requests
jupyter
'''

```

`py -m pip install -r requirements.txt`

### 4) Estructura del repositorio (Markdown)

```markdown
Estructura recomendada:

Proyecto_NLP/
├─ notebooks/
│  ├─ 0_Introduccion.ipynb
│  ├─ 1_Extraccion_Datos.ipynb
│  ├─ 2_Limpieza_y_Procesamiento.ipynb
│  ├─ 3_Generacion_Embeddings.ipynb
│  ├─ 4_Entrenamiento_Modelo.ipynb
│  ├─ 5_Evaluacion_y_Resultados.ipynb
│  └─ 6_Demo_Sistema_Recomendacion.ipynb
└─ data/
   └─ sample_data/
      ├─ reviews_sample.csv
      └─ pdfs/

```

### 5) Cómo reproducir (Código + Markdown)

```markdown
Guía rápida para reproducir localmente:
1. Clona el repo.
2. Instala dependencias: `py -m pip install -r requirements.txt`.
3. Abre `notebooks/0_Introduccion.ipynb` y sigue las celdas.
4. Ejecuta `notebooks/1_Extraccion_Datos.ipynb` (usa `data/sample_data/pdfs/` para demo).
```

### 6) Resultados agregados (Markdown)

```markdown
Aquí se listan las métricas principales obtenidas con el dataset completo (datos **no públicos**). No se incluyen datos crudos ni ejemplos reales.

- **MSE:** 0.0427
- **RMSE:** 0.2066
- **Correlación:** 0.6444
- **Accuracy (sentiment):** 0.6559 (≈65%)

Nota: Los valores anteriores provienen del entrenamiento final realizado localmente. Los notebooks públicos usan `sample_data` y producirán métricas distintas.
```