<a href="https://colab.research.google.com/github/davidlealo/100profes/blob/master/modelo_transcripcion_segmentacion.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Proyecto de Transcripción y Diarización de Audio

Este proyecto combina el poder de **OpenAI Whisper** para la transcripción de audio y **Pyannote** para la diarización (identificación de hablantes) en un archivo de audio. El objetivo principal es tomar un archivo de audio, transcribirlo y asociar cada segmento transcrito con el hablante correspondiente.

## Características

- **Transcripción precisa de audio** utilizando OpenAI Whisper.
- **Diarización automática** para identificar qué segmento pertenece a cada hablante.
- Soporte para múltiples formatos de audio.
- Implementado y probado en Google Colab.

## Tecnologías utilizadas

- **Python**: Lenguaje de programación principal.
- **Whisper (OpenAI)**: Para transcripción de audio.
- **Pyannote**: Para diarización de hablantes.
- **Hugging Face**: Repositorio para modelos como `pyannote/segmentation`.
- **Google Colab**: Entorno para ejecutar y probar el proyecto.

## Configuración del Proyecto

### Prerrequisitos

- Una cuenta en [Hugging Face](https://huggingface.co/) con un token de acceso configurado.
- Una cuenta en OpenAI para utilizar la API de Whisper y obtener una clave API.
- Archivo `.env` con las siguientes variables:
  ```env
  HUGGINGFACE_TOKEN=<tu_huggingface_token>
  OPENAI_API_KEY=<tu_openai_api_key>
  ```

### Instalación

1. Clona este repositorio:
   ```bash
   git clone https://github.com/davidlealo/100profes.git
   cd transcription-diarization
   ```

2. Instala las dependencias:
   ```bash
   pip install -r requirements.txt
   ```

3. Acepta los términos de los modelos en Hugging Face:
   - Ve a [pyannote/segmentation](https://huggingface.co/pyannote/segmentation) y acepta los términos.
   - Ve a [pyannote/speaker-diarization](https://huggingface.co/pyannote/speaker-diarization) y acepta los términos.

4. Configura tu archivo `.env` como se mencionó en los prerrequisitos.

### Uso

1. **Ejecutar en Colab**:
   - Sube el archivo `modelo_transcripcion_segmentacion.ipynb` a Google Colab.
   - Configura las variables de entorno al inicio del notebook.
   - Carga un archivo de audio para procesar.

2. **Prueba con un archivo de audio**:
   - Carga un archivo de audio en el notebook.
   - El pipeline realizará la diarización y transcripción.
   - Los resultados mostrarán qué hablante dijo qué y en qué momento.

### Ejemplo de Salida

Un ejemplo de salida del pipeline sería:

```
Speaker 1 habla desde 0.0 hasta 3.5 segundos: "Hola, ¿cómo estás?"
Speaker 2 habla desde 3.6 hasta 7.2 segundos: "Bien, gracias. ¿Y tú?"
```

## Problemas comunes

- **Error de autenticación en Hugging Face**: Asegúrate de que el token esté configurado correctamente en el archivo `.env`.
- **Modelo no encontrado o no autorizado**: Verifica que has aceptado los términos en la página del modelo.
- **Límite de API excedido**: Si usas la API de OpenAI, verifica tu límite mensual.

## Licencia

Este proyecto está bajo la licencia MIT. Consulta el archivo [LICENSE](LICENSE) para más detalles.

## Contacto

Si tienes preguntas, sugerencias o algún problema con el proyecto, no dudes en contactarme:

- **Email**: [davidlealo@gmail.com](mailto:davidlealo@gmail.com)
- **GitHub**: [https://github.com/davidlealo](https://github.com/davidlealo)
- **LinkedIn**: [https://www.linkedin.com/in/davidlealo/](https://www.linkedin.com/in/davidlealo/)


In [1]:
# Instalar dependencias necesarias
!pip install openai-whisper pyannote.audio spacy python-dotenv
!python -m spacy download en_core_web_sm


Collecting en-core-web-sm==3.7.1
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.7.1/en_core_web_sm-3.7.1-py3-none-any.whl (12.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.8/12.8 MB[0m [31m109.7 MB/s[0m eta [36m0:00:00[0m
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [2]:
# Importar librerías
from pyannote.audio import Pipeline
from whisper import load_model
import spacy
import os
from dotenv import load_dotenv

In [3]:
# Cargar variables del archivo .env
load_dotenv()
HUGGINGFACE_TOKEN = os.getenv("HUGGINGFACE_TOKEN")
OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")

In [None]:
# Probar que funciona token
from huggingface_hub import HfApi

api = HfApi()
user_info = api.whoami(token=HUGGINGFACE_TOKEN)

print(f"Logged in as: {user_info['name']}")


In [None]:
# Cargar modelos
whisper_model = load_model("base")
nlp = spacy.load("en_core_web_sm")

# Descargar el pipeline de diarización
diarization_pipeline = Pipeline.from_pretrained(
    "pyannote/speaker-diarization",
    use_auth_token=HUGGINGFACE_TOKEN
)

# Función para procesar un archivo de audio
def process_audio(file_path):
    # Diarización
    diarization = diarization_pipeline(file_path)
    person_mapping = {}

    for turn, _, speaker in diarization.itertracks(yield_label=True):
        start, end = int(turn.start * 1000), int(turn.end * 1000)
        text = whisper_model.transcribe(file_path, task="transcribe", segment=(start, end))['text']

        # Analizar texto para detectar nombres
        doc = nlp(text)
        names = [ent.text for ent in doc.ents if ent.label_ == "PERSON"]

        if names:
            person_mapping[speaker] = names[0]

    return {"person_mapping": person_mapping}

# Subir archivo de audio
from google.colab import files
uploaded = files.upload()

# Procesar archivo subido
for file_name in uploaded.keys():
    result = process_audio(file_name)
    print(result)


100%|███████████████████████████████████████| 139M/139M [00:02<00:00, 72.5MiB/s]
  checkpoint = torch.load(fp, map_location=device)


config.yaml:   0%|          | 0.00/500 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/17.7M [00:00<?, ?B/s]

config.yaml:   0%|          | 0.00/318 [00:00<?, ?B/s]

INFO:pytorch_lightning.utilities.migration.utils:Lightning automatically upgraded your loaded checkpoint from v1.5.4 to v2.5.0.post0. To apply the upgrade to your files permanently, run `python -m pytorch_lightning.utilities.upgrade_checkpoint ../root/.cache/torch/pyannote/models--pyannote--segmentation/snapshots/c4c8ceafcbb3a7a280c2d357aee9fbc9b0be7f9b/pytorch_model.bin`


Model was trained with pyannote.audio 0.0.1, yours is 3.3.2. Bad things might happen unless you revert pyannote.audio to 0.x.
Model was trained with torch 1.10.0+cu102, yours is 2.5.1+cu121. Bad things might happen unless you revert torch to 1.x.


hyperparams.yaml:   0%|          | 0.00/1.92k [00:00<?, ?B/s]

  wrapped_fwd = torch.cuda.amp.custom_fwd(fwd, cast_inputs=cast_inputs)


embedding_model.ckpt:   0%|          | 0.00/83.3M [00:00<?, ?B/s]

mean_var_norm_emb.ckpt:   0%|          | 0.00/1.92k [00:00<?, ?B/s]

classifier.ckpt:   0%|          | 0.00/5.53M [00:00<?, ?B/s]

label_encoder.txt:   0%|          | 0.00/129k [00:00<?, ?B/s]

  state_dict = torch.load(path, map_location=device)
  stats = torch.load(path, map_location=device)


Saving LO BUENO Y LO MALO DE LA SERIE DE CIEN AÑOS DE SOLEDAD  Debate FT @Teloresumoasinomas.mp3 to LO BUENO Y LO MALO DE LA SERIE DE CIEN AÑOS DE SOLEDAD  Debate FT @Teloresumoasinomas.mp3


