
# Capítulo 2 · Fase 1 — Filtrado de contexto e idioma

Este notebook carga un dataset de tickets/consultas y aplica el primer filtro:
- **Contexto**: mantener solo `tipo` ∈ {`soporte`, `producto`}
- **Idioma**: mantener solo `idioma = 'es'`

Archivos de entrada/salida:
- Entrada: `tickets_soporte.xlsx`
- Salida (Fase 1): `dataset_fase1.xlsx`


In [None]:

import pandas as pd
from pathlib import Path

in_path = Path('tickets_soporte.xlsx')  # asegúrate de tenerlo en la misma carpeta
df = pd.read_excel(in_path)

print('Shape crudo:', df.shape)
display(df.head())
print('\nDistribución por tipo:')
display(df['tipo'].value_counts())
print('\nDistribución por idioma:')
display(df['idioma'].value_counts())


In [None]:

# Reglas de Fase 1
allowed_types = {'soporte', 'producto'}
allowed_langs = {'es'}

before = len(df)
df_f1 = df[df['tipo'].isin(allowed_types) & df['idioma'].isin(allowed_langs)].copy()
removed = before - len(df_f1)

print(f'Registros iniciales: {before}')
print(f'Registros eliminados (fuera de contexto/idioma): {removed}')
print(f'Registros tras Fase 1: {len(df_f1)}')
display(df_f1.head())


In [None]:

out_path = Path('dataset_fase1.xlsx')
df_f1.to_excel(out_path, index=False)
print('Guardado:', out_path.resolve())



> **Siguiente (Fase 2 – Limpieza):** eliminar filas sin texto, rellenar no críticos con `"desconocido"` y quitar duplicados.
