# Metricas
---

- **Taller 3**: Pipe-line de entrenamiento.
- **Fecha de entrega**: 7 de Junio de 2023.


In [30]:
import pandas as pd
import unicodedata
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer

En esta ocasión crearán un calificador capas de identificar si una palabra pertenece al lenguaje inglés o español.

#0. Cargue el conjunto de datos

Inicialmente, necesitará un corpus correspondiente a ambos idiomas, descárguelos (español: https://github.com/webpwnized/byepass/blob/master/dictionaries/top-10000-spanish-words.txt, inglés: https://github.com/webpwnized/byepass/blob/master/dictionaries/top-10000-english-words.txt)

Considere únicamente las palabras mayores a 4 caracteres e ignore cualquier acento

In [20]:
with open('top-10000-spanish-words.txt', 'r', encoding='utf-8') as f:
    palabras_espanol = f.read().splitlines()
    palabras_espanol = [palabra for palabra in palabras_espanol if len(palabra) >= 4]
with open('top-10000-english-words.txt', 'r', encoding='utf-8') as f:
    palabras_ingles = f.read().splitlines()
    palabras_ingles = [palabra for palabra in palabras_ingles if len(palabra) >= 4]
etiquetas_espanol = ['espanol'] * len(palabras_espanol)
etiquetas_ingles = ['ingles'] * len(palabras_ingles)
data = pd.DataFrame({
    'palabra': palabras_espanol + palabras_ingles,
    'etiqueta': etiquetas_espanol + etiquetas_ingles
})
print(data)

         palabra etiqueta
0          añade  espanol
1        añadido  espanol
2         añadio  espanol
3         añadir  espanol
4          abajo  espanol
...          ...      ...
17175      zones   ingles
17176     zoning   ingles
17177  zoophilia   ingles
17178       zope   ingles
17179     zshops   ingles

[17180 rows x 2 columns]


In [22]:
def remove_accents(word):
    no_accents = unicodedata.normalize('NFD', word)
    no_accents = no_accents.encode('ascii', 'ignore').decode('ascii')
    no_accents = unicodedata.normalize('NFC', no_accents)
    return no_accents

In [23]:
data['palabra'] = data['palabra'].apply(remove_accents)

In [24]:
data

Unnamed: 0,palabra,etiqueta
0,anade,espanol
1,anadido,espanol
2,anadio,espanol
3,anadir,espanol
4,abajo,espanol
...,...,...
17175,zones,ingles
17176,zoning,ingles
17177,zoophilia,ingles
17178,zope,ingles


In [31]:
# Vectorizar las palabras
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(data['palabra'])

# Convertir las etiquetas a un formato adecuado
y = data['etiqueta']

In [34]:
print(X)

  (0, 748)	1.0
  (1, 749)	1.0
  (2, 750)	1.0
  (3, 751)	1.0
  (4, 1)	1.0
  (5, 2)	1.0
  (6, 3)	1.0
  (7, 4)	1.0
  (8, 5)	1.0
  (9, 7)	1.0
  (10, 8)	1.0
  (11, 9)	1.0
  (12, 10)	1.0
  (13, 11)	1.0
  (14, 12)	1.0
  (15, 14)	1.0
  (16, 15)	1.0
  (17, 16)	1.0
  (18, 17)	1.0
  (19, 18)	1.0
  (20, 21)	1.0
  (21, 22)	1.0
  (22, 23)	1.0
  (23, 24)	1.0
  (24, 27)	1.0
  :	:
  (17155, 17041)	1.0
  (17156, 17042)	1.0
  (17157, 17043)	1.0
  (17158, 17044)	1.0
  (17159, 17045)	1.0
  (17160, 17046)	1.0
  (17161, 17047)	1.0
  (17162, 17048)	1.0
  (17163, 17049)	1.0
  (17164, 17050)	1.0
  (17165, 17052)	1.0
  (17166, 17053)	1.0
  (17167, 17054)	1.0
  (17168, 17060)	1.0
  (17169, 17061)	1.0
  (17170, 17063)	1.0
  (17171, 17064)	1.0
  (17172, 17065)	1.0
  (17173, 17066)	1.0
  (17174, 17069)	1.0
  (17175, 17070)	1.0
  (17176, 17071)	1.0
  (17177, 17072)	1.0
  (17178, 17073)	1.0
  (17179, 17074)	1.0


# 1. Propongan un experimento (0.5)

¡Señale de forma ESCRITA!, las partes de su experimento y como plantea desarrollarlas.

**WARINING**

Por favor no tome a la ligera el punto, sea detallado y cuidadoso con su propuesta, pues sí elige mal el desarrollo de su experimento, su nota en el resto de puntos se vera afectada!!!


**Criterios de evolución**

*   Si su respuesta no está escrita, este punto equivaldrá a 0
*   Debe realizar las exploraciones necesarias que le permita obtener la información suficiente para identificar un diseño experimental correcto (ej: balance de clases, etc...).





#2. Precalcule diferentes matrices de kernel (0.5)

Implemente diferentes kernels sobre los strings:

*   Kernel coseno sobre el histograma: calcular una bolsa de representación de n-gramas (usar el CountVectorizer de scikit-learn) y aplicar el cosine_similarity (consulte: https://keepcoding.io/blog/similitud-entre-vectores-o-cosine-similarity/)

*    Minima intersección de histograma: calcular una bolsa de n-gramas de representación, normalizarlo  y calcular la suma de los mínimos de cada bin del histograma (https://mpatacchiola.github.io/blog/2016/11/12/the-simplest-classifier-histogram-intersection.html).

*   kernel χ2 : calcular una representación de bolsa de n-gramas y aplicar el chi2_kernel de scikit-learn (https://scikit-learn.org/stable/modules/generated/sklearn.metrics.pairwise.chi2_kernel.html).


**FAQ**

*   ¿Por qué este kernel?, recuerde que el kernel está estrechamente asociado a la naturaleza de los datos.
*   ¿No entiendo el kernel de intersección?, en pocas palabras, imagine una matriz (tamaño 2,n). Donde cada fila corresponde al histograma de una observación. Calcule el mínimo entre filas, resultando un vector n posiciones, seguidamente sumelo!

**Criterios de evolución**

*   La función diseñada de permitir el cálculo EFICIENTE de la matriz de gram.



#3. Identifique hiperparametros (1)

Utilice scikit-learn para entrenar diferentes SVMs utilizando kernels precalculados. Utilice la validación cruzada para encontrar los parámetros de regularización apropiados trazando el error de entrenamiento y validación frente al parámetro de regularización. Utilice una escala logarítmica para C {1e-5,1e-4,1e-3,1e-2, 1e-1, 1}, Pruebe diferentes configuraciones de los parámetros (en particular, diferentes valores de n para la
n-gramas).

**FAQ**

*   ¿Qué es una escala logarítmica?, como puede ver en el ejemplo, es una escala que se mueve a través de su potencia.
*   ¿profe, por qué tarda tanto?, se los advertí ._________.

**Criterios de evolución**

*   Debe presentar la exploración de hiperparámetros completa y las gráficas del desempeño del modelo, respecto a la variación del parámetro C (en total debe salir una gráfica por cada combinación de kernel y grado de n-grama).

#4. Evalue su modelo (0.5)

*   Presente los resultados en una tabla para las distintas configuraciones evaluadas.

*  Ilustre ejemplos de errores (palabras en inglés confundidas con español, palabras en español
inglés). Dé una posible explicación de estos errores.


* Discuta los resultados.

introduzca su respuesta