<a href="https://colab.research.google.com/github/ManelSoengas/tutorials/blob/main/Get_Features.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **<font color='brown'>Obtención de las características</font>**

---


El objetivo de técnicas como TF-IDF, Bag-of-Words (BOW), One-Hot Encoding, y Word Embeddings es transformar texto (palabras o frases) en una representación numérica (características) que los algoritmos de machine learning puedan procesar. Estas representaciones permiten al modelo entender el texto de manera que pueda identificar relaciones y patrones entre los datos (texto). Cada técnica captura diferentes aspectos del texto: frecuencia de palabras, contexto, y similitudes semánticas, lo que ayuda al modelo a aprender de los datos textuales y hacer predicciones o clasificaciones.

In [1]:
!pip install tensorflow





# **<font color='brown'>BOW</font>**

---
Bag-of-Words (BOW): Convierte el texto en una matriz de recuento de palabras.


In [3]:
from sklearn.feature_extraction.text import CountVectorizer

# Datos de ejemplo
corpus = ["I love machine learning", "Python is amazing", "I love coding in Python", "Yo tengo un perro"]

# Definición de un vocabulario de palabras a eliminar del tokenizado. No aportan valor.

stop_words = ["i", "me", "you", "he", "she", "it", "we", "they",
              "yo", "tú", "él", "ella", "nosotros", "vosotros", "ellos"]

# Bag-of-Words
vectorizer = CountVectorizer(stop_words=stop_words)
X_bow = vectorizer.fit_transform(corpus)

print("Bag of Words (BOW):\n", X_bow.toarray())
print("Vocabulary:\n", vectorizer.get_feature_names_out())


Bag of Words (BOW):
 [[0 0 0 0 1 1 1 0 0 0 0]
 [1 0 0 1 0 0 0 0 1 0 0]
 [0 1 1 0 0 1 0 0 1 0 0]
 [0 0 0 0 0 0 0 1 0 1 1]]
Vocabulary:
 ['amazing' 'coding' 'in' 'is' 'learning' 'love' 'machine' 'perro' 'python'
 'tengo' 'un']


Al utilizar el enfoque de Bag-of-Words (BOW) con CountVectorizer, se realiza un preprocesado básico del texto. Este preprocesado puede incluir la eliminación de palabras comunes o "stopwords" (como pronombres, artículos, preposiciones, etc.) que son consideradas poco informativas para el modelo. Este preprocesado puede variar en función del idioma. Para evitar estas diferencias un solución consite en definir un diccionario de palabras que no deben ser tenidas en cuenta en el moemnto de tokenizar (stopwords).

**Preprocesado**: El paso previo a la obtención de las carcaterísticas es el preprocesado del texto de entrada. Como ejemplo existe la tarea de análisis de sentimientos, donde el proprocesado connsiste en:

1. Eliminar stopwords.
2. Convertir a minúsculas.
3. Eliminar signos de puntuación.
4. Lematización o stemming.
5. Tokenización y Vectorización:

En función del idioma, la calidad y el tipo de texto, el preprocesado puede requerir más operaciones, como por ejemplo, eliminar acentos, eliminar nicknames,eliminar slang, etc.
Este enfoque garantiza que el texto esté en la mejor forma posible antes de ser vectorizado.

# **<font color='brown'>ONE-HOT Encoding</font>**


---
Cada palabra es codificada en un vector binario.


In [4]:
from tensorflow.keras.preprocessing.text import Tokenizer

# Tokenizar y convertir a one-hot
tokenizer = Tokenizer()
tokenizer.fit_on_texts(corpus)
X_one_hot = tokenizer.texts_to_matrix(corpus, mode='binary')

print("One-Hot Encoding:\n", X_one_hot)
print("Word Index:\n", tokenizer.word_index)


One-Hot Encoding:
 [[0. 1. 1. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 1. 1. 0. 0. 0. 0. 0. 0.]
 [0. 1. 1. 1. 0. 0. 0. 0. 1. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 1.]]
Word Index:
 {'i': 1, 'love': 2, 'python': 3, 'machine': 4, 'learning': 5, 'is': 6, 'amazing': 7, 'coding': 8, 'in': 9, 'yo': 10, 'tengo': 11, 'un': 12, 'perro': 13}


El enfoque de One-Hot Encoding,Tokenizer de Keras, no realiza un preprocesado completo, pero sí incluye algunas operaciones básicas:

1. **Tokenización**: Divide el texto en palabras o "tokens".
2. **Normalización**: Convierte todo a minúsculas de forma predeterminada.
3. **Asignación de índices**: Asigna un índice numérico a cada palabra en función de su frecuencia o aparición.
4. **No elimina stopwords** ni realiza lematización o stemming automáticamente. Por lo tanto, si necesitas un preprocesado más avanzado, como eliminar stopwords o normalizar el texto, deberías hacerlo antes de aplicar el Tokenizer.

# **<font color='brown'>Word Embeddings</font>**

---

Se crean representaciones densas (embeddings) de las palabras, permitiendo capturar la similitud semántica. **Word2vec** es una técnica o modelo para representar palabras en un espacio vectorial, donde palabras con significados similares tienen vectores cercanos. La similitud entre dos palabras en **Word2Vec** se calcula típicamente utilizando la similitud del coseno. La similitud del coseno mide el ángulo entre los vectores de las dos palabras en el espacio vectorial.

Los valores del **embedding** para "Python" obtemidos en el ejemplo son los componentes del vector que **Word2Vec** ha aprendido durante el entrenamiento.

**Word Embeddings** capturan de manera más efectiva las características de las palabras, especialmente las relaciones semánticas y contextuales.


In [5]:
from gensim.models import Word2Vec

# Datos de ejemplo
sentences = [["I", "love", "machine", "learning"],
             ["Python", "is", "amazing"],
             ["I", "love", "coding", "in", "Python"]]

# Entrenar el modelo Word2Vec
model = Word2Vec(sentences, vector_size=12, window=5, min_count=1, workers=4)

# Obtener el embedding de una palabra
embedding = model.wv['Python']
print("Word Embedding for 'Python':\n", embedding)


Word Embedding for 'Python':
 [-0.00446856  0.00197026  0.04252791  0.07507727 -0.07752458 -0.05930674
  0.05382394  0.0747749  -0.04179524 -0.03136143  0.0615042  -0.01277893]


In [6]:
# Similaridad entre 'Python' y 'machine'
similarity_python_machine = model.wv.similarity('Python', 'machine')
print("Similaridad entre 'Python' y 'machine':", similarity_python_machine)

# Similaridad entre 'Python' y 'love'
similarity_python_love = model.wv.similarity('Python', 'love')
print("Similaridad entre 'Python' y 'love':", similarity_python_love)

# Embeddings de las palabras 'Python', 'machine' y 'love'
embedding_python = model.wv['Python']
embedding_machine = model.wv['machine']
embedding_love = model.wv['love']

print("\nEmbedding for 'Python':\n", embedding_python)
print("\nEmbedding for 'machine':\n", embedding_machine)
print("\nEmbedding for 'love':\n", embedding_love)


Similaridad entre 'Python' y 'machine': 0.41422442
Similaridad entre 'Python' y 'love': -0.5136541

Embedding for 'Python':
 [-0.00446856  0.00197026  0.04252791  0.07507727 -0.07752458 -0.05930674
  0.05382394  0.0747749  -0.04179524 -0.03136143  0.0615042  -0.01277893]

Embedding for 'machine':
 [-0.07431158 -0.05867967  0.00751213  0.05327111 -0.07183073  0.03054782
  0.04324903  0.04784949  0.06222432 -0.05139729  0.00921345  0.05039402]

Embedding for 'love':
 [-0.03780511  0.0546171  -0.04050134 -0.01513348  0.0239715   0.00826561
 -0.06904346 -0.07874015  0.06093138  0.04225218  0.05631411  0.00635721]


1. **vector_size**=12, indica el tamaño del vector obtenido.Si el corpus es pequeño valores entre 50 y 100. Si el corpus es grande se puede llegar a 500. En todo caso hay que probar diferentes valores y observar el que mejor captura el contexto.
2. **window**=5, tiene en cuente el número de palabras a al izq. y drcha de la palabra objetivo. Con ello definimos el tamaño del contexto. Relacionado con el tipo de texto.