<a href="https://colab.research.google.com/github/ManelSoengas/tutorials/blob/main/Get_Features.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **<font color='brown'>Obtención de las características</font>**

---


El objetivo de técnicas como TF-IDF, Bag-of-Words (BOW), One-Hot Encoding, y Word Embeddings es transformar texto (palabras o frases) en una representación numérica (características) que los algoritmos de machine learning puedan procesar. Estas representaciones permiten al modelo entender el texto de manera que pueda identificar relaciones y patrones entre los datos (texto). Cada técnica captura diferentes aspectos del texto: frecuencia de palabras, contexto, y similitudes semánticas, lo que ayuda al modelo a aprender de los datos textuales y hacer predicciones o clasificaciones.

In [1]:
!pip install tensorflow





# **<font color='brown'>BOW</font>**

---
Bag-of-Words (BOW): Convierte el texto en una matriz de recuento de palabras.


In [3]:
from sklearn.feature_extraction.text import CountVectorizer

# Datos de ejemplo
corpus = ["I love machine learning", "Python is amazing", "I love coding in Python", "Yo tengo un perro"]

# Definición de un vocabulario de palabras a eliminar del tokenizado. No aportan valor.

stop_words = ["i", "me", "you", "he", "she", "it", "we", "they",
              "yo", "tú", "él", "ella", "nosotros", "vosotros", "ellos"]

# Bag-of-Words
vectorizer = CountVectorizer(stop_words=stop_words)
X_bow = vectorizer.fit_transform(corpus)

print("Bag of Words (BOW):\n", X_bow.toarray())
print("Vocabulary:\n", vectorizer.get_feature_names_out())


Bag of Words (BOW):
 [[0 0 0 0 1 1 1 0 0 0 0]
 [1 0 0 1 0 0 0 0 1 0 0]
 [0 1 1 0 0 1 0 0 1 0 0]
 [0 0 0 0 0 0 0 1 0 1 1]]
Vocabulary:
 ['amazing' 'coding' 'in' 'is' 'learning' 'love' 'machine' 'perro' 'python'
 'tengo' 'un']


Al utilizar el enfoque de Bag-of-Words (BOW) con CountVectorizer, se realiza un preprocesado básico del texto. Este preprocesado puede incluir la eliminación de palabras comunes o "stopwords" (como pronombres, artículos, preposiciones, etc.) que son consideradas poco informativas para el modelo. Este preprocesado puede variar en función del idioma. Para evitar estas diferencias un solución consite en definir un diccionario de palabras que no deben ser tenidas en cuenta en el moemnto de tokenizar (stopwords).

**Preprocesado**: El paso previo a la obtención de las carcaterísticas es el preprocesado del texto de entrada. Como ejemplo existe la tarea de análisis de sentimientos, donde el proprocesado connsiste en:

1. Eliminar stopwords.
2. Convertir a minúsculas.
3. Eliminar signos de puntuación.
4. Lematización o stemming.
5. Tokenización y Vectorización:

En función del idioma, la calidad y el tipo de texto, el preprocesado puede requerir más operaciones, como por ejemplo, eliminar acentos, eliminar nicknames,eliminar slang, etc.
Este enfoque garantiza que el texto esté en la mejor forma posible antes de ser vectorizado.

# **<font color='brown'>ONE-HOT Encoding</font>**


---
Cada palabra es codificada en un vector binario.


In [4]:
from tensorflow.keras.preprocessing.text import Tokenizer

# Tokenizar y convertir a one-hot
tokenizer = Tokenizer()
tokenizer.fit_on_texts(corpus)
X_one_hot = tokenizer.texts_to_matrix(corpus, mode='binary')

print("One-Hot Encoding:\n", X_one_hot)
print("Word Index:\n", tokenizer.word_index)


One-Hot Encoding:
 [[0. 1. 1. 0. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 1. 1. 0. 0. 0. 0. 0. 0.]
 [0. 1. 1. 1. 0. 0. 0. 0. 1. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 1.]]
Word Index:
 {'i': 1, 'love': 2, 'python': 3, 'machine': 4, 'learning': 5, 'is': 6, 'amazing': 7, 'coding': 8, 'in': 9, 'yo': 10, 'tengo': 11, 'un': 12, 'perro': 13}


El enfoque de One-Hot Encoding,Tokenizer de Keras, no realiza un preprocesado completo, pero sí incluye algunas operaciones básicas:

1. **Tokenización**: Divide el texto en palabras o "tokens".
2. **Normalización**: Convierte todo a minúsculas de forma predeterminada.
3. **Asignación de índices**: Asigna un índice numérico a cada palabra en función de su frecuencia o aparición.
4. **No elimina stopwords** ni realiza lematización o stemming automáticamente. Por lo tanto, si necesitas un preprocesado más avanzado, como eliminar stopwords o normalizar el texto, deberías hacerlo antes de aplicar el Tokenizer.

In [None]:
from keras.preprocessing.sequence import pad_sequences
from keras.models import Sequential
from keras.layers import Embedding, Flatten, Dense

# Convertir texto a secuencias de enteros
sequences = tokenizer.texts_to_sequences(corpus)
X_padded = pad_sequences(sequences, padding='post')

# Crear modelo de Embedding
model = Sequential()
model.add(Embedding(input_dim=50, output_dim=8, input_length=X_padded.shape[1]))
model.add(Flatten())
model.add(Dense(1, activation='sigmoid'))

# Compilar y entrenar modelo
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
model.summary()

# Obtener embeddings
embeddings = model.predict(X_padded)
print("Word Embeddings:\n", embeddings)




[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 289ms/step
Word Embeddings:
 [[0.4931253 ]
 [0.48799187]
 [0.48946694]]


In [None]:
from gensim.models import Word2Vec

# Datos de ejemplo
sentences = [["I", "love", "machine", "learning"],
             ["Python", "is", "amazing"],
             ["I", "love", "coding", "in", "Python"]]

# Entrenar el modelo Word2Vec
model = Word2Vec(sentences, vector_size=100, window=5, min_count=1, workers=4)

# Obtener el embedding de una palabra
embedding = model.wv['Python']
print("Word Embedding for 'Python':\n", embedding)


Word Embedding for 'Python':
 [-5.3622725e-04  2.3643136e-04  5.1033497e-03  9.0092728e-03
 -9.3029495e-03 -7.1168090e-03  6.4588725e-03  8.9729885e-03
 -5.0154282e-03 -3.7633716e-03  7.3805046e-03 -1.5334714e-03
 -4.5366134e-03  6.5540518e-03 -4.8601604e-03 -1.8160177e-03
  2.8765798e-03  9.9187379e-04 -8.2852151e-03 -9.4488179e-03
  7.3117660e-03  5.0702621e-03  6.7576934e-03  7.6286553e-04
  6.3508903e-03 -3.4053659e-03 -9.4640139e-04  5.7685734e-03
 -7.5216377e-03 -3.9361035e-03 -7.5115822e-03 -9.3004224e-04
  9.5381187e-03 -7.3191668e-03 -2.3337686e-03 -1.9377411e-03
  8.0774371e-03 -5.9308959e-03  4.5162440e-05 -4.7537340e-03
 -9.6035507e-03  5.0072931e-03 -8.7595852e-03 -4.3918253e-03
 -3.5099984e-05 -2.9618145e-04 -7.6612402e-03  9.6147433e-03
  4.9820580e-03  9.2331432e-03 -8.1579173e-03  4.4957981e-03
 -4.1370760e-03  8.2453608e-04  8.4986202e-03 -4.4621765e-03
  4.5175003e-03 -6.7869602e-03 -3.5484887e-03  9.3985079e-03
 -1.5776526e-03  3.2137157e-04 -4.1406299e-03 -7.682688