1. Descarga del Conjunto de Datos:

*  Accede al conjunto de datos en [Kaggle](https://www.kaggle.com/datasets/datafiniti/consumer-reviews-of-amazon-products).
*  Inicia sesión en tu cuenta de Kaggle y descarga el archivo CSV correspondiente.

2. Carga del Conjunto de Datos en Jupyter Notebook:

*  Utiliza la biblioteca **pandas** para cargar el archivo CSV en un DataFrame

In [1]:
import pandas as pd
import numpy as np
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer, PorterStemmer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

# Cargar el conjunto de datos
df = pd.read_csv('/content/Datafiniti_Amazon_Consumer_Reviews_of_Amazon_Products.csv')

# Mostrar las primeras filas del DataFrame


FileNotFoundError: [Errno 2] No such file or directory: '/content/Datafiniti_Amazon_Consumer_Reviews_of_Amazon_Products.csv'

3. Tokenización:

Emplea nltk para dividir el texto en tokens:

In [None]:
import nltk
from nltk.tokenize import word_tokenize

# Descargar recursos necesarios
# Descargar recursos de NLTK
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')
# Si sale un error
nltk.download('punkt_tab')
# Tokenizar una reseña de ejemplo
# Ejemplo de texto
text = "El cafe tiene un muy aroma y su color caracteristico representa una buen tostado."

#Tokenización
tokens = word_tokenize(text)
print("Tokens:", tokens)


Tokens: ['El', 'cafe', 'tiene', 'un', 'muy', 'aroma', 'y', 'su', 'color', 'caracteristico', 'representa', 'una', 'buen', 'tostado', '.']


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


4. Normalización:

Convierte el texto a minúsculas y elimina caracteres especiales:

In [None]:
#Normalización (conversión a minúsculas)
tokens_normalized = [token.lower() for token in tokens]
print("Tokens Normalizados:", tokens_normalized)


Tokens Normalizados: ['el', 'cafe', 'tiene', 'un', 'muy', 'aroma', 'y', 'su', 'color', 'caracteristico', 'representa', 'una', 'buen', 'tostado', '.']


5. Eliminación de Stopwords:

Utiliza **nltk** para eliminar palabras comunes que no aportan valor semántico:

In [None]:
from nltk.corpus import stopwords

# Descargar lista de stopwords
stop_words = set(stopwords.words('spanish'))
tokens_no_stopwords = [token for token in tokens_normalized if token not in stop_words]
print("Tokens sin Stopwords:", tokens_no_stopwords)


Tokens sin Stopwords: ['cafe', 'aroma', 'color', 'caracteristico', 'representa', 'buen', 'tostado', '.']


6. Lematización:

Aplica WordNetLemmatizer de nltk para reducir las palabras a su forma base:

In [None]:
from nltk.stem import WordNetLemmatizer

# Descargar recursos necesarios
lemmatizer = WordNetLemmatizer()
tokens_lemmatized = [lemmatizer.lemmatize(token) for token in tokens_no_stopwords]
print("Tokens Lematizados:", tokens_lemmatized)



Tokens Lematizados: ['cafe', 'aroma', 'color', 'caracteristico', 'representa', 'buen', 'tostado', '.']


7. Stemming:

Alternativamente, utiliza **PorterStemmer** para reducir las palabras a su raíz:

In [None]:
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()
tokens_stemmed = [stemmer.stem(token) for token in tokens_no_stopwords]
print("Tokens Stemmed:", tokens_stemmed)




Tokens Stemmed: ['cafe', 'aroma', 'color', 'caracteristico', 'representa', 'buen', 'tostado', '.']


8. Representación de Texto:

*  Bolsa de Palabras (Bag of Words):

  *  Utiliza CountVectorizer de **sklearn**:

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
# Representación de Texto

# Bolsa de Palabras
vectorizer_bow = CountVectorizer()
X_bow = vectorizer_bow.fit_transform([' '.join(tokens_no_stopwords)])
print("\nBolsa de Palabras:")
print(X_bow.toarray())
print("Características (BOW):", vectorizer_bow.get_feature_names_out())


Bolsa de Palabras:
[[1 1 1 1 1 1 1]]
Características (BOW): ['aroma' 'buen' 'cafe' 'caracteristico' 'color' 'representa' 'tostado']


*  TF-IDF:

  *  Aplica TfidfVectorizer de sklearn:

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer_tfidf = TfidfVectorizer()
X_tfidf = vectorizer_tfidf.fit_transform([' '.join(tokens_no_stopwords)])
print("\nTF-IDF:")
print(X_tfidf.toarray())
print("Características (TF-IDF):", vectorizer_tfidf.get_feature_names_out())




TF-IDF:
[[0.37796447 0.37796447 0.37796447 0.37796447 0.37796447 0.37796447
  0.37796447]]
Características (TF-IDF): ['aroma' 'buen' 'cafe' 'caracteristico' 'color' 'representa' 'tostado']


In [None]:
#Estandarización exitosa: El texto fue limpiado, tokenizado y transformado adecuadamente, permitiendo un análisis más profundo.
#Flexibilidad para análisis: La implementación de técnicas como TF-IDF facilita la extracción de características clave del texto.
#Base sólida para modelos: El conjunto de datos está listo para ser utilizado en tareas de clasificación, agrupamiento u otras aplicaciones.