<a href="https://colab.research.google.com/github/davidriveraarbelaez/IA_Explorador/blob/main/Misi%C3%B3n3_.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

1. Descarga del Conjunto de Datos:

*  Accede al conjunto de datos en [Kaggle](https://www.kaggle.com/datasets/datafiniti/consumer-reviews-of-amazon-products).
*  Inicia sesión en tu cuenta de Kaggle y descarga el archivo CSV correspondiente.

2. Carga del Conjunto de Datos en Jupyter Notebook:

*  Utiliza la biblioteca **pandas** para cargar el archivo CSV en un DataFrame

In [None]:
import pandas as pd

# Cargar el conjunto de datos
df = pd.read_csv('/content/Datafiniti_Amazon_Consumer_Reviews_of_Amazon_Products.csv')

# Mostrar las primeras filas del DataFrame
print(df.head())

                     id             dateAdded           dateUpdated  \
0  AVqVGZNvQMlgsOJE6eUY  2017-03-03T16:56:05Z  2018-10-25T16:36:31Z   
1  AVqVGZNvQMlgsOJE6eUY  2017-03-03T16:56:05Z  2018-10-25T16:36:31Z   
2  AVqVGZNvQMlgsOJE6eUY  2017-03-03T16:56:05Z  2018-10-25T16:36:31Z   
3  AVqVGZNvQMlgsOJE6eUY  2017-03-03T16:56:05Z  2018-10-25T16:36:31Z   
4  AVqVGZNvQMlgsOJE6eUY  2017-03-03T16:56:05Z  2018-10-25T16:36:31Z   

                                                name       asins   brand  \
0  Amazon Kindle E-Reader 6" Wifi (8th Generation...  B00ZV9PXP2  Amazon   
1  Amazon Kindle E-Reader 6" Wifi (8th Generation...  B00ZV9PXP2  Amazon   
2  Amazon Kindle E-Reader 6" Wifi (8th Generation...  B00ZV9PXP2  Amazon   
3  Amazon Kindle E-Reader 6" Wifi (8th Generation...  B00ZV9PXP2  Amazon   
4  Amazon Kindle E-Reader 6" Wifi (8th Generation...  B00ZV9PXP2  Amazon   

                                          categories primaryCategories  \
0  Computers,Electronics Features,Tablets,

3. Tokenización:

Emplea nltk para dividir el texto en tokens:

In [None]:
import nltk
from nltk.tokenize import word_tokenize

# Descargar recursos necesarios
nltk.download('punkt')
nltk.download('punkt_tab')

# Tokenizar una reseña de ejemplo
ejemplo = df['reviews.text'][0]
tokens = word_tokenize(ejemplo.lower())
print(tokens)


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


['i', 'thought', 'it', 'would', 'be', 'as', 'big', 'as', 'small', 'paper', 'but', 'turn', 'out', 'to', 'be', 'just', 'like', 'my', 'palm', '.', 'i', 'think', 'it', 'is', 'too', 'small', 'to', 'read', 'on', 'it', '...', 'not', 'very', 'comfortable', 'as', 'regular', 'kindle', '.', 'would', 'definitely', 'recommend', 'a', 'paperwhite', 'instead', '.']


4. Normalización:

Convierte el texto a minúsculas y elimina caracteres especiales:

In [None]:
import re

def normalizar(texto):
    # Convertir a minúsculas
    texto = texto.lower()
    # Eliminar caracteres especiales y números
    texto = re.sub(r'[^a-záéíóúüñ\s]', '', texto)
    return texto

df['texto_normalizado'] = df['reviews.text'].apply(normalizar)


5. Eliminación de Stopwords:

Utiliza **nltk** para eliminar palabras comunes que no aportan valor semántico:

In [None]:
from nltk.corpus import stopwords

# Descargar lista de stopwords
nltk.download('stopwords')
stop_words = set(stopwords.words('english'))

def eliminar_stopwords(texto):
    tokens = word_tokenize(texto)
    tokens_filtrados = [t for t in tokens if t not in stop_words]
    return ' '.join(tokens_filtrados)

df['texto_sin_stopwords'] = df['texto_normalizado'].apply(eliminar_stopwords)


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


6. Lematización:

Aplica WordNetLemmatizer de nltk para reducir las palabras a su forma base:

In [None]:
from nltk.stem import WordNetLemmatizer

# Descargar recursos necesarios
nltk.download('wordnet')
nltk.download('omw-1.4')
lemmatizer = WordNetLemmatizer()

def lematizar(texto):
    tokens = word_tokenize(texto)
    tokens_lematizados = [lemmatizer.lemmatize(t) for t in tokens]
    return ' '.join(tokens_lematizados)

df['texto_lematizado'] = df['texto_sin_stopwords'].apply(lematizar)


[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...


7. Stemming:

Alternativamente, utiliza **PorterStemmer** para reducir las palabras a su raíz:

In [None]:
from nltk.stem import PorterStemmer

stemmer = PorterStemmer()

def aplicar_stemming(texto):
    tokens = word_tokenize(texto)
    tokens_stemmizados = [stemmer.stem(t) for t in tokens]
    return ' '.join(tokens_stemmizados)

df['texto_stemmizado'] = df['texto_sin_stopwords'].apply(aplicar_stemming)


8. Representación de Texto:

*  Bolsa de Palabras (Bag of Words):

  *  Utiliza CountVectorizer de **sklearn**:

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()
X_bow = vectorizer.fit_transform(df['texto_lematizado'])


*  TF-IDF:

  *  Aplica TfidfVectorizer de sklearn:

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vectorizer = TfidfVectorizer()
X_tfidf = tfidf_vectorizer.fit_transform(df['texto_lematizado'])
