# PRACTICA DE NLP

## Analisis de sentimiento

### Dataset Review de Amazon

Reviews de productos de Amazon clasificadas por categorías (Deportes y actividades al aire libre). Las reviews contienen la calificación (número de estrellas)

#2. Etapa de preprocesado de texto

## Conclusiones de la exploración para realizar el preprocesado:

- Eliminar stopwords: Se eliminarán palabras comunes como "one", "will", "use", etc., que no aportan información útil.
- Eliminar signos de puntuación y símbolos: Los caracteres especiales y signos de puntuación generan ruido y deben eliminarse.
- Normalizar el texto: Convertir todo a minúsculas para evitar duplicados como This y this.
- Eliminar textos vacíos o irrelevantes: Filtrar filas sin contenido en la columna reviewText.
- Personalizar stopwords: Incluir palabras frecuentes pero poco informativas del contexto, como "product", "time" o "good".
- Aplicar lematización: Convertir palabras a su forma base (e.g., bought → buy) para mejorar el análisis.

Estos pasos facilitarán un análisis más limpio y enfocado en el contenido relevante.

### Cargo el DataFrame de un archivo CSV

In [4]:
from google.colab import files
import pandas as pd

# Subir el archivo desde tu computadora
uploaded = files.upload()

# Cargar el archivo
df = pd.read_csv(list(uploaded.keys())[0])

# Verificar que los datos se hayan cargado correctamente
print("Primeras filas del DataFrame:")
print(df.head())


Saving dataset_sentiment.csv to dataset_sentiment (1).csv
Primeras filas del DataFrame:
                                          reviewText  overall  sentiment
0  This came in on time and I am veru happy with ...      5.0          1
1  I had a factory Glock tool that I was using fo...      5.0          1
2  If you don't have a 3/32 punch or would like t...      4.0          1
3  This works no better than any 3/32 punch you w...      4.0          1
4  I purchased this thinking maybe I need a speci...      4.0          1


In [5]:
import re
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
import nltk
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.preprocessing import normalize
import pandas as pd

# Descargar recursos necesarios de NLTK
nltk.download('stopwords')
nltk.download('wordnet')

# Stopwords y lematizador
stop_words = set(stopwords.words('english'))
lemmatizer = WordNetLemmatizer()

# Función para preprocesar texto
def preprocess_text(text):
    # 1. Convertir a minúsculas
    text = text.lower()
    # 2. Eliminar todo lo que no sean palabras (letras y espacios)
    text = re.sub(r'[^a-z\s]', '', text)
    # 3. Tokenizar y eliminar stopwords
    tokens = text.split()
    tokens = [word for word in tokens if word not in stop_words]
    # 4. Lematizar las palabras
    tokens = [lemmatizer.lemmatize(word) for word in tokens]
    # 5. Reconstruir el texto
    return ' '.join(tokens)

# Aplicar preprocesado a la columna 'reviewText'
df['cleaned_text'] = df['reviewText'].fillna('').apply(preprocess_text)

# Vectorización del texto preprocesado
vectorizer = CountVectorizer()
features = vectorizer.fit_transform(df['cleaned_text'])

# Normalización de las características
features_normalized = normalize(features, axis=1)

# Mostrar resultados
print("Review original: {}".format(df['reviewText'].values[0]))
print("Review procesada: {}".format(df['cleaned_text'].values[0]))
print("Características normalizadas (primera fila):")
print(features_normalized[0])


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


Review original: This came in on time and I am veru happy with it, I haved used it already and it makes taking out the pins in my glock 32 very easy
Review procesada: came time veru happy haved used already make taking pin glock easy
Características normalizadas (primera fila):
  (0, 549)	0.2886751345948129
  (0, 2621)	0.2886751345948129
  (0, 5644)	0.2886751345948129
  (0, 7644)	0.2886751345948129
  (0, 8280)	0.2886751345948129
  (0, 8357)	0.2886751345948129
  (0, 11221)	0.2886751345948129
  (0, 13836)	0.2886751345948129
  (0, 18963)	0.2886751345948129
  (0, 19638)	0.2886751345948129
  (0, 20808)	0.2886751345948129
  (0, 21031)	0.2886751345948129


#Explicación adicional:

##Preprocesado:
- Elimina números, símbolos, y signos de puntuación, dejando solo palabras significativas.
- Filtra las stopwords para reducir el ruido en los datos.
- Lematiza las palabras para reducirlas a su forma base.

##Vectorización:
- CountVectorizer convierte el texto en una representación matricial basada en la frecuencia de palabras.

##Normalización:
- normalize(features, axis=1) asegura que cada fila (documento) tenga un vector normalizado, útil para algoritmos sensibles a magnitudes de vectores.

##Resultados:
- La salida incluye la primera review original, la review procesada, y un ejemplo de las características normalizadas.

Esto deja los datos listos para el entrenamiento de modelos

In [6]:
df.head()

Unnamed: 0,reviewText,overall,sentiment,cleaned_text
0,This came in on time and I am veru happy with ...,5.0,1,came time veru happy haved used already make t...
1,I had a factory Glock tool that I was using fo...,5.0,1,factory glock tool using glock ive since lost ...
2,If you don't have a 3/32 punch or would like t...,4.0,1,dont punch would like one glock bag okay butt ...
3,This works no better than any 3/32 punch you w...,4.0,1,work better punch would find hardware store ac...
4,I purchased this thinking maybe I need a speci...,4.0,1,purchased thinking maybe need special tool eas...


In [7]:
# Guardar el DataFrame procesado como CSV
df.to_csv('dataset_processed.csv', index=False)

# Descargar el archivo
from google.colab import files
files.download('dataset_processed.csv')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>