# Notebook ICD - 7

Install libraries via terminal

In [5]:
!pip install spacy
!pip install nltk
!pip install scikit-learn



Importing necessary functions

In [7]:
import pandas as pd
import re
import spacy as spc
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from sklearn.feature_extraction.text import CountVectorizer

## Datos de entrada

In [9]:
oracion = "@Mar18blink Estoy buscando un producto genial por menos de 50. He encontrado muchos en https://t.co/FI1ShlDozc. ¿Qué opinas? Quiero comprarlo ya!!!"
print(oracion)

@Mar18blink Estoy buscando un producto genial por menos de 50. He encontrado muchos en https://t.co/FI1ShlDozc. ¿Qué opinas? Quiero comprarlo ya!!!


## Procesamiento

### Limpieza de datos

In [13]:
oracion = oracion.lower()
oracion = re.sub(r"@\S+", "", oracion)  # Eliminar menciones a usuarios
oracion = re.sub("http[s]?\://\S+", "", oracion)  # Eliminar enlaces
oracion = re.sub(r"#\S+", "", oracion)  # Eliminar hashtags
oracion = re.sub(r"[0-9]", "", oracion)  # Eliminar números
oracion = re.sub(r"(\(.*\))|(\[.*\])", "", oracion)  # Eliminar paréntesis y corchetes
oracion = re.sub(r"\n", "", oracion)  # Eliminar caracteres de nueva línea
oracion = re.sub(r"(http[s]?\://\S+)|([\[\(].*[\)\]])|([#@]\S+)|\n", "", oracion)  # Eliminar varios patrones
oracion = re.sub(r"(\.)|(,)", "", oracion)  # Eliminar puntos y comas
oracion = re.sub(r"[¡!]", "", oracion)  # Eliminar signos de admiración 
oracion = re.sub(r"[¿?]", "", oracion)  # Eliminar signos de exclamación
print(oracion)

 estoy buscando un producto genial por menos de  he encontrado muchos en  qué opinas quiero comprarlo ya


In [15]:
import nltk
nltk.data.path.append('/Users/paco/nltk_data')  # Para asegurarte de que NLTK busque en el directorio correcto
nltk.download('punkt', force=True)  # Vuelve a descargar el paquete

[nltk_data] Downloading package punkt to /Users/paco/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [17]:
import os
print(nltk.data.find('tokenizers/punkt/english.pickle'))

/Users/paco/nltk_data/tokenizers/punkt/english.pickle


### Tokenización

In [25]:
nltk.download('punkt_tab')


[nltk_data] Downloading package punkt_tab to /Users/paco/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


True

In [27]:
tokens = word_tokenize(oracion, language='spanish')
print(tokens)

['estoy', 'buscando', 'un', 'producto', 'genial', 'por', 'menos', 'de', 'he', 'encontrado', 'muchos', 'en', 'qué', 'opinas', 'quiero', 'comprarlo', 'ya']


### Stopwords

In [30]:
nltk.download('stopwords')
spanish_stopwords = stopwords.words('spanish')
palabras_filtradas = [palabra for palabra in tokens if palabra not in spanish_stopwords]
print(palabras_filtradas)

zsh:1: unknown sort specifier
['buscando', 'producto', 'genial', 'menos', 'encontrado', 'opinas', 'quiero', 'comprarlo']


### Lematización

In [35]:
sudo python3 -m spacy download es

SyntaxError: invalid syntax (4135930192.py, line 1)

In [37]:
nlp = spc.load("es_core_news_sm")
lema = nlp(" ".join(palabras_filtradas))
oracion_lematizada = " ".join([token.lemma_ for token in lema])
print(oracion_lematizada)

buscar producto genial menos encontrado opina querer comprar él


## Bag of Words

In [39]:
vectorizador = CountVectorizer()
vectores = vectorizador.fit_transform([oracion_lematizada])
vocabulario = vectorizador.get_feature_names_out()

### Resultados

In [41]:
print("Oración de entrada:", oracion)
print("Oración lematizada:", oracion_lematizada)
print("Vectores Bag of Words:", vectores.toarray())
print("Vocabulario:", vocabulario)

Oración de entrada:  estoy buscando un producto genial por menos de  he encontrado muchos en  qué opinas quiero comprarlo ya
Oración lematizada: buscar producto genial menos encontrado opina querer comprar él
Vectores Bag of Words: [[1 1 1 1 1 1 1 1 1]]
Vocabulario: ['buscar' 'comprar' 'encontrado' 'genial' 'menos' 'opina' 'producto'
 'querer' 'él']


### Construir Dataframe

In [80]:
df_bw = pd.DataFrame.sparse.from_spmatrix(vectores,columns = vocabulario)
df_bw

Unnamed: 0,buscar,comprar,encontrado,genial,menos,opina,producto,querer,él
0,1,1,1,1,1,1,1,1,1
