# Notebook ICD - 7

Install libraries via terminal

In [1]:
!pip install spacy
!pip install nltk
!pip install scikit-learn



Importing necessary functions

In [20]:
import pandas as pd
import re
import spacy as spc
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from sklearn.feature_extraction.text import CountVectorizer

## Datos de entrada

In [21]:
oracion = "@Mar18blink Estoy buscando un producto genial por menos de 50. He encontrado muchos en https://t.co/FI1ShlDozc. ¿Qué opinas? Quiero comprarlo ya!!!"
print(oracion)

@Mar18blink Estoy buscando un producto genial por menos de 50. He encontrado muchos en https://t.co/FI1ShlDozc. ¿Qué opinas? Quiero comprarlo ya!!!


## Procesamiento

### Limpieza de datos

In [6]:
oracion = oracion.lower()
oracion = re.sub(r"@\S+", "", oracion)  # Eliminar menciones a usuarios
oracion = re.sub("http[s]?\://\S+", "", oracion)  # Eliminar enlaces
oracion = re.sub(r"#\S+", "", oracion)  # Eliminar hashtags
oracion = re.sub(r"[0-9]", "", oracion)  # Eliminar números
oracion = re.sub(r"(\(.*\))|(\[.*\])", "", oracion)  # Eliminar paréntesis y corchetes
oracion = re.sub(r"\n", "", oracion)  # Eliminar caracteres de nueva línea
oracion = re.sub(r"(http[s]?\://\S+)|([\[\(].*[\)\]])|([#@]\S+)|\n", "", oracion)  # Eliminar varios patrones
oracion = re.sub(r"(\.)|(,)", "", oracion)  # Eliminar puntos y comas
oracion = re.sub(r"[¡!]", "", oracion)  # Eliminar signos de admiración
oracion = re.sub(r"[¿?]", "", oracion)  # Eliminar signos de exclamación
print(oracion)

 estoy buscando un producto genial por menos de  he encontrado muchos en  qué opinas quiero comprarlo ya


### Tokenización

In [22]:
nltk.download('punkt')
tokens = word_tokenize(oracion)
print(tokens)

['@', 'Mar18blink', 'Estoy', 'buscando', 'un', 'producto', 'genial', 'por', 'menos', 'de', '50', '.', 'He', 'encontrado', 'muchos', 'en', 'https', ':', '//t.co/FI1ShlDozc', '.', '¿Qué', 'opinas', '?', 'Quiero', 'comprarlo', 'ya', '!', '!', '!']


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


### Stopwords

In [26]:
nltk.download('stopwords')
spanish_stopwords = stopwords.words('spanish')
palabras_filtradas = [palabra for palabra in tokens if palabra not in spanish_stopwords]
print(palabras_filtradas)

['@', 'Mar18blink', 'Estoy', 'buscando', 'producto', 'genial', 'menos', '50', '.', 'He', 'encontrado', 'https', ':', '//t.co/FI1ShlDozc', '.', '¿Qué', 'opinas', '?', 'Quiero', 'comprarlo', '!', '!', '!']


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [27]:
!pip install spacy
!python -m spacy download es_core_news_sm

Collecting es-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.7.0/es_core_news_sm-3.7.0-py3-none-any.whl (12.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m81.5 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: es-core-news-sm
Successfully installed es-core-news-sm-3.7.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [28]:
nlp = spc.load("es_core_news_sm")
lema = nlp(" ".join(palabras_filtradas))
oracion_lematizada = " ".join([token.lemma_ for token in lema])
print(oracion_lematizada)

@ Mar18blink estar buscar producto genial menos 50 . haber encontrar https : //t.co / FI1ShlDozc . ¿ qué opina ? querer comprar él ! ! !


### Lematización

## Bag of Words

In [29]:
vectorizador = CountVectorizer()
vectores = vectorizador.fit_transform([oracion_lematizada])
vocabulario = vectorizador.get_feature_names_out()

### Resultados

In [30]:
print("Oración de entrada:", oracion)
print("Oración lematizada:", oracion_lematizada)
print("Vectores Bag of Words:", vectores.toarray())
print("Vocabulario:", vocabulario)

Oración de entrada: @Mar18blink Estoy buscando un producto genial por menos de 50. He encontrado muchos en https://t.co/FI1ShlDozc. ¿Qué opinas? Quiero comprarlo ya!!!
Oración lematizada: @ Mar18blink estar buscar producto genial menos 50 . haber encontrar https : //t.co / FI1ShlDozc . ¿ qué opina ? querer comprar él ! ! !
Vectores Bag of Words: [[1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1]]
Vocabulario: ['50' 'buscar' 'co' 'comprar' 'encontrar' 'estar' 'fi1shldozc' 'genial'
 'haber' 'https' 'mar18blink' 'menos' 'opina' 'producto' 'querer' 'qué'
 'él']


### Construir Dataframe

In [31]:
df_bw = pd.DataFrame.sparse.from_spmatrix(vectores,columns = vocabulario)
df_bw.head()

Unnamed: 0,50,buscar,co,comprar,encontrar,estar,fi1shldozc,genial,haber,https,mar18blink,menos,opina,producto,querer,qué,él
0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1
