Ahora que sabemos cómo instalar bibliotecas, exploremos la simplicidad de Python en términos de llevar a cabo tareas razonablemente complejas.

Tenemos un archivo CSV con datos de llegada y salida de vuelos de los principales aeropuertos de EE. UU. de julio de 2019. Los datos han sido obtenidos del sitio web del Departamento de Transporte de EE. UU. (https://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236).

El archivo tiene más de medio millón de filas. A continuación, se muestra un fragmento parcial del conjunto de datos:

In [1]:
import zipfile
import os

# Nombre del archivo zip (reemplaza 'nombre_del_archivo.zip' con el nombre del archivo que subiste)
zip_file_name = 'flight_data.zip'

# Extraer el archivo
with zipfile.ZipFile(zip_file_name, 'r') as zip_ref:
    zip_ref.extractall('extracted_files')  # Extrae el contenido a la carpeta 'extracted_files'

# Verificar el contenido de la carpeta extraída
print("Archivos extraídos:")
print(os.listdir('extracted_files'))


Archivos extraídos:
['flight_data.csv']


In [2]:
import pandas as pd
file_path = 'extracted_files/flight_data.csv'
df_path = pd.read_csv(file_path)
df_path.head(2)



Unnamed: 0,YEAR,MONTH,DAY,CARRIER,ORIGIN,DEST,SCHED_DEP_TIME,ACT_DEP_TIME,DEP_DELAY,SCHED_ARR_TIME,ACT_ARR_TIME,ARR_DELAY
0,2019,7,24,G4,PIE,AVL,1511,1533.0,22.0,1644,1659.0,15.0
1,2019,7,29,G4,AUS,SFB,2002,2010.0,8.0,2335,2344.0,9.0


# Actividad 0

1 - Construir un analisis descriptivo básico de la información en grupos de 5 personas

In [3]:
df_path.describe()

Unnamed: 0,YEAR,MONTH,DAY,SCHED_DEP_TIME,ACT_DEP_TIME,DEP_DELAY,SCHED_ARR_TIME,ACT_ARR_TIME,ARR_DELAY
count,659029.0,659029.0,659029.0,659029.0,646817.0,646815.0,659029.0,645942.0,643781.0
mean,2019.0,7.0,16.286881,1335.977465,1335.901689,14.191489,1475.831364,1440.047472,8.729063
std,0.0,0.0,8.855734,499.842522,520.110819,55.729509,531.989548,561.825977,57.523158
min,2019.0,7.0,1.0,5.0,1.0,-66.0,1.0,1.0,-88.0
25%,2019.0,7.0,9.0,912.0,909.0,-5.0,1051.0,1028.0,-14.0
50%,2019.0,7.0,16.0,1325.0,1324.0,-2.0,1509.0,1448.0,-6.0
75%,2019.0,7.0,24.0,1745.0,1753.0,9.0,1922.0,1915.0,9.0
max,2019.0,7.0,31.0,2359.0,2400.0,2315.0,2359.0,2400.0,2350.0


In [4]:
df_path.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 659029 entries, 0 to 659028
Data columns (total 12 columns):
 #   Column          Non-Null Count   Dtype  
---  ------          --------------   -----  
 0   YEAR            659029 non-null  int64  
 1   MONTH           659029 non-null  int64  
 2   DAY             659029 non-null  int64  
 3   CARRIER         659029 non-null  object 
 4   ORIGIN          659029 non-null  object 
 5   DEST            659029 non-null  object 
 6   SCHED_DEP_TIME  659029 non-null  int64  
 7   ACT_DEP_TIME    646817 non-null  float64
 8   DEP_DELAY       646815 non-null  float64
 9   SCHED_ARR_TIME  659029 non-null  int64  
 10  ACT_ARR_TIME    645942 non-null  float64
 11  ARR_DELAY       643781 non-null  float64
dtypes: float64(4), int64(5), object(3)
memory usage: 60.3+ MB


## Utilidad de Python en NLP
Aprender un nuevo idioma no es fácil. Para una persona promedio, puede tomar meses o incluso años alcanzar un nivel intermedio de fluidez en un nuevo idioma. Requiere comprender la sintaxis del idioma (gramática), memorizar su vocabulario, etc., para ganar confianza en ese idioma. De manera similar, también es bastante desafiante para las computadoras aprender un lenguaje natural, ya que sería impráctico codificar cada regla de ese idioma.

Supongamos que queremos construir un asistente virtual que lea las consultas enviadas por los usuarios de un sitio web y luego los dirija a la sección apropiada del sitio. Supongamos que el asistente virtual recibe una solicitud que dice:
**¿Cómo cambiamos el método de pago y la frecuencia del pago?**

Si quisiéramos entrenar a nuestro asistente virtual de la manera humana, necesitaríamos cargar un diccionario en inglés en su memoria (la parte fácil), encontrar una forma de enseñarle la gramática del inglés (pronunciación, cláusulas, estructura de oraciones, etc.) y la interpretación lógica. No hace falta decir que este enfoque requeriría un esfuerzo hercúleo. Sin embargo, ¿qué pasaría si pudiéramos transformar la oración en objetos matemáticos para que la computadora pudiera aplicar operaciones matemáticas o lógicas y obtener algo de sentido de ella? Ese constructo matemático podría ser un vector, una matriz, etc.

Por ejemplo, ¿y si asumimos un espacio N-dimensional en el que cada dimensión (eje) del espacio corresponde a una palabra del vocabulario inglés? Con esto, podríamos representar la oración anterior como un vector en ese espacio, con su coordenada en cada eje siendo el conteo de la palabra que representa ese eje. Así, en la oración dada, la magnitud del vector de la oración a lo largo del eje de "payment" será 2, el eje de "frequency" será 1, y así sucesivamente.




Usando el módulo CountVectorizer de la biblioteca scikit-learn de Python, hemos vectorizado la oración anterior y generado la matriz de salida con el vector.
El módulo CountVectorizer de la biblioteca scikit-learn convierte el texto en un conjunto de vectores numéricos, donde cada palabra en el texto original se representa como una característica numérica en un espacio multidimensional.

In [5]:
from sklearn.feature_extraction.text import CountVectorizer
sentence = ["How to change payment method and payment frequency"]
vectorizer = CountVectorizer(stop_words='english')
vectorizer.fit_transform(sentence).todense()

matrix([[1, 1, 1, 2]])

In [6]:
from sklearn.feature_extraction.text import CountVectorizer

sentence = ["How do we change the payment method and payment frequency?"]


vectorizer = CountVectorizer()

# Aplicar la vectorización
X = vectorizer.fit_transform(sentence)

# Ver los resultados
print("Características: ", vectorizer.get_feature_names_out())
print("Matriz de características: \n", X.toarray())


Características:  ['and' 'change' 'do' 'frequency' 'how' 'method' 'payment' 'the' 'we']
Matriz de características: 
 [[1 1 1 1 1 1 2 1 1]]


Este vector ahora se puede comparar con otros vectores de oraciones en el mismo espacio N-dimensional y podemos derivar algún tipo de significado o relación entre estas oraciones aplicando principios y propiedades de los vectores. Este es un ejemplo de cómo una tarea de comprensión de oraciones podría transformarse en un problema de álgebra lineal. Sin embargo, como probablemente ya habrás notado, este enfoque es intensivo en cuanto a recursos computacionales, ya que necesitamos transformar las oraciones en vectores, aplicar los principios de los vectores y realizar cálculos.
Aunque este enfoque puede no generar un resultado perfectamente exacto, abre una vía para que exploremos utilizando teoremas matemáticos y cuerpos de investigación establecidos. Esperar que los humanos utilicen este enfoque para la comprensión de oraciones puede ser poco práctico, pero las computadoras pueden realizar estas tareas con bastante facilidad, y es ahí donde lenguajes de programación como Python se vuelven muy útiles en la investigación de NLP.

## NLTK
La biblioteca Natural Language Toolkit (NLTK) es una de las bibliotecas más populares de Python para el procesamiento de lenguaje natural. Fue desarrollada por Steven Bird y Edward Loper de la Universidad de Pennsylvania. Creada por académicos e investigadores, esta biblioteca está destinada a apoyar la investigación en NLP y viene con una serie de recursos pedagógicos que nos proporcionan una excelente manera de aprender sobre NLP.

In [7]:
import nltk
from nltk.tokenize import word_tokenize

## Corpus en NLTK
Un corpus es un gran conjunto de textos o datos lingüísticos, y es muy importante en la investigación de NLP para el desarrollo y la prueba de aplicaciones. NLTK permite a los usuarios acceder a más de 50 Corpus y recursos léxicos (muchos de los cuales están vinculados a aplicaciones basadas en ML) Se pueden importar cualquiera de los Corpus disponibles en y usar las funciones de NLTK para analizar el texto en el corpus importado.

Más detalles sobre cada corpus se pueden encontrar aquí: http://www.nltk.org/book/ch02.html

## Procesamiento de Texto
Como se mencionó anteriormente, una parte clave de NLP es transformar el texto en objetos matemáticos. NLTK proporciona varias funciones que nos ayudan a transformar el texto en vectores. La función más básica de NLTK para este propósito es la tokenización, que divide un documento en una lista de unidades. Estas unidades pueden ser palabras, caracteres o frases.

In [8]:
nltk.download('punkt')
nltk.download('punkt_tab')


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\juano\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\juano\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

In [9]:

text = "Who would have thought that computer programs would be analyzing human sentiments"
tokens = word_tokenize(text)
print(tokens)


['Who', 'would', 'have', 'thought', 'that', 'computer', 'programs', 'would', 'be', 'analyzing', 'human', 'sentiments']


Hemos tokenizado la oración anterior utilizando la función word_tokenize() de NLTK, que simplemente divide la oración por espacios en blanco. El resultado es una lista, que es el primer paso hacia la vectorización.

En nuestra discusión anterior, tocamos la naturaleza computacionalmente intensiva del enfoque de vectorización debido al tamaño de los vectores. Cuantas más palabras tenga un vector, más dimensiones debemos manejar. Por lo tanto, debemos tratar de racionalizar nuestros vectores, y podemos hacerlo utilizando algunas de las otras funciones útiles de NLTK, como stopwords, lematización y stemming.

A continuación, se presenta una lista parcial de las Stop Words en Español e Ingles  de NLTK.

Las Stop Words son palabras como "a", "an", "the", "in", "at", y otras que aparecen con frecuencia en los corpus de texto y no aportan mucha información en la mayoría de los contextos. Estas palabras, en general, son necesarias para completar las oraciones y hacerlas gramaticalmente correctas. A menudo, son las palabras más comunes en un idioma y pueden filtrarse en la mayoría de las tareas de NLP, lo que, en consecuencia, ayuda a reducir el vocabulario o el espacio de búsqueda. No existe una lista única de palabras vacías que esté disponible universalmente, y varían en gran medida según los casos de uso; sin embargo, se mantiene una lista específica de palabras para cada idioma que puede considerarse como palabras vacías específicas de ese idioma, aunque deberían modificarse según el problema que se esté resolviendo.


In [10]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\juano\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [11]:
import nltk
stopwords = nltk.corpus.stopwords.words('spanish') #spanish#german
print(stopwords)


['de', 'la', 'que', 'el', 'en', 'y', 'a', 'los', 'del', 'se', 'las', 'por', 'un', 'para', 'con', 'no', 'una', 'su', 'al', 'lo', 'como', 'más', 'pero', 'sus', 'le', 'ya', 'o', 'este', 'sí', 'porque', 'esta', 'entre', 'cuando', 'muy', 'sin', 'sobre', 'también', 'me', 'hasta', 'hay', 'donde', 'quien', 'desde', 'todo', 'nos', 'durante', 'todos', 'uno', 'les', 'ni', 'contra', 'otros', 'ese', 'eso', 'ante', 'ellos', 'e', 'esto', 'mí', 'antes', 'algunos', 'qué', 'unos', 'yo', 'otro', 'otras', 'otra', 'él', 'tanto', 'esa', 'estos', 'mucho', 'quienes', 'nada', 'muchos', 'cual', 'poco', 'ella', 'estar', 'estas', 'algunas', 'algo', 'nosotros', 'mi', 'mis', 'tú', 'te', 'ti', 'tu', 'tus', 'ellas', 'nosotras', 'vosotros', 'vosotras', 'os', 'mío', 'mía', 'míos', 'mías', 'tuyo', 'tuya', 'tuyos', 'tuyas', 'suyo', 'suya', 'suyos', 'suyas', 'nuestro', 'nuestra', 'nuestros', 'nuestras', 'vuestro', 'vuestra', 'vuestros', 'vuestras', 'esos', 'esas', 'estoy', 'estás', 'está', 'estamos', 'estáis', 'están', 'e

Dado que NLTK nos proporciona una lista de palabras, simplemente podemos consultar esta lista y filtrar las palabras de nuestra lista de palabras

In [12]:
stopwords = nltk.corpus.stopwords.words('english')
newtokens=[word for word in tokens if word not in stopwords]


In [13]:
newtokens

['Who',
 'would',
 'thought',
 'computer',
 'programs',
 'would',
 'analyzing',
 'human',
 'sentiments']

Podemos modificar aún más nuestro vector utilizando lematización y stemming, que son técnicas utilizadas para reducir las palabras a su forma raíz. La justificación detrás de este paso es que el espacio n-dimensional en el que estamos navegando no necesita tener ejes separados para una palabra y su forma flexionada (por ejemplo, eat y eating no necesitan ser dos ejes separados). Por lo tanto, deberíamos reducir cada forma flexionada de la palabra a su forma raíz. Sin embargo, este enfoque tiene sus críticos porque, en muchos casos, las formas flexionadas de las palabras dan un significado diferente al de la palabra raíz. Por ejemplo, las oraciones My manager promised me promotion (Mi gerente me prometió un ascenso) y He is a promising prospect (Él es una promesa de futuro) utilizan la forma flexionada de la palabra promise (prometer), pero en contextos completamente diferentes. Por lo tanto, debes realizar stemming y lematización después de considerar sus pros y contras.



In [14]:
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\juano\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [15]:
from nltk.stem import WordNetLemmatizer
text = "Who would have thought that computer programs would be analyzinghuman sentiments"
tokens = word_tokenize(text)
lemmatizer = WordNetLemmatizer()
tokens=[lemmatizer.lemmatize(word) for word in tokens]
print(tokens)


['Who', 'would', 'have', 'thought', 'that', 'computer', 'program', 'would', 'be', 'analyzinghuman', 'sentiment']


In [16]:
lemmatizer.lemmatize('programs')

'program'

La lematización se realiza buscando una palabra en el mapa de palabras raíz incorporado en WordNet. Si la palabra no se encuentra, se devuelve la palabra de entrada sin cambios. Sin embargo, podemos ver que el rendimiento del lematizador no fue bueno y solo pudo reducir "programs" y "sentiments" de sus formas plurales. Esto muestra que el lematizador depende en gran medida del mapa de palabras raíz y es muy susceptible a transformaciones incorrectas de la raíz de la palabra.

## Stemming

El stemming es similar a la lematización, pero en lugar de buscar palabras raíz en un diccionario preconstruido, define algunas reglas según las cuales las palabras se reducen a su forma base. Por ejemplo, tiene una regla que indica que cualquier palabra con el sufijo "ing" será reducida eliminando dicho sufijo.

Imagina llevar todas las palabras "computer" (computadora), "computerization" (computarización) y "computerize" (computarizar) a una sola palabra, "compute" (computar). Esto es el stemming (derivación). Como parte del proceso de stemming, se hace un intento rudimentario de eliminar las formas flexionadas de una palabra y llevarlas a una forma base llamada stem (raíz). Las partes eliminadas se conocen como afijos. En el ejemplo anterior, "compute" es la forma base y los afijos son "r", "rization" y "rize", respectivamente. Algo importante a tener en cuenta es que la raíz no necesariamente tiene que ser una palabra válida como la conocemos. Por ejemplo, la palabra "traditional" (tradicional) se reduciría a "tradit", que no es una palabra válida en el diccionario inglés.

Los dos algoritmos/métodos más comunes empleados para la derivación son el Porter stemmer y el Snowball stemmer. El Porter stemmer es compatible con el idioma inglés, mientras que el Snowball stemmer, que es una mejora del Porter stemmer, admite múltiples idiomas.

In [17]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
text = "Who would have thought that computer programs would be analyzing human sentiments be i was am"
tokens=word_tokenize(text.lower())
ps = PorterStemmer()
tokens=[ps.stem(word) for word in tokens]
print(tokens)

['who', 'would', 'have', 'thought', 'that', 'comput', 'program', 'would', 'be', 'analyz', 'human', 'sentiment', 'be', 'i', 'wa', 'am']


Según la salida anterior, el stemming logró transformar más palabras que la lematización, pero aún así, está lejos de ser perfecto. Además, notarás que algunas palabras reducidas por stemming ni siquiera son palabras en inglés. Por ejemplo, analyz fue derivada de analyzing al aplicar ciegamente la regla de eliminar el sufijo ing.

Los ejemplos anteriores muestran los desafíos de reducir las palabras correctamente a sus respectivas formas raíz utilizando las herramientas de NLTK. No obstante, estas técnicas son bastante populares para el preprocesamiento de texto y la vectorización. También puedes crear soluciones más sofisticadas basadas en estas funciones básicas para crear tu propio lematizador y stemmer.

In [18]:
from nltk.stem.snowball import SnowballStemmer
print(SnowballStemmer.languages)

('arabic', 'danish', 'dutch', 'english', 'finnish', 'french', 'german', 'hungarian', 'italian', 'norwegian', 'porter', 'portuguese', 'romanian', 'russian', 'spanish', 'swedish')


El Porter stemmer funciona solo con cadenas de texto, mientras que el Snowball stemmer es compatible tanto con cadenas como con datos en Unicode. Además, el Snowball stemmer permite la opción de ignorar palabras vacías (stopwords) como funcionalidad inherente.

In [19]:
plurals = ['caresses', 'flies', 'dies', 'mules', 'died', 'agreed', 'owned',
'humbled', 'sized', 'meeting', 'stating',
 'siezing', 'itemization', 'traditional', 'reference', 'colonizer',
'plotted', 'having', 'generously']
from nltk.stem.porter import PorterStemmer
stemmer = PorterStemmer()
singles = [stemmer.stem(plural) for plural in plurals]
print(' '.join(singles))

caress fli die mule die agre own humbl size meet state siez item tradit refer colon plot have gener


In [20]:
stemmer2 = SnowballStemmer(language='english')
singles = [stemmer2.stem(plural) for plural in plurals]
print(' '.join(singles))

caress fli die mule die agre own humbl size meet state siez item tradit refer colon plot have generous


Como se puede observar en los fragmentos de código anteriores, el Snowball stemmer requiere la especificación de un parámetro de idioma. En la mayoría de los casos, su salida es similar a la del Porter stemmer, excepto en el caso de generously, donde el Porter stemmer produce gener y el Snowball stemmer devuelve generous. El ejemplo muestra cómo el Snowball stemmer realiza pequeños ajustes al algoritmo de Porter, logrando mejoras en algunos casos.

In [21]:
stemmer = PorterStemmer()
stemmer2 = SnowballStemmer(language='spanish')
lemmatizer = WordNetLemmatizer()
import spacy
nlp = spacy.load("es_core_news_sm")

In [22]:
texto = 'Los programadores están programando programas para diferentes plataformas empañados'
tokens=word_tokenize(texto.lower())
print('Texto original: ', tokens)
prueba_1 = [stemmer.stem(palabra_1) for palabra_1 in tokens]
print('Prueba con PorterStemmer: ', prueba_1)
prueba_2 = [stemmer2.stem(palabra_2) for palabra_2 in tokens]
print('Prueba con SnowballStemmer: ', prueba_2)
prueba_3 = [lemmatizer.lemmatize(palabra_3) for palabra_3 in tokens]
print('Prueba con wordNetLemmatizer: ', prueba_3)
doc = nlp(texto)
prueba_4 = [palabra_4.lemma_ for palabra_4 in doc]
print('Prueba con spacy (WordNetLemmatizer en español)', prueba_4)

Texto original:  ['los', 'programadores', 'están', 'programando', 'programas', 'para', 'diferentes', 'plataformas', 'empañados']
Prueba con PorterStemmer:  ['lo', 'programador', 'están', 'programando', 'programa', 'para', 'diferent', 'plataforma', 'empañado']
Prueba con SnowballStemmer:  ['los', 'program', 'estan', 'program', 'program', 'par', 'diferent', 'plataform', 'empañ']
Prueba con wordNetLemmatizer:  ['los', 'programadores', 'están', 'programando', 'programas', 'para', 'diferentes', 'plataformas', 'empañados']
Prueba con spacy (WordNetLemmatizer en español) ['el', 'programador', 'estar', 'programar', 'programa', 'para', 'diferente', 'plataforma', 'empañado']


In [23]:
import spacy

# Carga el modelo para español
nlp = spacy.load("es_core_news_sm")

# Procesa el texto
doc = nlp(texto)
print(doc)
# Lematización
for token in doc:
    print(token)
    print(f"Palabra: {token.text}, Lema: {token.lemma_}")


Los programadores están programando programas para diferentes plataformas empañados
Los
Palabra: Los, Lema: el
programadores
Palabra: programadores, Lema: programador
están
Palabra: están, Lema: estar
programando
Palabra: programando, Lema: programar
programas
Palabra: programas, Lema: programa
para
Palabra: para, Lema: para
diferentes
Palabra: diferentes, Lema: diferente
plataformas
Palabra: plataformas, Lema: plataforma
empañados
Palabra: empañados, Lema: empañado


## Etiquetado de partes de la oración

El etiquetado de partes de la oración (POS tagging) identifica la categoría gramatical (sustantivo, verbo, adverbio, etc.) de cada palabra en una oración. Es un paso crucial para muchas aplicaciones de PLN, ya que al identificar la categoría gramatical de una palabra, podemos deducir su significado contextual. Por ejemplo, el significado de la palabra ground es diferente cuando se usa como sustantivo, como en The ground was sodden due to rain (El suelo estaba empapado por la lluvia), en comparación con cuando se usa como adjetivo, como en The restaurant's ground meat recipe is quite popular (La receta de carne molida del restaurante es bastante popular).


In [24]:
nltk.download('averaged_perceptron_tagger')
nltk.download('averaged_perceptron_tagger_eng')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\juano\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     C:\Users\juano\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger_eng is already up-to-
[nltk_data]       date!


True

In [25]:
nltk.pos_tag(["your"])

[('your', 'PRP$')]

In [26]:
nltk.pos_tag(["beautiful"])


[('beautiful', 'NN')]

In [27]:
nltk.pos_tag(["eat"])

[('eat', 'NN')]

Podemos pasar una palabra como una lista a la función pos_tag(), la cual devuelve la palabra junto con su categoría gramatical. Podemos generar el POS de cada palabra de una oración iterando sobre la lista de tokens y aplicando la función pos_tag() individualmente. El siguiente código es un ejemplo de cómo se puede hacer el etiquetado de partes de la oración de forma iterativa:

In [28]:
from nltk.tokenize import word_tokenize
text = "Usain Bolt is the fastest runner in the world"
tokens = word_tokenize(text)
[nltk.pos_tag([word]) for word in tokens]

[[('Usain', 'NN')],
 [('Bolt', 'NN')],
 [('is', 'VBZ')],
 [('the', 'DT')],
 [('fastest', 'JJS')],
 [('runner', 'NN')],
 [('in', 'IN')],
 [('the', 'DT')],
 [('world', 'NN')]]

In [29]:
pip install nltk

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.0 -> 24.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [30]:
import nltk
nltk.download('tagsets')
nltk.download('tagsets_json')# need to download first time
nltk.help.upenn_tagset()

$: dollar
    $ -$ --$ A$ C$ HK$ M$ NZ$ S$ U.S.$ US$
'': closing quotation mark
    ' ''
(: opening parenthesis
    ( [ {
): closing parenthesis
    ) ] }
,: comma
    ,
--: dash
    --
.: sentence terminator
    . ! ?
:: colon or ellipsis
    : ; ...
CC: conjunction, coordinating
    & 'n and both but either et for less minus neither nor or plus so
    therefore times v. versus vs. whether yet
CD: numeral, cardinal
    mid-1890 nine-thirty forty-two one-tenth ten million 0.5 one forty-
    seven 1987 twenty '79 zero two 78-degrees eighty-four IX '60s .025
    fifteen 271,124 dozen quintillion DM2,000 ...
DT: determiner
    all an another any both del each either every half la many much nary
    neither no some such that the them these this those
EX: existential there
    there
FW: foreign word
    gemeinschaft hund ich jeux habeas Haementeria Herr K'ang-si vous
    lutihaw alai je jour objets salutaris fille quibusdam pas trop Monte
    terram fiche oui corporis ...
IN: preposition or

[nltk_data] Downloading package tagsets to
[nltk_data]     C:\Users\juano\AppData\Roaming\nltk_data...
[nltk_data]   Package tagsets is already up-to-date!
[nltk_data] Downloading package tagsets_json to
[nltk_data]     C:\Users\juano\AppData\Roaming\nltk_data...
[nltk_data]   Package tagsets_json is already up-to-date!


#TextBlob
TextBlob es una biblioteca popular que se utiliza para análisis de sentimientos, etiquetado de partes de la oración, traducción, entre otras tareas. Está construida sobre otras bibliotecas, incluyendo NLTK, y ofrece una interfaz muy fácil de usar, lo que la convierte en una herramienta imprescindible para principiantes en procesamiento de lenguaje natural (NLP).

Documentación de TextBlob en https://textblob.readthedocs.io/en/dev/ o visitar su página en GitHub en https://github.com/sloria/TextBlob para comenzar a explorarla.

El análisis de sentimientos es un área de investigación importante dentro del procesamiento de lenguaje natural (NLP) que busca analizar el texto y evaluar su sentimiento. La biblioteca TextBlob permite a los usuarios analizar el sentimiento de un fragmento de texto de una manera muy conveniente. La documentación de la biblioteca TextBlob (https://textblob.readthedocs.io/en/dev/) es bastante detallada, fácil de leer y contiene tutoriales también.



In [31]:
pip install -U textblob

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.0 -> 24.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip



Estos comandos aseguran que la biblioteca se instale y que los corpus necesarios para el análisis estén disponibles.

In [32]:
from textblob import TextBlob
TextBlob("I love pizza").sentiment


Sentiment(polarity=0.5, subjectivity=0.6)

Una vez que se ha importado la biblioteca TextBlob, todo lo que necesitamos hacer para calcular el sentimiento es pasar el texto que se desea analizar y usar el módulo de sentimiento de la biblioteca. El módulo de sentimiento genera una tupla con el puntaje de polaridad y el puntaje de subjetividad.

* El puntaje de polaridad varía de -1 a 1, donde -1 indica un sentimiento extremadamente negativo y 1 un sentimiento extremadamente positivo.
* El puntaje de subjetividad varía de 0 a 1, donde un valor de 0 implica que la declaración es completamente objetiva o factual, mientras que un valor de 1 implica una declaración altamente subjetiva.

Por ejemplo, para la frase "I love pizza", obtenemos un puntaje de polaridad de 0.5, lo que sugiere un sentimiento positivo. La subjetividad también se calcula como alta, lo cual parece adecuado.

In [33]:

TextBlob("The project failed miserably, causing significant financial losses.").sentiment

Sentiment(polarity=-0.28125, subjectivity=0.54375)

In [34]:
TextBlob("What a terrible thing to say").sentiment

Sentiment(polarity=-1.0, subjectivity=1.0)

#Traducción de Texto:
TextBlob utiliza la API de Google Translate para proporcionar una interfaz muy sencilla para traducir textos. Simplemente se usa la función translate() para traducir un texto a un idioma deseado (de la lista de idiomas disponibles en Google). El parámetro to en la función translate() determina el idioma al que se traducirá el texto. El resultado de la función translate() será equivalente al que se obtiene en Google Translate.



In [35]:
from deep_translator import GoogleTranslator

# Lista de idiomas a los que traducir
languages = ['fr', 'zh-CN', 'hi', 'es']

# Texto a traducir
text = "Who knew translation could be fun"

# Itera sobre los idiomas y traduce el texto
for language in languages:
    try:
        translated_text = GoogleTranslator(source='en', target=language).translate(text)
        print(f"Translation to {language}: {translated_text}")
    except Exception as e:
        print(f"Error translating to {language}: {e}")



Translation to fr: Qui aurait cru que la traduction pouvait être amusante ?
Translation to zh-CN: 谁知道翻译也可以很有趣
Translation to hi: कौन जानता था कि अनुवाद मज़ेदार हो सकता है
Translation to es: ¿Quién iba a pensar que traducir podía ser divertido?


In [36]:
#!pip install textblob googletrans==3.1.0a0

from textblob import TextBlob
from googletrans import Translator

blob = TextBlob("Hola, ¿cómo estás?")

# Crea un objeto Translator
translator = Translator()
#Traducción
translation = translator.translate(str(blob), src='es', dest='en').text

print(translation)


Hello how are you?


In [37]:
from textblob import TextBlob

# Ejemplo que queremos hacer en español
texto = "Me encanta este lugar, es maravilloso y la comida está deliciosa."

# Crear un objeto TextBlob
blob = TextBlob(texto)

# Obtener la polaridad y subjetividad
sentimiento = blob.sentiment
polaridad = sentimiento.polarity
subjetividad = sentimiento.subjectivity

print(f"Sentimiento: {sentimiento}")
print(f"Polaridad: {polaridad}")  # Rango entre -1 y 1
print(f"Subjetividad: {subjetividad}")  # Rango entre 0 y 1


Sentimiento: Sentiment(polarity=0.0, subjectivity=0.0)
Polaridad: 0.0
Subjetividad: 0.0


In [38]:
frases = ["El gobierno debería invertir más en educación, no en obras que no beneficiarán a la mayoría.",
"El cambio climático es una realidad, pero aún hay muchos que no quieren aceptarlo.",
"Las redes sociales están cambiando la forma en que nos comunicamos, no siempre para bien.",
"Creo que las leyes sobre el uso de energía renovable aún necesitan más apoyo y concienciación.",
"Los precios de la vivienda están subiendo constantemente, pero parece que a nadie le importa.",
"Algunos piensan que la vacuna es innecesaria, pero los expertos dicen lo contrario.",
"La economía está en una crisis constante, pero las soluciones no parecen ser claras.",
"Siempre he pensado que la educación universitaria debería ser gratuita para todos, sin importar el contexto."]

for frase in frases:
  print('Frase en Español: ', frase)
  
  blob = TextBlob(frase)
  translation = translator.translate(str(blob), src='es', dest='en').text
  print('Frase en Ingles: ', translation)
  
  blob_t = TextBlob(translation)
  sentimiento = blob_t.sentiment
  polaridad = sentimiento.polarity
  subjetividad = sentimiento.subjectivity

  print(f"Polaridad: {polaridad}")
  print(f"Subjetividad: {subjetividad}")
  
  tokens=word_tokenize(translation.lower())
  prueba_2 = [stemmer2.stem(palabra_2) for palabra_2 in tokens]
  print('Prueba con SnowballStemmer: ', prueba_2)
  
  prueba_3 = [lemmatizer.lemmatize(palabra_3) for palabra_3 in tokens]
  print('Prueba con wordNetLemmatizer: ', prueba_3)
  
  stopwords = nltk.corpus.stopwords.words('english')
  newtokens=[word for word in tokens if word not in stopwords]
  print('Sin stopwords: ', newtokens)
  
  
  sentence = ' '.join(newtokens)
  print('Frase nueva en Ingles: ', sentence)
  
  translation_2 = translator.translate(str(sentence), src='en', dest='es').text
  print('Frase nueva en Español: ', translation_2)
  
  blob_t = TextBlob(sentence)
  sentimiento_t = blob_t.sentiment
  polaridad_t = sentimiento_t.polarity
  subjetividad_t = sentimiento_t.subjectivity

  print(f"Nueva Polaridad: {polaridad_t}")
  print(f"Nueva Subjetividad: {subjetividad_t}")
  print("\n")

Frase en Español:  El gobierno debería invertir más en educación, no en obras que no beneficiarán a la mayoría.
Frase en Ingles:  The government should invest more in education, not in works that will not benefit the majority.
Polaridad: 0.5
Subjetividad: 0.5
Prueba con SnowballStemmer:  ['the', 'government', 'should', 'invest', 'mor', 'in', 'education', ',', 'not', 'in', 'works', 'that', 'will', 'not', 'benefit', 'the', 'majority', '.']
Prueba con wordNetLemmatizer:  ['the', 'government', 'should', 'invest', 'more', 'in', 'education', ',', 'not', 'in', 'work', 'that', 'will', 'not', 'benefit', 'the', 'majority', '.']
Sin stopwords:  ['government', 'invest', 'education', ',', 'works', 'benefit', 'majority', '.']
Frase nueva en Ingles:  government invest education , works benefit majority .
Frase nueva en Español:  Educación de inversión del gobierno, las obras benefician a la mayoría.
Nueva Polaridad: 0.0
Nueva Subjetividad: 0.0


Frase en Español:  El cambio climático es una realidad,

#Conversión a minúsculas (Case folding)

Otra estrategia que ayuda con la normalización se llama conversión a minúsculas (case folding). En este proceso, todas las letras de un corpus de texto se convierten a minúsculas. Por ejemplo, The y the se tratarán de la misma forma en un escenario de conversión a minúsculas, mientras que serían tratadas de manera diferente en un escenario sin esta conversión. Esta técnica es útil en sistemas de recuperación de información, como los motores de búsqueda.

En el caso de un nombre propio como Lamborghini, se tratará como lamborghini; es decir, si el usuario escribe Lamborghini o lamborghini, los resultados serán los mismos.

Sin embargo, en situaciones en las que los nombres propios derivan de términos comunes, la conversión a minúsculas puede volverse un obstáculo, ya que la distinción entre mayúsculas y minúsculas se vuelve importante. Por ejemplo, General Motors está compuesto de términos comunes, pero es un nombre propio. Aplicar la conversión a minúsculas en este caso podría causar problemas. Otro inconveniente es cuando los acrónimos se convierten a minúsculas, ya que existe una alta probabilidad de que se asocien a términos comunes. Un ejemplo ampliamente usado es CAT, que representa Common Admission Test en India, y que podría convertirse en cat.

Una posible solución es construir modelos de aprendizaje automático que utilicen características de una oración para determinar qué palabras o tokens deben estar en minúsculas y cuáles no; sin embargo, este enfoque no siempre es efectivo cuando los usuarios suelen escribir en minúsculas. Por lo tanto, convertir todo a minúsculas sigue siendo una solución prudente

In [39]:
s = "We are putting in efforts to enhance our understanding of Lemmatization"
s = s.lower()
s

'we are putting in efforts to enhance our understanding of lemmatization'

# N-gramas

Hasta ahora, nos hemos centrado en tokens de tamaño 1, es decir, una sola palabra. Las oraciones generalmente contienen nombres de personas, lugares y otros términos compuestos abiertos, como living room (sala de estar) y coffee mug (taza de café). Estas frases transmiten un significado específico cuando se usan dos o más palabras juntas. Cuando se usan de forma individual, el significado cambia por completo y se pierde el significado implícito de los términos compuestos. El uso de múltiples tokens para representar este significado implícito puede ser muy beneficioso para las tareas de NLP que se están realizando. Aunque tales ocurrencias son poco frecuentes, siguen llevando mucha información. Se deben emplear técnicas para interpretar estos casos también.

En general, estos se agrupan bajo el término general de n-gramas. Cuando n es igual a 1, se denominan unigramas. Los bigramas o 2-gramas se refieren a pares de palabras, como dinner table (mesa de cena). Frases como the United Arab Emirates (los Emiratos Árabes Unidos), que constan de tres palabras, se denominan trigramas o 3-gramas. Este sistema de denominación se puede extender a n-gramas de mayor longitud, pero la mayoría de las tareas de NLP utilizan solo trigramas o menores.

Vamos a entender cómo funciona esto con la siguiente oración:

* Natural Language Processing is the way to go
La frase Natural Language Processing

lleva un significado implícito que se perdería si cada una de las palabras de la frase se procesara de forma individual; sin embargo, al usar trigramas, estas frases pueden extraerse juntas y el significado se captura. En general, todas las tareas de NLP utilizan unigramas, bigramas y trigramas juntos para capturar toda la información.

In [40]:
from nltk.util import ngrams
s = "Natural Language Processing is the way to go"
tokens = s.split()
bigrams = list(ngrams(tokens, 2))
[" ".join(token) for token in bigrams]


['Natural Language',
 'Language Processing',
 'Processing is',
 'is the',
 'the way',
 'way to',
 'to go']

In [41]:
s = "Natural Language Processing is the way to go"
tokens = s.split()
trigrams = list(ngrams(tokens, 3))
[" ".join(token) for token in trigrams]

['Natural Language Processing',
 'Language Processing is',
 'Processing is the',
 'is the way',
 'the way to',
 'way to go']

## Bibliotecas y metodología de web scraping
Al hablar sobre NLTK, resaltamos la importancia de un corpus o un repositorio grande de texto para la investigación en procesamiento de lenguaje natural (NLP). Si bien los corpus disponibles son bastante útiles, los investigadores de NLP pueden necesitar texto sobre un tema específico. Por ejemplo, alguien que intente construir un analizador de sentimientos para los mercados financieros puede no encontrar útil un corpus de discursos presidenciales, reseñas de películas, etc. Por lo tanto, los investigadores de NLP pueden tener que obtener datos de otras fuentes. El web scraping es una herramienta extremadamente útil en este sentido, ya que permite a los usuarios recuperar información de fuentes web de forma programada.

Antes de comenzar a discutir sobre el web scraping, se debe tener en cuenta la importancia de cumplir con las políticas de los sitios web en cuanto a la recolección de datos. La mayoría de los sitios web permiten el web scraping para uso individual y no comercial, pero siempre se debe verificar la política antes de realizar el scraping en un sitio.

In [42]:
pip install beautifulsoup4 requests


Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.0 -> 24.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [43]:
import requests
from bs4 import BeautifulSoup

# URL de la página web que quieres analizar
url = "https://webscraper.io/test-sites/e-commerce/allinone"

# Realizar la solicitud HTTP para obtener el contenido de la página
response = requests.get(url)

# Comprobar que la solicitud fue exitosa (código 200)
if response.status_code == 200:
    # Parsear el contenido HTML con BeautifulSoup
    soup = BeautifulSoup(response.text, "html.parser")

    # Ejemplo de extracción: obtener todos los enlaces (etiquetas <a>)
    enlaces = soup.find_all("a")

    # Imprimir todos los enlaces encontrados
    for enlace in enlaces:
        print(enlace.get('href'))
else:
    print(f"Error al acceder a la página. Código de estado: {response.status_code}")


None
/
/
/cloud-scraper
/pricing
/documentation
/tutorials
/how-to-videos
/test-sites
https://forum.webscraper.io/
https://chromewebstore.google.com/detail/web-scraper-free-web-scra/jnhgnonknehpejjnehehllkliplmbmhn?hl=en
https://cloud.webscraper.io/
/test-sites/e-commerce/allinone
/test-sites/e-commerce/allinone/computers
/test-sites/e-commerce/allinone/phones
/test-sites/e-commerce/allinone/product/89
/test-sites/e-commerce/allinone/product/112
/test-sites/e-commerce/allinone/product/105
/
/cloud-scraper
/about-us
/contact
/privacy-policy
/extension-privacy-policy
https://webscraper.io/downloads/Web_Scraper_Media_Kit.zip
/jobs
/blog
/documentation
/tutorials
/screenshots
/test-sites
https://forum.webscraper.io/
https://status.webscraper.io/
mailto:info@webscraper.io
https://www.facebook.com/webscraperio/
https://twitter.com/webscraperio
https://lv.linkedin.com/company/web-scraper
https://youtube.com/@WebScraper/videos
https://chromewebstore.google.com/detail/web-scraper-free-web-scra/

In [44]:
requests.get(url).text

'<!DOCTYPE html>\n<html lang="en">\n<head>\n\t<!-- Google Tag Manager -->\n<script nonce="MMY4LR76taWaSdiPo2CZE6WQjftbaVRx">(function (w, d, s, l, i) {\n\t\tw[l] = w[l] || [];\n\t\tw[l].push({\n\t\t\t\'gtm.start\':\n\t\t\t\tnew Date().getTime(), event: \'gtm.js\'\n\t\t});\n\t\tvar f = d.getElementsByTagName(s)[0],\n\t\t\tj = d.createElement(s), dl = l != \'dataLayer\' ? \'&l=\' + l : \'\';\n\t\tj.async = true;\n\t\tj.src =\n\t\t\t\'https://www.googletagmanager.com/gtm.js?id=\' + i + dl;\n\t\tf.parentNode.insertBefore(j, f);\n\t})(window, document, \'script\', \'dataLayer\', \'GTM-NVFPDWB\');</script>\n<!-- End Google Tag Manager -->\n\t<title>Allinone | Web Scraper Test Sites</title>\n\t<meta charset="utf-8">\n\t<meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1">\n\n\t<meta name="keywords"\n\t\t  content="web scraping,Web Scraper,Chrome extension,Crawling,Cross platform scraper"/>\n\t<meta name="description"\n\t\t  content="The most popular web scraping extension. Start scra

El código HTML generalmente se divide en secciones, con una página típica teniendo una sección de encabezado y una sección de cuerpo. La sección del cuerpo se divide aún más en elementos, con cada elemento teniendo atributos representados por una etiqueta específica. En la captura de pantalla anterior, podemos ver los varios elementos, clases y etiquetas del código HTML. Necesitaremos navegar a través de este código que parece complejo y extraer la información relevante (en nuestro caso, el título del producto, el precio y la calificación). Esta tarea, que parece compleja, se puede realizar de manera bastante conveniente utilizando cualquiera de las bibliotecas de web scraping disponibles. BeautifulSoup es uno de los scrapers más populares. Obligatorio para la clase revisar la documentación de BeautifulSoup (https://www.crummy.com/software/BeautifulSoup/bs4/doc/).

Usamos el módulo BeautifulSoup y le pasamos el código HTML (request.text) y un parámetro llamado HTML Parser, que crea un objeto de análisis HTML de BeautifulSoup. Ahora podemos aplicar muchas de las funciones versátiles de BeautifulSoup a este objeto y extraer la información que buscamos. Pero antes de comenzar a hacer eso, tendremos que familiarizarnos con la página web que estamos tratando de hacer scraping e identificar en qué parte de la página web se encuentran los elementos que nos interesan. En el código HTML del sitio web de comercio electrónico, podemos ver que los detalles de cada producto están codificados dentro de una etiqueta &lt;div&gt; (div se refiere a división en HTML) con las clases col-sm-4 col-lg-4 col-md-4. Si expandes la etiqueta &lt;div&gt; haciendo clic en la flecha, verás que dentro de la etiqueta &lt;div&gt; hay otras etiquetas y elementos que almacenan varias piezas de información.



In [45]:
titles = []
prices = []
ratings = []
description = []
url = 'https://webscraper.io/test-sites/e-commerce/allinone'
request = requests.get(url)
soup = BeautifulSoup(request.text, "html.parser")
for product in soup.find_all('div', {'class': 'col-md-4 col-xl-4 col-lg-4'}):
 for pr in product.find_all('div', {'class': 'caption'}):

  for p in pr.find_all('h4', {'class': 'price float-end card-title pull-right'}):
    prices.append(p.text)
  for title in pr.find_all('a' , {'title'}):
    titles.append(title.get('title'))
  for des in pr.find_all('p', {'class': 'description card-text'}):
   description.append(des.text)
  for rt in product.find_all('div', {'class': 'ratings'}):
    ratings.append(len(rt.find_all('span',{'class': 'ws-icon ws-icon-star'})))
  



In [46]:
ratings

[2, 3, 3]

In [47]:
import pandas as pd
product_df = pd.DataFrame(zip(titles,prices,ratings,description), columns = ['Titles','Prices', 'Ratings', 'Description'])
#product_df.to_csv("ecommerce.csv",index=False)

In [48]:
product_df

Unnamed: 0,Titles,Prices,Ratings,Description
0,Lenovo V510 Black,$487.8,2,"Lenovo V510 Black, 15.6"" HD, Core i3-6006U, 4G..."
1,Dell Latitude 5580,$1144.4,3,"Dell Latitude 5580, 15.6"" FHD, Core i5-7300U, ..."
2,Dell Inspiron 17 2in1 (7779) Silver,$1124.2,3,"Dell Inspiron 17 2in1 (7779) Silver, 17.3"" FHD..."


#Taller 1:

In [49]:
import requests
from bs4 import BeautifulSoup

# URL de la página web que quieres analizar
url = "https://www.mercadolibre.com.co/ofertas"

# Realizar la solicitud HTTP para obtener el contenido de la página
response = requests.get(url)

# Comprobar que la solicitud fue exitosa (código 200)
if response.status_code == 200:
    # Parsear el contenido HTML con BeautifulSoup
    soup = BeautifulSoup(response.text, "html.parser")

    # Ejemplo de extracción: obtener todos los enlaces (etiquetas <a>)
    enlaces = soup.find_all("a")
    
else:
    print(f"Error al acceder a la página. Código de estado: {response.status_code}")
    

In [89]:
links = []
nombre = []
precio = []
vendedor = []
caracteristicas = []
calificacion_v = []
comentarios = []
estado = []
c_ventas = []
calificacion_p = []
c_opiniones = []

url = 'https://www.mercadolibre.com.co/ofertas'


request = requests.get(url)
soup = BeautifulSoup(request.text, "html.parser")


for product in soup.find_all('div', {'class': 'items-with-smart-groups'}):
  for link in product.find_all('a', {'class': 'poly-component__title'}):
    while len(links)<= 30:
      links.append(link.get('href'))
      
      break
    
    
for entry in links:
  request = requests.get(entry)
  soup = BeautifulSoup(request.text, "html.parser")
  for product in soup.find_all('h1', {'class':'ui-pdp-title'}):
    if product:
        nombre.append(product.text.strip())
    else:
        print(f"[AVISO] No se encontró el nombre del producto en: {entry}")
    
    
  for valor in soup.find_all('div', {'class':'ui-pdp-price__second-line'}):
    for price in valor.find_all('span', {'class':'andes-money-amount__fraction'}):
      if price:
            precios = int(price.text.strip().replace('.', ''))
            precio.append(precios)
      else:
          print(f"[AVISO] No se encontró el precio en: {entry}")
      
      
  for seller in soup.find_all('span', {'class':'ui-pdp-seller__label-text-with-icon'}):
    vendedor.append(seller.text)
  for seller_2 in soup.find_all('div', {'class':'ui-pdp-seller__header__title'}):
    for seller_3 in seller_2.find_all('span', {'class':""}):
      if seller_3:
                vendedor.append(seller_3.text.strip())
      else:
                print(f"[AVISO] No se encontró el vendedor en: {entry}")

  
  for description in soup.find_all('p', {'class':'ui-pdp-description__content'}):
    if description:
        caracteristicas.append(description.text.strip())
    else:
        print(f"[AVISO] No se encontró la descripción en: {entry}")

  
  for rating in soup.find_all('ul', {'class':'ui-seller-data-status__thermometer thermometer-large'}):
    if rating:
        calificacion_v.append(rating.get('value'))
    else:
        print(f"[AVISO] No se encontró la calificación en: {entry}")
    
    
  for comments in soup.find_all('div', {'class':'ui-review-capability-comments'}):
    particion = []
    if comments:
      for comments_2 in comments.find_all('div'):
        for comments_3 in comments_2.find_all('p', {'class':'ui-review-capability-comments__comment__content ui-review-capability-comments__comment__content'}):
          particion.append(comments_3.text.strip())
      comentarios.append(' '.join(particion))
    else:
        print(f"[AVISO] No se encontró la sección de comentarios en: {entry}")
  
  
  for sells in soup.find_all('span', {'class': 'ui-pdp-subtitle'}):
    texto = sells.text.strip()
    if "|" in texto:
        partes = texto.split('|')
        estado_v = partes[0].strip()
        ventas = partes[1].strip()
        ventas = ventas.replace('+', '').replace('vendidos', '').strip()
        if "mil" in ventas:
            ventas = ventas.replace("mil", "").strip()
            if ventas == "":
                ventas = 1000
            else:
                ventas = int(ventas) * 1000
        else:
            try:
                ventas = int(ventas)
            except ValueError:
                print(f"[AVISO] No se pudo convertir ventas a número: {ventas}")
                ventas = 0
        estado.append(estado_v)
        c_ventas.append(ventas)
    else:
        print(f"[AVISO] No se encontró el delimitador '|' en el texto: {texto}")
    
    
  for valoration in soup.find_all('span', {'class':'ui-pdp-review__rating'}):
    if valoration:
      calificacion_p.append(valoration.text)
    else:
        print(f"[AVISO] No se encontró la sección de comentarios en: {entry}")
  
    
  for opinions in soup.find_all('span', {'class':'ui-pdp-review__amount'}):
    if opinions:
      c_opiniones.append(opinions.text.strip('()'))
    else:
        print(f"[AVISO] No se encontró la sección de comentarios en: {entry}")
        
          
product_df = pd.DataFrame(zip(nombre,precio,c_ventas,calificacion_p,c_opiniones,vendedor,caracteristicas,calificacion_v,comentarios),
                          columns = ['Nombre', 'Precio','Cantidad Ventas','Calificacion Producto','Cantidad Opiniones', 'Vendedor', 'Descripcion', 'Rating Vendedor', 'Comentarios'])
product_df.to_csv("ecommerce.csv",index=False)

In [90]:
product_df

Unnamed: 0,Nombre,Precio,Cantidad Ventas,Calificacion Producto,Cantidad Opiniones,Vendedor,Descripcion,Rating Vendedor,Comentarios
0,Xiaomi POCO Poco X6 Pro 5G Dual SIM 512 GB neg...,1304900,1000,4.9,2095,CELUMOVIL STORE,Fotografía profesional en tu bolsilloDescubre ...,5,"Es un dispositivo muy poderoso,muchas gracias."
1,Nintendo Switch Oled 64gb Standard Color Rojo ...,1189900,1000,4.9,1919,CELUMOVIL STORE,La consola Switch ofrece entretenimiento diari...,5,
2,Tarjeta de video Nvidia MSI Ventus 2X GeForce...,1469900,100,4.9,78,TAURET.COMPUTADORES,Este componente electrónico procesa la informa...,5,Genial rendimiento y eso que no he actualizado...
3,Jbl Partybox Encore Essential - Altavoz De Fie...,909900,100,4.8,85,Ixcomercio Colombia,JBL PartyBox Encore Essential - Altavoz portát...,5,"Muy buena relación precio calidad y potencia, ..."
4,Audífonos Sony Noise Cancelling Bluetooth Hi-r...,819900,5000,4.9,1328,SONY COLOMBIA,"Sony, sin lugar a dudas es una de las marcas m...",5,Una retrochimba. Llevo al rededor de unas sema...
5,Impresora multifunción a color Epson EcoTank l...,1179900,500,4.7,180,Epson,Epson busca que sus clientes obtengan el máxim...,5,"Hasta el momento todo marcha muy bien, gracias..."
6,Xiaomi POCO Poco X6 Pro 5G Dual SIM 512 GB ama...,1304900,1000,4.9,2095,CELUMOVIL STORE,Fotografía profesional en tu bolsilloDescubre ...,5,"Es un dispositivo muy poderoso,muchas gracias."
7,Nintendo Switch Oled 64gb Color Blanco/negro,1189900,1000,4.9,1919,CELUMOVIL STORE,Aviso legal• La duración de la batería depende...,5,
8,Hidrolavadora Electrica Trent Hlt203 1400w Alt...,193956,5000,4.8,2729,FEMMTO COLOMBIA,Optimiza tus tareas de limpieza con esta hidro...,5,Excelente producto lo recomiendo y es economic...
9,Portátil Asus E1504ga-nj103 Core I3 Ram 8 Gb S...,1200000,1000,4.8,213,PCTEL BTA,Aviso legal• La duración de la batería depende...,5,No cuenta con lector de huellas digitales y en...


In [98]:
df_total = pd.read_csv('ecommerce.csv')

In [99]:
df_total['Comentarios']

0       Es un dispositivo muy poderoso,muchas gracias. 
1                                                   NaN
2     Genial rendimiento y eso que no he actualizado...
3     Muy buena relación precio calidad y potencia, ...
4     Una retrochimba. Llevo al rededor de unas sema...
5     Hasta el momento todo marcha muy bien, gracias...
6       Es un dispositivo muy poderoso,muchas gracias. 
7                                                   NaN
8     Excelente producto lo recomiendo y es economic...
9     No cuenta con lector de huellas digitales y en...
10    Excelente producto a simple vista, veremos la ...
11    Producto súper recomendado!. Excelente product...
12    Es muy aparente, cómoda y cumple con sus propó...
13    La consola es original, sin embargo es importa...
14    Llevo ya casi un mes con él y es un excelente ...
15                   De lo mejor en portatiles que hay.
16    Es un excelente producto y mucho más económico...
17    Excelente tal y como lo esperaba. Muy buen

In [100]:
df_total.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 31 entries, 0 to 30
Data columns (total 9 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Nombre                 31 non-null     object 
 1   Precio                 31 non-null     int64  
 2   Cantidad Ventas        31 non-null     int64  
 3   Calificacion Producto  31 non-null     float64
 4   Cantidad Opiniones     31 non-null     int64  
 5   Vendedor               31 non-null     object 
 6   Descripcion            31 non-null     object 
 7   Rating Vendedor        31 non-null     int64  
 8   Comentarios            29 non-null     object 
dtypes: float64(1), int64(4), object(4)
memory usage: 2.3+ KB


In [115]:
no_null = df_total[df_total["Comentarios"].notna()]
data = no_null.head(20).reset_index()
df = data.drop(columns=['index'])

In [116]:
df

Unnamed: 0,Nombre,Precio,Cantidad Ventas,Calificacion Producto,Cantidad Opiniones,Vendedor,Descripcion,Rating Vendedor,Comentarios
0,Xiaomi POCO Poco X6 Pro 5G Dual SIM 512 GB neg...,1304900,1000,4.9,2095,CELUMOVIL STORE,Fotografía profesional en tu bolsilloDescubre ...,5,"Es un dispositivo muy poderoso,muchas gracias."
1,Tarjeta de video Nvidia MSI Ventus 2X GeForce...,1469900,100,4.9,78,TAURET.COMPUTADORES,Este componente electrónico procesa la informa...,5,Genial rendimiento y eso que no he actualizado...
2,Jbl Partybox Encore Essential - Altavoz De Fie...,909900,100,4.8,85,Ixcomercio Colombia,JBL PartyBox Encore Essential - Altavoz portát...,5,"Muy buena relación precio calidad y potencia, ..."
3,Audífonos Sony Noise Cancelling Bluetooth Hi-r...,819900,5000,4.9,1328,SONY COLOMBIA,"Sony, sin lugar a dudas es una de las marcas m...",5,Una retrochimba. Llevo al rededor de unas sema...
4,Impresora multifunción a color Epson EcoTank l...,1179900,500,4.7,180,Epson,Epson busca que sus clientes obtengan el máxim...,5,"Hasta el momento todo marcha muy bien, gracias..."
5,Xiaomi POCO Poco X6 Pro 5G Dual SIM 512 GB ama...,1304900,1000,4.9,2095,CELUMOVIL STORE,Fotografía profesional en tu bolsilloDescubre ...,5,"Es un dispositivo muy poderoso,muchas gracias."
6,Hidrolavadora Electrica Trent Hlt203 1400w Alt...,193956,5000,4.8,2729,FEMMTO COLOMBIA,Optimiza tus tareas de limpieza con esta hidro...,5,Excelente producto lo recomiendo y es economic...
7,Portátil Asus E1504ga-nj103 Core I3 Ram 8 Gb S...,1200000,1000,4.8,213,PCTEL BTA,Aviso legal• La duración de la batería depende...,5,No cuenta con lector de huellas digitales y en...
8,Bateria 10 Piezas Antiadherente Talent - Imusa...,199900,1000,4.8,646,GROUPESEBANDEAN,Productos Originales directamente desde ImusaS...,5,"Excelente producto a simple vista, veremos la ..."
9,E-reader Kindle 11va Generación 16gb Negro Con...,520000,1000,4.9,485,PCTELCOMPUTO,"Con este E-reader Kindle, podrás almacenar los...",5,Producto súper recomendado!. Excelente product...


In [117]:
polaridad_inicial = []
polaridad_final = []
subjetividad_inicial = []
subjetividad_final = []


frases = df['Comentarios']
for frase in frases:
  
  blob = TextBlob(frase)
  translation = translator.translate(str(blob), src='es', dest='en').text
  
  
  blob_t = TextBlob(translation)
  sentimiento = blob_t.sentiment
  polaridad = sentimiento.polarity
  subjetividad = sentimiento.subjectivity
  polaridad_inicial.append(polaridad)
  subjetividad_inicial.append(subjetividad)

  
  tokens=word_tokenize(translation.lower())
  prueba_2 = [stemmer2.stem(palabra_2) for palabra_2 in tokens]

  
  prueba_3 = [lemmatizer.lemmatize(palabra_3) for palabra_3 in tokens]

  
  stopwords = nltk.corpus.stopwords.words('english')
  newtokens=[word for word in tokens if word not in stopwords]

  
  
  sentence = ' '.join(newtokens)

  
  translation_2 = translator.translate(str(sentence), src='en', dest='es').text

  
  blob_t = TextBlob(sentence)
  sentimiento_t = blob_t.sentiment
  polaridad_t = sentimiento_t.polarity
  subjetividad_t = sentimiento_t.subjectivity
  polaridad_final.append(polaridad_t)
  subjetividad_final.append(subjetividad_t)
sentimiento_df = pd.DataFrame(zip(polaridad_inicial,subjetividad_inicial,polaridad_final,subjetividad_final), 
                              columns=['Polaridad Inicial','Subjetividad Inicial','Polaridad Final','Subjetividad Final'])

In [119]:
df_final = pd.concat([df,sentimiento_df],axis=1)
df_final

Unnamed: 0,Nombre,Precio,Cantidad Ventas,Calificacion Producto,Cantidad Opiniones,Vendedor,Descripcion,Rating Vendedor,Comentarios,Polaridad Inicial,Subjetividad Inicial,Polaridad Final,Subjetividad Final
0,Xiaomi POCO Poco X6 Pro 5G Dual SIM 512 GB neg...,1304900,1000,4.9,2095,CELUMOVIL STORE,Fotografía profesional en tu bolsilloDescubre ...,5,"Es un dispositivo muy poderoso,muchas gracias.",0.325,0.63,0.25,0.6
1,Tarjeta de video Nvidia MSI Ventus 2X GeForce...,1469900,100,4.9,78,TAURET.COMPUTADORES,Este componente electrónico procesa la informa...,5,Genial rendimiento y eso que no he actualizado...,0.401429,0.528571,0.472,0.578
2,Jbl Partybox Encore Essential - Altavoz De Fie...,909900,100,4.8,85,Ixcomercio Colombia,JBL PartyBox Encore Essential - Altavoz portát...,5,"Muy buena relación precio calidad y potencia, ...",0.742,0.676,0.7,0.64
3,Audífonos Sony Noise Cancelling Bluetooth Hi-r...,819900,5000,4.9,1328,SONY COLOMBIA,"Sony, sin lugar a dudas es una de las marcas m...",5,Una retrochimba. Llevo al rededor de unas sema...,0.228333,0.598333,0.278846,0.644231
4,Impresora multifunción a color Epson EcoTank l...,1179900,500,4.7,180,Epson,Epson busca que sus clientes obtengan el máxim...,5,"Hasta el momento todo marcha muy bien, gracias...",0.5625,0.56,0.714063,0.625
5,Xiaomi POCO Poco X6 Pro 5G Dual SIM 512 GB ama...,1304900,1000,4.9,2095,CELUMOVIL STORE,Fotografía profesional en tu bolsilloDescubre ...,5,"Es un dispositivo muy poderoso,muchas gracias.",0.325,0.63,0.25,0.6
6,Hidrolavadora Electrica Trent Hlt203 1400w Alt...,193956,5000,4.8,2729,FEMMTO COLOMBIA,Optimiza tus tareas de limpieza con esta hidro...,5,Excelente producto lo recomiendo y es economic...,0.97,0.926667,0.9,0.866667
7,Portátil Asus E1504ga-nj103 Core I3 Ram 8 Gb S...,1200000,1000,4.8,213,PCTEL BTA,Aviso legal• La duración de la batería depende...,5,No cuenta con lector de huellas digitales y en...,0.27225,0.418,0.258929,0.414286
8,Bateria 10 Piezas Antiadherente Talent - Imusa...,199900,1000,4.8,646,GROUPESEBANDEAN,Productos Originales directamente desde ImusaS...,5,"Excelente producto a simple vista, veremos la ...",0.4,0.6,0.4,0.6
9,E-reader Kindle 11va Generación 16gb Negro Con...,520000,1000,4.9,485,PCTELCOMPUTO,"Con este E-reader Kindle, podrás almacenar los...",5,Producto súper recomendado!. Excelente product...,0.22619,0.495238,0.327778,0.611111


In [137]:
w1, w2, w3, w4, w5, w6 = 0.2, 0.2, 0.1, 0.2, 0.2, 0.1

max_ventas = df_final['Cantidad Ventas'].max()
max_opiniones = df_final['Cantidad Opiniones'].max()

df_final['Puntaje'] = 10 * (
    w1 * (df_final['Cantidad Ventas'] / max_ventas) +
    w2 * (df_final['Calificacion Producto'] / 5) +
    w3 * (df_final['Cantidad Opiniones'] / max_opiniones) +
    w4 * (df_final['Rating Vendedor'] / 5) +
    w5 * ((df_final['Polaridad Final'] + 1) / 2) -
    w6 * df_final['Subjetividad Final']
)

top_10_productos = df_final[['Nombre', 'Puntaje', 'Precio']].sort_values(by='Puntaje', ascending=False).head(10)

pivot_table = top_10_productos.pivot_table(index='Nombre', values=['Puntaje', 'Precio'], aggfunc='mean').sort_values(by='Puntaje', ascending=False)

In [138]:
pivot_table

Unnamed: 0_level_0,Precio,Puntaje
Nombre,Unnamed: 1_level_1,Unnamed: 2_level_1
Disco Solido 500 Gb Crucial Bx500,129900.0,7.511149
Hidrolavadora Electrica Trent Hlt203 1400w Alta Presion 1600 Psi 110 Bar Con Accesorios By Femmto,193956.0,6.721633
Xiaomi Redmi 13C Dual SIM 256 GB midnight black 8 GB RAM,479940.0,6.18
Audífonos Sony Noise Cancelling Bluetooth Hi-res Wh-1000xm4 Color Negro,819900.0,5.968489
Portátil Asus Tuf Gaming F15 Intel Core I5 12500h 24gb 512gb Color Gris,3299000.0,5.706689
Xiaomi POCO Poco X6 Pro 5G Dual SIM 512 GB amarillo 12 GB RAM,1304900.0,5.399809
Xiaomi POCO Poco X6 Pro 5G Dual SIM 512 GB negro 12 GB RAM,1304900.0,5.399809
Impresora multifunción a color Epson EcoTank l5590 con wifi 110V,1179900.0,5.119738
Monitor Gamer Samsung 24 Odyssey G3 Pivot Freesync Premium 165hz 1ms,669900.0,5.112365
Bateria 10 Piezas Antiadherente Talent - Imusa 5861029311,199900.0,5.101869
