In [1]:
import numpy as np 
import pandas as pd
import re
import spacy as spc
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from sklearn.feature_extraction.text import CountVectorizer
from scipy.sparse import coo_matrix, hstack

In [2]:
oracion_p = "El presidente Andrés Manuel López Obrador anunció que tendrá una reunión con los padres de los 43 estudiantes desaparecidos de la Escuela Normal Rural de Ayotzinapa en los que les informará sobre los avances en la investigación."
oracion_d = "La gran incógnita en la previa del partido entre el equipo de Gerardo Martino y el Toronto FC sigue siendo la presencia o no de Lionel Messi en el equipo titular. Después de perderse el partido frente a Bolivia por las eliminatorias."
print(oracion_p)
print(oracion_d)
#Se asigana la nota politica y de deporte a las varibales oracion_p y oracion_d

El presidente Andrés Manuel López Obrador anunció que tendrá una reunión con los padres de los 43 estudiantes desaparecidos de la Escuela Normal Rural de Ayotzinapa en los que les informará sobre los avances en la investigación.
La gran incógnita en la previa del partido entre el equipo de Gerardo Martino y el Toronto FC sigue siendo la presencia o no de Lionel Messi en el equipo titular. Después de perderse el partido frente a Bolivia por las eliminatorias.


#### **Procedemos a limpiar los datos de ambas oraciones de la siguiente manera**

In [3]:
oracion_p = oracion_p.lower()   #Vamos a cambiar las letras mayusculas por letras minusculas 
#Procedemos a limpiar la oración 
oracion_p = re.sub(r"[0-9]", "", oracion_p)  # Eliminar números
oracion_p = re.sub(r"\n", "", oracion_p)  # Eliminar caracteres de nueva línea
oracion_p = re.sub(r"(http[s]?\://\S+)|([\[\(].*[\)\]])|([#@]\S+)|\n", "", oracion_p)  # Eliminar varios patrones
oracion_p = re.sub(r"(\.)|(,)", "", oracion_p)  # Eliminar puntos y comas
print(oracion_p) #Mostramos la oracion que ya se encuentra limpia de los caracteres que nos puedan afectar 

el presidente andrés manuel lópez obrador anunció que tendrá una reunión con los padres de los  estudiantes desaparecidos de la escuela normal rural de ayotzinapa en los que les informará sobre los avances en la investigación


In [4]:
#Ahora procedemos a limpiar la segunda oracion de la misma manera 
oracion_d = oracion_d.lower()   #Vamos a cambiar las letras mayusculas por letras minusculas 
#Procedemos a limpiar la oración 
oracion_d = re.sub(r"[0-9]", "", oracion_d)  # Eliminar números
oracion_d = re.sub(r"\n", "", oracion_d)  # Eliminar caracteres de nueva línea
oracion_d = re.sub(r"(http[s]?\://\S+)|([\[\(].*[\)\]])|([#@]\S+)|\n", "", oracion_d)  # Eliminar varios patrones
oracion_d = re.sub(r"(\.)|(,)", "", oracion_d)  # Eliminar puntos y comas
print(oracion_d) #Mostramos la oracion que ya se encuentra limpia de los caracteres que nos puedan afectar 

la gran incógnita en la previa del partido entre el equipo de gerardo martino y el toronto fc sigue siendo la presencia o no de lionel messi en el equipo titular después de perderse el partido frente a bolivia por las eliminatorias


####  **Vamos a realizar una Tokenización**

In [5]:
#Tokenización de la oracion politica 
tokens_p = word_tokenize(oracion_p)
#Tokenizacion de la oracion deportiva 
tokens_d = word_tokenize(oracion_d)

#Imprimimos las oraciones tokenizadas
print(tokens_p)
print(tokens_d)

['el', 'presidente', 'andrés', 'manuel', 'lópez', 'obrador', 'anunció', 'que', 'tendrá', 'una', 'reunión', 'con', 'los', 'padres', 'de', 'los', 'estudiantes', 'desaparecidos', 'de', 'la', 'escuela', 'normal', 'rural', 'de', 'ayotzinapa', 'en', 'los', 'que', 'les', 'informará', 'sobre', 'los', 'avances', 'en', 'la', 'investigación']
['la', 'gran', 'incógnita', 'en', 'la', 'previa', 'del', 'partido', 'entre', 'el', 'equipo', 'de', 'gerardo', 'martino', 'y', 'el', 'toronto', 'fc', 'sigue', 'siendo', 'la', 'presencia', 'o', 'no', 'de', 'lionel', 'messi', 'en', 'el', 'equipo', 'titular', 'después', 'de', 'perderse', 'el', 'partido', 'frente', 'a', 'bolivia', 'por', 'las', 'eliminatorias']


In [6]:
#Eliminamos las Stopwords de la oracion politica 

spanish_stopwords = stopwords.words('spanish')
palabras_filtradas_p = [palabra for palabra in tokens_p if palabra not in spanish_stopwords]
print(palabras_filtradas_p)

#Eliminamos las stopwords de la orcacion deportiva 
spanish_stopwords = stopwords.words('spanish')
palabras_filtradas_d = [palabra for palabra in tokens_d if palabra not in spanish_stopwords]
print(palabras_filtradas_d)

['presidente', 'andrés', 'manuel', 'lópez', 'obrador', 'anunció', 'reunión', 'padres', 'estudiantes', 'desaparecidos', 'escuela', 'normal', 'rural', 'ayotzinapa', 'informará', 'avances', 'investigación']
['gran', 'incógnita', 'previa', 'partido', 'equipo', 'gerardo', 'martino', 'toronto', 'fc', 'sigue', 'siendo', 'presencia', 'lionel', 'messi', 'equipo', 'titular', 'después', 'perderse', 'partido', 'frente', 'bolivia', 'eliminatorias']


#### **Lematizacion**

In [7]:
#Realizamos la oracion lematizada para la oracion politica 
nlp = spc.load("es_core_news_sm")
lema_p = nlp(" ".join(palabras_filtradas_p))
oracion_lematizada_p = " ".join([token.lemma_ for token in lema_p])

#Realizamos la oracion lematizada para la oracion deportiva 
nlp = spc.load("es_core_news_sm")
lema_d = nlp(" ".join(palabras_filtradas_d))
oracion_lematizada_d = " ".join([token.lemma_ for token in lema_d])

print(oracion_lematizada_p)
print(oracion_lematizada_d)

presidente andrés manuel lópez obrador anunciar reunión padre estudiante desaparecido escuela normal rural ayotzinapa informar avance investigación
gran incógnita previo partido equipo gerardo martino toronto fc seguir ser presencia lionel messi equipo titular después perder él partido frente bolivia eliminatorio


#### **Realizamos el Bag of word (bolsa de palabras) para la oracion politica**

In [8]:
vectorizador_p = CountVectorizer()
vectores_p = vectorizador_p.fit_transform([oracion_lematizada_p])
vocabulario_p = vectorizador_p.get_feature_names_out()

#### **Resultados para la oracion politica**

In [9]:
print("Oración de entrada:", oracion_p)
print("Oración lematizada:", oracion_lematizada_p)
print("Vectores Bag of Words:", vectores_p.toarray())
print("Vocabulario:", vocabulario_p)

Oración de entrada: el presidente andrés manuel lópez obrador anunció que tendrá una reunión con los padres de los  estudiantes desaparecidos de la escuela normal rural de ayotzinapa en los que les informará sobre los avances en la investigación
Oración lematizada: presidente andrés manuel lópez obrador anunciar reunión padre estudiante desaparecido escuela normal rural ayotzinapa informar avance investigación
Vectores Bag of Words: [[1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1]]
Vocabulario: ['andrés' 'anunciar' 'avance' 'ayotzinapa' 'desaparecido' 'escuela'
 'estudiante' 'informar' 'investigación' 'lópez' 'manuel' 'normal'
 'obrador' 'padre' 'presidente' 'reunión' 'rural']


#### **Realizamos el Bag of word (bolsa de palabras) para la oracion deportiva**

In [10]:
vectorizador_d = CountVectorizer()
vectores_d = vectorizador_d.fit_transform([oracion_lematizada_d])
vocabulario_d = vectorizador_d.get_feature_names_out()

#### **Resultados para la oracion deportiva**

In [11]:
print("Oración de entrada:", oracion_d)
print("Oración lematizada:", oracion_lematizada_d)
print("Vectores Bag of Words:", vectores_d.toarray())
print("Vocabulario:", vocabulario_d)

Oración de entrada: la gran incógnita en la previa del partido entre el equipo de gerardo martino y el toronto fc sigue siendo la presencia o no de lionel messi en el equipo titular después de perderse el partido frente a bolivia por las eliminatorias
Oración lematizada: gran incógnita previo partido equipo gerardo martino toronto fc seguir ser presencia lionel messi equipo titular después perder él partido frente bolivia eliminatorio
Vectores Bag of Words: [[1 1 1 2 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1]]
Vocabulario: ['bolivia' 'después' 'eliminatorio' 'equipo' 'fc' 'frente' 'gerardo'
 'gran' 'incógnita' 'lionel' 'martino' 'messi' 'partido' 'perder'
 'presencia' 'previo' 'seguir' 'ser' 'titular' 'toronto' 'él']


#### **Construir Dataframe**

In [12]:
df_bw_p = pd.DataFrame.sparse.from_spmatrix(vectores_p,columns = vocabulario_p)
df_bw_d = pd.DataFrame.sparse.from_spmatrix(vectores_d,columns = vocabulario_d)

#### **Agregar columna "clase"**

In [13]:
df_bw_p['Clase'] = 'Politica'
df_bw_d['Clase'] = 'Deporte'

In [14]:
df_bw_p.head()

Unnamed: 0,andrés,anunciar,avance,ayotzinapa,desaparecido,escuela,estudiante,informar,investigación,lópez,manuel,normal,obrador,padre,presidente,reunión,rural,Clase
0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,Politica


In [15]:
df_bw_d.head()

Unnamed: 0,bolivia,después,eliminatorio,equipo,fc,frente,gerardo,gran,incógnita,lionel,...,partido,perder,presencia,previo,seguir,ser,titular,toronto,él,Clase
0,1,1,1,2,1,1,1,1,1,1,...,2,1,1,1,1,1,1,1,1,Deporte


In [16]:
df = pd.merge(df_bw_p,df_bw_d, on = 'Clase', how = 'outer')
print(df)

   andrés  anunciar  avance  ayotzinapa  desaparecido  escuela  estudiante  \
0     1.0       1.0     1.0         1.0           1.0      1.0         1.0   
1     NaN       NaN     NaN         NaN           NaN      NaN         NaN   

   informar  investigación  lópez  ...  messi  partido  perder  presencia  \
0       1.0            1.0    1.0  ...    NaN      NaN     NaN        NaN   
1       NaN            NaN    NaN  ...    1.0      2.0     1.0        1.0   

   previo  seguir  ser titular  toronto   él  
0     NaN     NaN  NaN     NaN      NaN  NaN  
1     1.0     1.0  1.0     1.0      1.0  1.0  

[2 rows x 39 columns]


In [17]:
df = df.fillna(0)
df.head()


Unnamed: 0,andrés,anunciar,avance,ayotzinapa,desaparecido,escuela,estudiante,informar,investigación,lópez,...,messi,partido,perder,presencia,previo,seguir,ser,titular,toronto,él
0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,1.0,2.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0


In [18]:
df.columns   #De esta manera comocemos la posición de la columna Clase 

Index(['andrés', 'anunciar', 'avance', 'ayotzinapa', 'desaparecido', 'escuela',
       'estudiante', 'informar', 'investigación', 'lópez', 'manuel', 'normal',
       'obrador', 'padre', 'presidente', 'reunión', 'rural', 'Clase',
       'bolivia', 'después', 'eliminatorio', 'equipo', 'fc', 'frente',
       'gerardo', 'gran', 'incógnita', 'lionel', 'martino', 'messi', 'partido',
       'perder', 'presencia', 'previo', 'seguir', 'ser', 'titular', 'toronto',
       'él'],
      dtype='object')

In [19]:
#Obtener la posicion de la columna Clase por medio de get_loc
df.columns.get_loc('Clase')
#La cual se encuentra en la posición 17 
#Y la ultima columna 'el' se ecnuentra en la posición 38
#df.columns.get_loc('él')


17

In [None]:
#Así el resultado es el DataFrame con la columna Clase al final la cual en el primer lugar esta la clase politica y en el segundo lugar la clase deportes

column = df.pop('Clase')
df.insert(38, 'Clase', column)
df.head()