In [1]:
import pandas as pd

import spacy
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import networkx as nx
from sklearn.metrics.pairwise import cosine_similarity

In [2]:
df_capital = pd.read_csv('datasets/lacapital.csv')

df_capital.dropna(inplace=True)

# Limpieza y normalización de texto 

In [3]:
import unicodedata
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

nltk.download('stopwords')
nltk.download('punkt')

stop_words = set(stopwords.words('spanish'))

def remove_accents(input_str):
  nfkd_form = unicodedata.normalize('NFKD', input_str)
  return ''.join([c for c in nfkd_form if not unicodedata.combining(c)])

def remove_stopwords(text):
  word_tokens = word_tokenize(text)
  filtered_text = [word for word in word_tokens if word.casefold() not in stop_words]
  return " ".join(filtered_text)

for col in df_capital.columns[:-2]:
    df_capital[col] = df_capital[col].str.lower()
    df_capital[col] = df_capital[col].str.replace('[^\w\s]', '', regex=True)
    df_capital[col] = df_capital[col].apply(remove_stopwords)
    df_capital[col] = df_capital[col].apply(remove_accents)

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\PC\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\PC\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [4]:
df_capital

Unnamed: 0,titulo,texto,categoria,url,fecha
0,tiempo rosario sabado calor anticipo lluvias,servicio meteorologico nacional smn indico pro...,ciudad,https://www.lacapital.com.ar/la-ciudad/el-tiem...,2023-10-20T22:53:00
1,provincial debuta sabado liga argentina,provincial debutara sabado 22 salvador bonilla...,ovacion,https://www.lacapital.com.ar/ovacion/provincia...,2023-10-20T22:20:00
2,efecto sequia economia santa fe cayo 76,actividad economica santa fe cayo 76 julio acu...,economia,https://www.lacapital.com.ar/economia/por-efec...,2023-10-20T22:11:00
3,tensa tregua cambiaria semana preelectoral,refuerzo swap chino fuerzas seguridad mercado ...,economia,https://www.lacapital.com.ar/economia/tensa-tr...,2023-10-20T22:09:00
4,plaza juega salvacion top 12 urba,sabado finaliza fase regular top 12 jornada de...,ovacion,https://www.lacapital.com.ar/ovacion/plaza-jue...,2023-10-20T22:05:00
...,...,...,...,...,...
210,quedo preso femicida mato pareja pension barri...,julio alberto ramirez changarin mercado produc...,policiales,https://www.lacapital.com.ar/policiales/quedo-...,2023-10-21T17:30:00
211,atilra salio cruce sancor videos muestran cami...,comunicado difundido sabado consejo directivo ...,informacion general,https://www.lacapital.com.ar/informacion-gener...,2023-10-21T17:23:00
212,confirman asesinato noveno argentino manos ham...,argentina sumo novena victima fatal menos grup...,mundo,https://www.lacapital.com.ar/el-mundo/confirma...,2023-10-21T17:16:00
213,juegos panamericanos pacheco remo metio final,jornada sabatina bien tempranito rosarino igna...,ovacion,https://www.lacapital.com.ar/ovacion/juegos-pa...,2023-10-21T16:33:00


# Ejercicio 2

In [5]:
df_capital['categoria'].value_counts()

categoria
ovacion                46
politica               34
ciudad                 25
zoom                   21
policiales             19
region                 16
informacion general    13
economia               11
mundial rugby 2023      8
mundo                   5
educacion               4
turismo                 4
negocios                2
colon                   1
julian montoya          1
baby etchecopar         1
opinion                 1
Name: count, dtype: int64

In [6]:
categorias = df_capital['categoria'].value_counts()
categorias = categorias[categorias >= 10].index[:4]

In [7]:
categorias_df = list()

for categoria in categorias:
    temp_df = df_capital[df_capital['categoria'] == categoria]
    categorias_df.append(temp_df.sample(10, random_state=1))

In [8]:
x = list()
y = list()
z = list()

for df in categorias_df:
    x += df['titulo'].tolist()
    y += df['categoria'].tolist()
    z += df['texto'].tolist() #ACA

In [9]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics import accuracy_score, classification_report

In [10]:
x_train, x_test, y_train, y_test = \
    train_test_split(x, y, test_size=0.2, random_state=1)

In [11]:
vectorizer = TfidfVectorizer()
x_train_vectorized = vectorizer.fit_transform(x_train)
x_test_vectorized = vectorizer.transform(x_test)

modelo_LR = LogisticRegression(max_iter=1000)
modelo_LR.fit(x_train_vectorized, y_train)

In [12]:
y_pred_LR = modelo_LR.predict(x_test_vectorized)
acc_LR = accuracy_score(y_test, y_pred_LR)
report_LR = classification_report(y_test, y_pred_LR, zero_division=1)

In [13]:
print("Precisión Regresión Logística:", acc_LR)
print("Reporte de clasificación Regresión Logística:\n", report_LR)

Precisión Regresión Logística: 0.625
Reporte de clasificación Regresión Logística:
               precision    recall  f1-score   support

      ciudad       1.00      0.50      0.67         4
     ovacion       1.00      0.50      0.67         2
    politica       0.00      1.00      0.00         0
        zoom       1.00      1.00      1.00         2

    accuracy                           0.62         8
   macro avg       0.75      0.75      0.58         8
weighted avg       1.00      0.62      0.75         8



In [14]:
print(modelo_LR.predict(vectorizer.transform(["en pesos", "pesos de los pumas",
                                              "pesos de los pumas con milei",
                                              "pesos de los pumas con milei en un show de cine"])))

['politica' 'ovacion' 'politica' 'zoom']


# Ejercicio 3

# Ejercicio 4

# Ejercicio 5


In [23]:
#x = titulo
#Y = categoria 
#Z = texto
combinado = {}
for categoria, texto in zip(y, z):
    if categoria in combinado:
        combinado[categoria].append(texto)
    else:
        combinado[categoria] = [texto]

print(combinado["ciudad"][3])

In [None]:
# Menu interactivo
def get_resumenes():
    while True:
        valor = input("Seleccionar categoria (ovacion, politica, ciudad, zoom)")
        if valor not in y:
            return ("Error")
        
get_resumenes()
        

In [25]:
nlp = spacy.load("es_core_news_md")
#print(combinado["ciudad"][3])
texto_procesado1 = [nlp(text) for text in combinado["politica"]]
#textos_procesados = [nlp(text) for text in z]

print(texto_procesado1)

[candidato presidencial libertad avanza lla javier milei cerro miercoles campana electoral nutrido acto estadio movistar arena barrio porteno villa crespo afirmo elecciones domingo importantes historia posible ganar primera vuelta posiblemente pasado desierto 40 anos llegar libertad exclamo milei discurso pronuncio auditorio colmado destaco elecciones importantes ultimos 107 anos senalo esperanza solo posible si futuro liberal ademas critico sectores calificaban libertarismo fenomeno barrial remarco contrario fenomeno nivel mundial recordo incursion politica busca enfrentar colectivistas ganarles luego critico sistema economico enfatizo modelo lleva convertirnos villa misera grande mundo necesario punto inflexion milei hablo reformas economicas pretende hacer caso ser presidente afirmo consiste propiedad privada mercados libres intervencion libre competencia solo sirve ser exitoso servir projimo hoy frente misma disyuntiva podemos continuar camino seguro lleva ser pobre seguir camino l

In [28]:

# Lematizar y eliminar stopwords de cada oración
lemmatized_sentences = []
original_sentences = []
for sent in texto_procesado1:
    lemmatized_sentence = " ".join([token.lemma_ for token in sent if not token.is_stop and not token.is_punct])
    if lemmatized_sentence.strip() != '':  # Asegurarse de que la oración no esté vacía
        lemmatized_sentences.append(lemmatized_sentence)
        original_sentences.append(str(sent).strip())

        # Procesar las oraciones lematizadas con spaCy para obtener sus vectores
lemmatized_docs = [nlp(sent) for sent in lemmatized_sentences]

# Obtenemos una lista con los vectores de cada oración
sentence_vectors = [sent.vector for sent in lemmatized_docs]

# Crear una matriz de similitud entre las oraciones filtradas
similarity_matrix = cosine_similarity(sentence_vectors)



def summarize(similarityMatrix, num_sentences=5): 

    nx_graph = nx.from_numpy_array(similarityMatrix)
    scores = nx.pagerank(nx_graph)

    ranked_sentences = sorted(((scores[i], s) for i, s in enumerate(original_sentences)), reverse=True)
    return '/ / / / / / / / / /'.join([ranked_sentences[i][1] for i in range(num_sentences)])

# Generar resumen extractivo
resumen = summarize(similarity_matrix, num_sentences=5)
print("\nResumen Extractivo:")
print(f'{resumen}\n')


Resumen Extractivo:
santafesinos domingo jueces comicios generales inciertos regreso democracia argentina casi 40 anos atras jornada indefectiblemente irrumpira nuevo ciclo historico superador cualquier resultado par enfrentar inedito escenario tres tercios posibilidades desembocar balotaje eleccion presidente vice deberan renovar parlasur definir quienes ocuparan diez bancas provincia diputados nacion altas chances segunda vuelta presidencial prevista 19 noviembre proximo aunque descartar definicion inmediata alimentadas continuidad paso agosto escasa diferencia tres principales candidatos casa rosada lapso gran parte sociedad argentina siguio sintiendose escuchada ahora encara votacion decisiva surcada cansancio falta certezas abonada mercados elevaron maximo nivel nerviosismo campana si bien contemplo dos debates obligatorios cinco aspirantes aposto exclusivamente reforzar sufragios seguros puso juego valores democraticos recuperados tras dictadura civico militar sergio massa union