### Predicción de Noticias

In [19]:
import pickle
import seaborn as sns
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report
from sklearn.ensemble import RandomForestClassifier


import warnings
warnings.filterwarnings('ignore')

#### Lectura de Datos

In [9]:
with open("../dataset/data.pkl", "rb") as file:
    df = pickle.load(file)

In [10]:
def porcentajeNulos(df, umbral):
    # Calcula el porcentaje de nulos por columna

    porcentajeNulos = df.isna().sum().sort_values(ascending=False) / len(df)
    # Filtra las columnas que superan el umbral
    columnas = porcentajeNulos[(porcentajeNulos >= umbral)]

    # Muestra el resultado
    if not columnas.empty:
        print("Columnas con mas del {}% de valores nulos:".format(umbral * 100))
        print(columnas)
        
    else :
        print("No hay columnas con mas del {}% de valores nulos.".format(umbral * 100))

porcentajeNulos(df, umbral=0)

Columnas con mas del 0% de valores nulos:
label      0.0
content    0.0
dtype: float64


In [11]:
X = df["content"]
y = df["label"]

In [23]:
X_train, X_test, y_train, y_test =  train_test_split(X, y, test_size=0.4, random_state=42)


# Se utiliza TfidfVectorizer de scikit-learn para convertir el texto en una representación numérica basada en TF-IDF, 
# tanto para los datos de entrenamiento como para los de prueba, lo que permite utilizar algoritmos de aprendizaje automático con datos de texto.


#este objeto "vector" contiene los parámetros y métodos necesarios para convertir texto en una matriz numérica basada en TF-IDF
vector = TfidfVectorizer()

x_train = vector.fit_transform(X_train)
x_test = vector.transform(X_test)


## Regresion Logistica

In [24]:
modelo = LogisticRegression()
modelo.fit(x_train,y_train)
y_pred = modelo.predict(x_test)

modelo.score(x_test, y_test)

0.9890902987579725

In [29]:
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.99      0.99      0.99      9353
           1       0.99      0.99      0.99      8521

    accuracy                           0.99     17874
   macro avg       0.99      0.99      0.99     17874
weighted avg       0.99      0.99      0.99     17874



## Random Forest Classifier

In [30]:
modelo = RandomForestClassifier(random_state=0)
modelo.fit(x_train, y_train)
y_pred = modelo.predict(x_test)

In [31]:
modelo.score(x_test, y_test)

0.9965872216627504

In [35]:
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00      9353
           1       1.00      1.00      1.00      8521

    accuracy                           1.00     17874
   macro avg       1.00      1.00      1.00     17874
weighted avg       1.00      1.00      1.00     17874

