# Modelo de Regresion Logaritmica

 Aplicación de Regresión Logística en Noticias: Detección de Fake News
Un caso real donde se puede aplicar Regresión Logística es en la detección de noticias falsas. Con el auge de la información digital, los medios de comunicación y plataformas sociales enfrentan el desafío de identificar contenido engañoso o manipulado. La regresión logística es una técnica efectiva para clasificar noticias como verdaderas (1) o falsas (0) basándose en características textuales y metadatos.

 Fundamentación
La regresión logística es útil porque:
- Clasifica noticias en dos categorías (falsa o verdadera).
- Analiza patrones en el texto como el uso de palabras sensacionalistas o fuentes poco confiables.
- Puede entrenarse con datos históricos de noticias verificadas y falsas para mejorar su precisión.

 Caso real
Investigaciones han demostrado que modelos de Machine Learning, incluyendo regresión logística, han sido utilizados para detectar noticias falsas en plataformas como Twitter y Facebook. Estos modelos analizan el contenido textual y la estructura de las noticias para predecir su veracidad.
 


In [None]:
import pandas as pd
import matplotlib.pyplot as  plt

## Leer los archivos

In [None]:
data_real = pd.read_csv('true.csv')
data_fake = pd.read_csv('fake.csv')
data_fake.head()

### Agregar el "label"
-0 para noticias falsas

-1 para noticias verdaderas

In [None]:
data_fake["label"] = 0 
data_real["label"] = 1
print(data_fake.head())
print(data_real.head())

### Preparar los datos

-se unen los datos y se mezclan aleatoriamente

-se preparan los datos que se usarán

In [None]:
data = pd.concat([data_real , data_fake] , axis=0)
data = data.sample(frac=1).reset_index(drop = True)
data

In [None]:
data['text'] = data.title + " " + data.text
data = data[['text' , 'label']]
data.head()

## limpieza del texto
- se limpian los signos de puntuacion

In [None]:
def clean_text(text):
    import string

    text = text.lower()  # Convertir texto a minúsculas
    text = "".join([ch for ch in text if ch not in string.punctuation])  # Eliminar signos de puntuación
    words = text.split()
    return " ".join(words)



 se vectorizan los datos

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(max_features=5000, stop_words='english')

x = vectorizer.fit_transform(data["text"].apply(clean_text))
y= data["label"]

## entrenar el modelo

In [None]:
from sklearn.model_selection import train_test_split
x_train , x_test , y_train , y_test = train_test_split(x , y , test_size=0.2, train_size=0.8)

In [None]:
from sklearn.linear_model import LogisticRegression
model = LogisticRegression()
model.fit(x_train,y_train)

## pruebas y mediciones de presición

In [None]:
model.score(x_train,y_train)

In [None]:
model.score(x_test,y_test)

In [None]:
y_predictions = model.predict(x_test)
y_predictions

In [None]:
from sklearn.metrics import accuracy_score , classification_report

print("accuracy is: " , accuracy_score(y_test,y_predictions))

report = classification_report(y_test , y_predictions , output_dict=True)
Report = pd.DataFrame(report)

In [None]:
import matplotlib.pyplot as plt

# Contar cuántas noticias verdaderas y falsas hay en y_test
counts = y_test.value_counts()

plt.bar(counts.index, counts.values, alpha=0.7, color=['blue', 'red'])
plt.xlabel("Clase de noticias (0 = Falsa, 1 = Verdadera)")
plt.ylabel("Cantidad de noticias")
plt.title("Distribución de Noticias en el Conjunto de Prueba")
plt.xticks([0, 1], ["Falsa", "Verdadera"])
plt.show()