In [4]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report
from sklearn.preprocessing import StandardScaler

# Cargar los datos CSV
datos = pd.read_csv("fake-news/trainnuevo.csv")

# Convertir las etiquetas a tipo numérico
datos['label'] = datos['label'].astype(int)

# Dividir los datos en características (X) y etiquetas (y)
X = datos['text'].apply(len).values.reshape(-1, 1)  # Usar la longitud del texto como característica
y = datos['label']

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Normalizar las características
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Entrenar un modelo de regresión logística
model = LogisticRegression()
model.fit(X_train_scaled, y_train)

# Predecir las etiquetas para los datos de prueba
y_pred = model.predict(X_test_scaled)

# Calcular la precisión del modelo
accuracy = accuracy_score(y_test, y_pred)
print("Precisión del modelo de regresión logística: {:.2f}%".format(accuracy * 100))

# Imprimir un informe de clasificación
print("\nInforme de clasificación:")
print(classification_report(y_test, y_pred))


Precisión del modelo de regresión logística: 61.51%

Informe de clasificación:
              precision    recall  f1-score   support

           0       0.63      0.59      0.61      2073
           1       0.60      0.64      0.62      1951

    accuracy                           0.62      4024
   macro avg       0.62      0.62      0.62      4024
weighted avg       0.62      0.62      0.62      4024



In [5]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report
from sklearn.preprocessing import StandardScaler

# Cargar los datos CSV
datos = pd.read_csv("fake-news/trainnuevo.csv")

# Dividir los datos en características (X) y etiquetas (y)
X = datos['text'].apply(len).values.reshape(-1, 1)  # Usar la longitud del texto como característica
y = datos['label']

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Normalizar las características
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Entrenar un modelo SVM
model = SVC(kernel='linear')  # Usar un kernel lineal para SVM
model.fit(X_train_scaled, y_train)

# Predecir las etiquetas para los datos de prueba
y_pred = model.predict(X_test_scaled)

# Calcular la precisión del modelo
accuracy = accuracy_score(y_test, y_pred)
print("Precisión del modelo SVM: {:.2f}%".format(accuracy * 100))

# Imprimir un informe de clasificación
print("\nInforme de clasificación:")
print(classification_report(y_test, y_pred))

Precisión del modelo SVM: 61.33%

Informe de clasificación:
              precision    recall  f1-score   support

           0       0.65      0.54      0.59      2073
           1       0.59      0.69      0.64      1951

    accuracy                           0.61      4024
   macro avg       0.62      0.62      0.61      4024
weighted avg       0.62      0.61      0.61      4024



In [7]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report

# Cargar los datos desde un archivo CSV
datos = pd.read_csv("fake-news/trainnuevo.csv")

# Dividir los datos en características (X) y etiquetas (y)
X = datos['text']
y = datos['label']

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Vectorización de las características (con recuento de palabras)
vectorizer = CountVectorizer()
X_train_counts = vectorizer.fit_transform(X_train)
X_test_counts = vectorizer.transform(X_test)

# Entrenar el modelo Naive Bayes
clf = MultinomialNB()
clf.fit(X_train_counts, y_train)

# Predecir las etiquetas para los datos de prueba
y_pred = clf.predict(X_test_counts)

# Calcular la precisión del modelo
accuracy = accuracy_score(y_test, y_pred)
print("Precisión del modelo Naive Bayes: {:.2f}%".format(accuracy * 100))

# Imprimir un informe de clasificación
print("\nInforme de clasificación:")
print(classification_report(y_test, y_pred))


Precisión del modelo Naive Bayes: 90.08%

Informe de clasificación:
              precision    recall  f1-score   support

           0       0.86      0.96      0.91      2073
           1       0.95      0.84      0.89      1951

    accuracy                           0.90      4024
   macro avg       0.91      0.90      0.90      4024
weighted avg       0.91      0.90      0.90      4024



In [8]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report

# Cargar los datos desde un archivo CSV
datos = pd.read_csv("fake-news/trainnuevo.csv")

# Dividir los datos en características (X) y etiquetas (y)
X = datos['text']
y = datos['label']

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Vectorización de las características (con recuento de palabras)
vectorizer = CountVectorizer()
X_train_counts = vectorizer.fit_transform(X_train)
X_test_counts = vectorizer.transform(X_test)

# Entrenar el modelo Naive Bayes
clf = MultinomialNB()
clf.fit(X_train_counts, y_train)

# Predecir las etiquetas para los datos de prueba
y_pred = clf.predict(X_test_counts)

# Calcular la precisión del modelo
accuracy = accuracy_score(y_test, y_pred)
print("Precisión del modelo Naive Bayes: {:.2f}%".format(accuracy * 100))

# Imprimir un informe de clasificación
print("\nInforme de clasificación:")
print(classification_report(y_test, y_pred))


Precisión del modelo Naive Bayes: 90.08%

Informe de clasificación:
              precision    recall  f1-score   support

           0       0.86      0.96      0.91      2073
           1       0.95      0.84      0.89      1951

    accuracy                           0.90      4024
   macro avg       0.91      0.90      0.90      4024
weighted avg       0.91      0.90      0.90      4024



In [3]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report

# Paso 1: Cargar los datos
data = pd.read_csv('fake-news/trainnuevo.csv')  # Reemplaza 'datos_noticias.csv' con el nombre de tu archivo de datos

# Paso 2: Dividir los datos en características (X) y etiquetas (y)
X = data['text']  # Columna que contiene el texto de las noticias
y = data['label']  # Columna que contiene las etiquetas (0 para noticias verdaderas, 1 para noticias falsas)

# Paso 3: Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Paso 4: Vectorización de características (con TF-IDF)
vectorizer = TfidfVectorizer(max_features=5000)  # Vectorizador TF-IDF con un máximo de 5000 características
X_train_vectorized = vectorizer.fit_transform(X_train)
X_test_vectorized = vectorizer.transform(X_test)

# Paso 5: Inicializar y entrenar el clasificador de Bosque Aleatorio
clf = RandomForestClassifier(n_estimators=100, random_state=42)
clf.fit(X_train_vectorized, y_train)

# Paso 6: Predecir las etiquetas en el conjunto de prueba
y_pred = clf.predict(X_test_vectorized)

# Paso 7: Evaluar el rendimiento del modelo
accuracy = accuracy_score(y_test, y_pred)
print(f'Precisión del modelo: {accuracy:.2f}')

print("Reporte de Clasificación:")
print(classification_report(y_test, y_pred))

Precisión del modelo: 0.95
Reporte de Clasificación:
              precision    recall  f1-score   support

           0       0.94      0.95      0.95      2073
           1       0.95      0.94      0.94      1951

    accuracy                           0.95      4024
   macro avg       0.95      0.95      0.95      4024
weighted avg       0.95      0.95      0.95      4024



In [5]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score, classification_report
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, Conv1D, GlobalMaxPooling1D, Dense, Dropout

# Paso 1: Cargar los datos
data = pd.read_csv('fake-news/trainnuevo.csv') 

# Paso 2: Dividir los datos en características (X) y etiquetas (y)
X = data['text']
y = data['label']

# Paso 3: Convertir las etiquetas de texto a números
label_encoder = LabelEncoder()
y = label_encoder.fit_transform(y)

# Paso 4: Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Paso 5: Tokenización y secuenciación de texto
max_words = 10000  # Número máximo de palabras a considerar
max_len = 200  # Longitud máxima de la secuencia de entrada
tokenizer = Tokenizer(num_words=max_words)
tokenizer.fit_on_texts(X_train)
X_train_seq = tokenizer.texts_to_sequences(X_train)
X_test_seq = tokenizer.texts_to_sequences(X_test)
X_train_pad = pad_sequences(X_train_seq, maxlen=max_len)
X_test_pad = pad_sequences(X_test_seq, maxlen=max_len)

# Paso 6: Construir el modelo de Red Neuronal Convolucional (CNN)
embedding_dim = 100
model = Sequential()
model.add(Embedding(max_words, embedding_dim, input_length=max_len))
model.add(Conv1D(128, 5, activation='relu'))
model.add(GlobalMaxPooling1D())
model.add(Dense(128, activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(1, activation='sigmoid'))

# Paso 7: Compilar el modelo
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# Paso 8: Entrenar el modelo
epochs = 5
batch_size = 32
model.fit(X_train_pad, y_train, epochs=epochs, batch_size=batch_size, validation_split=0.2)

# Paso 9: Evaluar el modelo

y_pred_prob = model.predict(X_test_pad)
y_pred = np.round(y_pred_prob).flatten().astype(int)
accuracy = accuracy_score(y_test, y_pred)
print(f'Precisión del modelo: {accuracy:.2f}')

print("Reporte de Clasificación:")
print(classification_report(y_test, y_pred))




Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Precisión del modelo: 0.95
Reporte de Clasificación:
              precision    recall  f1-score   support

           0       0.95      0.96      0.95      2073
           1       0.95      0.95      0.95      1951

    accuracy                           0.95      4024
   macro avg       0.95      0.95      0.95      4024
weighted avg       0.95      0.95      0.95      4024



In [3]:
import numpy as np
import pandas as pd
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, LSTM, Dense

# Cargar los datos
data = pd.read_csv('fake-news/trainnuevo.csv')

# Preprocesamiento de datos
max_words = 10000
maxlen = 100
tokenizer = Tokenizer(num_words=max_words)
tokenizer.fit_on_texts(data['text'])
sequences = tokenizer.texts_to_sequences(data['text'])
X = pad_sequences(sequences, maxlen=maxlen)
y = data['label']

# Construir el modelo de red neuronal
model = Sequential()
model.add(Embedding(max_words, 32, input_length=maxlen))
model.add(LSTM(32))
model.add(Dense(1, activation='sigmoid'))

# Compilar el modelo
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# Entrenar el modelo
model.fit(X, y, epochs=10, batch_size=32, validation_split=0.2)



Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.callbacks.History at 0x1aa5041b5b0>