In [1]:
from google.colab import drive
drive.mount('/content/drive')

# Ruta que apunta a la carpeta de proyecto en Drive
PROJECT_DIR = "/content/drive/MyDrive/TFG-FakeNews"

# Para que trabaje en esa ruta cada vez que lo ejecutemos
%cd $PROJECT_DIR

# Comprobar que están los archivos Fake.csv y True.csv
!ls data


Mounted at /content/drive
/content/drive/MyDrive/TFG-FakeNews
Fake.csv  noticias.csv	noticias_preproc.csv  True.csv


#Creo dataset unificado


In [2]:
import pandas as pd

# Cargar datasets
df_fake = pd.read_csv(f"{PROJECT_DIR}/data/Fake.csv")
df_real = pd.read_csv(f"{PROJECT_DIR}/data/True.csv")

# Añadir etiqueta: 1 = fake, 0 = real
df_fake["label"] = 1
df_real["label"] = 0

# Unir y mezclar aleatoriamente
df = pd.concat([df_fake, df_real]).sample(frac=1, random_state=42).reset_index(drop=True)

# Guardar dataset combinado
df.to_csv(f"{PROJECT_DIR}/data/noticias.csv", index=False)
print(f"Dataset combinado guardado en: {PROJECT_DIR}/data/noticias.csv")

# Verificar estructura
df.head()


Dataset combinado guardado en: /content/drive/MyDrive/TFG-FakeNews/data/noticias.csv


Unnamed: 0,title,text,subject,date,label
0,Ben Stein Calls Out 9th Circuit Court: Committ...,"21st Century Wire says Ben Stein, reputable pr...",US_News,"February 13, 2017",1
1,Trump drops Steve Bannon from National Securit...,WASHINGTON (Reuters) - U.S. President Donald T...,politicsNews,"April 5, 2017",0
2,Puerto Rico expects U.S. to lift Jones Act shi...,(Reuters) - Puerto Rico Governor Ricardo Rosse...,politicsNews,"September 27, 2017",0
3,OOPS: Trump Just Accidentally Confirmed He Le...,"On Monday, Donald Trump once again embarrassed...",News,"May 22, 2017",1
4,Donald Trump heads for Scotland to reopen a go...,"GLASGOW, Scotland (Reuters) - Most U.S. presid...",politicsNews,"June 24, 2016",0


#Preparo el texto antes del modelo

In [None]:
import re
import nltk  #procesamiento de texto
from nltk.corpus import stopwords #para diferenciar palabras sin valor (por ejemplo preposiciones, pronombres --> the, of, and)

nltk.download('stopwords')
stop = set(stopwords.words('english'))

def clean_text(s):
    s = str(s).lower()  #pasamos todo a minusculas
    s = re.sub(r"http\S+", "", s)   #quitamos URLs
    s = re.sub(r"[^a-z0-9\s]", " ", s)  #eliminamos signos raros
    tokens = [w for w in s.split() if w not in stop and len(w) > 2]  #quitamos stopwords y palabras cortas
    return " ".join(tokens) #unimos texto

df["text_clean"] = df["text"].fillna("").apply(clean_text)

# Guardar dataset limpio
df.to_csv(f"{PROJECT_DIR}/data/noticias_preproc.csv", index=False)
print("Dataset limpio guardado como noticias_preproc.csv")


In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Distribución de clases
plt.figure(figsize=(5,4))
sns.countplot(data=df, x='label', palette='Set2')
plt.title('Distribución de clases (0 = Real, 1 = Fake)')
plt.show()

# Longitud de texto
df['text_len'] = df['text_clean'].apply(lambda x: len(x.split()))
sns.histplot(df['text_len'], bins=50, kde=True)
plt.title('Distribución de longitud de textos')
plt.show()

# Información general
print(df.info())
print(df.describe(include='all'))


#Lo subo a GitHub


In [None]:
# Me aseguro de estar en la carpeta del proyecto
%cd $PROJECT_DIR

In [None]:
# Verifico el estado actual del repositorio
!git status

In [None]:
# Configuro mi usuario de GitHub (por si inicio de nuevo Colab, que Git sepa quien soy)
!git config --global user.name "paabloolf-02"
!git config --global user.email "100451648@alumnos.uc3m.es"

In [None]:
# Añado el notebook actualizado
!git add notebooks/01_data_exploration.ipynb

In [None]:
# Creo el commit con mensaje claro
!git commit -m "Actualiza notebook 01_data_exploration"

In [None]:
# Pido el token de GitHub de forma segura (sin mostrarlo ni guardarlo)
from getpass import getpass
import subprocess

token = getpass('Introduce el token personal de GitHub: ')


In [None]:
# Construyo la URL temporal con el token (solo para este push)
remote_with_token = f"https://paabloolf-02:{token}@github.com/paabloolf-02/TFG-FakeNews.git"

In [None]:
# Subo los commits al repositorio remoto en GitHub
print("Subiendo cambios a GitHub...")
subprocess.run(['git', 'push', remote_with_token, 'main'], check=True)

In [None]:
# Restauro la URL original sin token (por seguridad, para que el repositorio quede limpio y sin credenciales)
subprocess.run(['git', 'remote', 'set-url', 'origin', 'https://github.com/paabloolf-02/TFG-FakeNews.git'])
print("Push completado correctamente y remoto restaurado.")

In [None]:
# Confirmar que el estado queda limpio
!git status