# Entrenamiento del modelo para identificación de Noticias falsas y Noticias reales

In [2]:
# Importar las librerías con el código desarrollado
import sys
import pathlib
import pandas as pd
import plotly.express as px
from statistics import mean

In [3]:
# Obtener la ruta de las librerías personalizadas requeridas para cargar los datos
def get_directory(subfolder):
    pathtest= pathlib.Path() 
    current_path = str(pathtest.parent.absolute())
    name_directory = "ProyectoUNAL"
    index_path = current_path.find(name_directory)
    path_data = current_path[:index_path+len(name_directory)]
    path_data += '\\scripts\\'+ subfolder
    return path_data

In [4]:
# Adcionar la ruta de las librerías  personalizadas requeridas para cargar los datos
path_source = get_directory('data_acquisition')
sys.path.append(path_source)

In [5]:
# Librerías a usar en el proyecto
from download_data import get_data

In [6]:
# Obtención de los archivos
news_true, news_false = get_data()

In [6]:
# Validación de la información
news_true.count()

title      21417
text       21417
subject    21417
date       21417
dtype: int64

In [7]:
# Validación de la información
news_false.count()

title      23481
text       23481
subject    23481
date       23481
dtype: int64

# **1. Preprocesamiento de los archivos con las noticias reales y falsas**

In [9]:
# Preprocesamiento de los datos
# Adcionar la ruta de las librerías  personalizadas requeridas para preprocesar los datos
path_preprocessing = get_directory('preprocessing')
sys.path.append(path_preprocessing)
# Librerías a usar en el proyecto
from preprocessing import preprocessing_false, preprocessing_true, preprocessing_data

In [9]:
# Preprocesamiento de los archivos y obtención de los nuevos dataframes
df_false = preprocessing_false(news_false, 50)
df_true = preprocessing_true(news_true)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  new_df['type'] = 0
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  new_df['type'] = 1


In [10]:
# Validación del número de registros resultantes
df_false.count()

title      22640
text       22640
subject    22640
type       22640
dtype: int64

In [11]:
# Validación del número de registros resultantes
df_true.count()

title      21416
text       21416
subject    21416
type       21416
dtype: int64

In [10]:
# Obtención del dataframe listo para para el modelamiento
df_news = preprocessing_data(news_true, news_false, 50)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  new_df['type'] = 1
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  new_df['type'] = 0


In [18]:
# Validación de la información
df_news.count()

title      44056
text       44056
subject    44056
type       44056
dtype: int64

In [36]:
# Número de noticias reales y falsas
dfg=df_news.groupby('type').count().reset_index()
dfg["type"] = dfg["type"].astype(str)
fig = px.bar(dfg, x='type', y='text', color = 'type', barmode= 'group', text_auto='6', labels={'text':'Número de noticias', 
                    'type': 'Tipo de noticias: 0 - Falsas, 1 - Reales'}, title = 'Número de noticias a procesar')
fig.show()

In [46]:
# Número de noticias por subject
dfg=df_news.groupby('subject').count().reset_index()
fig = px.bar(dfg, x='subject', y='text', color = 'subject', barmode= 'group', text_auto='6', labels={'text':'Número de noticias', 
                    'subject': 'Tópico de la noticia'}, title = 'Número de noticias a procesar')
fig.show()

In [11]:
# La data procesada se extrae al repositorio
name_directory = "ProyectoUNAL"
index_path = path_source.find(name_directory)
path_data = path_source[:index_path+len(name_directory)]
path_data += "\\src\\proy\\database\\"
path_file = r"" + path_data + "news_processes.csv"
df_news.to_csv(path_file)

In [21]:
# El límite para subir archivos en GitHub es 100MB, por lo cual genero dos archivos más: unoa para cada tipo de noticia
path_true = r"" + path_data + "news_true_processes.csv"
path_false = r"" + path_data + "news_false_processes.csv"
df_false.to_csv(path_false)
df_true.to_csv(path_true)

# **2. Entrenamiento del modelo**

In [None]:
# Definición del modelo
