<p align="center">
    <img width=210 height=150 src="../reports/figures/cunef_bw.png">
</p>

<div>
<h1>1.0 Initial Data Exploration (EDA)</h1>
Fake News Classifier <br>
<strong>Ciencia de Datos para la Información No Estructurada</strong> <br>
<strong>Master Universidatio en Ciencia de Datos</strong>
</div>

<div style='text-align:right'>Carlos Viñals Guitart (<i>carlos.vinals@cunef.edu</i>)</div>

---

En este notebook nos centramos en entender y analizar los datos a utilizar para elaborar el modelo de detección de noticias falsas. Para ello procederemos a identificar las principales características del conjunto de datos y determinar como podemos utilizarlo y procesarlo para crear el modelo final. 

In [8]:
# Libraries
import pandas as pd
from sklearn.model_selection import train_test_split


### Lectura y análisis preliminar
Procedemos a leer y visualizar los primeros cinco valores del dataset original a utilizar...

In [2]:
# Data reading
raw_data_df = pd.read_csv("../data/raw/fake_or_real_news.csv")

In [3]:
raw_data_df.head()

Unnamed: 0.1,Unnamed: 0,title,text,label
0,8476,You Can Smell Hillary’s Fear,"Daniel Greenfield, a Shillman Journalism Fello...",FAKE
1,10294,Watch The Exact Moment Paul Ryan Committed Pol...,Google Pinterest Digg Linkedin Reddit Stumbleu...,FAKE
2,3608,Kerry to go to Paris in gesture of sympathy,U.S. Secretary of State John F. Kerry said Mon...,REAL
3,10142,Bernie supporters on Twitter erupt in anger ag...,"— Kaydee King (@KaydeeKing) November 9, 2016 T...",FAKE
4,875,The Battle of New York: Why This Primary Matters,It's primary day in New York and front-runners...,REAL


Observamos que los datos se componen de 4 campos, cada registro posee un valor identificativo (id), el título de la noticia, el contenido del mismo y la etiqueta, es decir, nuestra variable objetivo que nos muestra si la noticia es verdadera o falsa.

Procedemos a determinar las características sobre todo el conjunto de datos de la variable objetivo, centrándonos en su proproción en totat...

Nos diseñamos una función para obtener un resumen de la composición del dataset

In [18]:
def classes_overview(df = None, obj_val = ""):
    '''
    Devuelve un dataframe con el porcentaje y valor abosoluto de las clases de la variable objetivo.
    :param df: Datase
    :param obj_val: Variable objetivo
    :return: Dataframe
    '''
    temp = df[obj_val].value_counts(normalize=True).mul(100).rename('percentaje').reset_index()
    temp_conteo = df[obj_val].value_counts().reset_index()
    return pd.merge(temp, temp_conteo, on=['index'], how='inner')

In [20]:
classes_overview(raw_data_df, 'label')

Unnamed: 0,index,percentaje,label
0,REAL,50.055249,3171
1,FAKE,49.944751,3164


Observamos como la proporción de los datos es bastante equilibrada, lo que simplifica bastante la tarea de división del dataset a no ser necesario tener en cuenta una desequelibrio a la hora de entrenar el modelo.

### División de train y test

Previamente a continuar con el análisis vamos a realizar la division de los datos en muestra de train (entrenamiento) y test...

In [13]:
# We divide values of the target label and the rest of data
X = raw_data_df.drop('label', axis=1)
Y = raw_data_df['label']

# We make the split between train and test
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.15, random_state=1234, stratify=Y)

# We save the original data divided
train_data_df = X_train
train_data_df['label'] = Y_train
train_data_df.to_csv("../data/interim/train.csv")

test_data_df = X_test
test_data_df['label'] = Y_test
test_data_df.to_csv("../data/interim/test.csv")


### Análisis detallado de los datos
Una vez realizada la separación procedemos a realizar el análisi de los datos. Nos centramos únicamente en la muestra de entrenamiento (train).

In [15]:
print('Total de muestras del dataset: ', len(train_data_df.index))

Total de muestras del dataset:  5384


Tenemos un total de 5384 muestras, vamos a verificar que el balanceo del dataset es adecuado otra vez después de la división de train y test...

In [21]:
# We check the balance of the dataset again to be sure the balance is correct
classes_overview(train_data_df, 'label')

Unnamed: 0,index,percentaje,label
0,REAL,50.055721,2695
1,FAKE,49.944279,2689


Observamos que el buen balanceo del dataset se mantiene, teniende un 50% para noticias reales y otro 50% de noticias falsas aproximadamente. Ahora nos centramos en distintos aspectos a evaluar.

**Primero**. Comprobamos que no hay valores nulos...

In [17]:
# We check the existance of anomalies in the data like NULL values
temp_df = train_data_df.isnull().sum().reset_index()
temp_df.columns = ['column_name', 'NAs']
temp_df

Unnamed: 0,column_name,NAs
0,Unnamed: 0,0
1,title,0
2,text,0
3,label,0


Observamos que no existen valores nulos en los datos, por lo que no es necesario eliminar o tratar estos. 

**Segundo**. Comprobamos si pueden existir noticias repetidas...

In [22]:
# We check any duplicates
sum(train_data_df.duplicated())

0

Observamos que no hay noticias repetidas en los datos y contamos con noticias diferentes para poder entrenar.

---

<div style='text-align:center'> Elaborado por Carlos Viñals Guitart (<i>carlos.vinals@cunef.edu</i>)</div>