# Data Cleaning & Processing
Ce notebook est consacré au nettoyage et au preprocessing des données pour le projet de détection des fake news. Nous travaillerons avec différents ensembles de données afin de les préparer pour une analyse et une modélisation plus poussées.

## Import lib
Nous commencerons par importer les bibliothèques essentielles à nos tâches de traitement des données.


In [3]:
import pandas as pd
import numpy as np

In [8]:
train_bodies = pd.read_csv('../data/raw/train_bodies.csv')
train_stances = pd.read_csv('../data/raw/train_stances.csv')
test_bodies = pd.read_csv('../data/raw/test_bodies.csv')
test_stances_unlabeled = pd.read_csv('../data/raw/test_stances_unlabeled.csv')

## Inspection initiale des données
Aperçu rapide de la structure des données, des valeurs manquantes et des statistiques de base.

In [11]:
#train_bodies.head()
train_stances.head()
#test_bodies.head()
#test_stances_unlabeled.head()

Unnamed: 0,Headline,Body ID,Stance
0,Police find mass graves with at least '15 bodi...,712,unrelated
1,Hundreds of Palestinians flee floods in Gaza a...,158,agree
2,"Christian Bale passes on role of Steve Jobs, a...",137,unrelated
3,HBO and Apple in Talks for $15/Month Apple TV ...,1034,unrelated
4,Spider burrowed through tourist's stomach and ...,1923,disagree


## Nettoyage des données
Dans cette section, nous traiterons les valeurs manquantes, supprimerons les doublons et normaliserons les données textuelles.

In [16]:
train_bodies['articleBody'] = train_bodies['articleBody'].str.lower().str.replace('[^a-zA-Z]', ' ', regex=True)
train_bodies['articleBody'].head()

0    a small meteorite crashed into a wooded area i...
1    last week we hinted at what was to come as ebo...
2     newser    wonder how long a quarter pounder w...
3    posting photos of a gun toting child online  i...
4    at least    suspected boko haram insurgents we...
Name: articleBody, dtype: object

## Groupement des ensembles de données
Nos données sont réparties entre les corps d'articles (bodies) et les prises de position ou avis sur leurs véracités (stances). On fusionne ces ensembles de données selon une clé commune, ici l'identifiant d'article (ID) pour faire la jonction.

In [20]:
train_data = train_stances.merge(train_bodies, on='Body ID', how='left')
test_data = test_stances_unlabeled.merge(test_bodies, on='Body ID', how='left')
#train_data.head()
test_data.head()

Unnamed: 0,Headline,Body ID,articleBody
0,Ferguson riots: Pregnant woman loses eye after...,2008,A RESPECTED senior French police officer inves...
1,Crazy Conservatives Are Sure a Gitmo Detainee ...,1550,Dave Morin's social networking company Path is...
2,A Russian Guy Says His Justin Bieber Ringtone ...,2,A bereaved Afghan mother took revenge on the T...
3,"Zombie Cat: Buried Kitty Believed Dead, Meows ...",1793,Hewlett-Packard is officially splitting in two...
4,Argentina's President Adopts Boy to End Werewo...,37,An airline passenger headed to Dallas was remo...
