# PFE TC 2016-2017
## Keyword extraction
Alexandre Batisse

Nathanaël Leaute

# Description Générale
## Enoncé
Kaggle est une plateforme organisant des compétitions de *Data Science*. Des entreprises peuvent ainsi proposer des sujets et récompenser les meilleurs solutions. 

Nous avons choisi pour notre PFE de répondre à un challenge proposé par *Facebook* en 2013 intitulé *Keywork Extraction*.
L'objectif est de prédire les *tags* (mots-clés, sujets, etc.) de discussions questions/réponses des sites *Stack Exchange* en ne disposant que du titre du sujet et du corps de la question. Le jeu de données provient de différents sites stack exchange et mèle questions technique et non techniques.

Le jeu de données comprend un jeu d'apprentissage (2.19 Go en .csv.zip), un jeu de test (725.10 Mo en .csv.zip) ainsi qu'un exemple de fichier de soumission (non utile à l'analyse).

Train.csv contient quatre colonnes :
- *Id* - Identifiant unique pour chaque question
- *Title* - Titre de la question
- *Body* - Corps de la question
- *Tags* - Tags associés à la question (minuscules)

Test.csv est construit de la même manière, à l'exception des *Tags* qui doivent être prédits.

## Métriques d'évaluation
Les performances de notre solution sont évaluées par le *F1 score*. Ce score, qui est souvent utilisé dans les domaines du décisionnel et de la recherche d'informations, mesure l'exactitude de la solution par les statisques de *précision* et de *rappel*. Une bonne *précision* consiste à maximiser le nombre de résultats vrais positifs, tandis qu'un *rappel* important tend à diminuer le nombre de faux négatifs. Ces deux métriques sont complémentaires dans la constitution du score d'exactitude de la solution car une bonne *précision*, qui signifie un haut taux de réponses positives correctes, ne garantie pas l'exhaustivité de ces dernières.

Soient *tp* le nombre de vrais positifs, *fp* le nombre de faux positifs et *fn* le nombre de faux négatifs. Nous obtenons les métriques suivantes :

$$p=\frac{tp}{tp + fp}, r=\frac{tp}{tp + fn}$$

Le *F1 score* est alors donné par :
$$F1 = 2\frac{pr}{p + r}$$

Pour chaque entrée du jeu de données de test, notre solution doit produire une entrée d'un fichier de réponse constituée de l'*id* de la question et d'une liste de *tags*. Le fichier de réponse doit avoir le format suivant :

`Id,Tags
1,"c++ javaScript"
2,"php python mysql"
3,"django"`

Nous soumettons ensuite ce fichier à la plateforme de challenge Kaggle qui nous renvoie par la suite notre score.

In [1]:
# Imports
import pandas as pd
import numpy as np
from psutil import virtual_memory
import tensorflow as tf

In [2]:
# Optimizing memory usage
mem = virtual_memory()
size = int(mem.total/1000000)
# Loading .csv.zip in dataframe
df = pd.read_csv('Train.zip', compression='zip',header=0,sep=',', quotechar='"', chunksize=size)

In [3]:
for chunk in df:
    print(chunk)
    break

        Id                                              Title  \
0        1  How to check if an uploaded file is an image w...   
1        2  How can I prevent firefox from closing when I ...   
2        3           R Error Invalid type (list) for variable   
3        4      How do I replace special characters in a URL?   
4        5               How to modify whois contact details?   
5        6      setting proxy in active directory environment   
6        7      How to draw barplot in this way with Coreplot   
7        8             How to fetch an XML feed using asp.net   
8        9            .NET library for generating javascript?   
9       10  SQL Server : procedure call, inline concatenat...   
10      11  How do commercial obfuscators achieve to crash...   
11      12                     Crappy Random Number Generator   
12      13                    Migrate from Mdaemon to postfix   
13      14                Where can I find the LaTeX3 manual?   
14      15  Can I stop wi