# Catégorisez automatiquement des questions - Stack Overflow

#### Objectif: 
Développement d'un système de suggestion de tags via une API pour facilité la recherche aux utilisateurs sur le site Stack Overflow. Celui-ci prendra la forme d’un algorithme de machine learning qui assignera automatiquement plusieurs tags pertinents à une question.


Dans ce notebook:

- Récupération des données sur le site StackExchange
- Analyse univariée
- Analyse multivariée
- Réduction dimensionnelle 
- Différentes questions de recherche associées

### Sommaire

* [Import](#chapter1)
    * [Fichiers](#section_1_1)
    * [Librairies](#section_1_2)    
    * [Nos Données](#section_1_3)
    
* [Nettoyage](#chapter2)
    * [Valeurs manquantes](#section_2_1)
    * [](#section_1_2) 
    * [
    
    
* [Analyse exploratoire](#chapter3)
    * [Analyse univariée](#section_3_1)
        * [Variables quantitatives](#section_3_1_1)
        * [Variables qualitatives](#section_3_1_2)
    * [Analyse multivariée](#section_3_2) 
        * [Variables quantitatives](#section_3_2_1)
        * [Variables quantitatives et qualitatives](#section_3_2_2)
    
    
* [Traitement des données](#chapter4)
    * [](#section_4_1)
    * [](#section_4_2)    
    * [](#section_4_3)

## Import <a class="anchor" id="chapter1"></a>
### Import des fichiers <a class="anchor" id="section_1_1"></a>

#### Récupération des données sur le site StackExchange

Remarque: On peut charger au maximum 50 000 entrées/ requête SQL
Période: 2020-01-01 à 2022-09-30

#### Code SQL utilisé

SELECT TOP(50000) Id, CreationDate, Score, ViewCount, AnswerCount, CommentCount, FavoriteCount, Title, Body, Tags

FROM Posts

WHERE CreationDate BETWEEN CONVERT(datetime, 'YYYY-MM-DD HH:MM:SS') AND CONVERT(datetime, 'YYYY-MM-DD HH:MM:SS')

AND Score IS NOT NULL

AND ViewCount IS NOT NULL

AND AnswerCount IS NOT NULL

AND CommentCount IS NOT NULL

AND FavoriteCount IS NOT NULL

ORDER BY CreationDate

Les fichiers:


F0  
2020-01-01 00:01:28  
2020-03-08 15:57:08

F1  
2020-03-08 15:57:08  
2020-05-15 11:22:54

F2  
2020-05-15 11:22:54  
2020-07-22 12:10:14

F3  
2020-07-22 12:10:14  
2020-10-15 15:01:43

F4  
2020-10-15 15:01:43  
2021-01-16 20:25:37

F5  
2021-01-16 20:25:37  
2021-04-23 11:09:19

F6  
2021-04-23 11:09:19  
2021-08-21 09:02:22

F7  
2021-08-21 09:02:22  
2022-01-02 21:44:46

F8  
2022-01-02 21:44:46  
2022-05-23 06:06:34

F9  
2022-05-23 06:06:34  
2022-09-29 23:53:45

### Import des librairies <a class="anchor" id="section_1_2"></a>

In [None]:
import os
import warnings
warnings.filterwarnings('ignore')
import IPython.display

import numpy as np
import pandas as pd 

#### Récuperation des fichiers de StackExchange

In [None]:
data = pd.read_csv(' ', low_memory = False)

In [None]:
print('### Data files ###')
for idx, file in enumerate(os.listdir('./data')):
    print(idx, '-', file)
print('\n' + '-' *50 +'\n')

data = pd.DataFrame()

for idx, file in enumerate(os.listdir('./data')):
    path = './data/' + file
    df = pd.read_csv(path,
                     index_col = 0,
                     parse_dates=['CreationDate'],
                     na_values = 'NaN'
                    )
        
    data = pd.concat([data, df],
                      axis=0)
    
na_body_idx = data[data['Body'].isna()==True].index
data.drop(index = na_body_idx, inplace=True)
data.sort_values('CreationDate', inplace=True)

print("Dix premières valeurs du dataset")
display(data.head(10))

print('\n' + '-' *50 +'\n')
print(f"Nombre d'observations: {data.shape[0]}, nombre de variables: {data.shape[1]}")