# Mission

Le projet porte sur StackOverFlow, la célèbre plateforme de questions et réponses populaire pour les développeurs.  
La mission est de développer un système qui génère les suggestions de tags lorsqu'un utilisateur pose une question sur le site. 
Le projet se décline sous forme de 4 notebooks:  
- un notebook avec un test du wrapper StackAPI pour récupérer 50 questions StackOverFlow     
- un notebook d'exploration et de pré-traitement des questions récupérées   
- un notebook avec une approche non supervisée de génération de tags     
- un notebook avec une approche supervisée de génération de tags     

# Génération de tags - Test du wrapper StackAPI

StackAPI est une bibliothèque Python qui sert de wrapper pour l'API de Stack Exchange, qui est un réseau de sites de questions-réponses. StackAPI fournit une interface simplifiée pour interagir avec l'API de Stack Exchange et permet d'effectuer des requêtes vers l'API de Stack Overflow pour accéder aux données telles que les questions, les tags, les scores... 

#### Installation des dépendances suivantes:  

ipykernel==6.26.0  
StackAPI==0.3.0  
pandas==2.1.3  

In [3]:
from stackapi import StackAPI
import pandas as pd

Avec la méthode fetch et le paramètres questions, on crée une requête qui nous permettra d'obtenir 50 questions, contenant le tag “python” et qui ont un score > 50 (votes).

In [47]:
# On utilise les timestamps sur un an
# Pour le 15 octobre 2020 à minuit (UTC) : 1602720000
# Pour le 15 octobre 2023 à minuit (UTC) : 1697328000
START_DATE=1602720000
END_DATE=1697328000

SITE = StackAPI('stackoverflow')
SITE.page_size = 50
SITE.max_pages = 1
questions = SITE.fetch('questions', 
                       tagged='python', 
                       sort='votes', 
                       fromdate=START_DATE, 
                       todate=END_DATE,
                       min=50
                       )

In [48]:
questions

{'backoff': 0,
 'has_more': True,
 'page': 1,
 'quota_max': 300,
 'quota_remaining': 254,
 'total': 0,
 'items': [{'tags': ['python', 'pandas', 'xlrd', 'pcf'],
   'owner': {'account_id': 20190357,
    'reputation': 2889,
    'user_id': 14808721,
    'user_type': 'registered',
    'profile_image': 'https://lh4.googleusercontent.com/-M5mYg2mtURw/AAAAAAAAAAI/AAAAAAAAAAA/AMZuuck8OiIkLBi6IBucITy4XIy72uK80A/s96-c/photo.jpg?sz=256',
    'display_name': 'Vignesh K',
    'link': 'https://stackoverflow.com/users/14808721/vignesh-k'},
   'is_answered': True,
   'view_count': 577497,
   'closed_date': 1608122436,
   'answer_count': 2,
   'score': 287,
   'last_activity_date': 1612795847,
   'creation_date': 1607702016,
   'last_edit_date': 1612795847,
   'question_id': 65254535,
   'link': 'https://stackoverflow.com/questions/65254535/xlrd-biffh-xlrderror-excel-xlsx-file-not-supported',
   'closed_reason': 'Duplicate',
   'title': 'xlrd.biffh.XLRDError: Excel xlsx file; not supported'},
  {'tags':

In [49]:
data = []
for question in questions['items']:
    data.append({
        'Date': pd.to_datetime(question['creation_date'], unit='s'),
        'Title': question['title'],
        'Tags': question['tags'],
        'Score': question['score']
    })

df = pd.DataFrame(data)

In [50]:
display(df)


Unnamed: 0,Date,Title,Tags,Score
0,2020-12-11 15:53:36,xlrd.biffh.XLRDError: Excel xlsx file; not sup...,"[python, pandas, xlrd, pcf]",287
1,2021-02-05 09:11:48,"ValueError: numpy.ndarray size changed, may in...","[python, pandas, numpy, scikit-learn, python-3.7]",225
2,2020-11-22 08:53:15,docker.errors.DockerException: Error while fet...,"[python, linux, docker, docker-compose]",221
3,2020-12-17 21:55:37,Python was not found; run without arguments to...,"[python, python-3.x, windows-10]",201
4,2020-11-06 15:22:39,DeprecationWarning: executable_path has been d...,"[python, selenium]",198
5,2022-03-23 18:02:02,How can I fix the &quot;zsh: command not found...,"[python, macos, terminal, atom-editor, macos-m...",197
6,2022-05-31 02:47:35,TypeError: Descriptors cannot not be created d...,"[python, tensorflow, ray]",193
7,2020-12-03 09:15:52,Resolving new pip backtracking runtime issue,"[python, pip]",176
8,2022-03-30 07:46:15,ImportError: cannot import name &#39;_unicodef...,"[python, python-black]",174
9,2021-06-27 15:36:29,"Understand Python swapping: why is a, b = b, a...","[python, list, indexing, swap]",172
