# Notebook de mise en production
## Adrian Rodriguez
## Projet 5 parcours Ingénieur Machine Learning
Accès projet git : https://github.com/Adrian1903/Categorisez-automatiquement-des-questions   
Plus d'informations : https://openclassrooms.com/fr/paths/148-ingenieur-machine-learning

---
# 0. Contexte

Stack Overflow est un site célèbre de questions-réponses liées au développement informatique. Pour poser une question sur ce site, il faut entrer plusieurs tags de manière à retrouver facilement la question par la suite. Pour les utilisateurs expérimentés, cela ne pose pas de problème, mais pour les nouveaux utilisateurs, il serait judicieux de suggérer quelques tags relatifs à la question posée.

Amateur de Stack Overflow, qui vous a souvent sauvé la mise, vous décidez d'aider la communauté en retour. Pour cela, vous développez un système de suggestion de tag pour le site. Celui-ci prendra la forme d’un algorithme de machine learning qui assigne automatiquement plusieurs tags pertinents à une question.

Les données
Stack Overflow propose un outil d’export de données - "stackexchange explorer", qui recense un grand nombre de données authentiques de la plateforme d’entraide. 

Contraintes :
- Mettre en œuvre une approche non supervisée.
- Utiliser une approche supervisée ou non pour extraire des tags à partir des résultats précédents.
- Comparer ses résultats à une approche purement supervisée, après avoir appliqué des méthodes d’extraction de features spécifiques des données textuelles.
- Mettre en place une méthode d’évaluation propre, avec une séparation du jeu de données pour l’évaluation.
- Pour suivre les modifications du code final à déployer, utiliser un logiciel de gestion de versions, par exemple Git.

# 1. Initialisation

In [1]:
# Initialisation des bibliothèques
from api_tags import *
import pandas as pd
import en_core_web_sm
import spacy
import pickle

In [2]:
# Initialisation du pipeline du nettoyage de texte
nlp = spacy.load('en_core_web_sm', disable=['ner'])
nlp.add_pipe(CleanBeforeTaggerComponent(nlp), first=True)
nlp.add_pipe(ContractionsComponent(nlp), after='CleanBeforeTagger')
clean = CleanAfterParserComponent(nlp)
bag_tags_lst = pd.read_csv('api/bag_tags.csv').list.to_list()
clean.set_protect(bag_tags_lst)
nlp.add_pipe(clean, after='parser')

In [3]:
# Initialisation des modèles de prédiction
df_topic_keywords = pd.read_csv('api/topic_keyword.csv')#, index_col='Unnamed: 0')
count_vectorizer = pickle.load(open('api/count_vectorizer.sav', 'rb'))
unsupervised_model = pickle.load(open('api/unsupervised_model.sav', 'rb'))

tfidf_vectorizer = pickle.load(open('api/tfidf_vectorizer.sav', 'rb'))
binarizer = pickle.load(open('api/binarizer.sav', 'rb'))
supervised_model = pickle.load(open('api/supervised_model.sav', 'rb'))

In [4]:
unsupervised_model

LatentDirichletAllocation(batch_size=128, doc_topic_prior=None,
                          evaluate_every=-1, learning_decay=0.7,
                          learning_method='batch', learning_offset=10.0,
                          max_doc_update_iter=100, max_iter=10,
                          mean_change_tol=0.001, n_components=25, n_jobs=None,
                          perp_tol=0.1, random_state=123, topic_word_prior=None,
                          total_samples=1000000.0, verbose=0)

# 2. Test

In [22]:
for t, tag in zip(test.Body, test.Tags):
    print(t)
    print(tag)

wdialog.InAppReviewActivity is shown only to immediately disappear.</p>
<p>I'm calling the following code from the onResume() method of my activity:</p>
<pre><code>                reviewManager = ReviewManagerFactory.create(AlarmClock.this);
                Logger.logInfo(&quot;Rating: requestReviewFlow() &quot;);
                reviewManager.requestReviewFlow().addOnSuccessListener(new OnSuccessListener&lt;ReviewInfo&gt;() {
                    @Override
                    public void onSuccess(ReviewInfo result) {
                        Logger.logInfo(&quot;Rating: launchReviewFlow() &quot;);
                        reviewManager.launchReviewFlow(AlarmClock.this, result).addOnSuccessListener(new OnSuccessListener&lt;Void&gt;() {
                            @Override
                            public void onSuccess(Void result) {
                                Logger.logInfo(&quot;Rating: launchReviewFlow() success &quot;);
                            }
                        })

In [29]:
test = pd.read_csv('src/test api.csv')
for t, tag in zip(test.Body, test.Tags):
    cleaned_text = str(nlp(t))
    print(cleaned_text)
    print('\n')
    print(f'Tags utilisateurs : {tag}')
    print(f'Tags supervisés : {supervised_tags(cleaned_text, tfidf_vectorizer, binarizer, supervised_model)}')
    print(f'Tags non supervisés : {unsupervised_tags(cleaned_text, count_vectorizer, df_topic_keywords, unsupervised_model)}')
    print('\n\n')

struct priv field think priv field


Tags utilisateurs : <rust>
Tags supervisés : ['']
Tags non supervisés : ['model,size,code,class,method']



play compiler explorer interesting behavior ternary operator compiler code clang compiler code snippet considerably small call memcpy length string time different label compiler code snippet clang result ternary operator ternary operator example compiler code culprit const char[].p.s gcc call example clang compiler example thank time!sorry wall


Tags utilisateurs : <c++><assembly><optimization><clang><compiler-optimization>
Tags supervisés : ['c++,clang,compiler_optimization,language_lawyer']
Tags non supervisés : ['value,code,function,compiler,pointer']



private package far set private pypi s3 bucket private package dependency public package course important gitlab pipeline late functional version package interested late code create new wheel test push master long way requirement setup work new public package official pypi package name for