# Importations des bibliothèques:

In [4]:
## Faire appel à l'API StackAPI
from stackapi import StackAPI

## Importer les bibliothèques pour la manipulation des données
import pandas as pd
from IPython.display import display
from collections import Counter

## Contexte

Je suis chargé de développer un algorithme de machine learning pour suggérer des tags pertinents aux questions posées sur Stack Overflow. En utilisant les données de "StackExchange Data Explorer" ou de l'API Stack Exchange, je dois extraire et analyser les questions. Je dois filtrer les données pour garantir leur pertinence et respecter les principes RGPD en matière de gestion des données personnelles.

## 1. Test de l'API StackExchange

Pour vérifier la pertinence et la qualité de l'API StackExchange, j'ai réalisé une requête de 50 questions sur une période définie contenant le tag "python" et ayant un score supérieur à 50. Les données principales de ces questions (date, titre, tags, score) ont été récupérées dans un DataFrame et affichées.

In [5]:
# Initialisation de l'API Stack Overflow
SITE = StackAPI('stackoverflow')

# Conversion des dates en timestamps Unix
fromdate = int(pd.Timestamp('2021-01-01').timestamp())
todate = int(pd.Timestamp('2021-12-30').timestamp())

# Récupérer les questions contenant le tag "python" avec un score > 50
questions = SITE.fetch('questions', 
                       fromdate=fromdate, 
                       todate=todate, 
                       min=50, 
                       tagged='python', 
                       sort='votes')

# Création d'un DataFrame à partir des données collectées
df = pd.DataFrame(questions['items'])

# Sélectionner les colonnes nécessaires
df_filtered = df[['creation_date', 'title', 'tags', 'score']]

# Convertir la date de création en format lisible
df_filtered['creation_date'] = pd.to_datetime(df_filtered['creation_date'], unit='s').dt.date

# Affichage des 50 premières lignes du DataFrame
display(df_filtered.head(50))

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_filtered['creation_date'] = pd.to_datetime(df_filtered['creation_date'], unit='s').dt.date


Unnamed: 0,creation_date,title,tags,score
0,2021-02-05,"ValueError: numpy.ndarray size changed, may in...","[python, pandas, numpy, scikit-learn, python-3.7]",234
1,2021-12-11,ImportError: cannot import name &#39;url&#39; ...,"[python, django, django-urls, django-4.0]",192
2,2021-06-27,"Understand Python swapping: why is a, b = b, a...","[python, list, indexing, swap]",172
3,2021-02-22,Could not install packages due to an OSError: ...,"[python, numpy]",156
4,2021-10-09,Pip is not working for Python 3.10 on Ubuntu,"[python, python-3.x, linux, pip]",122
5,2021-11-10,no module named distutils....but distutils ins...,"[python, python-3.x, pip, distutils]",114
6,2021-01-19,What are &quot;soft keywords&quot;?,"[python, python-3.9]",114
7,2021-01-26,Upgrading pip fails with syntax error caused b...,"[python, pip]",113
8,2021-08-05,WARNING: Running pip as the &#39;root&#39; user,"[python, django, docker, ubuntu, pip]",111
9,2021-09-08,Error while downloading the requirements using...,"[python, python-3.x, pip, setuptools]",106


### Principes RGPD :
- Minimisation des données : Le code ne récupère que les données nécessaires pour l'analyse (date de création, titre, tags, score).
- Anonymisation : Les informations permettant d'identifier les auteurs des questions (comme les noms d'utilisateurs) ne sont pas récupérées ni affichées.
- Filtrage par date : Le filtrage par date permet de limiter les données traitées à une période spécifique, ce qui peut aider à respecter les principes de minimisation des données.

Ce code respecte les principes du RGPD en ne récupérant que les informations nécessaires et en excluant les données personnelles des auteurs des questions.

## 2. Importation des données

J'ai récupéré l'ensemble des posts sur Stack Overflow en utilisant l'outil StackExchange Data Explorer. Cet outil permet de récupérer jusqu'à 50 000 entrées par requête SQL. Pour maximiser la pertinence des données, j'ai appliqué les critères suivants :

- Ayant un score positif
- Ayant un nombre de vues supérieur à 10 000
- Ayant au moins une réponse
- Ayant au moins 5 tags

Ci-dessous un exemple de requête utilisée :

```sql
SELECT TOP(50000) 
    Id, 
    Title, 
    Body, 
    Tags,
    Score, 
    ViewCount, 
    AnswerCount
FROM 
    Posts
WHERE 
    PostTypeId = 1  -- Sélectionner uniquement les questions
    AND Score > 0  -- Questions avec un score positif
    AND ViewCount > 10000  -- Questions ayant été vues plus de 10 000 fois
    AND AnswerCount > 0  -- Questions ayant au moins une réponse
    AND (LEN(Tags) - LEN(REPLACE(Tags, '<', ''))) / LEN('<') >= 5  -- Questions avec au moins 5 tags
ORDER BY ViewCount DESC
```

Après la collecte de l'ensemble des fichiers CSV résultant des différentes requêtes, j'ai consolidé toutes les observations dans un fichier nommé `stack_overflow_data.csv` et chargé les données dans un DataFrame pour les analyses.

### Charger les données:

In [6]:
df = pd.read_csv('data/stack_overflow_data.csv')
display(df.head())
print(df.shape)

Unnamed: 0,Id,Title,Body,Tags,Score,ViewCount,AnswerCount
0,2003505,How do I delete a Git branch locally and remot...,<p>Failed Attempts to Delete a Remote Branch:<...,<git><version-control><git-branch><git-push><g...,20374,11748306,41
1,16956810,Find all files containing a specific text (str...,<p>How do I find all files containing a specif...,<linux><text><grep><directory><find>,7541,11199700,56
2,1125968,"How do I force ""git pull"" to overwrite local f...",<p>How do I force an overwrite of local files ...,<git><version-control><overwrite><git-pull><gi...,9728,8715122,54
3,4366730,How do I check if a string contains a specific...,<p>Consider:</p>\n\n<pre><code>$a = 'How are y...,<php><string><substring><contains><string-matc...,2653,6745591,36
4,11346283,Renaming column names in Pandas,<p>I want to change the column labels of a Pan...,<python><pandas><replace><dataframe><rename>,2997,6602832,33


(50000, 7)
