**Gaelle_Genvrin_P_5_2_112024**<br>

**Objectif du script**<br>

Dans la cellule ci-bas, nous allons tester l’API de Stack Exchange via le wrapper Python StackAPI, afin de vérifier sa pertinence et la qualité de sa documentation.<br>
L’objectif est de récupérer 50 questions issues de Stack Overflow, postées entre janvier 2022 et aujourd’hui, ayant le tag python et un score strictement supérieur à 50 votes.<br>
Les données principales (titre, date, tags et score) seront extraites dans un DataFrame Pandas pour faciliter leur consultation et évaluation.<br>

**Considérations RGPD** <br>

Conformément aux principes du RGPD (Règlement Général sur la Protection des Données), seules les informations strictement nécessaires au projet sont récupérées :<br>
Pas de données personnelles (nom, identifiant, profil de l’auteur, etc.)<br>
Uniquement des données anonymisées et publiques : date de création, titre de la question, tags associés et score (nombre de votes)<br>
Aucune donnée ne permet d’identifier un utilisateur de la plateforme. L’usage de l’API respecte donc les exigences en matière de protection de la vie privée.<br>


In [1]:
pip install stackapi
# on a installé la bibliothèque dédiée

Defaulting to user installation because normal site-packages is not writeable
Collecting stackapi
  Using cached StackAPI-0.3.1-py3-none-any.whl.metadata (2.3 kB)
Using cached StackAPI-0.3.1-py3-none-any.whl (7.2 kB)
Installing collected packages: stackapi
Successfully installed stackapi-0.3.1
Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 25.1 -> 25.1.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [2]:
from stackapi import StackAPI
import pandas as pd
import datetime

# Connexion à l'API Stack Overflow
SITE = StackAPI('stackoverflow')

# Définition des dates (période large)
from_date = int(datetime.datetime(2022, 1, 1).timestamp())  # à partir du 1°° janvier 2022
to_date = int(datetime.datetime.now().timestamp())  # Date actuelle

# Définir page_size et max_pages pour limiter la récupération à 50 questions
SITE.page_size = 50  # Nombre de résultats par page
SITE.max_pages = 1   # Une seule page pour récupérer les 50 questions d'un ocup

# Récupération des questions (EXACTEMENT 50 comme vu plus haut)
questions = SITE.fetch(
    'questions',
    fromdate=from_date,
    todate=to_date,
    min=50,  # Score minimum de 50 votes
    tagged='python',
    sort='votes'
)

# Vérification du nombre de questions récupérées
print(f"Nombre de questions récupérées: {len(questions['items'])}")

# Extraction des données principales
data10 = [
    {
        'date': datetime.datetime.utcfromtimestamp(q['creation_date']).strftime('%Y-%m-%d'),
        'titre': q['title'],
        'tags': ', '.join(q['tags']),
        'score': q['score']
    }
    for q in questions['items']
]

# Création du DataFrame
df10 = pd.DataFrame(data10)

# Affichage du DataFrame
print(df10)


Nombre de questions récupérées: 50
          date                                              titre  \
0   2023-03-01  How do I solve &quot;error: externally-managed...   
1   2023-04-07  Error &quot;&#39;DataFrame&#39; object has no ...   
2   2022-03-23  How can I fix the &quot;zsh: command not found...   
3   2023-10-26  AttributeError: module &#39;pkgutil&#39; has n...   
4   2022-05-31  TypeError: Descriptors cannot not be created d...   
5   2022-01-25          Does it make sense to use Conda + Poetry?   
6   2023-10-02  Why did Flask start failing with &quot;ImportE...   
7   2022-09-23  AttributeError: module &#39;lib&#39; has no at...   
8   2022-03-30  ImportError: cannot import name &#39;_unicodef...   
9   2022-01-24  Good alternative to Pandas .append() method, n...   
10  2023-05-06  ImportError: urllib3 v2.0 only supports OpenSS...   
11  2023-03-31  OpenAI API error 429: &quot;You exceeded your ...   
12  2024-06-17  numpy.dtype size changed, may indicate binary ...   

**Conclusion sur l’utilisation de l’API StackExchange** <br>
L’utilisation du wrapper Python StackAPI s’est révélée simple et efficace pour interroger l’API Stack Exchange.<br>
La documentation est claire, et l’extraction des données se fait rapidement avec une syntaxe accessible. Les données récupérées répondent bien aux critères définis (tag python, score > 50, période donnée).<br>
L’ensemble du processus respecte les contraintes du projet et les exigences du RGPD, en ne collectant que des informations anonymes et strictement nécessaires.<br>

**Cette approche pourra donc être utilisée ou répliquée dans un cadre plus large si besoin, notamment pour enrichir un corpus ou explorer des tendances autour d’un langage donné comme Python.**