## Définir la stratégie de collecte de données
En recensant les API disponibles, et réaliser la collecte des données répondant à des critères définis via une API (interface de programmation) en prenant en compte les normes RGPD, afin de les exploiter pour l’élaboration d’un modèle.

### CE1: Stratégie de Collecte de Données
Vous avez défini sa stratégie de collecte de données et recensé les API disponibles pour le besoin de votre projet.

### CE2: Requête de l'API
Vous avez écrit et testé une requête pour obtenir les données via l’API.

### CE3: Sélection des Champs Nécessaires
Vous avez récupéré les seuls champs nécessaires. Dans le cadre de ce projet, il s’agit par exemple :
- Des champs qui ont servi de filtre dans la requête SQL.
- Des champs utiles au traitement de proposition de mots clés : `Title`, `Body`, `Tags`.

### CE4: Application des Filtres
Vous avez appliqué au moins un filtre sur un des champs nécessaires pour ne collecter que les données ayant les valeurs correspondantes sur ce ou ces champs.

### CE5: Stockage des Données
Vous avez stocké les données collectées via l’API dans un fichier utilisable (ex. : fichier CSV ou pickle).

### CE6: Respect des Normes RGPD
Vous avez veillé au respect des normes RGPD dans toutes les phases de la collecte et du stockage des données. En particulier, il présente les 5 grands principes du RGPD et sa mise en oeuvre sur le projet :
- Il ne gère que les données nécessaires pour la finalité du projet.
- Il ne gère aucune information permettant d’identifier les personnes qui sont les auteurs des questions.


In [None]:
import os
from stackapi import StackAPI
import pandas as pd
from datetime import datetime
from datasets import Dataset

data_repository = "amaye15/Stack-Overflow-Zero-Shot-Classification"

# Initialize key
stack_key = "ub*oRqta6kWgck7l2tG5ng(("
hf_key = "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"

# Initialize StackAPI
SITE = StackAPI('stackoverflow', key = stack_key)

# Define Query Parameters
tag = None
min_score = 50
from_date = datetime.strptime('2010-01-01', '%Y-%m-%d').timestamp()
to_date = datetime.strptime('2023-01-31', '%Y-%m-%d').timestamp()

# Set the max pagesize
max_pagesize = 100

# Initialize list to store question data
questions_data = []

# Fetch Questions with pagination up to page 25
is_fetching = True
page = 1
max_page = 25  # Set the maximum page to 25

# Collect Results
while is_fetching:
    questions = SITE.fetch('questions', 
                           tagged=tag, # All tags
                           min=min_score, # Good Questions Only
                           fromdate=int(from_date),
                           todate=int(to_date), 
                           sort='votes', 
                           order='desc', 
                           pagesize=max_pagesize, 
                           page=page,)
    
    for question in questions['items']:
        title = question['title']
        tags = ', '.join(question['tags'])
        questions_data.append({'Title': title, 'Tags': tags})
    
    page += 1
    is_fetching = 'has_more' in questions and questions['has_more']

# Create DataFrame from list
df = pd.DataFrame(questions_data, columns=['Title', 'Tags']).drop_duplicates()

# Convert Dataframe to Huggingface Dataset
ds = Dataset.from_pandas(df)

# Push Dataset to Huggingface -> Parquet File
ds.push_to_hub(data_repository, token = hf_key)