## Définir la stratégie de collecte de données
En recensant les API disponibles, et réaliser la collecte des données répondant à des critères définis via une API (interface de programmation) en prenant en compte les normes RGPD, afin de les exploiter pour l’élaboration d’un modèle.

### CE1: Stratégie de Collecte de Données
Vous avez défini sa stratégie de collecte de données et recensé les API disponibles pour le besoin de votre projet.

### CE2: Requête de l'API
Vous avez écrit et testé une requête pour obtenir les données via l’API.

### CE3: Sélection des Champs Nécessaires
Vous avez récupéré les seuls champs nécessaires. Dans le cadre de ce projet, il s’agit par exemple :
- Des champs qui ont servi de filtre dans la requête SQL.
- Des champs utiles au traitement de proposition de mots clés : `Title`, `Body`, `Tags`.

### CE4: Application des Filtres
Vous avez appliqué au moins un filtre sur un des champs nécessaires pour ne collecter que les données ayant les valeurs correspondantes sur ce ou ces champs.

### CE5: Stockage des Données
Vous avez stocké les données collectées via l’API dans un fichier utilisable (ex. : fichier CSV ou pickle).

### CE6: Respect des Normes RGPD
Vous avez veillé au respect des normes RGPD dans toutes les phases de la collecte et du stockage des données. En particulier, il présente les 5 grands principes du RGPD et sa mise en oeuvre sur le projet :
- Il ne gère que les données nécessaires pour la finalité du projet.
- Il ne gère aucune information permettant d’identifier les personnes qui sont les auteurs des questions.


In [3]:
import os
from stackapi import StackAPI
import pandas as pd
from datetime import datetime

ROOT_PATH = os.getcwd()
DATA_SAVE_FILE = os.path.join(ROOT_PATH, "data/StackOverFlow.csv.gz")

# Initialize StackAPI
SITE = StackAPI('stackoverflow')

# Define Query Parameters
tag = 'python'
min_score = 50
from_date = datetime.strptime('2010-01-01', '%Y-%m-%d').timestamp()
to_date = datetime.strptime('2023-01-31', '%Y-%m-%d').timestamp()

# Fetch Questions
questions = SITE.fetch('questions', tagged=tag, min=min_score, fromdate=int(from_date), todate=int(to_date), sort='votes', order='desc', pagesize=50)

# Create DataFrame
df = pd.DataFrame(columns=['Date', 'Title', 'Tags', 'Score'])

# Populate DataFrame
for idx, question in enumerate(questions['items']):
    date = datetime.fromtimestamp(question['creation_date'])
    title = question['title']
    tags = ', '.join(question['tags'])
    score = question['score']

    df.loc[idx] = [date, title, tags, score]

df.to_csv(DATA_SAVE_FILE, compression="gzip", index=False)

# Display DataFrame
df



Unnamed: 0,Date,Title,Tags,Score
0,2010-07-21 00:27:42,Iterating over dictionaries using &#39;for&#39...,"python, dictionary",4235
1,2013-05-10 09:04:49,How to iterate over rows in a DataFrame in Pandas,"python, pandas, dataframe, loops",4000
2,2011-06-24 17:55:08,Catch multiple exceptions in one line (except ...,"python, exception",3783
3,2010-08-09 04:52:50,Does Python have a string &#39;contains&#39; s...,"python, string, substring, contains",3587
4,2010-07-08 21:31:22,How do I list all files of a directory?,"python, directory",3466
...,...,...,...,...
245,2014-04-25 15:31:47,Asking the user for input until they give a va...,"python, validation, input",750
246,2011-04-15 14:22:01,How can I fill out a Python string with spaces?,"python, string, string-formatting, padding",746
247,2010-12-14 02:41:29,How do I append one string to another in Python?,"python, string, append",746
248,2015-05-01 04:25:16,Where does pip install its packages?,"python, django, pip, virtualenv",745
