# 01 - Ingestion des données

Ce notebook Jupyter reprend le script `ingestion.py` étape par étape :
- Téléchargement des datasets Upwork et Fiverr via l’API Kaggle,
- Extraction et chargement des fichiers CSV.

**Compétences couvertes :**
- Bloc 3 C2 : préparation des données
- Bloc 5 C1 : préparation de données non-structurées


## Import des librairies

In [None]:
import os  # pour gérer les chemins de fichiers
import pandas as pd  # pour charger et manipuler les données tabulaires
from kaggle.api.kaggle_api_extended import KaggleApi  # client Python pour l'API Kaggle

## Authentification Kaggle
Placez votre fichier `kaggle.json` dans `~/.kaggle/kaggle.json` (ou `C:\Users\<Utilisateur>\.kaggle\kaggle.json`).

In [None]:
# Initialisation et authentification
g_api = KaggleApi()  # créer une instance de l'API Kaggle
g_api.authenticate()  # authentification via le fichier kaggle.json

## Création des dossiers de données

In [None]:
# Crée les dossiers pour stocker les fichiers téléchargés
os.makedirs('data/upwork', exist_ok=True)   # dossier pour Upwork
os.makedirs('data/fiverr_gigs', exist_ok=True)  # dossier pour Fiverr Gigs

## Téléchargement et extraction des datasets

In [None]:
# Télécharger et décompresser le dataset Upwork
g_api.dataset_download_files(
    'asaniczka/upwork-job-postings-dataset-2024-50k-records',  # identifiant du dataset
    path='data/upwork',  # destination
    unzip=True,  # dézipper automatiquement
    quiet=False  # afficher la progression
)

# Télécharger et décompresser le dataset Fiverr
g_api.dataset_download_files(
    'muhammadadiltalay/fiverr-data-gigs',  # identifiant du dataset
    path='data/fiverr_gigs',  # destination
    unzip=True,  # dézipper automatiquement
    quiet=False  # afficher la progression
)

## Chargement des CSV en DataFrames

In [None]:
# Définition des chemins vers les fichiers CSV
path_upwork_csv = 'data/upwork/upwork-jobs.csv'  # Upwork jobs
path_fiverr_csv = 'data/fiverr_gigs/fiverr-data-gigs-cleaned.csv'  # Fiverr gigs cleaned

# Chargement en DataFrame
# Low_memory=False pour éviter les warnings de dtype

df_upwork = pd.read_csv(path_upwork_csv, low_memory=False)
df_fiverr = pd.read_csv(path_fiverr_csv, encoding='latin-1', low_memory=False)

# Affichage des informations des DataFrames
print("Upwork DataFrame -> shape:", df_upwork.shape)
print("Colonnes Upwork:", df_upwork.columns.tolist())
print(df_upwork.head(), "\n")
print("Fiverr DataFrame -> shape:", df_fiverr.shape)
print("Colonnes Fiverr:", df_fiverr.columns.tolist())
print(df_fiverr.head())