# 01 - Scraping des Avis Stores (Pas √† Pas)

Dans ce notebook, nous allons construire notre scraper √©tape par √©tape. L'objectif est de comprendre comment r√©cup√©rer les donn√©es brutes avant de les transformer en un format utilisable.

## 1. Pr√©paration
Installation des librairies n√©cessaires.

In [None]:
import pandas as pd
import requests
from google_play_scraper import reviews, Sort
from datetime import datetime, timedelta
print("Tout est OK !")

## 2. Google Play Store

La librairie `google-play-scraper` facilite grandement le travail. Elle simule le comportement du navigateur.

### √âtape 2.1 : R√©cup√©rer un √©chantillon
Commen√ßons par r√©cup√©rer simplement les 3 derniers avis pour voir √† quoi ressemble la donn√©e brute.

In [None]:
app_id = 'ai.mistral.chat'

result, continuation_token = reviews(
    app_id,
    lang='fr', 
    country='fr', 
    sort=Sort.NEWEST, 
    count=3 
)

# Affichons le premier avis brut
first_review = result[1]
print(f"Date: {first_review['at']}")
print(f"Note: {first_review['score']}")
print(f"Texte: {first_review['content']}")
print("\nDonn√©es brutes compl√®tes :")
print(first_review)

### √âtape 2.2 : Structurer les donn√©es
Nous voyons que les champs int√©ressants sont `at` (date), `score` (note), `content` (commentaire) et `reviewCreatedVersion` (version de l'app).

### √âtape 2.3 : La logique de filtrage (Boucle)
Avant de cr√©er une fonction, essayons de traiter manuellement les r√©sultats que nous venons d'obtenir. Nous allons boucler sur la liste `result` et extraire uniquement ce qui nous int√©resse.

In [None]:
# Imaginons que 'result' contient nos avis bruts de l'√©tape pr√©c√©dente
cleaned_data = []

# D√©finissons une p√©riode cible (ex: 30 derniers jours)
end = datetime.now().date()

start = end - timedelta(days=30)
print(f"Filtrage entre {start} et {end}...")

for r in result:
    review_date = r['at'].date()
    
    # On garde seulement si c'est dans la p√©riode
    if start <= review_date <= end:
        cleaned_data.append({
            'source': 'Google Play',
            'date': review_date,
            'rating': r['score'],
            'text': r['content'],
            'version': r.get('reviewCreatedVersion', 'N/A')
        })

print(f"{len(cleaned_data)} avis conserv√©s apr√®s filtrage.")
pd.DataFrame(cleaned_data).head()

### √âtape 2.4 : Cr√©ation de la fonction finale
Maintenant que la logique est valid√©e, on "emballe" tout √ßa dans une fonction r√©utilisable.

In [None]:
def fetch_google_play(app_id, start_date, end_date):
    print(f"üîç Google Play : R√©cup√©ration pour {app_id}...")
    
    # On demande 2000 avis pour √™tre large
    all_reviews, _ = reviews(
        app_id,
        lang='fr', 
        country='fr', 
        sort=Sort.NEWEST, 
        count=2000
    )
    
    cleaned_data = []
    for r in all_reviews:
        review_date = r['at'].date()
        
        # On garde uniquement les avis dans notre fen√™tre de temps
        if start_date <= review_date <= end_date:
            cleaned_data.append({
                'source': 'Google Play',
                'date': review_date,
                'rating': r['score'],
                'text': r['content'],
                'version': r.get('reviewCreatedVersion', 'N/A')
            })
        elif review_date < start_date:
            # Comme les avis sont tri√©s par date d√©croissante, on peut arr√™ter d√®s qu'on sort de la fen√™tre
            break
            
    return pd.DataFrame(cleaned_data)

# Test final de la fonction
df_gp = fetch_google_play('ai.mistral.chat', start, end)
print(df_gp.shape)
df_gp.head(15)


## 3. Apple App Store

Pour Apple, c'est plus "artisanal". Il n'y a pas de librairie officielle simple, mais un flux RSS public est accessible.

### √âtape 3.1 : Comprendre le flux RSS
L'URL ressemble √† ceci : `https://itunes.apple.com/fr/rss/customerreviews/page=1/id={APP_ID}/sortby=mostrecent/json`.
Essayons d'appeler la premi√®re page.

In [None]:
apple_id = '6740410176'
url = f"https://itunes.apple.com/fr/rss/customerreviews/page=1/id={apple_id}/sortby=mostrecent/json"

response = requests.get(url)
print(f"Status Code: {response.status_code}")

data = response.json()
entries = data['feed']['entry']
print(f"Nombre d'entr√©es r√©cup√©r√©es : {len(entries)}")
print(entries)

### √âtape 3.2 : Analyser une entr√©e
Attention : la premi√®re entr√©e `entries[0]` est souvent les m√©tadonn√©es de l'application, pas un avis utilisateur ! Regardons la deuxi√®me entr√©e pour comprendre o√π sont cach√©es les infos.

In [None]:
if len(entries) > 1:
    review = entries[1]
    # Les champs sont bizarres, c'est du format RSS converti en JSON
    print(f"Note: {review['im:rating']['label']}")
    print(f"Texte: {review['content']['label']}")
    print(f"Date: {review['updated']['label']}")

### √âtape 3.3 : Comprendre la pagination
Un appel ne renvoie que 50 avis maximum. Pour en avoir plus, il faut changer le num√©ro de page dans l'URL (`page=1`, `page=2`, etc.).

In [None]:
# Exemple : Construction de l'URL pour la page 2
page = 2
url_page_2 = f"https://itunes.apple.com/fr/rss/customerreviews/page={page}/id={apple_id}/sortby=mostrecent/json"
print(f"URL Page 2 : {url_page_2}")

# C'est cette URL qu'il faudra appeler dans une boucle.

### √âtape 3.4 : Cr√©ation de la fonction finale (avec Pagination)
Nous allons cr√©er une boucle `for page in range(1, 11)` pour r√©cup√©rer jusqu'√† 10 pages d'avis.

In [None]:
def fetch_app_store(app_id, start_date, end_date):
    print(f"üçè App Store : R√©cup√©ration pour {app_id}...")
    all_reviews = []
    
    # On parcourt les 10 premi√®res pages (500 avis max)
    for page in range(1, 11):
        url = f"https://itunes.apple.com/fr/rss/customerreviews/page={page}/id={app_id}/sortby=mostrecent/json"
        
        try:
            resp = requests.get(url)
            if resp.status_code != 200: 
                print(f"Stop : code {resp.status_code} sur page {page}")
                break
            
            data = resp.json()
            entries = data.get('feed', {}).get('entry', [])
            
            if not entries:
                print(f"Stop : plus d'entr√©es sur page {page}")
                break
            
            for entry in entries:
                # On ignore les entr√©es qui n'ont pas d'auteur (souvent l'info de l'app)
                if 'author' not in entry: continue
                
                # Conversion de la date
                dt_str = entry['updated']['label']
                review_date = datetime.fromisoformat(dt_str.replace('Z', '+00:00')).date()
                
                if start_date <= review_date <= end_date:
                    all_reviews.append({
                        'source': 'App Store',
                        'date': review_date,
                        'rating': int(entry['im:rating']['label']),
                        'text': entry['content']['label'],
                        'version': entry['im:version']['label']
                    })
                elif review_date < start_date:
                    # Une fois qu'on d√©passe la date, on peut tout renvoyer imm√©diatement
                    return pd.DataFrame(all_reviews)
                    
        except Exception as e:
            print(f"Erreur page {page}: {e}")
            break
            
    return pd.DataFrame(all_reviews)

df_ios = fetch_app_store('6740410176', start, end)
print(df_ios.shape)
df_ios.head(10)

## 4. Consolidation

Nous avons deux DataFrames (`df_gp` et `df_ios`) avec les m√™mes colonnes : `source`, `date`, `rating`, `text`, `version`. Il est temps de les fusionner.

In [None]:
df_final = pd.concat([df_gp, df_ios], ignore_index=True)


# Petit nettoyage final
df_final['date'] = pd.to_datetime(df_final['date'])
df_final = df_final.sort_values('date', ascending=False)

print(f"Total avis r√©cup√©r√©s : {len(df_final)}")
print(df_final['source'].value_counts())

# Sauvegarde pour le prochain notebook
# df_final.to_csv('avis_consolides.csv', index=False)
df_final.head(30)

In [None]:
df_final.to_csv("df_final.csv", index=False)