# Text Mining 

## 1. Pr√©processing

In [None]:
import pandas as pd

df = pd.read_parquet("flickr_data_clustered.parquet")
print(f"Donn√©es charg√©es : {len(df)} photos")

### D√©finition des stopwords

On d√©finit manuellement une liste de stopwords, contenant les mots non-pertinents pour identifier les lieux touristiques de Lyon.

In [None]:
stopwords_from_method1 = {
    "lyon", "france", "img", "jpg", "uploaded", "europe", "square", "iphone", "instagram",
    "franca", "rhonealpes", "geotagged", "janvier", "fevrier", "mars", "avril", "mai", "juin",
    "juillet", "aout", "septembre", "octobre", "novembre", "decembre", "interieur", "live",
    "des", "squareformat", "dsc", "iphoneography", "art", "instagramapp", "foursquare",
    "venue", "japan", "flickrmobile", "french", "francia", "dscf", "frankrijk", "frankreich",
    "flickriosapp", "touch"
}

stopwords_from_method2 = {
    "ngc", "paysage", "landscape", "upload"
}

# Unifier les 2 ensembles
stopwords = stopwords_from_method1.union(stopwords_from_method2)

print(f"Nombre total de stopwords : {len(stopwords)}")

### Fonction de nettoyage du texte

On cr√©e une fonction qui :
1. Concat√®ne title et tags
2. Met en minuscules
3. Supprime les accents (√© ‚Üí e, √ß ‚Üí c)
4. Supprime la ponctuation et caract√®res sp√©ciaux
5. Filtre les stopwords et mots trop courts

In [None]:
import re
import unicodedata

def clean_text(title, tags):
    """
    Nettoie et combine title et tags en une liste de mots pertinents.
    
    Args:
        title: Titre de la photo (str ou NaN)
        tags: Tags de la photo (str ou NaN)
    
    Returns:
        Liste de mots nettoy√©s
    """
    # Combiner title et tags
    text = ""
    if isinstance(title, str):
        text += title + " "
    if isinstance(tags, str):
        text += tags
    
    if not text.strip():
        return []
    
    # 1. Minuscules
    text = text.lower()
    
    # 2. Supprimer accents et caract√®res sp√©ciaux Unicode
    text = unicodedata.normalize('NFD', text)
    text = ''.join(char for char in text if unicodedata.category(char) != 'Mn')
    
    # 3. Ne garder que lettres et espaces (supprime [, ], {, }, etc.)
    text = re.sub(r'[^a-z\s]', ' ', text)
    
    # 4. Split et filtrer
    words = text.split()
    words = [w for w in words if w not in stopwords and len(w) > 2]
    
    # 5. Supprimer les doublons tout en pr√©servant l'ordre
    unique_words = list(dict.fromkeys(words))
    
    return unique_words

# Test de la fonction
test_title = "[Lyon] Basilique de Fourvi√®re - √ât√© 2024"
test_tags = "france, architecture, √©glise, photo"
print("Test de nettoyage :")
print(f"Input : '{test_title}' + '{test_tags}'")
print(f"Output : {clean_text(test_title, test_tags)}")

### Application du nettoyage

On applique la fonction de nettoyage sur toutes les photos pour cr√©er une colonne unique `cleaned_text`.

In [None]:
# Appliquer le nettoyage sur title + tags
df['cleaned_text'] = df.apply(
    lambda row: clean_text(row['title'], row['tags']), 
    axis=1
)

# Statistiques sur le nettoyage
total_photos = len(df)
photos_avec_mots = (df['cleaned_text'].str.len() > 0).sum()
photos_sans_mots = total_photos - photos_avec_mots

print(f"‚úì Nettoyage termin√©")
print(f"  - Photos avec mots : {photos_avec_mots} ({photos_avec_mots/total_photos*100:.1f}%)")
print(f"  - Photos sans mots : {photos_sans_mots} ({photos_sans_mots/total_photos*100:.1f}%)")
print(f"  - Nombre moyen de mots/photo : {df['cleaned_text'].str.len().mean():.1f}")

### V√©rification du r√©sultat

On affiche quelques exemples pour v√©rifier que le nettoyage fonctionne correctement.

In [None]:
# Afficher quelques exemples
sample = df[df['cleaned_text'].str.len() > 0].sample(n=10, random_state=42)

print("Exemples de textes nettoy√©s :\n")
for idx, row in sample.iterrows():
    print(f"Title original : {row['title'][:80]}...")
    print(f"Tags originaux : {row['tags'][:80] if isinstance(row['tags'], str) else 'N/A'}...")
    print(f"Mots nettoy√©s  : {row['cleaned_text'][:10]}")  # 10 premiers mots
    print(f"Cluster        : {row['cluster_hdbscan']}")
    print("-" * 80)

## 2. M√©thode 1 : Mot le plus fr√©quent par cluster

### Principe

Pour chaque cluster, on identifie le mot le plus fr√©quent dans les textes nettoy√©s (titles + tags).

**Hypoth√®se** : Le mot dominant repr√©sente le lieu ou le monument principal du cluster.

### Fonction de calcul des mots dominants

In [None]:
from collections import Counter

def find_cluster_keywords(df, cluster_col='cluster_hdbscan', text_col='cleaned_text', top_k=1):
    """
    Trouve le(s) mot(s) le(s) plus fr√©quent(s) pour chaque cluster.
    
    Args:
        df: DataFrame avec colonnes cluster et texte nettoy√©
        cluster_col: Nom de la colonne contenant les labels de cluster
        text_col: Nom de la colonne contenant les listes de mots nettoy√©s
        top_k: Nombre de mots √† retourner par cluster
    
    Returns:
        dict {cluster_id: mot_dominant}
    """
    cluster_keywords = {}
    
    for cluster_id in sorted(df[cluster_col].unique()):
        if cluster_id == -1:
            continue  # Ignorer le bruit
        
        # R√©cup√©rer tous les mots du cluster
        cluster_data = df[df[cluster_col] == cluster_id]
        all_words = []
        
        for words_list in cluster_data[text_col].dropna():
            all_words.extend(words_list)
        
        # Si pas de mots, mettre "unknown"
        if not all_words:
            cluster_keywords[cluster_id] = "unknown"
            continue
        
        # Compter les occurrences
        word_counts = Counter(all_words)
        
        # Prendre le mot le plus fr√©quent
        top_word = word_counts.most_common(top_k)[0][0]
        cluster_keywords[cluster_id] = top_word
    
    return cluster_keywords

# Calculer les mots-cl√©s dominants
cluster_keywords = find_cluster_keywords(df)

# Ajouter au DataFrame
df['cluster_keyword'] = df['cluster_hdbscan'].map(cluster_keywords).fillna("noise")

print(f"‚úì Mots-cl√©s calcul√©s pour {len(cluster_keywords)} clusters")

### Statistiques et aper√ßu des clusters

In [None]:
# Cr√©er le r√©sum√© des clusters
cluster_summary = df[df['cluster_hdbscan'] != -1].groupby('cluster_hdbscan').agg({
    'cluster_keyword': 'first',
    'id': 'count'
}).rename(columns={'id': 'nb_photos'}).sort_values('nb_photos', ascending=False)

n_clusters = len(cluster_summary)

# Compter les mots-cl√©s par CLUSTER (pas par photo)
keyword_cluster_counts = cluster_summary['cluster_keyword'].value_counts()
n_unique_keywords = (keyword_cluster_counts == 1).sum()
n_duplicate_keywords = len(keyword_cluster_counts[keyword_cluster_counts > 1])

print(f"üîç Qualit√© des mots-cl√©s:")
print(f"  - Mots-cl√©s uniques: {n_unique_keywords}/{n_clusters} ({n_unique_keywords/n_clusters*100:.1f}%)")
print(f"  - Mots-cl√©s dupliqu√©s: {n_duplicate_keywords} (partag√©s par plusieurs clusters)")
print(f"  ‚ö†Ô∏è  Ambigu√Øt√©: {n_clusters - n_unique_keywords} clusters partagent un m√™me mot-cl√©")

# Top des mots-cl√©s les plus fr√©quents (candidats stopwords)
print(f"\nüö´ Mots-cl√©s les plus fr√©quents (candidats pour stopwords):")
print(f"    Ces mots-cl√©s dominent plusieurs clusters, ils sont donc peu distinctifs\n")
for keyword, count in keyword_cluster_counts.head(20).items():
    print(f"    '{keyword}' : {count} clusters")

print(f"\nüìç Top 20 clusters par taille :\n")
print(cluster_summary.head(20).to_string())

### Visualisation sur carte interactive

On affiche les clusters sur une carte avec leurs mots-cl√©s dominants pour identifier visuellement les zones d'int√©r√™t.

In [None]:
import folium

# √âchantillonner pour la performance
sample_size = 30000
sample = df.sample(n=min(sample_size, len(df)), random_state=0)

# Cr√©er la carte
m = folium.Map(
    location=[df["lat"].median(), df["long"].median()],
    zoom_start=12,
    tiles="CartoDB positron"
)

# Palette de couleurs
palette = [
    "red", "blue", "green", "purple", "orange",
    "darkred", "lightred", "beige", "darkblue",
    "darkgreen", "cadetblue", "darkpurple",
    "pink", "lightblue", "lightgreen",
    "gray", "black", "lightgray"
]

# Ajouter les points
for _, r in sample.iterrows():
    cluster = r["cluster_hdbscan"]
    
    if cluster == -1:
        continue
    else:
        color = palette[cluster % len(palette)]
        keyword = r["cluster_keyword"]
    
    folium.CircleMarker(
        location=[r["lat"], r["long"]],
        radius=2,
        color=color,
        fill=True,
        fill_opacity=0.6,
        popup=folium.Popup(
            f"""<b>Keyword:</b> {keyword}<br/>
               <b>Cluster:</b> {cluster}<br/>
               <a href="{r.get('url', '#')}" target="_blank">Open Flickr</a>""",
            max_width=250
        )
    ).add_to(m)

# Titre sur la carte
title_html = '''
<div style="position: fixed; top: 10px; left: 50px; width: 400px; 
     background-color: white; border:2px solid grey; z-index:9999; 
     font-size:14px; padding: 10px">
     <b>M√©thode 1 : Mot le plus fr√©quent par cluster</b>
</div>
'''
m.get_root().html.add_child(folium.Element(title_html))

# Sauvegarder
m.save("output/text_mining_method1.html")

### Analyse des r√©sultats

**Observations** :

En explorant la carte, on peut identifier les mots-cl√©s dominants pour chaque zone touristique. Certains mots sont pertinents (ex: "croixrousse", "bellecour", "jacobins"), d'autres sont trop g√©n√©riques ou non-informatifs.

**Limites de cette m√©thode** :

1. **Sensibilit√© aux stopwords** : La qualit√© d√©pend fortement de la liste de stopwords. Des mots non-pertinents peuvent dominer si on ne les filtre pas manuellement, ce qui est fastidieux et propice aux erreurs.

2. **Mot unique par cluster** : Un seul mot ne suffit pas toujours √† caract√©riser un lieu (ex: "Part Dieu" ‚Üí seulement "part" ou "dieu").

3. **Approche it√©rative** : N√©cessite d'inspecter visuellement les r√©sultats et d'ajuster manuellement les stopwords pour am√©liorer la qualit√©.

4. **Pas de pond√©ration contextuelle** : Tous les mots ont le m√™me poids, qu'ils soient sp√©cifiques (ex: "fourviere") ou g√©n√©riques (ex: "rue", "statue").

**Am√©lioration possible** : Utiliser TF-IDF pour pond√©rer l'importance des mots en fonction de leur sp√©cificit√© √† chaque cluster, plut√¥t que simplement compter les fr√©quences brutes.

## 3. M√©thode 2 : TF-IDF

Pour pallier les limites de la simple fr√©quence, on utilise **TF-IDF** (Term Frequency - Inverse Document Frequency).

**Principe** : TF-IDF donne un score √©lev√© aux mots :
- Fr√©quents dans un cluster sp√©cifique (TF)
- Rares dans les autres clusters (IDF)

Cela permet de capturer les mots **distinctifs** plut√¥t que simplement fr√©quents.

### Pr√©paration des textes

On transforme chaque photo en un texte, puis on concat√®ne toutes les photos d‚Äôun cluster en un seul document.

In [None]:
# 1) Texte par photo
df['combined_text'] = df['cleaned_text'].apply(lambda words: ' '.join(words))

# 2) Document par cluster
cluster_documents = df[df['cluster_hdbscan'] != -1].groupby('cluster_hdbscan')['combined_text'] \
    .apply(lambda texts: ' '.join(texts)) \
    .reset_index()

cluster_documents.columns = ['cluster', 'document']
cluster_documents.head()

On regarde le nombre de clusters et la taille moyenne des documents.

In [None]:
print(f"Nombre de clusters : {len(cluster_documents)}")
print(f"Taille moyenne des documents : {cluster_documents['document'].str.len().mean():.0f} caract√®res")

### Construction de la matrice TF‚ÄëIDF

On garde uniquement les mots utiles :
- `min_df=2` : le mot doit appara√Ætre dans au moins 2 clusters
- `max_df=0.8` : on supprime les mots trop communs

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer(
    min_df=2,
    max_df=0.8
)

tfidf_matrix = tfidf.fit_transform(cluster_documents['document'])
feature_names = tfidf.get_feature_names_out()

print(f"Matrice TF‚ÄëIDF : {tfidf_matrix.shape}")

### Extraction des top mots par cluster

On cr√©e une fonction r√©utilisable pour extraire les mots les plus repr√©sentatifs.

In [None]:
import numpy as np

def get_top_terms_for_cluster(cluster_idx, top_n=3):
    scores = tfidf_matrix[cluster_idx].toarray().flatten()
    top_indices = np.argsort(scores)[-top_n:][::-1]
    return feature_names[top_indices]

# Associer les top mots √† chaque cluster
tfidf_labels = {}

for i in range(len(cluster_documents)):
    cluster_id = cluster_documents.iloc[i]['cluster']
    top_terms = get_top_terms_for_cluster(i, top_n=3)
    tfidf_labels[cluster_id] = " / ".join(top_terms)

# Ajouter au DataFrame
df['cluster_tfidf'] = df['cluster_hdbscan'].map(tfidf_labels).fillna("noise")

print("‚úì Mots-cl√©s TF‚ÄëIDF ajout√©s au dataframe")

### Visualisation des clusters (r√©sum√© final)

On visualise les clusters sur une carte avec leurs labels TF‚ÄëIDF.

In [None]:
import folium

# √âchantillonner pour la performance (comme avant)
sample_size = 30000
sample = df.sample(n=min(sample_size, len(df)), random_state=0)

m = folium.Map(
    location=[df["lat"].median(), df["long"].median()],
    zoom_start=12,
    tiles="CartoDB positron"
)

palette = [
    "red", "blue", "green", "purple", "orange",
    "darkred", "lightred", "beige", "darkblue",
    "darkgreen", "cadetblue", "darkpurple",
    "pink", "lightblue", "lightgreen",
    "gray", "black", "lightgray"
]

for _, r in sample.iterrows():
    cluster = r["cluster_hdbscan"]
    if cluster == -1:
        continue
    
    color = palette[cluster % len(palette)]
    label = r["cluster_tfidf"]
    
    folium.CircleMarker(
        location=[r["lat"], r["long"]],
        radius=2,
        color=color,
        fill=True,
        fill_opacity=0.6,
        popup=folium.Popup(
            f"""<b>TF‚ÄëIDF:</b> {label}<br/>
               <b>Cluster:</b> {cluster}<br/>
               <a href="{r.get('url', '#')}" target="_blank">Open Flickr</a>""",
            max_width=250
        )
    ).add_to(m)

title_html = '''
<div style="position: fixed; top: 10px; left: 50px; width: 400px; 
     background-color: white; border:2px solid grey; z-index:9999; 
     font-size:14px; padding: 10px">
     <b>M√©thode 2 : TF‚ÄëIDF (top mots par cluster)</b>
</div>
'''
m.get_root().html.add_child(folium.Element(title_html))

m.save("output/text_mining_tfidf.html")

### Analyse des r√©sultats

**Points forts** :
- Les mots sont souvent plus sp√©cifiques que la m√©thode 1.
- Moins d√©pendant des stopwords manuels.

**Limites** :
- La qualit√© d√©pend de la pr√©paration (cleaning + stopwords).

TF‚ÄëIDF donne une base solide pour nommer les clusters, mais il faut toujours ajuster avec une inspection manuelle pour ajuster les stopwords.