# Activité : Analyse de la dérivation en -able (et -ible)
## Objectif :
- Utiliser un petit script Python pour extraire et analyser les adjectifs dérivés en _-able_ et _-ible_ du français à partir d'un extrait aléatoire du lexique GLÀFF.
- La dérivation en -able/ible permet de former des adjectifs à partir de bases notamment verbales (mais pas seulement).

Nous allons étudier les mots en _-able/ible_. 
    - Quels Adj en _-able/ible_ sont des dérivés
    - Quelle est la base de la dérivation

**J'ai créé un échantillon aléatoire de 20k items dans GLAFF à l'aide du code ci-dessous**

(Vous pouvez refaire l'expérience sur votre machine en téléchargeant le GLAFF complet, bien sûr)

In [None]:
import pandas as pd

# 1. Charger le fichier (attention, cela peut prendre 10-20 secondes selon la RAM)
# On utilise sep='|' car on a vu que c'était le séparateur de GLÀFF
df = pd.read_csv('glaff-1.2.2.txt', sep='|', header=None, on_bad_lines='skip')

# 2. Tirer 20 000 lignes au hasard
df_random = df.sample(n=20000)

# 3. Sauvegarder le nouveau fichier
df_random.to_csv('mini_glaff_random_20k.txt', sep='|', index=False, header=False)

print("Le fichier aléatoire est prêt !") 

1. Téléchargez ce nouveau fichier (dans le même dossier, toujours)
2. Exécutez le code ci-dessous

In [None]:
import pandas as pd

# 1. Chargement du fichier (on utilise le séparateur '|')
# Assurez-vous que le fichier 'mini_glaff_random_20k.txt' est dans le même dossier
df = pd.read_csv('mini_glaff_random_20k.txt', sep='|', header=None, on_bad_lines='skip')

# 2. Nommage des colonnes
df.columns = ['Graphie', 'Code_GRACE', 'Lemme', 'Phono_API', 'Phono_SAMPA'] + [f'Col_{i}' for i in range(5, len(df.columns))]

# 3. Filtrage : on cherche la terminaison 'able' et le code adjectif 'Afp'
filtre = (df['Graphie'].str.endswith(('able','ible'), na=False)) & (df['Code_GRACE'].str.contains('^Afp', na=False))
resultats = df[filtre].copy()

# 4. Création d'une sélection propre pour l'export
# On ne garde que les colonnes utiles pour l'analyse linguistique
selection = resultats[['Graphie', 'Lemme', 'Code_GRACE', 'Phono_SAMPA']].copy()

# 5. Affichage des résultats
print(f"Extraction terminée : {len(selection)} adjectifs trouvés.")
selection.head(50)

## Questions :
1. À l'aide du script ci-dessous, exporter vos résultats en CSV et ouvrez-les dans un tableur (Excel ou autre)
2. Créez une colonne "Base" dans laquelle vous indiquerez la *nature* de la base de l'adjectif dérivé *(ADJ, V, N, Autre)*
3. Si vous n'êtes pas certain.e, rangez les items dans une catégorie à part *(UNSURE)*
4. Créez un tag supplémentaire pour:
   - les dérivés en *in-* BASE *-able/ible*
     1. Parmi eux, isolez ceux qui n'ont pas de correspondant positif

In [None]:
# Export du résultat dans un fichier CSV (séparateur point-virgule pour Excel)
selection.to_csv('analyse_derivation-17fev.csv', index=False, sep=';', encoding='utf-8-sig')

print("✅ Succès ! Le fichier 'analyse_derivation-17fev.csv' a été généré.")
print("Vous pouvez maintenant l'ouvrir dans Excel ou LibreOffice.")