# Identifier les adjectifs mobiles dans le corpus frWaC

## Extraire les couples nom / adj des fichiers export de NoSketchEngine

In [25]:
from collections import Counter
import re

def export2adj(file, adj_position, lemma=True):
    """
    Extrait d'un fichier export de frWaC les adjectifs et leur nb d'occurrences
    Args:
        file: le nom de chemin du fichier txt
        adj_position: index de la position de l'adjectif (0 si ante, 1 si post)
        lemma: True si export avec lemmes, False sinon
    Returns:
        une objet Counter 'adj': occ
    """
    res = Counter()
    with open(file) as input:
        for line in input:
            if line.startswith('#'):
                next
            match = re.search('.+<([^>]+)>.+', line)
            if match:
                if lemma:
                    match_2 = re.search('.+\/([^ ]+) .+\/(.+)' , match.group(1).strip())
                    adj = match_2.group(adj_position + 1)
                else:
                    target = match.group(1).strip().split(' ')
                    adj = target[adj_position]
                res[adj] += 1
    return res

In [26]:
adjs_ante = export2adj('frwac-adj-nc_lemma.txt', 0, True)
adjs_ante.most_common(10)

[('nouveau', 7342),
 ('autre', 7280),
 ('grand', 6658),
 ('petit', 4599),
 ('bon', 4382),
 ('même', 4009),
 ('dernier', 2719),
 ('différent', 2376),
 ('nombreux', 2093),
 ('seul', 1798)]

In [27]:
adjs_post = export2adj('frwac-nc-adj.txt', 1, False)
adjs_post.most_common(10)

[('nationale', 683),
 ('sociale', 645),
 ('publique', 624),
 ('français', 568),
 ('publics', 540),
 ('général', 528),
 ('française', 526),
 ('économique', 499),
 ('générale', 471),
 ('politique', 465)]

In [29]:
adjs_alternates = set(adjs_ante.keys()).intersection(set(adjs_post.keys()))

{'déco',
 'païen',
 'entêtant',
 'malinois',
 'bordelais',
 'anti-rides',
 'inventif',
 'cubain',
 'exact',
 'désastreux',
 'fort',
 'immigrant',
 'bourgeois',
 'adolescent',
 'emeil',
 'interventionnelle',
 'incandescent',
 'offensionem',
 'organisant',
 'wifi',
 'haïtien',
 'indéfectible',
 'enrouleur',
 'indéfinissable',
 'primé',
 'gratuit',
 'simple',
 'space',
 'plastique',
 'favori',
 'coronarien',
 'copain',
 'internautes',
 'mono',
 'sylvain',
 'catastrophique',
 'respiratoire',
 'législatif',
 'équitable',
 'fidèle',
 'axial',
 'affreux',
 'inline',
 'constructeur',
 'post',
 'ovale',
 'finlandais',
 'pénible',
 'hydraulique',
 'indésirable',
 'fébrile',
 'sobre',
 'sympa',
 'fauve',
 'caramel',
 'nosocomiales',
 'diaphane',
 'vertical',
 'homogène',
 'desdits',
 'mathématique',
 'normal',
 'partagé',
 'hyper',
 'budgétaire',
 'innovants',
 'militant',
 'intelligent',
 'organisateur',
 'lyrique',
 'mediatique',
 'inquiétant',
 'homo',
 'bringé',
 'demandant',
 'préliminaire',

In [30]:
with open('adjs-alternates-frwac.csv', 'w') as output:
    print("#adj, occurrences, ante, post", file=output)
    for item in adjs_alternates:
        occ = adjs_ante[item] + adjs_post[item]
        print(f"{item}, {occ}, {adjs_ante[item]}, {adjs_post[item]}", file=output)