# Analyse de données

L’objectif de cet exercice est d’analyser la distribution par fréquence des adverbes d’une langue dans un corpus catégorisé de commentaires issus du Web. En plus des scripts Python, vous fournirez tout le matériel nécessaire, à savoir le corpus, le fichier de statistiques ainsi que la liste des adverbes de référence pour la langue étudiée.

## Constituer un corpus Web

La première étape de votre programme consiste à créer un corpus catégorisé à partir du Web. N’hésitez pas à prendre pour exemple l’arborescence du corpus que nous avons extrait du site Web [*allocine*](../6.text-processing/data/allocine).

In [None]:
# Your code here

## Importer un corpus catégorisé

Grâce à la librairie NLTK, importez votre corpus catégorisé dans une variable `corpus`.

In [None]:
# Your code here

Le code ci-dessous doit renvoyer une liste des catégories de votre corpus :

In [None]:
print(corpus.categories())

## Configurer des outils de tokenisation

En fonction de votre objectif, vous configurerez deux tokenisateurs :
- un pour la tokenisation en phrases ;
- un autre pour la tokenisation en mots.

In [None]:
# Your code here

## Produire un décompte des éléments du corpus

À partir de la tokenisation de chaque fichier de votre corpus, vous produirez un dictionnaire `stats` qui recueillera les données suivantes dans les clés correspondantes :
- `filename` pour le nom du fichier ;
- `category` pour sa catégorie ;
- `nb_sents` le nombre de phrases ;
- `nb_words` le nombre de mots ;
- `nb_characters` le nombre de caractères.

In [None]:
# Your code here

Le code ci-dessous doit renvoyer la première ligne de résultats pour chaque catégorie :

In [None]:
for category, rows in stats.items():
    for row in rows[:1]:
        print(row)

## Enregistrer le décompte dans un fichier TSV

À présent, il est temps d’enregistrer vos données dans un fichier au format TSV (*tab-separated values*), que vous nommerez `stats_corpus.tsv`. Vous utiliserez les clés du dictionnaire `stats` comme noms des colonnes du fichier. Servez-vous du modèle des [stats sur le corpus *Allociné*](../6.text-processing/data/stats_corpus.tsv).

In [None]:
# Your code here

## Afficher le nombre cumulé de mots par catégorie

Grâce au code ci-dessous, affichez un diagramme représentatif de votre fichier de statistiques :

In [None]:
import matplotlib.pyplot as plt

stats_corpus = dict()
with open('../data/stats_corpus.tsv', newline='') as csvfile:
    reader = csv.DictReader(csvfile, delimiter='\t')
    for row in reader:
        stats_corpus[row['category']] = stats_corpus.get(row['category'], 0) + int(row['nb_words'])
        
# Display on retina graphics
%config InlineBackend.figure_format='retina'

# Size of the figure
plt.figure(figsize=(10,6))

# Title
plt.title('Nombre cumulé de mots par catégorie',
          fontsize=18, fontweight='bold')

# Label of the x axis
plt.xlabel('Catégorie', fontsize=14, fontweight='bold')

# Label of the y axis
plt.ylabel('Nombre de mots', fontsize=14, fontweight='bold')

# Plot the stats
plt.bar(list(stats_corpus.keys()), list(stats_corpus.values()))

# Show the figure
plt.show()

## Charger une liste d’adverbes

Chargez dans une variable `adverbs` la liste des adverbes de la langue de votre corpus. Si vous travaillez sur le français ou l’anglais, vous trouverez les ressources à ces adresses :

In [None]:
path_to_fr_adverbs = '../data/fr-adverbs.tsv'
path_to_en_adverbs = '../data/en-adverbs.tsv'

In [None]:
# Your code here

Le code ci-dessous doit renvoyer les quinze premiers adverbes de la liste :

In [None]:
print([adverb for adverb in adverbs[:15]])

## Constituer un dictionnaire des adverbes du corpus

Servez-vous de la liste des adverbes pour établir, dans une variable `corpus_adverbs` un dictionnaire de la fréquence d’apparition des adverbes présents dans votre corpus. Ce dictionnaire adoptera la structure suivante :

```py
{
    'category': {
        'adverb': nb_occurrences,
        'adverb': nb_occurrences,
    }
}
```

Par exemple, pour notre corpus extrait des commentaires de *Allociné* :

```py
{
    'avengers': {
        'très': 24,
        'également': 4,
        'plus': 40,
        …
    },
    'logan': {
        'extrêmement': 3,
        'déjà': 9,
        …
    }
}
```

In [None]:
# Your code here

Le code ci-dessous doit renvoyer le nombre d’occurrences de quinze adverbes appartenant à la première catégorie de votre corpus :

In [None]:
a_category = list(corpus_adverbs.keys())[0]
some_adverbs = list(corpus_adverbs[a_category].keys())[:15]
for adverb in some_adverbs:
    print(adverb, corpus_adverbs[a_category][adverb])

## Repérer les adverbes en commun

À présent, il s’agit de repérer, parmi tous les adverbes du corpus, ceux qui apparaissent dans chaque catégorie. Constituez d’abord, dans une variable `l_adv`, une liste simple des adverbes de chaque catégorie, sous la forme :
```py
[['très', 'peu', 'alors', …], ['longuement', 'très', …] …]
```

In [None]:
# Your code here

Le code ci-dessous se chargera de produire l’ensemble des adverbes en commun de chaque liste :

In [None]:
common_adverbs = set(l_adv[0]).intersection(*l_adv)

Vous pouvez vérifier son contenu :

In [None]:
print([adverb for adverb in common_adverbs])

## Établir une distribution des fréquences des adverbes

Confrontez la liste des adverbes en commun à chaque catégorie de votre corpus afin de comptabiliser le total de leurs occurrences dans un objet `frequencies` de type `FreqDist`, disponible dans le sous-module `nltk.probability`.

In [None]:
# Your code here

Vérifiez la validité de votre résultat en affichant les cinq adverbes les plus fréquents de votre corpus :

In [None]:
print(frequencies.most_common(5))

Vous avez désormais la possibilité d’afficher un diagramme des vingt-cinq adverbes les plus utilisés dans votre corpus ! Pour cela, utilisez la méthode `plot()` sans oublier de définir le paramètre `title` pour lequel vous fournirez un titre adéquat.

In [None]:
# Your code here

## Zoom sur les dix adverbes les plus fréquents du corpus

Chargez en mémoire la liste des dix adverbes les plus fréquents de votre corpus :

In [None]:
most_common = frequencies.most_common(10)

Concevez à présent, dans une variable `zoom_adv` un dictionnaire de ces adverbes avec leurs fréquences d’apparitions dans chaque catégorie de votre corpus. Il prendra la forme :
```py
{
    'adverb': {
        'category': nb_occurrences,
        'category': nb_occurences,
        …
    },
    …
}
```
Par exemple, pour notre corpus des commentaires sur *Allociné*, nous obtenons :
```py
{
    'plus': {
        'avengers': 40,
        'logan': 45,
        'interstellar': 43,
        …
    },
    'encore': {
        'avengers': 9,
        'logan': 12,
        'interstellar': 12,
        …
    }
    …
}
```

In [None]:
# Your code here

La dernière étape consiste à afficher un diagramme de la distribution par fréquence de chaque adverbe :

In [None]:
# Your code here