# Lexicon

## Fonctionnement

Cet outil permet de savoir quelles stations météorologiques n'ont enregistré aucune information dans le jeu de données pour quelles variables, et vice-versa.

## 1. Initialisation

In [1]:
import pandas as pd

df = pd.read_csv("../../data/raw/weatherAUS.csv")

## 2. `Location` -> Variables non enregistrées

In [2]:
# Création du dictionnaire clé = station, valeurs = grandeurs non mesurées
dict = {}
for i in range(df['Location'].unique().shape[0]):  # df['Location'].unique().shape[0]: le nombre de stations
    measures = []
    non_measures = []
    station_df = df.loc[df['Location'] == df['Location'].unique()[i]] #création d'un df pour une station
    for col in station_df.columns:
        if station_df[col].isna().sum()/station_df.shape[0] != 1: # si le pourcentage de nan est différent de 1
            measures.append(col) # on ajoute la grandeur mesurée à 'measures
        else:
            non_measures.append(col) # sinon, on l'ajoute à 'non_measures'
    if non_measures == []:
        dict[df['Location'].unique()[i]] = ['all']
    else:
        dict[df['Location'].unique()[i]] = non_measures

### Liste des différentes modalités de non-mesures:
modalites = []
for station in dict:
    if dict[station] not in modalites:
        modalites.append(dict[station])

Afin de récupérer la liste des variables non enregistrées, passez le nom de la station (à partir des 49 modalités de `Location`) en argument du dictionnaire `dict` dans la cellule qui suit l'exemple ci-dessous.

In [3]:
# Cet exemple indique que `Evaporation` est la variable pour laquelle la station 'PearceRAAF' n'a enregistré aucune information dans le jeu de données.

dict["PearceRAAF"]

['Evaporation']

In [None]:
# Insérez votre requête dans la ligne de code ci-dessous :

dict[""]

## 3. Variables non enregistrées -> `Location`

In [4]:
### Création du dictionnaire inverse: clé = liste concaténée des grandeurs non mesurées, valeurs = liste des stations correspondantes
dict_reverse = {}
for i, mod in zip(range(len(modalites)), modalites):
    liste_stations = []
    for station in dict:
        if dict[station] == mod:
            liste_stations.append(station)
    dict_reverse["_".join(modalites[i])] = liste_stations # J'ai appris qu'un dictionnaire ne peut pas prendre de liste en guise de clé.
                                                          #J'ai décidé de concaténer le nom des colonnes non mesurées avec un "_"
    #print(mod, ":", liste_stations)

Afin de récupérer le nom de la station, passer les noms concaténés des variables non enregistrées dans le dictionnaire `dict_reverse` dans la cellule qui suit l'exemple ci-dessous.

Les entrées valables sont :
1. `Evaporation`
2. `Evaporation_Sunshine`
3. `Evaporation_Sunshine_Cloud9am_Cloud3pm`
4. `Evaporation_Sunshine_WindGustDir_WindGustSpeed_`
`Pressure9am_Pressure3pm`
5. `Evaporation_Sunshine_Pressure9am_Pressure3pm_`
`Cloud9am_Cloud3pm`
6. `Sunshine`
7. `Cloud9am_Cloud3pm`
8. `WindGustDir_WindGustSpeed`
9. `all`

In [5]:
# Cet exemple indique que 'PearceRAAF' est la station n'ayant enregistré aucune information dans le jeu de données pour la variable `Evaporation`.

dict_reverse["Evaporation"]

['PearceRAAF']

In [None]:
# Insérez votre requête dans la ligne de code ci-dessous :

dict_reverse[""]