# Crawling wikipedia food categories

This notebook presents the retrieval of some food categories on wikipedia to enrich a dictionary of standardized aliments with some diversity in the products available. For instance, in [Galiana and Suarez-Castillo (2022)](https://www.linogaliana.fr/talk/goodit22/), we use this approach to enrich [Anses' nutritional dataset called `CIQUAL`](https://ciqual.anses.fr/) with the list of brands or vintages of alcohol available on wikipedia. This makes it possible to take into account the great diversity of French wine names, which are nevertheless not very different from one another in terms of nutritional content. 

The Python code provided in the `functions.py` file allows to replicate the main steps of the data recovery. The later steps for cleaning up the text fields that are presented in Galiana and Suarez Castillo (2022) are not present in this repository; they will be made public later.

To import all relevent pieces, you just need to run the script as module. Only standard dependencies are used.

In [3]:
import functions as fc

## Retrieving French wines

Let's assume we are interested in French wines. The relevent wikipedia category is [this one](https://fr.wikipedia.org/wiki/Cat%C3%A9gorie:Vin_fran%C3%A7ais). 

![](vinaoc.png)

If we want to retrieve the content of the subcategory _"Vin AOC en France par région"_, we use `fc.dictionnary_by_descending_wiki_child_categories` to crawl the content. To control the number of subcategories we crawl, we use `max_step = 3`. 
If we wanted more diversity in the category, we would have increased the value of this parameter

In [2]:
dict_wine = fc.dictionnary_by_descending_wiki_child_categories(
    ["Vin_français", "Vin AOC en France par région"],
    max_step = 3)

--- Catégories à traiter --- 
['Vin_français', 'Vin AOC en France par région']
1
--- Catégories à traiter --- 
['Vin AOC en Centre-Val de Loire', 'Vignoble de la vallée de la Loire', 'Vignoble de Bordeaux', 'Vin AOC dans le Grand Est', 'Vin AOC en région Occitanie', 'Vignoble du Val-de-Loire', 'Vin français disparu', 'Vin AOC en Nouvelle-Aquitaine', 'Vin AOC en Bourgogne-Franche-Comté', 'Vin AOC en France', 'Vignoble des Côtes du Rhône', 'Vignoble du Languedoc-Roussillon', "Vin AOC en Provence-Alpes-Côte d'Azur", 'Vignoble du Sud-Ouest', 'Vin AOC en Auvergne-Rhône-Alpes', 'Vin AOC en Pays de la Loire', 'Vin primeur', 'Vignoble de Provence']
2
--- Catégories à traiter --- 
['Vin AOC par région viticole française', 'Vin AOC dans les Pyrénées-Atlantiques', 'Vin AOC dans les Alpes-de-Haute-Provence', 'Vin AOC dans la Gironde', 'Vin AOC dans le Gers', 'Vin AOC dans le Var', 'Vin AOC en Loire-Atlantique', 'Vin AOC dans les Bouches-du-Rhône', 'Domaine viticole du Roussillon', 'Vignoble du Sau

Since it is more convenient to use the output as a `Pandas DataFrame`, we can convert that using `Pandas`

In [4]:
import pandas as pd
df = pd.DataFrame(dict([ (k,pd.Series(v)) for k,v in dict_wine.items() ]))
df.head(10)

Unnamed: 0,items,scrawl_cat
0,Vins de qualité produits dans des régions déte...,Vin_français
1,Quincy,Vin AOC en France par région
2,Coteaux-de-die,Vin AOC en Centre-Val de Loire
3,Bergerac,Vignoble de la vallée de la Loire
4,Seyssel,Vignoble de Bordeaux
5,Roussette-de-savoie,Vin AOC dans le Grand Est
6,Vieux Langlade,Vin AOC en région Occitanie
7,Abymes,Vignoble du Val-de-Loire
8,Cilaos,Vin français disparu
9,Clairette-du-languedoc,Vin AOC en Nouvelle-Aquitaine


## Using a personal mapping

In this section, we show how to generalize this approach by using a handmade mapping between categories in Wikipedia and in another dataset.

In our case, categories are based on [`CIQUAL` dataset](https://ciqual.anses.fr/).

We stored that mapping into a dictionary: 

In [None]:
fc.Wiki_to_ciqual

In [None]:
## ------------- Write the Wikipedia Products DataBase, with the ciqual label counterpart.
df = fc.create_dataframe_wikipedia(fc.Wiki_to_ciqual)

In [6]:
df.sample(10)

Unnamed: 0,LIBELLE,alim_nom_fr
1130,Muscadet côtes de grandlieu,Vin rouge
189,Brousse du Rove,Fromage (aliment moyen)
904,Château de Gironville,Vin rouge
218,Sérac,Fromage (aliment moyen)
227,Brulhois,Vin rouge
608,Suze la rousse,Vin rouge
167,Ciney,Bière blanche
247,Picpoul de pinet,Vin rouge
88,Os à moelle,Viande cuite (aliment moyen)
198,Côtes de provence Notre Dame des Anges,Vin rouge


## Citation

See `README.md`