# Cleaning the provinces

In [109]:
# Import packages that are used
import pandas as pd
import numpy as np
import re 
import matplotlib.pyplot as plt
import seaborn as sns

sns.set(style="whitegrid")

# To ensure that axis-texts in plots are not cut off
plt.tight_layout()

<Figure size 432x288 with 0 Axes>

In [110]:
df = pd.read_csv('Data/winemag-data-130k-v2.csv', sep = ',')
france = df[df.country.str.contains('France', na=False)]
france.head(3)

Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
7,7,France,This dry and restrained wine offers spice in p...,,87,24.0,Alsace,Alsace,,Roger Voss,@vossroger,Trimbach 2012 Gewurztraminer (Alsace),Gewürztraminer,Trimbach
9,9,France,This has great depth of flavor with its fresh ...,Les Natures,87,27.0,Alsace,Alsace,,Roger Voss,@vossroger,Jean-Baptiste Adam 2012 Les Natures Pinot Gris...,Pinot Gris,Jean-Baptiste Adam
11,11,France,"This is a dry wine, very spicy, with a tight, ...",,87,30.0,Alsace,Alsace,,Roger Voss,@vossroger,Leon Beyer 2012 Gewurztraminer (Alsace),Gewürztraminer,Leon Beyer


In [111]:
# Drop unnecessary columns
wines = france.drop(['Unnamed: 0', 'country', 'region_2', 'taster_name','taster_twitter_handle'], axis=1)\
    .rename(columns={'region_1':'region'}).reset_index(drop = True)

# Extract year from title
wines['year'] = wines['title'].str.extract('(\d{4})')
wines.head(3)

# Save cleaned data
#wines.to_csv('Data/france_cleaned.csv')

Unnamed: 0,description,designation,points,price,province,region,title,variety,winery,year
0,This dry and restrained wine offers spice in p...,,87,24.0,Alsace,Alsace,Trimbach 2012 Gewurztraminer (Alsace),Gewürztraminer,Trimbach,2012
1,This has great depth of flavor with its fresh ...,Les Natures,87,27.0,Alsace,Alsace,Jean-Baptiste Adam 2012 Les Natures Pinot Gris...,Pinot Gris,Jean-Baptiste Adam,2012
2,"This is a dry wine, very spicy, with a tight, ...",,87,30.0,Alsace,Alsace,Leon Beyer 2012 Gewurztraminer (Alsace),Gewürztraminer,Leon Beyer,2012


In [112]:
wines.province.unique()

array(['Alsace', 'Beaujolais', 'Bordeaux', 'Champagne', 'Burgundy',
       'France Other', 'Southwest France', 'Rhône Valley',
       'Languedoc-Roussillon', 'Provence', 'Loire Valley'], dtype=object)

### Replacing Southwest France with Midi-Pyrénées or Aquitaine

In [113]:
wines[wines.province == 'Southwest France'].region.unique()

array(['Cahors', 'Madiran', 'Vin de Pays des Côtes de Gascogne',
       'Côtes de Gascogne', 'Côtes du Lot', 'Gaillac', 'Montravel',
       'Monbazillac', 'Gers', 'Fronton', 'Bergerac', 'Jurançon',
       'Bergerac Sec', 'Buzet', 'Irrouléguy', 'Côtes du Marmandais',
       'Pécharmant', 'Vin de Pays du Comté Tolosan', nan, 'Côtes du Tarn',
       'Côtes de Bergerac', 'Pacherenc du Vic Bilh', 'Jurançon Sec',
       'Côtes de Duras', 'Vin de Pays du Lot', 'Marcillac', 'Saint-Mont',
       'Saussignac', 'Côtes du Frontonnais', 'Brulhois', 'Landes',
       'Périgord', 'Bergerac Rosé', 'Lot', 'Béarn', 'Gaillac Doux',
       'Côtes de Saint-Mont', 'Côtes de Montravel'], dtype=object)

In [114]:
midi_pyrenees = ['Cahors', 'Madiran', 'Côtes de Gascogne', 'Côtes du Lot', 'Gaillac Doux', 
                 'Gers', 'Fronton', 'Côtes du Tarn', 'Pacherenc du Vic Bilh', 'Vin de Pays du Lot', 
                 'Marcillac', 'Saint-Mont', 'Côtes du Frontonnais', 'Brulhois', 'Lot', 
                 'Côtes de Saint-Mont', 'Vin de Pays des Côtes de Gascogne']
aquitaine = ['Montravel', 'Monbazillac', 'Bergerac', 'Bergerac Sec', 'Bergerac Rosé', 
             'Jurançon', 'Jurançon Sec', 'Buzet', 'Irrouléguy', 
             'Côtes du Marmandais', 'Pécharmant', 'Côtes de Bergerac', 'Côtes de Duras', 
             'Saussignac', 'Landes', 'Périgord', 'Béarn', 'Gaillac', 'Côtes de Montravel']

In [115]:
wines.loc[wines.region.isin(midi_pyrenees), 'province'] = 'Midi Pyrénées'
wines.loc[wines.region.isin(aquitaine), 'province'] = 'Aquitaine'

In [116]:
wines[wines.province == 'Southwest France'].region.unique()

array(['Vin de Pays du Comté Tolosan', nan], dtype=object)

### Replacing France Other

In [117]:
wines[wines.province == 'France Other'].region.unique()

array(['Vin de France', 'Arbois', 'Patrimonio', 'Crémant de Jura',
       'Vin de Liqueur', 'Vin de Savoie', 'Mediterranée', 'Vin Mousseux',
       'Corse', 'Ile de Beauté', 'Roussette de Savoie', 'Côtes du Jura',
       'Savoie', 'Corse Porto Vecchio', 'Vin de Table Francais',
       'Atlantique', 'Chignin-Bergeron', nan, 'France', 'Vin Pétillant',
       'Château-Chalon', 'Vin de Pays des Portes de Méditerranée',
       'Vin de Pays de la Méditerranée', "Vin de Pays de l'Ile de Beauté",
       'Chignin', 'Côtes de Forez', 'Charentais', 'Vin de Pays de France',
       'Apremont'], dtype=object)

In [125]:
corse = ['Corse', 'Patrimonio', 'Vin de Pays de l\'Ile de Beauté', 'Ile de Beauté', 'Corse Porto Vecchio']
rhone = ['Savoie', 'Vin de Savoie', 'Roussette de Savoie', 'Chignin', 'Côtes de Forez', 'Chignin-Bergeron']
provence = ['Vin de Pays des Portes de Méditerranée']
poitou_charantes = ['Charentais']
franche_comte = ['Château-Chalon', 'Crémant de Jura', 'Côtes du Jura']
loire = ['Apremont']

In [129]:
wines.loc[wines.region.isin(corse), 'province'] = 'Corse'
wines.loc[wines.region == 'Arbois', 'province'] = 'Franche Comté'
wines.loc[wines.region.isin(rhone), 'province'] = 'Rhône Valley'
wines.loc[wines.region.isin(provence), 'province'] = 'Provence'
wines.loc[wines.region.isin(poitou_charantes), 'province'] = 'Poitou-Charentes'
wines.loc[wines.region.isin(franche_comte), 'province'] = 'Franche-Comté'
wines.loc[wines.region.isin(loire), 'province'] = 'Loire Valley'

In [130]:
wines[wines.province == 'France Other'].region.unique()

array(['Vin de France', 'Vin de Liqueur', 'Mediterranée', 'Vin Mousseux',
       'Vin de Table Francais', 'Atlantique', nan, 'France',
       'Vin Pétillant', 'Vin de Pays de la Méditerranée',
       'Vin de Pays de France'], dtype=object)

In [131]:
wines.province.unique()

array(['Alsace', 'Beaujolais', 'Bordeaux', 'Champagne', 'Burgundy',
       'France Other', 'Midi Pyrénées', 'Rhône Valley', 'Franche Comté',
       'Languedoc-Roussillon', 'Provence', 'Loire Valley', 'Aquitaine',
       'Corse', 'Franche-Comté', 'Southwest France', 'Poitou-Charentes'],
      dtype=object)

In [74]:
#wines.loc[wines.region == 'Vin de Pays des Côtes de Gascogne', 'region'] = 'Côtes de Gascogne'
#wines.loc[wines.region == 'Vin de Pays du Lot', 'region'] = 'Lot'
#wines.loc[wines.region == 'Bergerac Sec', 'region'] = 'Bergerac'
#wines.loc[wines.region == 'Jurançon Sec', 'region'] = 'Jurançon'
#wines.loc[wines.region == 'Bergerac Rosé', 'region'] = 'Bergerac'
#wines.loc[wines.region == 'Gaillac Doux', 'region'] = 'Gaillac'

In [None]:
#wines.loc[wines.region == 'Roussette de Savoie', 'region'] = 'Savoie'
#wines.loc[wines.region == 'Vin de Savoie', 'region'] = 'Savoie'
#wines.loc[wines.region == 'Crémant de Jura', 'region'] = 'Jura'