(English version below)

# FR - Etude de marché sur le vin

Le client, le Domaine des Croix, cherche à **définir le prix** de ses bouteilles de vin **pour le marché américain**. Il a récupéré un jeu de données de 130k bouteilles de vin, avec les cépages, les pays et région de production, les millésimes (c'est-à-dire les années de production), ainsi que des notes ("points") et descriptifs d'oenologues (les spécialistes du vin), et le prix en dollars de toutes ces bouteilles sur le marché américain.

**L'objectif sera de faire une présentation de l'analyse du marché, et du prix que tu conseilles de fixer pour les vins du client.** Le client n'est pas data analyst, mais souhaiterait comprendre la démarche. Il faudra donc s'attacher à expliquer comment les prix ont été fixés, sans rentrer dans un trop grand niveau technique, autrement dit : vulgariser.

Tu trouveras ci-dessous des trames pour te guider dans cette analyse. Effectue tout d'abord la trame commune. Puis, tu peux suivre l'une de ces trames (Machine Learning ou Business Intelligence). **Ne cherche pas à effectuer les deux trames ! Choisir, c'est renoncer. Le client préfère un travail qualitatif plutôt qu'un travail exhaustif.**
Mais tu peux aussi partir dans d'autres directions pour répondre à la problématique du client. Si tu as des bonnes idées à proposer au client, elles sont évidemment les bienvenues. C'est toi le Data Analyst maintenant.




# Jeux de données
- Dataset des 130k vins : https://github.com/murpi/wilddata/raw/master/wine.zip
- Dataset des 14 vins du Domaine des Croix : https://github.com/murpi/wilddata/raw/master/domaine_des_croix.csv


# Livrables attendus
Le client souhaite une présentation de 7 minutes suivi de 5 minutes de questions.
La présentation contiendra a minima ces éléments :
- Rappel du contexte et de la problématique
- Analyse exploratoire des données
- Méthodologie, outils et langages utilisés
- Présentation de la partie technique et du code créé pour cette analyse
- Réponse à la question métier : proposition de prix ou de fourchette de prix au client pour être correctement positionné face à la concurrence sur le marché américain


# EN - Wine market study

The client, Domaine des Croix, is looking to define the price of its wine bottles for the US market. They have retrieved a set of 130k bottles of wine, with grape varieties, countries and regions of production, vintages (i.e. years of production), as well as notes ("points") and descriptions from oenologists (wine specialists), and the price of all these bottles on the American market.

**The objective will be to make a presentation of the market analysis and the price you recommend for the client's wines.** The client is not a data analyst, but would like to understand the process. You will have to explain how the prices were set, without getting too technical, in other words: make it easy to understand.

You will find below some frames to guide you in this analysis. First, do the common framework. Then, you can follow one of these frames (Machine Learning or Business Intelligence). **Don't try to do both frames! To choose is to give up. The client prefers qualitative work to exhaustive work.**
But you can also go in other directions to answer the client's problem. If you have good ideas to propose to the client, they are obviously welcome. You're the data analyst now.




# Data sets
- Dataset of 130k wines: https://github.com/murpi/wilddata/raw/master/wine.zip
- Dataset of the 14 Domaine des Croix wines: https://github.com/murpi/wilddata/raw/master/domaine_des_croix.csv


# Expected deliverables
The client would like an 7 minutes presentation followed by 5 minutes of questions.
The presentation will contain at least these elements:
- Reminder of the context and the problem
- Exploratory analysis of the data
- Methodology, tools and languages used
- Presentation of the technical part and the code created for this analysis
- Answer to the business question: price proposal or price range to the client to be correctly positioned against the competition on the American market

# Common framework: data preparation and exploratory analysis





## FR - Preprocessing
La colonne "title" contient le domaine, le millésime et le cépage ("variety"). Tu dois isoler le millésime (l'année) dans une colonne dédiée.


## Analyse du marché
Le Domaine des Croix souhaiterait une analyse descriptive du marché du vin. Tu vas donc réaliser un ensemble de dataviz, avec l'outil de ton choix (Seaborn, Plotly, Excel, PowerBI, Tableau, etc...). Par exemple :
- la répartition du nombre de vins par pays
- les pays qui ont les meilleures notes
- les moyennes de notes par cépage
- la répartition par décile
- etc...

Le client souhaiterait un zoom spécifique sur le cépage ("variety") Pinot Noir.


## Descriptions
Quels sont les mots qui ressortent le plus dans les descriptions des vins ? Et spécifiquement pour le pinot noir, est-ce très différent ?  Et pour la province Burgundi en France ?



## EN - Preprocessing
The "title" column contains the domain, the vintage and the variety. You must isolate the vintage (year) in a dedicated column.


## Market analysis
Domaine des Croix would like a descriptive analysis of the wine market. You will therefore make a set of dataviz, with the tool of your choice (Seaborn, Plotly, Excel, PowerBI, Tableau, etc...). For example :
- the distribution of the number of wines per country
- the countries with the best scores
- the average scores by grape variety
- the distribution by decile
- etc...

The client would like a specific zoom on the Pinot Noir variety.


## Descriptions
What words stand out the most in the wine descriptions? And specifically for Pinot Noir, is it very different?  What about the Burgundi province in France?


# Framework: Machine Learning



## FR - Machine Learning (partie 1 : numérique)
Choisis la métrique la plus adaptée, puis entraine différents modèles/paramètres afin de prédire le prix d'une bouteille en fonction de la note ("points") et de l'année. Evalue les scores et conserve uniquement les meilleurs paramètres. Applique le modèle aux 14 vins du Domaine des Croix pour proposer un prix à chaque bouteille.
Pense à séparer le jeu de données et le jeu d'entrainement. Tu peux aussi utiliser CrossValidation et GridSearch.
Pense aussi à standardiser les données pour de meilleurs résultats.

## Machine Learning (partie 2 : catégories) :
En plus de la note et de l'année, intégre les 10 cépages (variety) les plus représentés et les 10 pays (country) les plus représentés. Tu peux aussi ajouter la province si tu trouves cela plus précis.
Il faut transformer ces données pour être acceptées par le modèle. Les prédictions sont-elles très différentes de l'étape précédente ? Peux-tu proposer une interprétation ? Est-ce cohérent avec ton analyse descriptive ?

## Facultatif : Machine Learning (partie 3 : NLP) :
Idem, mais en ajoutant les descriptions et toutes les autres informations à ta disposition.

## EN - Machine Learning (part 1: numerical)
Choose the best metric, then train different models/parameters to predict the price of a bottle based on the score ("points") and the year. Evaluates the scores and keeps only the best parameters. Apply the model to the 14 Domaine des Croix wines to propose a price for each bottle.
Remember to separate the data set and the training set. You can also use CrossValidation and GridSearch.
Also think about standardizing the data for better results.

## Machine Learning (part 2: categories):
In addition to the grade and the year, include the 10 most represented varieties and the 10 most represented countries. You can also add the province if you find it more precise.
These data must be transformed to be accepted by the model. Are the predictions very different from the previous step? Can you offer an interpretation? Is this consistent with your descriptive analysis?

## Optional: Machine Learning (Part 3: NLP):
Same, but add the descriptions and any other information at your disposal.


# Framework: Business Intelligence



## FR - Analyse comparative

L'objectif ici sera de comparer chacun des vins du client par rapport à ses concurrents sur le marché. Par exemple, comparer les tarifs pratiqués pour les vins français, puis de plus en plus précisément, les vins de Bourgogne puisque notre client est en Bourgogne, puis les Pinot Noir bourguignons de la même année.
N'hésite pas à être original dans la présentation et les dataviz utilisées. Utilise toutes les fonctionnalités de Business Intelligence dans un tableau de bord pour aider au mieux le client à se comparer (infobulles, filtres, etc...).

## Proposition de valeur

Avec le tableau de bord que tu lui as fourni, le client a une idée précise de ses concurrents. Fais lui une proposition de prix en fonction de sa volonté de positionnement (par exemple : "si vous souhaitez vous positionner sur le haut de gamme, les 25% les plus chers de vos concurrents sont à ce tarif, nous vous conseillons donc de vous aligner sur ce prix").

## Qualité esthétique du tableau de bord

Essaye de garder un oeil critique et visuel sur ton tableau de bord. La forme compte autant que le fond pour le client qui n'est pas data analyst. Pense donc à "vendre" ton analyse. Par exemple, avec des couleurs s'inspirant du milieu vinicole, des dataviz originales, etc...

## EN - Comparative analysis
The objective here will be to compare each of the client's wines to its competitors on the market. For example, compare the prices for French wines, then more and more precisely, Burgundy wines since our client is in Burgundy, then Burgundy Pinot Noir of the same year. Do not hesitate to be original in the presentation and the dataviz used. Use all the Business Intelligence functionalities in a dashboard to help the client to compare himself (tooltips, filters, etc...).

## Value proposition
With the dashboard you provided, the customer has a clear idea of his competitors. Make him a price proposal according to his positioning (for example: "if you want to position yourself on the top of the range, the 25% most expensive of your competitors are at this price, we advise you to align yourself with this price").

## Aesthetic quality of the dashboard
Try to keep a critical and visual eye on your dashboard. The form counts as much as the content for the client who is not a data analyst. So think about "selling" your analysis. For example, with colors inspired by the wine industry, original dataviz, etc...


# It's up to you now:

In [None]:
import pandas as pd
link = "https://github.com/murpi/wilddata/raw/master/wine.zip"
df = pd.read_csv(link)

In [None]:
df.head()

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2019 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,20.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2017 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,18.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2019 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,18.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2019 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,US,"Much like the regular bottling from 2016, this...",Vintner's Reserve Wild Child Block,87,44.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2018 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks
