# Étude de marché - Vin _(8 heures)_

Le client, le Domaine des Croix, cherche à se lancer sur le marché américain . Il souhaite donc **définir le prix** de ses bouteilles de vin **pour être compétitif sur le marché américain**. Il a récupéré un jeu de données de 130k bouteilles de vin, avec les cépages, les pays et région de production, les millésimes (c'est-à-dire les années de production), ainsi que des notes ("points") et descriptifs d'oenologues (les spécialistes du vin), et le prix moyen en dollars de toutes ces bouteilles sur le marché américain.

**L'objectif sera de faire une présentation de l'analyse du marché, et du prix que vous conseillez de fixer pour les vins du client.** Le client n'est pas data analyst, mais souhaiterait comprendre la démarche. Il faudra donc s'attacher à expliquer comment les prix ont été fixés, sans rentrer dans un trop grand niveau technique, autrement dit : vulgariser.




## Jeux de données
- Dataset des 130k vins : https://github.com/WildCodeSchool/wilddata/raw/main/wine.zip
- Dataset de la bouteille de vin que le client aimerait proposer sur le marché américain : https://raw.githubusercontent.com/WildCodeSchool/wilddata/main/domaine_des_croix.csv


## Livrables attendus
Le client souhaite une présentation (et non pas du code)
La présentation contiendra a minima ces éléments :
- Rappel du contexte et de la problématique
- Analyse exploratoire des données
- Méthodologie, outils et langages utilisés
- Présentation de la partie technique et du code créé, si code il y a, pour cette analyse
- Votre tableau de bord contient des graphiques
- Votre tableau de bord contient au moins une visualisation de données interactive
- Votre tableau de bord contient au moins une carte représentant des informations géographiques
- Votre tableau de bord contient au moins un tableau croisé
- L'ensemble des graphiques et visuels doivent être lisible par tous (prise en compte des personne en situation de handicap visuel)
- Réponse à la question métier : proposition de prix ou de fourchette de prix au client pour être correctement positionné face à la concurrence sur le marché américain

Effectuez tout d'abord la trame ci-dessous. Puis, si vous avez des bonnes idées à proposer au client, elles sont évidemment les bienvenues.



## Préparation des données et exploration des données

## Analyse du marché
Le Domaine des Croix souhaiterait une analyse descriptive du marché du vin. Vous allez donc réaliser un ensemble de dataviz, avec l'outil de votre choix (Seaborn, Plotly, Excel, PowerBI, Tableau, etc...). Vous pouvez par exemple intégrer dans votre tableau de bord:
- la répartition du nombre de vins par pays
- les pays qui ont les meilleures notes
- les moyennes de notes par cépage
- la répartition par décile
- etc...



## Analyse comparative

L'objectif ici sera de comparer chacun des vins du client par rapport à ses concurrents sur le marché. Par exemple, comparer les tarifs pratiqués pour les vins français, puis de plus en plus précisément, les vins de Bourgogne puisque notre client est en Bourgogne, puis les Pinot Noir bourguignons de la même année.
N'hésitez pas à être original dans la présentation et les dataviz utilisées.

## Proposition de valeur

Avec le tableau de bord que vous lui avez fourni, le client a une idée précise de ses concurrents. Faites lui une proposition de prix en fonction de sa volonté de positionnement (par exemple : "si vous souhaitez vous positionner sur le haut de gamme, les 25% les plus chers de vos concurrents sont à ce tarif, nous vous conseillons donc de vous aligner sur ce prix").

## Qualité esthétique du tableau de bord

Essayez de garder un oeil critique et visuel sur votre tableau de bord. La forme compte autant que le fond pour le client qui n'est pas data analyst. Pensez donc à "vendre" votre analyse. Par exemple, avec des couleurs s'inspirant du milieu vinicole, des dataviz originales, etc...

## Data processing

In [None]:
link = "https://github.com/WildCodeSchool/wilddata/raw/main/wine.zip"
df = pd.read_csv(link)

df.head()

Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2019 Vulkà Bianco (Etna),White Blend,Nicosia
1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,20.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2017 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,US,"Tart and snappy, the flavors of lime flesh and...",,87,18.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2019 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,18.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2019 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,US,"Much like the regular bottling from 2016, this...",Vintner's Reserve Wild Child Block,87,44.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2018 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks


In [None]:
df.shape

(129957, 13)

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 129957 entries, 0 to 129956
Data columns (total 13 columns):
 #   Column                 Non-Null Count   Dtype  
---  ------                 --------------   -----  
 0   country                129894 non-null  object 
 1   description            129957 non-null  object 
 2   designation            92497 non-null   object 
 3   points                 129957 non-null  int64  
 4   price                  120964 non-null  float64
 5   province               129894 non-null  object 
 6   region_1               108710 non-null  object 
 7   region_2               50511 non-null   object 
 8   taster_name            103713 non-null  object 
 9   taster_twitter_handle  98744 non-null   object 
 10  title                  129957 non-null  object 
 11  variety                129956 non-null  object 
 12  winery                 129957 non-null  object 
dtypes: float64(1), int64(1), object(11)
memory usage: 12.9+ MB


In [None]:
df["country"].unique()

array(['Italy', 'Portugal', 'US', 'Spain', 'France', 'Germany',
       'Argentina', 'Chile', 'Australia', 'Austria', 'South Africa',
       'New Zealand', 'Israel', 'Hungary', 'Greece', 'Romania', 'Mexico',
       'Canada', nan, 'Turkey', 'Czech Republic', 'Slovenia',
       'Luxembourg', 'Croatia', 'Georgia', 'Uruguay', 'England',
       'Lebanon', 'Serbia', 'Brazil', 'Moldova', 'Morocco', 'Peru',
       'India', 'Bulgaria', 'Cyprus', 'Armenia', 'Switzerland',
       'Bosnia and Herzegovina', 'Ukraine', 'Slovakia', 'Macedonia',
       'China', 'Egypt'], dtype=object)

Nous trouvons que 43 pays c'est beaucoup trop à analyser, nous allons réduire la liste des pays

Nous envisageons de garder les US, certains pays européens, certains pays sud-américains et l'Australie

Une recherche nous montre que ces 15 pays ont une bonne réputation en matière de vin:
France, Italie, Espagne, États-Unis, Australie, Chili, Argentine, Allemagne, Portugal, Nouvelle-Zélande, Afrique du Sud, Autriche, Grèce, Canada, Suisse

Nous allons donc réduire notre champ d'analyse à ces pays

In [None]:
pays_selectionnes = ["France", "Italy", "Spain", "US", "Australia", "Chile", "Argentina", "Germany",
                     "Portugal", "New Zealand", "South Africa", "Austria", "Greece", "Canada", "Switzerland"]

In [None]:
df_selection = df[df["country"].isin(pays_selectionnes)]

In [None]:
print(df_selection.shape)

(128120, 13)


In [None]:
print(df_selection.head().to_markdown())

|    | country   | description                                                                                                                                                                                                                                               | designation                        |   points |   price | province          | region_1            | region_2          | taster_name        | taster_twitter_handle   | title                                                                               | variety        | winery              |
|---:|:----------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------|---------:|--------:|:------------------|:--------------------|:------------------|:-------------------|:------------------------|

In [None]:
combien_par_country = df_selection["country"].value_counts()
print(combien_par_country)

country
US              54504
France          22079
Italy           19540
Spain            6645
Portugal         5691
Chile            4472
Argentina        3800
Austria          3345
Australia        2329
Germany          2165
New Zealand      1419
South Africa     1401
Greece            466
Canada            257
Switzerland         7
Name: count, dtype: int64


La Suisse ne propose qu'un faible nombre de vins, nous ne la garderons pas

In [None]:
condition = df_selection["province"] != "Switzerland"
df_selection = df_selection[condition]
print(df_selection.head().to_markdown())

|    | country   | description                                                                                                                                                                                                                                               | designation                        |   points |   price | province          | region_1            | region_2          | taster_name        | taster_twitter_handle   | title                                                                               | variety        | winery              |
|---:|:----------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------|---------:|--------:|:------------------|:--------------------|:------------------|:-------------------|:------------------------|

In [None]:
df_selection.shape

(128117, 13)

In [None]:
import re

def extract_year(text):
  motif = "\d{4}"
  date = re.findall(motif, text)
  return date

In [None]:
df_selection["Année"] = df_selection["title"].apply(extract_year)

In [None]:
print(df_selection.head().to_markdown())

|    | country   | description                                                                                                                                                                                                                                               | designation                        |   points |   price | province          | region_1            | region_2          | taster_name        | taster_twitter_handle   | title                                                                               | variety        | winery              | Année    |
|---:|:----------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------|---------:|--------:|:------------------|:--------------------|:------------------|:-------------------|:--------------

In [None]:
print(df_selection["Année"].value_counts())

Année
[2019]          15578
[2018]          15468
[2020]          15284
[2017]          12259
[2016]          11951
                ...  
[2011, 1953]        1
[2020, 6679]        1
[2007, 7000]        1
[2009, 2009]        1
[2017, 1850]        1
Name: count, Length: 375, dtype: int64


Je ne vais garder que les années où il n'y a qu'une seule valeur à extraire

In [None]:
condition = df_selection["Année"].apply(lambda x: len(x) == 1)
df_filtre = df_selection[condition]
print(df_filtre.shape)

(123100, 14)


La colonne "region_2" ne nous servira pas pour l'analyse, nous la supprimons

In [None]:
df_selection = df_selection.drop("region_2", axis = 1)

In [None]:
df_selection.isna().sum()

country                      0
description                  0
designation              37115
points                       0
price                     8950
province                     0
region_1                 19407
taster_name              26233
taster_twitter_handle    30996
title                        0
variety                      1
winery                       0
Année                        0
dtype: int64

Il reste beaucoup de valeurs manquantes, nous allons les supprimer

In [None]:
df_selection = df_selection.dropna()

In [None]:
print(df_selection.shape)

(52099, 13)


Nous estimons que la colonne "taster_twitter_handle" ne servira pas à l'analyse

In [None]:
df_selection = df_selection.drop("taster_twitter_handle", axis = 1)

In [None]:
df_selection.shape

(52099, 12)

In [None]:
print(df_selection.head().to_markdown())

|    | country   | description                                                                                                                                                                                                                                                           | designation                        |   points |   price | province          | region_1          | taster_name       | title                                                                               | variety            | winery             | Année    |
|---:|:----------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------|---------:|--------:|:------------------|:------------------|:------------------|:-----------------------------------------------------------

Il nous reste un peu plus de 52000 lignes à analyser ce qui nous semble un bon début

In [None]:
from google.colab import drive
drive.mount("/content/drive")

Mounted at /content/drive


In [None]:
df_selection.to_csv("/content/drive/MyDrive/df_selection.csv", index = False)

In [None]:
df_selection = pd.read_csv("/content/drive/MyDrive/df_selection.csv")

In [None]:
print(df_selection.head().to_markdown())

|    | country   | description                                                                                                                                                                                                                                                           | designation                        |   points |   price | province          | region_1          | taster_name       | title                                                                               | variety            | winery             | Année    |
|---:|:----------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------|---------:|--------:|:------------------|:------------------|:------------------|:-----------------------------------------------------------

Je voudrais essayer d'utiliser la colonne "description" dans mon dashboard en mettant en évidence des mots-clés par exemple

Pour cela j'ai besoin de traiter le texte afin de l'expurger de la ponctuation et des mots avec peu ou pas de signification

In [None]:
# cet import va me permettre de travailler sur du texte

import nltk
nltk.download('popular')

[nltk_data] Downloading collection 'popular'
[nltk_data]    | 
[nltk_data]    | Downloading package cmudict to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/cmudict.zip.
[nltk_data]    | Downloading package gazetteers to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/gazetteers.zip.
[nltk_data]    | Downloading package genesis to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/genesis.zip.
[nltk_data]    | Downloading package gutenberg to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/gutenberg.zip.
[nltk_data]    | Downloading package inaugural to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/inaugural.zip.
[nltk_data]    | Downloading package movie_reviews to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   Unzipping corpora/movie_reviews.zip.
[nltk_data]    | Downloading package names to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/names.zip.
[nltk_data]    | Downloading package shakespeare to /root/nltk_data...
[nlt

True

In [None]:
# le texte étant en anglais je dois importer du vocabulaire

import en_core_web_sm

nlp = en_core_web_sm.load()

In [None]:
# installation de spacy pour la tokenisation et la lemmatization

!pip install spacy



In [None]:
# processtext est un outil puissant pour pré traiter du texte

!pip install processtext

Collecting processtext
  Downloading processtext-0.1.7-py3-none-any.whl (9.4 kB)
Collecting autocorrect (from processtext)
  Downloading autocorrect-2.6.1.tar.gz (622 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m622.8/622.8 kB[0m [31m9.3 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: autocorrect
  Building wheel for autocorrect (setup.py) ... [?25l[?25hdone
  Created wheel for autocorrect: filename=autocorrect-2.6.1-py3-none-any.whl size=622363 sha256=fb8d5e2809248c7510f012d93a57879e8fcec7237bda872ac4189237688ea1ee
  Stored in directory: /root/.cache/pip/wheels/b5/7b/6d/b76b29ce11ff8e2521c8c7dd0e5bfee4fb1789d76193124343
Successfully built autocorrect
Installing collected packages: autocorrect, processtext
Successfully installed autocorrect-2.6.1 processtext-0.1.7


In [None]:
# juste pour voir où j'en suis

from tqdm import tqdm
tqdm.pandas()

import processtext as pt

In [None]:
#traitement de text méthode automatique

def clean_2(text):
        return pt.clean(text,
                        extra_spaces=True,                          # enlever les espaces en trop s'il y en a
                        lemmatize=True,                             # appliquer le lemmatizer
                        lowercase = True,                           # mettre tout le texte en minuscule
                        sw = True,                                  # enlever les stopwords (anglais)
                        stp_lang = "english",                       # considerer stopwords en anglais
                        numbers = True,                             # enlever les nombres
                        punct = True                                # et enlever la ponctuation
                      )

In [None]:
# application de la fonction

df_selection["description"] = df_selection["description"].apply(clean_2)

In [None]:
print(df_selection.head().to_markdown())

|    | country   | description                                                                                                                                                                                     | designation                        |   points |   price | province          | region_1          | taster_name       | title                                                                               | variety            | winery             | Année    |
|---:|:----------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------|---------:|--------:|:------------------|:------------------|:------------------|:------------------------------------------------------------------------------------|:-------------------|:-------------------|:---------|
|  0 | US        | much like regular bottle come across rath

Le texte a bien été expurgé de la ponctuation et des stopwords et ne contient désormais que des mots "signifiants"

In [None]:
df_selection.to_csv("/content/drive/MyDrive/df_selection.csv", index = False)

## Traitement des données via Power Query

Avant d'entamer la création de mon dashboard, il a fallu plusieurs étapes de transformation des données pour pouvoir les utiliser convenablement et en tirer le meilleur parti
+ changement de type de données (text to int)
+ changement de la devise pour la colonne "price"
+ repérage des coquilles éventuelles, puis traitement si possible
+ gros travail sur la colonne "Année" pour retirer les crochets, les guillemets, vérifier les formats...
