# Projet DataViz chocolat

In [1]:
import pandas as pd

# Chargez le jeu de données dans un DataFrame
dataframe = pd.read_csv("data/chocolate.csv")

# Affichez les 5 premières lignes du DataFrame
dataframe.head()

Unnamed: 0,ref,company_manufacturer,company_location,review_date,country_of_bean_origin,specific_bean_origin_or_bar_name,cocoa_percent,ingredients,most_memorable_characteristics,rating
0,2454,5150,U.S.A.,2019,Tanzania,"Kokoa Kamili, batch 1",76%,"3- B,S,C","rich cocoa, fatty, bready",3.25
1,2458,5150,U.S.A.,2019,Dominican Republic,"Zorzal, batch 1",76%,"3- B,S,C","cocoa, vegetal, savory",3.5
2,2454,5150,U.S.A.,2019,Madagascar,"Bejofo Estate, batch 1",76%,"3- B,S,C","cocoa, blackberry, full body",3.75
3,2542,5150,U.S.A.,2021,Fiji,"Matasawalevu, batch 1",68%,"3- B,S,C","chewy, off, rubbery",3.0
4,2546,5150,U.S.A.,2021,Venezuela,"Sur del Lago, batch 1",72%,"3- B,S,C","fatty, earthy, moss, nutty,chalky",3.0


## Info sur les datas

In [2]:
print(dataframe.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2530 entries, 0 to 2529
Data columns (total 10 columns):
 #   Column                            Non-Null Count  Dtype  
---  ------                            --------------  -----  
 0   ref                               2530 non-null   int64  
 1   company_manufacturer              2530 non-null   object 
 2   company_location                  2530 non-null   object 
 3   review_date                       2530 non-null   int64  
 4   country_of_bean_origin            2530 non-null   object 
 5   specific_bean_origin_or_bar_name  2530 non-null   object 
 6   cocoa_percent                     2530 non-null   object 
 7   ingredients                       2443 non-null   object 
 8   most_memorable_characteristics    2530 non-null   object 
 9   rating                            2530 non-null   float64
dtypes: float64(1), int64(2), object(7)
memory usage: 197.8+ KB
None


### Infos sur ref

In [3]:
print(dataframe['ref'].describe())

count    2530.000000
mean     1429.800791
std       757.648556
min         5.000000
25%       802.000000
50%      1454.000000
75%      2079.000000
max      2712.000000
Name: ref, dtype: float64


In [4]:
print(dataframe['ref'].value_counts())

ref
414     10
24       9
387      9
404      9
1450     8
        ..
597      1
853      1
855      1
849      1
1003     1
Name: count, Length: 630, dtype: int64


### Infos sur company_manufacturer             

In [5]:
print(dataframe['company_manufacturer'].describe())
print(dataframe['company_manufacturer'].value_counts())

count     2530
unique     580
top       Soma
freq        56
Name: company_manufacturer, dtype: object
company_manufacturer
Soma                                   56
Fresco                                 39
Arete                                  32
Bonnat                                 30
A. Morin                               26
                                       ..
Rancho San Jacinto                      1
Raoul Boulanger                         1
Raw Cocoa                               1
Heirloom Cacao Preservation (Mindo)     1
Manifesto Cacao                         1
Name: count, Length: 580, dtype: int64


### Matrice de correlation des variables

In [6]:
import plotly.graph_objects as go


# Exclure les colonnes non numériques du calcul de la corrélation
numeric_columns = dataframe.select_dtypes(include=['float64', 'int64']).columns
correlation_matrix = dataframe[numeric_columns].corr()

# Créer la carte de chaleur avec Plotly
fig = go.Figure(data=go.Heatmap(
                   z=correlation_matrix.values,
                   x=correlation_matrix.columns,
                   y=correlation_matrix.index,
                   colorscale='Viridis'))

fig.update_layout(
    title='Corrélation entre les différentes variables du jeu de données Chocolate',
    xaxis_title='Variables',
    yaxis_title='Variables'
)

fig.show()

## corrélation entre cocoa_percent et most_memorable_characteristics ou rating

### pretraitement des données

In [7]:
# Supprimer les caractères non numériques et convertir en format numérique
dataframe['cocoa_percent'] = dataframe['cocoa_percent'].str.replace('%', '').astype(float)

In [8]:
dataframe['cocoa_percent'].describe()

count    2530.000000
mean       71.639723
std         5.616724
min        42.000000
25%        70.000000
50%        70.000000
75%        74.000000
max       100.000000
Name: cocoa_percent, dtype: float64

In [48]:
import plotly.express as px

# Créer le violin plot avec une largeur réduite
fig = px.box(dataframe, y='cocoa_percent', title='Distribution des pourcentages de cacao',
                labels={'cocoa_percent': 'Pourcentage de Cacao'},
                width=600)  # Définir une largeur personnalisée

# Personnaliser l'apparence
fig.update_traces(marker=dict(color='rgb(158,202,225)', line=dict(color='rgb(8,48,107)')))

# Afficher le violin plot
fig.show()



In [10]:
# Afficher les 5 premières lignes du DataFrame après la modification
dataframe.head()


Unnamed: 0,ref,company_manufacturer,company_location,review_date,country_of_bean_origin,specific_bean_origin_or_bar_name,cocoa_percent,ingredients,most_memorable_characteristics,rating
0,2454,5150,U.S.A.,2019,Tanzania,"Kokoa Kamili, batch 1",76.0,"3- B,S,C","rich cocoa, fatty, bready",3.25
1,2458,5150,U.S.A.,2019,Dominican Republic,"Zorzal, batch 1",76.0,"3- B,S,C","cocoa, vegetal, savory",3.5
2,2454,5150,U.S.A.,2019,Madagascar,"Bejofo Estate, batch 1",76.0,"3- B,S,C","cocoa, blackberry, full body",3.75
3,2542,5150,U.S.A.,2021,Fiji,"Matasawalevu, batch 1",68.0,"3- B,S,C","chewy, off, rubbery",3.0
4,2546,5150,U.S.A.,2021,Venezuela,"Sur del Lago, batch 1",72.0,"3- B,S,C","fatty, earthy, moss, nutty,chalky",3.0


### Corrélation entre cocoa_percent et most_memorable_characteristics

In [11]:
dataframe['most_memorable_characteristics'] = dataframe['most_memorable_characteristics'].str.split(', ')
dataframe.head()

Unnamed: 0,ref,company_manufacturer,company_location,review_date,country_of_bean_origin,specific_bean_origin_or_bar_name,cocoa_percent,ingredients,most_memorable_characteristics,rating
0,2454,5150,U.S.A.,2019,Tanzania,"Kokoa Kamili, batch 1",76.0,"3- B,S,C","[rich cocoa, fatty, bready]",3.25
1,2458,5150,U.S.A.,2019,Dominican Republic,"Zorzal, batch 1",76.0,"3- B,S,C","[cocoa, vegetal, savory]",3.5
2,2454,5150,U.S.A.,2019,Madagascar,"Bejofo Estate, batch 1",76.0,"3- B,S,C","[cocoa, blackberry, full body]",3.75
3,2542,5150,U.S.A.,2021,Fiji,"Matasawalevu, batch 1",68.0,"3- B,S,C","[chewy, off, rubbery]",3.0
4,2546,5150,U.S.A.,2021,Venezuela,"Sur del Lago, batch 1",72.0,"3- B,S,C","[fatty, earthy, moss, nutty,chalky]",3.0


In [12]:
# Créer un dictionnaire pour stocker les associations caractéristiques les plus mémorables - pourcentages de cacao
association_caracteristique_cacao = {}

# Faire une boucle sur chaque ligne du DataFrame
for index, row in dataframe.iterrows():
    pourcentage_cacao = row['cocoa_percent']
    # Afficher les valeurs de chaque colonne pour la ligne actuelle
    for i in row['most_memorable_characteristics']:
        if i in association_caracteristique_cacao:
            # Ajouter le pourcentage de cacao à la liste existante
            association_caracteristique_cacao[i].append(pourcentage_cacao)
        else:
            # Créer une nouvelle liste avec le pourcentage de cacao pour cette caractéristique
            association_caracteristique_cacao[i] = [pourcentage_cacao]

# Afficher le dictionnaire résultant
print(association_caracteristique_cacao)

{'rich cocoa': [76.0, 66.0, 68.0, 70.0, 73.0, 70.0, 71.0, 75.0, 70.0, 72.0, 77.0, 74.0, 68.0, 73.0, 75.0, 70.0, 66.0, 66.0, 72.0, 70.0, 70.0, 70.0, 61.0, 72.0, 70.0, 68.0, 68.0, 69.0, 70.0, 75.0, 75.0, 70.0, 68.0, 85.0, 72.0, 80.0, 70.0, 68.0, 72.0, 72.0, 70.0, 70.0, 75.0, 75.0, 72.0, 75.0, 75.0, 70.0, 73.0, 70.0, 64.0, 66.0, 70.0], 'fatty': [76.0, 72.0, 80.0, 75.0, 75.0, 85.0, 63.0, 70.0, 75.0, 72.0, 72.0, 82.0, 72.0, 72.0, 70.0, 70.0, 75.0, 75.0, 75.0, 75.0, 75.0, 75.0, 75.0, 80.0, 68.0, 70.0, 82.0, 70.0, 100.0, 72.0, 73.0, 70.0, 70.0, 70.0, 80.0, 72.0, 70.0, 70.0, 70.0, 72.0, 75.0, 82.0, 72.0, 75.0, 70.0, 70.0, 70.0, 66.0, 80.0, 75.0, 72.0, 82.0, 70.0, 76.0, 72.0, 70.0, 70.0, 70.0, 70.0, 70.0, 70.0, 70.0, 77.0, 68.0, 75.0, 72.0, 71.0, 61.0, 91.0, 70.0, 70.0, 72.0, 71.0, 71.0, 71.0, 70.0, 70.0, 70.0, 72.0, 72.0, 80.0, 70.0, 70.0, 72.0, 72.0, 75.0, 70.0, 72.0, 70.0, 70.0, 75.0, 75.0, 72.0, 74.0, 68.0, 68.0, 75.0, 72.0, 75.0, 70.0, 70.0, 72.0, 80.0, 75.0, 75.0, 89.0, 70.0, 80.0, 70.0, 

Trier les valeurs pour voir combien de fois les charactéristiques ont été utilisées

In [13]:
# Trier le dictionnaire en fonction de la longueur des listes de pourcentages de cacao
association_caracteristique_cacao_trie = dict(sorted(association_caracteristique_cacao.items(), key=lambda item: len(item[1]), reverse=False))

# Afficher le dictionnaire trié
for caractere, pourcentages in association_caracteristique_cacao_trie.items():
    print(f"Caractéristique '{caractere}': {len(pourcentages)} valeurs")


Caractéristique 'full body': 1 valeurs
Caractéristique 'nutty,chalky': 1 valeurs
Caractéristique 'milk brownie': 1 valeurs
Caractéristique 'macadamia,chewy': 1 valeurs
Caractéristique 'brief fruit note': 1 valeurs
Caractéristique 'burnt rubber,alkalyzed notes': 1 valeurs
Caractéristique 'cocoa,sour,intense tangerine': 1 valeurs
Caractéristique 'tangerine': 1 valeurs
Caractéristique 'sliglty dry': 1 valeurs
Caractéristique 'mild profile': 1 valeurs
Caractéristique 'chocolaty': 1 valeurs
Caractéristique 'alluring aroma': 1 valeurs
Caractéristique 'powdery,nutty': 1 valeurs
Caractéristique 'yellow fruit': 1 valeurs
Caractéristique 'sublte strawberry': 1 valeurs
Caractéristique 'spicy and candy-like': 1 valeurs
Caractéristique 'cocoa and powerful tang': 1 valeurs
Caractéristique 'banana cream': 1 valeurs
Caractéristique 'strong pepper': 1 valeurs
Caractéristique 'odd dairy': 1 valeurs
Caractéristique 'intense pepper': 1 valeurs
Caractéristique 'waxy mouthfeel': 1 valeurs
Caractéristique 'r

Enlever les valeurs qui ont moins de 10 données renseignées

In [14]:
# Filtrer les caractéristiques avec moins de 10 valeurs
association_caracteristique_cacao_filtre = {caractere: pourcentages for caractere, pourcentages in association_caracteristique_cacao_trie.items() if len(pourcentages) >= 10}

# Afficher le dictionnaire filtré
for caractere, pourcentages in association_caracteristique_cacao_filtre.items():
    print(f"Caractéristique '{caractere}': {len(pourcentages)} valeurs")


Caractéristique 'long': 10 valeurs
Caractéristique 'very sweet': 10 valeurs
Caractéristique 'raisin': 10 valeurs
Caractéristique 'buttery': 10 valeurs
Caractéristique 'leathery': 10 valeurs
Caractéristique 'blackberry': 11 valeurs
Caractéristique 'light color': 11 valeurs
Caractéristique 'musty': 11 valeurs
Caractéristique 'ashey': 11 valeurs
Caractéristique 'cinamon': 11 valeurs
Caractéristique 'high roast': 11 valeurs
Caractéristique 'mild smoke': 11 valeurs
Caractéristique 'bourbon': 11 valeurs
Caractéristique 'peanut butter': 11 valeurs
Caractéristique 'strong vanilla': 11 valeurs
Caractéristique 'sweet edge': 11 valeurs
Caractéristique 'mild': 11 valeurs
Caractéristique 'leather': 12 valeurs
Caractéristique 'delicate': 12 valeurs
Caractéristique 'tea': 12 valeurs
Caractéristique 'grape': 12 valeurs
Caractéristique 'perfume': 12 valeurs
Caractéristique 'savory': 13 valeurs
Caractéristique 'raspberry': 13 valeurs
Caractéristique 'waxy': 13 valeurs
Caractéristique 'mint': 13 valeurs


Faire une moyenne

In [15]:
# Initialiser un dictionnaire pour stocker les moyennes
moyennes_caracteristiques = {}

# Calculer la moyenne pour chaque caractéristique
for caractere, pourcentages in association_caracteristique_cacao_filtre.items():
    moyenne = sum(pourcentages) / len(pourcentages)
    moyennes_caracteristiques[caractere] = moyenne

# Afficher les moyennes
for caractere, moyenne in moyennes_caracteristiques.items():
    print(f"Moyenne pour la caractéristique '{caractere}': {moyenne}")

Moyenne pour la caractéristique 'long': 71.3
Moyenne pour la caractéristique 'very sweet': 55.85
Moyenne pour la caractéristique 'raisin': 71.9
Moyenne pour la caractéristique 'buttery': 73.2
Moyenne pour la caractéristique 'leathery': 74.0
Moyenne pour la caractéristique 'blackberry': 71.54545454545455
Moyenne pour la caractéristique 'light color': 71.0
Moyenne pour la caractéristique 'musty': 74.81818181818181
Moyenne pour la caractéristique 'ashey': 74.54545454545455
Moyenne pour la caractéristique 'cinamon': 73.72727272727273
Moyenne pour la caractéristique 'high roast': 72.0909090909091
Moyenne pour la caractéristique 'mild smoke': 72.27272727272727
Moyenne pour la caractéristique 'bourbon': 75.95454545454545
Moyenne pour la caractéristique 'peanut butter': 70.18181818181819
Moyenne pour la caractéristique 'strong vanilla': 71.0909090909091
Moyenne pour la caractéristique 'sweet edge': 72.0
Moyenne pour la caractéristique 'mild': 71.0
Moyenne pour la caractéristique 'leather': 71.

Affichage

In [16]:
import plotly.express as px

# Créer un DataFrame à partir du dictionnaire de moyennes
df_moyennes = pd.DataFrame(list(moyennes_caracteristiques.items()), columns=['Caractéristique', 'Pourcentage moyen de cacao'])

# Trier le DataFrame dans l'ordre décroissant selon la colonne 'Pourcentage moyen de cacao'
df_moyennes = df_moyennes.sort_values(by='Pourcentage moyen de cacao', ascending=False)

# Créer un graphique à barres avec Plotly Express
fig = px.scatter(df_moyennes, x='Caractéristique', y='Pourcentage moyen de cacao', title='Pourcentage moyen de cacao associées à chaque caractéristique')

# Afficher le graphique
fig.show()



In [26]:
print(moyennes_caracteristiques['bitter'])
print(moyennes_caracteristiques['very sweet'])
print(moyennes_caracteristiques['vanilla'])

84.8030303030303
55.85
68.9715909090909


In [47]:
import plotly.graph_objects as go

# Supposons que vous ayez déjà une structure de données contenant les moyennes des caractéristiques
# moyennes_caracteristiques = {'bitter': 70, 'very sweet': 40, 'vanilla': 60}

# Création des labels et des valeurs
labels = ['bitter', 'very sweet', 'vanilla']
values = [moyennes_caracteristiques[label] for label in labels]

# Arrondir les pourcentages et les formater avec le symbole "%"
formatted_values = [f"{round(val)}%" for val in values]

# Création du graphique à barres avec Plotly
fig = go.Figure(data=[go.Bar(x=['Aigre', 'Très sucré', 'Vanille'], y=values, 
                             text=formatted_values,
                             textposition='auto',
                             marker=dict(color=['#2b0808', '#ffc0c0', '#F3E5AB']))])

# Mise en forme du layout
fig.update_layout(title='Pourcentage moyen de cacao en fonction des goûts ressentis',
                  xaxis_title='Goûts',
                  yaxis_title='Pourcentage moyen de cacao')

# Afficher le graphique
fig.show()


### Corrélation entre cocoa_percent et rating 

In [17]:
dataframe['rating'].describe()

count    2530.000000
mean        3.196344
std         0.445321
min         1.000000
25%         3.000000
50%         3.250000
75%         3.500000
max         4.000000
Name: rating, dtype: float64

In [18]:
import plotly.express as px

# Créer le violin plot avec une largeur réduite
fig = px.violin(dataframe, y='rating', title='Distribution des notes',
                labels={'rating': 'Note'},
                width=600)  # Définir une largeur personnalisée

# Personnaliser l'apparence
fig.update_traces(marker=dict(color='rgb(158,202,225)', line=dict(color='rgb(8,48,107)')))

# Afficher le violin plot
fig.show()



In [19]:
import plotly.express as px

# Créer le scatter plot avec Plotly Express
fig = px.scatter(dataframe, x='cocoa_percent', y='rating', title='Relation entre le pourcentage de cacao et les notes',
                 labels={'cocoa_percent': 'Pourcentage de Cacao', 'rating': 'Note'})

# Personnaliser l'apparence avec opacité
fig.update_traces(marker=dict(color='rgb(158,202,225)', size=8, line=dict(color='rgb(8,48,107)', width=1), opacity=0.6))

# Afficher le scatter plot
fig.show()


In [20]:
import pandas as pd
import plotly.express as px

# Supposons que vous ayez un DataFrame avec vos données
# df = pd.read_csv("votre_fichier.csv")

# Calculer la moyenne des notes par pourcentage de cacao
average_rating = dataframe.groupby('cocoa_percent')['rating'].mean().reset_index()

# Créer le graphique linéaire avec Plotly Express
fig = px.line(average_rating, x='cocoa_percent', y='rating', title='Moyenne des notes en fonction du pourcentage de cacao',
               labels={'cocoa_percent': 'Pourcentage de Cacao', 'rating': 'Note moyenne'})

# Personnaliser l'apparence
fig.update_traces(line=dict(color='rgb(31, 119, 180)', width=2))

# Afficher le graphique linéaire
fig.show()


### Diagramme à cordre entre origine et compagny location


In [21]:
import pandas as pd
import plotly.graph_objects as go

# Supposons que vous ayez un DataFrame avec vos données
# df = pd.read_csv("votre_fichier.csv")

# Agréger les données pour compter les occurrences de chaque combinaison de 'company_location' et 'country_of_bean_origin'
data_aggregated = dataframe.groupby(['company_location', 'country_of_bean_origin']).size().reset_index(name='count')

# Créer une liste unique de toutes les étiquettes
labels = pd.concat([data_aggregated['company_location'], data_aggregated['country_of_bean_origin']]).unique()

# Créer un dictionnaire pour mapper les étiquettes aux indices
label_to_index = {label: i for i, label in enumerate(labels)}

# Créer une matrice pour stocker les valeurs de liaison
matrix = [[0]*len(labels) for _ in range(len(labels))]

# Remplir la matrice avec les valeurs de liaison
for _, row in data_aggregated.iterrows():
    source_index = label_to_index[row['company_location']]
    target_index = label_to_index[row['country_of_bean_origin']]
    matrix[source_index][target_index] = row['count']
    matrix[target_index][source_index] = row['count']

# Créer la figure du diagramme à cordes rempli
fig = go.Figure(data=go.Scatterpolar(
    r=matrix[0],
    theta=labels,
    fill='toself',
    name=labels[0],
    mode='lines',
    line=dict(color='blue')
))

# Ajouter les autres catégories au tracé
for i in range(1, len(labels)):
    fig.add_trace(go.Scatterpolar(
        r=matrix[i],
        theta=labels,
        fill='toself',
        name=labels[i],
        mode='lines',
        line=dict(color='blue')
    ))

# Mettre en forme et afficher la figure
fig.update_layout(
    title='Diagramme à Cordes Rempli',
    polar=dict(radialaxis=dict(visible=True)),
    showlegend=False
)
fig.show()
