# prétraitement

In [1]:
import numpy as np
import pandas as pd
import plotly.express as px

# Read the data
data = pd.read_csv('data/chocolate.csv')

data.head()

Unnamed: 0,ref,company_manufacturer,company_location,review_date,country_of_bean_origin,specific_bean_origin_or_bar_name,cocoa_percent,ingredients,most_memorable_characteristics,rating
0,2454,5150,U.S.A.,2019,Tanzania,"Kokoa Kamili, batch 1",76%,"3- B,S,C","rich cocoa, fatty, bready",3.25
1,2458,5150,U.S.A.,2019,Dominican Republic,"Zorzal, batch 1",76%,"3- B,S,C","cocoa, vegetal, savory",3.5
2,2454,5150,U.S.A.,2019,Madagascar,"Bejofo Estate, batch 1",76%,"3- B,S,C","cocoa, blackberry, full body",3.75
3,2542,5150,U.S.A.,2021,Fiji,"Matasawalevu, batch 1",68%,"3- B,S,C","chewy, off, rubbery",3.0
4,2546,5150,U.S.A.,2021,Venezuela,"Sur del Lago, batch 1",72%,"3- B,S,C","fatty, earthy, moss, nutty,chalky",3.0


In [2]:
# vérifier qu'il ne manque pas de données
print(data.isnull().sum())

# vérifier qu'il n'y a pas de doublons
print(data.duplicated().sum())



ref                                  0
company_manufacturer                 0
company_location                     0
review_date                          0
country_of_bean_origin               0
specific_bean_origin_or_bar_name     0
cocoa_percent                        0
ingredients                         87
most_memorable_characteristics       0
rating                               0
dtype: int64
0


In [3]:
# Supprimer les caractères non numériques et convertir en format numérique
data['cocoa_percent'] = data['cocoa_percent'].str.replace('%', '').astype(float)

# Charte graphique

In [4]:
# créer palette de couleurs avec ces couleurs: 
#874646 (135,70,70)
#f6eddb (246,237,219)
#2b0808 (43,8,8)
#6a4227 (106,66,39)
#ffc0c0 (255,192,192)

palette = ['#874646', '#f6eddb', '#2b0808', '#6a4227', '#ffc0c0']
palette_degrade =['#71260A', '#96421D' ,'#C06530', '#DA8A56', '#E9D5CC']
background_color = "#fff7ef"
text_color = '#6f1c0e'

# Pays producteurs de fèves de cacao

### diagramme en barre

In [5]:

databis = data.copy()
#Selectionner les pays avec plus de 20 chocolats
databis['country_of_bean_origin'] = databis['country_of_bean_origin'].apply(lambda x: x if databis['country_of_bean_origin'].value_counts()[x] > 20 else 'Blend')
#Enlever "Blend"
fig = px.histogram(databis[databis['country_of_bean_origin'] != 'Blend'], x='country_of_bean_origin', 
                   color_discrete_sequence=palette, title="Pays d'origine des fèves de cacao")
fig.update_xaxes(categoryorder='total descending', tickangle=45)
fig.update_layout(xaxis_title='', yaxis_title='Nombre de chocolats évalués')
fig.update_layout(plot_bgcolor=background_color, font_color=text_color)
fig.update_traces(marker=dict(color=palette[0]))
fig.show()

### diag en barre top 5

In [24]:
# version petite

# histogramme nombre de chocolats par pays d'origine, en crénat un catégorie "autre" pour les pays avec moins de 10 chocolats


databis['country_of_bean_origin'] = databis['country_of_bean_origin'].apply(lambda x: x if databis['country_of_bean_origin'].value_counts()[x] > 100 else 'Blend')

fig = px.histogram(databis[databis['country_of_bean_origin'] != 'Blend'], x='country_of_bean_origin', 
                   color_discrete_sequence=palette, title="Pays d'origine des fèves de cacao")
fig.update_xaxes(categoryorder='total descending')
fig.update_layout(xaxis_title='', yaxis_title='Nombre de chocolats évalués')
fig.update_layout(plot_bgcolor=background_color, font_color=text_color)
fig.update_traces(marker=dict(color=palette[0]))
fig.update_layout(autosize=False, width=500, height=400)
fig.show()

In [7]:
# # Afficher le nombre de chocolats par pays d'origine
# fig = px.histogram(data, x='country_of_bean_origin', title='Pays d\'origine des fèves de cacao')
# fig.update_xaxes(categoryorder='total descending', tickangle=45)
# fig.update_layout(xaxis_title='', yaxis_title='Nombre de chocolats', plot_bgcolor=palette[1], paper_bgcolor=palette[1], font_color=palette[2]) #couleurs
# #couleurs
# fig.update_traces(marker=dict(color=palette[0]))
# fig.show()


### Donut (autres pays)

In [27]:
# databis = data.copy()
# databis['country_of_bean_origin'] = databis['country_of_bean_origin'].apply(lambda x: x if databis['country_of_bean_origin'].value_counts()[x] > 30 else 'Autre pays')

# #On retire Blend
# fig=px.pie(databis[databis['country_of_bean_origin'] != 'Blend'], names='country_of_bean_origin', 
#            title='Pays d\'origine des fèves de cacao', hole=0.4, color_discrete_sequence=px.colors.sequential.solar)
# fig.update_traces(textposition='inside', textinfo='percent+label')
# fig.update_layout(margin=dict(l=40, r=20, t=50, b=10), showlegend=False)
# fig.update_layout(plot_bgcolor=background_color, font_color=text_color)

# fig.update_layout(width=500, height=500)

# fig.show()

In [26]:

fig=px.pie(data, names='country_of_bean_origin', title='Pays d\'origine des fèves de cacao', hole=0.4,color_discrete_sequence=px.colors.sequential.solar)
fig.update_traces(textposition='inside', textinfo='percent+label')
fig.update_layout(margin=dict(l=40, r=20, t=50, b=10))
fig.update_layout(plot_bgcolor=palette[1], paper_bgcolor=palette[1], font_color=palette[2]) #couleurs

fig.show()

### Carte

In [10]:
tab=data['country_of_bean_origin'].value_counts()

# Avoir le pourcentage des chocolats par pays
tab=tab/tab.sum()*100

# Origine des fèves de cacao par pays
fig = px.scatter_geo(tab, locations=tab.index, hover_name=tab.index, locationmode='country names', 
                     size=tab.values, title='Pays d\'origine des fèves de cacao' , color=tab.values, 
                     projection="natural earth", color_continuous_scale=palette_degrade)
#projection="orthographic"
fig.update_layout(margin=dict(l=40, r=20, t=50, b=10),coloraxis_colorbar=dict(title='Nombre de chocolats évalués'))
fig.update_traces(marker=dict(line=dict(width=1, color='Black')))
fig.update_layout(font_color=text_color) #couleurs


fig.show()

# Pays importateurs

### donut

In [11]:
# Fabricants

databis = data.copy()
databis['company_location'] = databis['company_location'].apply(lambda x: x if databis['company_location'].value_counts()[x] > 30 else 'Autre pays')


fig=px.pie(databis, names='company_location', title='Pays importateurs de fèves de cacao', hole=0.4,color_discrete_sequence=px.colors.sequential.solar)

fig.update_traces(textposition='inside', textinfo='percent+label')
fig.update_layout(margin=dict(l=40, r=20, t=50, b=10), showlegend=False)
fig.update_layout(plot_bgcolor=background_color, font_color=text_color)

fig.update_layout(width=500, height=500)

fig.show()

### diagramme en barre

In [12]:
databis = data.copy()
databis['company_location'] = databis['company_location'].apply(lambda x: x if databis['company_location'].value_counts()[x] > 20 else 'Blend')

fig = px.histogram(databis[databis['company_location'] != 'Blend'], x='company_location', 
                   color_discrete_sequence=palette, title="Localisation des fabricants de chocolat parmis les chocolats évalués")
fig.update_xaxes(categoryorder='total descending', tickangle=45)
fig.update_layout(xaxis_title='Pays d\'origine des fèves de cacao', yaxis_title='Nombre de chocolats évalués')
fig.update_layout(plot_bgcolor=background_color, font_color=text_color)
fig.update_traces(marker=dict(color=palette[0]))
fig.show()

### diag barre top 5

In [13]:
# version petite 

databis = data.copy()
databis['company_location'] = databis['company_location'].apply(lambda x: x if databis['company_location'].value_counts()[x] > 70 else 'Blend')

fig = px.histogram(databis[databis['company_location'] != 'Blend'], x='company_location', color_discrete_sequence=palette, 
                   title="Localisation des fabricants de chocolat")
fig.update_xaxes(categoryorder='total descending', tickangle=45)
fig.update_layout(xaxis_title='Pays d\'origine des fèves de cacao', yaxis_title='Nombre de chocolats évalués')
fig.update_layout(plot_bgcolor=background_color, font_color=text_color)
fig.update_layout(autosize=False, width=500, height=400)

fig.update_traces(marker=dict(color=palette[0]))
fig.show()

### carte

In [14]:
tab=data['company_location'].value_counts()

# Avoir le pourcentage des chocolats par pays
tab=tab/tab.sum()*100


fig = px.scatter_geo(tab, locations=tab.index, hover_name=tab.index, locationmode='country names', size=tab.values,
                      title='Localisation des fabricants de chocolat' , color=tab.values, projection="natural earth", size_max=50,
                      color_continuous_scale=palette_degrade)
#projection="orthographic"
fig.update_layout(margin=dict(l=40, r=20, t=50, b=10),coloraxis_colorbar=dict(title='Nombre de chocolats évalués'))
fig.update_traces(marker=dict(line=dict(width=1, color='Black')))
fig.update_layout(font_color=text_color) #couleurs


#fig.update_geos(showcountries=True) # pour afficher les contours des pays
fig.show()

# Parcours des fèves de cacao

In [15]:
# #Parcours des fèves de cacao
# fig = px.scatter(data, x='country_of_bean_origin', y='company_location', title='Parcours des fèves de cacao par chocolat')
# fig.update_xaxes(categoryorder='total descending')
# fig.show()


In [16]:
import csv
import re

#Parcours des fêves de cacao pour le premier chocolat
origine = data['country_of_bean_origin'][0]
arrivee = data['company_location'][0]

point = data['country_of_bean_origin'][1]
print(origine, arrivee, point)
#print(origine, arrivee)

# Load CSV data into memory
with open('data/country-capital.csv', 'r') as f:
    reader = csv.reader(f)
    dataCountry = list(reader)

def get_coordinates(country):
    for row in dataCountry:
        if row[0] == country:
            return row[2], row[3]
    return 0, 0


# trajet: origine --> arrivee --> origine --> point
fig = px.line_geo(lat=[get_coordinates(origine)[0],get_coordinates(arrivee)[0], get_coordinates(origine)[0], get_coordinates(point)[0]], 
                  lon=[get_coordinates(origine)[1], get_coordinates(arrivee)[1], get_coordinates(origine)[1], get_coordinates(point)[1]], 
                  title='Parcours des fèves de cacao pour le premier chocolat', projection="natural earth")
fig.update_layout(margin=dict(l=40, r=20, t=50, b=10))
fig.show()

Tanzania U.S.A. Dominican Republic


In [28]:
with open('data/country-capital.csv', 'r') as f:
    reader = csv.reader(f)
    dataCountry = list(reader)

#permet de récupérer les coordonnées de la capitale d'un pays à partir du fichier country-capital.csv
def get_coordinates(country):
    for row in dataCountry:
        if row[0] == country:
            return row[2], row[3]
    return 0, 0

#permet de récupérer le nom du pays à partir de coordonnées
def get_country(lat,lon):
    for row in dataCountry:
        if row[2] == lat and row[3]==lon:
            return row[0]
    return None

#Enregistrement du dataframe avec les coordonnées dans un nouveau fichier
#data.to_csv('data/chocolate_with_coordinates.csv', index=False)

coord_USA = (38.8951, -77.0364)

data['coord_origine'] = data['country_of_bean_origin'].apply(get_coordinates)
data['coord_arrivee'] = data['company_location'].apply(get_coordinates)

#chocolats qui viennent des USA
dataTest = data[data['company_location']== 'U.S.A.']

#enlever les coordonnees vides
dataTest = dataTest[dataTest['coord_origine']!= (0,0)]

x=dataTest['coord_origine'].value_counts()

lat=[]
lon=[]
nom=[]
qtt=[]

#alterne les coordonnées du pays d'importation et des USA
for i in range(0,len(x)):
    #print(i)
    #print(x.index[i])
    lat.append(x.index[i][0])
    lon.append(x.index[i][1])
    pays=get_country(x.index[i][0],x.index[i][1])
    nom.append(pays)
    qtt.append(str(x.values[i]))
    lat.append(coord_USA[0])
    lon.append(coord_USA[1])
    nom.append("USA")
    qtt.append("")

 
fig = px.line_geo(lat=lat, lon=lon, title='Trajet effectué par les chocolats venant des USA', 
                  projection="natural earth", hover_name=nom)
                  #text=qtt)
#projection="orthographic"
fig.update_layout(margin=dict(l=40, r=20, t=50, b=10))
fig.show()

# meilleurs chocolat (nope)

In [18]:
fig=px.box(data, y='rating')
fig.update_layout(height=500, width=400)
fig.show()



In [32]:
#notes moyennnes par fabricant

x = data.groupby('company_manufacturer')['rating'].mean().sort_values(ascending=False)
fig=px.bar(x, x=x.index, y=x.values, color_discrete_sequence=palette)
#afficher les 5 premiers
#fig=px.bar(x.head(15), x=x.head(15).index, y=x.head(15).values, color_discrete_sequence=palette)
fig.show()


In [21]:
# Créer le violin plot avec une largeur réduite
fig = px.violin(data, y='rating', title='Distribution des notes données aux chocolats',
                labels={'rating': 'Note'},
                width=500)  # Définir une largeur personnalisée

##afficher les statistiques sur le côté
fig.update_traces(box_visible=True, meanline_visible=True)
# Personnaliser l'apparence
fig.update_traces(marker=dict(color=palette[0], line=dict(color='rgb(8,48,107)')))

fig.update_layout(plot_bgcolor=background_color, font_color=text_color,
                  margin=dict(l=40, r=20, t=50, b=10)) 
# Afficher le violin plot
fig.show()



In [30]:
import plotly.graph_objects as go
average_rating = data.groupby('cocoa_percent')['rating'].mean().reset_index()
median_rating = data.groupby('cocoa_percent')['rating'].median().reset_index()
min_rating = data.groupby('cocoa_percent')['rating'].min().reset_index()
max_rating = data.groupby('cocoa_percent')['rating'].max().reset_index()

fig = go.Figure()
fig.add_scatter(x=max_rating['cocoa_percent'], y=max_rating['rating'], mode='lines', name='max', line=dict(color=palette_degrade[4]))
fig.add_scatter(x=min_rating['cocoa_percent'], y=min_rating['rating'], mode='lines', name='min', fill='tonexty', line=dict(color=palette_degrade[4]))

fig.add_scatter(x=average_rating['cocoa_percent'], y=average_rating['rating'], mode='lines+markers', name='note moyenne', line=dict(color=palette[0]))
fig.update_layout(xaxis_title='Teneur en cacao (en %)', yaxis_title='Note')
fig.update_layout(plot_bgcolor=background_color, font_color=text_color)
fig.update_layout(margin=dict(l=40, r=20, t=50, b=10))
fig.update_layout(title='Répartition des notes en fonction de la teneur en cacao')
fig.show()


In [31]:
# fig=px.box(data, x='cocoa_percent', y='rating', color_discrete_sequence=px.colors.sequential.solar)

# fig.update_traces(marker=dict(color=palette[0]))

# fig.show()