# prétraitement

In [98]:
import numpy as np
import pandas as pd
import plotly.express as px

# Read the data
data = pd.read_csv('data/chocolate.csv')

data.head()

Unnamed: 0,ref,company_manufacturer,company_location,review_date,country_of_bean_origin,specific_bean_origin_or_bar_name,cocoa_percent,ingredients,most_memorable_characteristics,rating
0,2454,5150,U.S.A.,2019,Tanzania,"Kokoa Kamili, batch 1",76%,"3- B,S,C","rich cocoa, fatty, bready",3.25
1,2458,5150,U.S.A.,2019,Dominican Republic,"Zorzal, batch 1",76%,"3- B,S,C","cocoa, vegetal, savory",3.5
2,2454,5150,U.S.A.,2019,Madagascar,"Bejofo Estate, batch 1",76%,"3- B,S,C","cocoa, blackberry, full body",3.75
3,2542,5150,U.S.A.,2021,Fiji,"Matasawalevu, batch 1",68%,"3- B,S,C","chewy, off, rubbery",3.0
4,2546,5150,U.S.A.,2021,Venezuela,"Sur del Lago, batch 1",72%,"3- B,S,C","fatty, earthy, moss, nutty,chalky",3.0


In [99]:
# vérifier qu'il ne manque pas de données
print(data.isnull().sum())

# vérifier qu'il n'y a pas de doublons
print(data.duplicated().sum())



ref                                  0
company_manufacturer                 0
company_location                     0
review_date                          0
country_of_bean_origin               0
specific_bean_origin_or_bar_name     0
cocoa_percent                        0
ingredients                         87
most_memorable_characteristics       0
rating                               0
dtype: int64
0


In [120]:
# créer palette de couleurs avec ces couleurs: 
#874646 (135,70,70)
#f6eddb (246,237,219)
#2b0808 (43,8,8)
#6a4227 (106,66,39)
#ffc0c0 (255,192,192)

palette = ['#874646', '#f6eddb', '#2b0808', '#6a4227', '#ffc0c0']
palette_degrade =['#71260A', '#96421D' ,'#C06530', '#DA8A56', '#E9D5CC']
background_color = "#fff7ef"
text_color = '#6f1c0e'

# Pays producteurs de fèves de cacao

In [124]:
# histogramme nombre de chocolats par pays d'origine, en crénat un catégorie "autre" pour les pays avec moins de 10 chocolats

databis = data.copy()
databis['country_of_bean_origin'] = databis['country_of_bean_origin'].apply(lambda x: x if databis['country_of_bean_origin'].value_counts()[x] > 20 else 'Blend')

fig = px.histogram(databis[databis['country_of_bean_origin'] != 'Blend'], x='country_of_bean_origin', color_discrete_sequence=palette, title="Principaux pays producteurs de fèves de cacao")
fig.update_xaxes(categoryorder='total descending', tickangle=45)
fig.update_layout(xaxis_title='', yaxis_title='Nombre de chocolats')
fig.update_layout(plot_bgcolor=background_color, font_color=text_color)
fig.update_traces(marker=dict(color=palette[0]))
fig.show()

In [102]:
# # Afficher le nombre de chocolats par pays d'origine
# fig = px.histogram(data, x='country_of_bean_origin', title='Pays d\'origine des fèves de cacao')
# fig.update_xaxes(categoryorder='total descending', tickangle=45)
# fig.update_layout(xaxis_title='', yaxis_title='Nombre de chocolats', plot_bgcolor=palette[1], paper_bgcolor=palette[1], font_color=palette[2]) #couleurs
# #couleurs
# fig.update_traces(marker=dict(color=palette[0]))
# fig.show()


In [123]:
databis = data.copy()
databis['country_of_bean_origin'] = databis['country_of_bean_origin'].apply(lambda x: x if databis['country_of_bean_origin'].value_counts()[x] > 30 else 'Autre pays')

#On retire Blend
fig=px.pie(databis[databis['country_of_bean_origin'] != 'Blend'], names='country_of_bean_origin', 
           title='Pays d\'origine des fèves de cacao', hole=0.4, color_discrete_sequence=px.colors.sequential.solar)
fig.update_traces(textposition='inside', textinfo='percent+label')
fig.update_layout(margin=dict(l=40, r=20, t=50, b=10), showlegend=False)
fig.update_layout(plot_bgcolor=background_color, font_color=text_color)

fig.update_layout(width=500, height=500)

fig.show()

In [104]:

# fig=px.pie(data, names='country_of_bean_origin', title='Pays d\'origine des fèves de cacao', hole=0.4,color_discrete_sequence=px.colors.sequential.solar)
# fig.update_traces(textposition='inside', textinfo='percent+label')
# fig.update_layout(margin=dict(l=40, r=20, t=50, b=10))
# fig.update_layout(plot_bgcolor=palette[1], paper_bgcolor=palette[1], font_color=palette[2]) #couleurs

# fig.show()

In [133]:
tab=data['country_of_bean_origin'].value_counts()

# Avoir le pourcentage des chocolats par pays
#tab=tab/tab.sum()*100

# Origine des fèves de cacao par pays
fig = px.scatter_geo(tab, locations=tab.index, hover_name=tab.index, locationmode='country names', 
                     size=tab.values, title='Pays producteurs de fèves de cacao' , color=tab.values, 
                     projection="natural earth", color_continuous_scale=palette_degrade)
#projection="orthographic"
fig.update_layout(margin=dict(l=40, r=20, t=50, b=10),coloraxis_colorbar=dict(title='Nombre de chocolats'))
fig.update_traces(marker=dict(line=dict(width=1, color='Black')))
fig.update_layout(font_color=text_color) #couleurs


fig.show()

# Pays importateurs

In [125]:
# Fabricants

databis = data.copy()
databis['company_location'] = databis['company_location'].apply(lambda x: x if databis['company_location'].value_counts()[x] > 30 else 'Autre pays')


fig=px.pie(databis, names='company_location', title='Pays importateurs de fèves de cacao', hole=0.4,color_discrete_sequence=px.colors.sequential.solar)

fig.update_traces(textposition='inside', textinfo='percent+label')
fig.update_layout(margin=dict(l=40, r=20, t=50, b=10), showlegend=False)
fig.update_layout(plot_bgcolor=background_color, font_color=text_color)

fig.update_layout(width=500, height=500)

fig.show()

In [126]:
databis = data.copy()
databis['company_location'] = databis['company_location'].apply(lambda x: x if databis['company_location'].value_counts()[x] > 20 else 'Blend')

fig = px.histogram(databis[databis['company_location'] != 'Blend'], x='company_location', color_discrete_sequence=palette, title="Principaux pays importateurs de cacao")
fig.update_xaxes(categoryorder='total descending', tickangle=45)
fig.update_layout(xaxis_title='Pays d\'origine des fèves de cacao', yaxis_title='Nombre de chocolats')
fig.update_layout(plot_bgcolor=background_color, font_color=text_color)
fig.update_traces(marker=dict(color=palette[0]))
fig.show()

In [132]:
tab=data['company_location'].value_counts()

# Avoir le pourcentage des chocolats par pays
#tab=tab/tab.sum()*100


fig = px.scatter_geo(tab, locations=tab.index, hover_name=tab.index, locationmode='country names', size=tab.values,
                      title='Pays importateurs de cacao' , color=tab.values, projection="natural earth", size_max=50,
                      color_continuous_scale=palette_degrade)
#projection="orthographic"
fig.update_layout(margin=dict(l=40, r=20, t=50, b=10),coloraxis_colorbar=dict(title='Nombre de chocolats'))
fig.update_traces(marker=dict(line=dict(width=1, color='Black')))
fig.update_layout(font_color=text_color) #couleurs


#fig.update_geos(showcountries=True) # pour afficher les contours des pays
fig.show()

# Parcours des fèves de cacao (nope)

In [128]:
#Parcours des fèves de cacao
fig = px.scatter(data, x='country_of_bean_origin', y='company_location', title='Parcours des fèves de cacao par chocolat')
fig.update_xaxes(categoryorder='total descending')
fig.show()


In [110]:
import csv
import re

#Parcours des fêves de cacao pour le premier chocolat
origine = data['country_of_bean_origin'][0]
arrivee = data['company_location'][0]
print(origine, arrivee)

# Load CSV data into memory
with open('data/country-capital.csv', 'r') as f:
    reader = csv.reader(f)
    dataCountry = list(reader)

def get_coordinates(country):
    for row in dataCountry:
        if row[0] == country:
            return row[2], row[3]
    return 0, 0



fig = px.line_geo(lat=get_coordinates(origine), lon=get_coordinates(arrivee), title='Parcours des fèves de cacao pour le premier chocolat', projection="natural earth")
fig.update_layout(margin=dict(l=40, r=20, t=50, b=10))
fig.show()

Tanzania U.S.A.


In [111]:

# Load CSV data into memory
with open('data/country-capital.csv', 'r') as f:
    reader = csv.reader(f)
    dataCountry = list(reader)

def get_coordinates(country):
    for row in dataCountry:
        #if row[0] == re.compile(country, re.IGNORECASE):
        if re.match(country, row[0], re.IGNORECASE):
            return row[2], row[3]
    return 0, 0

# Ajouter les coordonnées des pays d'origine et d'arrivée
data['coord_origine'] = data['country_of_bean_origin'].apply(get_coordinates)
data['coord_arrivee'] = data['company_location'].apply(get_coordinates)

#Afficher les données avec des coordonnées vides
#print(data.query('coord_origine == (0, 0)'))
#print(data.query('coord_origine == (0, 0)'))
#print(data['company_location'].unique())


#print(data.groupby('coord_origine').size())
# print("alloooo---")
print(data.groupby('coord_arrivee').size())



#Enregistrer le dataframe avec les coordonnées dans un nouveau fichier
#data.to_csv('data/chocolate_with_coordinates.csv', index=False)


# fig = px.line_geo(data.head(1), lat=['coord_origine'], lon=['coord_arrivee'], title='Trajets des fèves de cacao', projection="natural earth")

# fig.show() 

coord_arrivee
(0, 0)                  29
(-0.2299, -78.5250)     58
(-12.0432, -77.0282)    23
(-15.7797, -47.9297)    25
(-16.5000, -68.1500)     2
                        ..
(59.3326, 18.0649)       6
(59.9127, 10.7461)       3
(60.1692, 24.9402)       2
(64.1355, -21.8954)      4
(9.9278, -84.0807)       9
Length: 63, dtype: int64


# meilleurs chocolat (nope)

In [112]:
fig=px.box(data, y='rating')
fig.update_layout(height=500, width=400)
fig.show()



In [113]:
fig=px.box(data, x='cocoa_percent', y='rating')

fig.show()

In [114]:
fig=px.box(data, x='company_location', y='cocoa_percent', title='Teneur en cacao par pays importateur', color='company_location', color_discrete_sequence=px.colors.sequential.solar)
fig.show()

In [115]:
#notes moyennnes par pays

x = data.groupby('company_manufacturer')['rating'].mean().sort_values(ascending=False)
fig=px.bar(x, x=x.index, y=x.values, color_discrete_sequence=palette)
#afficher les 5 premiers
#fig=px.bar(x.head(15), x=x.head(15).index, y=x.head(15).values, color_discrete_sequence=palette)
fig.show()
