<h1> Import des données </h1>

In [1]:
import numpy as np 

donnees = np.genfromtxt('starbucks-menu-nutrition-drinks.csv', delimiter=',')
donnees

array([[nan, nan, nan, ..., nan, nan, nan],
       [nan, 45.,  0., ...,  0.,  0., 10.],
       [nan, nan, nan, ..., nan, nan, nan],
       ...,
       [nan, nan, nan, ..., nan, nan, nan],
       [nan, nan, nan, ..., nan, nan, nan],
       [nan, nan, nan, ..., nan, nan, nan]])

In [3]:
donnees = np.genfromtxt('starbucks-menu-nutrition-drinks.csv', delimiter=',', dtype=None)
donnees

array([['Drink', 'Calories', 'Fat (g)', ..., 'Fiber (g)', 'Protein',
        'Sodium'],
       ['Cool Lime Starbucks Refreshers Beverage', '45', '0', ..., '0',
        '0', '10'],
       ['OmbrÃ© Pink Drink', '-', '-', ..., '-', '-', '-'],
       ...,
       ['Ginger Ale', '-', '-', ..., '-', '-', '-'],
       ['Lemon Ale', '-', '-', ..., '-', '-', '-'],
       ['Orange Cream Soda', '-', '-', ..., '-', '-', '-']], dtype='<U62')

In [4]:
donnees = np.genfromtxt('starbucks-menu-nutrition-drinks.csv', delimiter=',', dtype=None, encoding='utf-8-sig')
donnees

array([['Drink', 'Calories', 'Fat (g)', ..., 'Fiber (g)', 'Protein',
        'Sodium'],
       ['Cool Lime Starbucks Refreshers Beverage', '45', '0', ..., '0',
        '0', '10'],
       ['Ombré Pink Drink', '-', '-', ..., '-', '-', '-'],
       ...,
       ['Ginger Ale', '-', '-', ..., '-', '-', '-'],
       ['Lemon Ale', '-', '-', ..., '-', '-', '-'],
       ['Orange Cream Soda', '-', '-', ..., '-', '-', '-']], dtype='<U62')

<h1> Cleaning des données </h1>

<b> Séparation des valeurs textuelles et des valeurs numériques

In [7]:
donnees[donnees == '-'] = np.nan
donnees

array([['Drink', 'Calories', 'Fat (g)', ..., 'Fiber (g)', 'Protein',
        'Sodium'],
       ['Cool Lime Starbucks Refreshers Beverage', '45', '0', ..., '0',
        '0', '10'],
       ['Ombré Pink Drink', 'nan', 'nan', ..., 'nan', 'nan', 'nan'],
       ...,
       ['Ginger Ale', 'nan', 'nan', ..., 'nan', 'nan', 'nan'],
       ['Lemon Ale', 'nan', 'nan', ..., 'nan', 'nan', 'nan'],
       ['Orange Cream Soda', 'nan', 'nan', ..., 'nan', 'nan', 'nan']],
      dtype='<U62')

In [20]:
drinks = donnees[1:,0]
#print(drinks)

header = donnees[0,:]
#print(header)


data = donnees[1:,1:]

data = data.astype(float)
print(data)

[[45.  0. 11.  0.  0. 10.]
 [nan nan nan nan nan nan]
 [nan nan nan nan nan nan]
 ...
 [nan nan nan nan nan nan]
 [nan nan nan nan nan nan]
 [nan nan nan nan nan nan]]


<b> Supppression des lignes sans valeur numérique </b>

In [12]:
np.isnan(data)

array([[False, False, False, False, False, False],
       [ True,  True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True,  True],
       ...,
       [ True,  True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True,  True]])

In [18]:
# Identifier les lignes où toutes les valeurs numériques sont np.nan
lignes_sans_donnes = np.isnan(data).all(axis=1)

pourcentage_lignes_vides = sum(lignes_sans_donnes)/data.shape[0]
print(f'{int(pourcentage_lignes_vides*100)}% des boissons n\'ont pas de valeur' )

48% des boissons n'ont pas de valeur


In [21]:
#filtrer sur les valeurs
lignes_avec_valeurs = ~np.isnan(data).all(axis=1)

drinks = drinks[lignes_avec_valeurs]
print(drinks.shape)

data = data[lignes_avec_valeurs]
print(data.shape)
print(data)

(92,)
(92, 6)
[[ 45.    0.   11.    0.    0.   10. ]
 [ 80.    0.   18.    1.    0.   10. ]
 [ 60.    0.   14.    1.    0.   10. ]
 [110.    0.   28.    0.    0.    5. ]
 [  0.    0.    0.    0.    0.    0. ]
 [130.    2.5  21.    0.    5.   65. ]
 [140.    2.5  23.    0.    5.   90. ]
 [130.    2.5  21.    0.    5.   65. ]
 [ 80.    0.   19.    0.    0.   10. ]
 [ 60.    0.   15.    0.    0.   10. ]
 [150.    0.   38.    0.    0.   15. ]
 [140.    0.   35.    0.    0.   10. ]
 [140.    0.   35.    0.    0.   15. ]
 [150.    0.   37.    0.    0.   15. ]
 [ 70.    0.   17.    0.    0.   10. ]
 [120.    0.   31.    0.    0.   10. ]
 [140.    0.   35.    0.    0.   10. ]
 [ 60.    0.   15.    0.    0.   10. ]
 [120.    0.   31.    0.    0.   10. ]
 [140.    0.   35.    0.    0.   10. ]
 [150.    0.   38.    0.    0.   15. ]
 [140.    0.   35.    0.    0.   10. ]
 [ 30.    0.    8.    0.    0.    5. ]
 [ 70.    0.   17.    0.    0.    0. ]
 [ 30.    0.    8.    0.    0.    5. ]
 [ 70.    0

<h1> Analyse des données </h1>

In [24]:
moyenne_calories = np.mean(data[:, 0])  # Calories
median_proteines = np.median(data[:, 4])  # Protéines
min_fat = np.min(data[:, 1])  # Fat (g)
max_fat = np.max(data[:, 1])  # Fat (g)

print(f"Moyenne des calories : {moyenne_calories}")
print(f"Médiane des protéines : {median_proteines}")
print(f"Min de lipide (g) : {min_fat}")
print(f"Max de lipide (g) : {max_fat}")

Moyenne des calories : 135.16304347826087
Médiane des protéines : 1.0
Min de lipide (g) : 0.0
Max de lipide (g) : 26.0


In [25]:
# Boisson avec le plus haut et le plus bas nombre de calories
index_max_calories = np.argmax(data[:, 0])
index_min_calories = np.argmin(data[:, 0])
boisson_max_calories = drinks[index_max_calories]
boisson_min_calories = drinks[index_min_calories]

print(f"Boisson avec le plus de calories : {boisson_max_calories} ({data[index_max_calories,0]} calories)")
print(f"Boisson avec le moins de calories : {boisson_min_calories} ({data[index_min_calories,0]} calories)")

Boisson avec le plus de calories : Starbucks Signature Hot Chocolate (430.0 calories)
Boisson avec le moins de calories : Iced Coffee (0.0 calories)


<h1> création d'une nouvelle colonne indiquant le niveau de calorie </h1>

In [34]:
#Isoler la colonne des calories
calories = data[:, 0].astype(float)
calories

array([ 45.,  80.,  60., 110.,   0., 130., 140., 130.,  80.,  60., 150.,
       140., 140., 150.,  70., 120., 140.,  60., 120., 140., 150., 140.,
        30.,  70.,  30.,  70.,  30.,  90.,  60., 130., 140., 130.,  90.,
        90., 210., 200.,  60.,  50.,  10.,  60., 150., 140., 140., 150.,
        70., 120., 140.,  60., 120., 140., 150., 140.,   5.,  10.,   5.,
         5.,   5.,   5.,   0.,   5.,  70.,   5., 110., 320., 430., 190.,
       290., 120., 250., 260., 250., 180., 130., 230., 250., 200., 260.,
       190., 300., 190., 190.,  45., 250., 360., 350., 110., 280., 140.,
       200., 200., 320., 300.])

In [35]:
# Créer une liste à zero de la bonne longeur
niveaux_calories = np.zeros(calories.shape, dtype=int)
niveaux_calories

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0])

In [36]:
# création des catégories
niveaux_calories[(calories >= 0) & (calories <= 100)] = 1
niveaux_calories[(calories > 100) & (calories <= 200)] = 2
niveaux_calories[(calories > 200) & (calories <= 300)] = 3
niveaux_calories[calories > 300] = 4
niveaux_calories

array([1, 1, 1, 2, 1, 2, 2, 2, 1, 1, 2, 2, 2, 2, 1, 2, 2, 1, 2, 2, 2, 2,
       1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 1, 1, 3, 2, 1, 1, 1, 1, 2, 2, 2, 2,
       1, 2, 2, 1, 2, 2, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 4, 4, 2,
       3, 2, 3, 3, 3, 2, 2, 3, 3, 2, 3, 2, 3, 2, 2, 1, 3, 4, 4, 2, 3, 2,
       2, 2, 4, 3])

In [37]:
#Isoler les boissons peu caloriques
niveaux_calories <=1

array([ True,  True,  True, False,  True, False, False, False,  True,
        True, False, False, False, False,  True, False, False,  True,
       False, False, False, False,  True,  True,  True,  True,  True,
        True,  True, False, False, False,  True,  True, False, False,
        True,  True,  True,  True, False, False, False, False,  True,
       False, False,  True, False, False, False, False,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
        True, False, False, False, False, False, False, False, False,
       False, False])

In [38]:
drinks[niveaux_calories <=1]

array(['Cool Lime Starbucks Refreshers Beverage',
       'Strawberry Acai Starbucks Refreshers Beverage',
       'Very Berry Hibiscus Starbucks Refreshers Beverage', 'Iced Coffee',
       'Shaken Sweet Tea', 'Tazo Bottled Berry Blossom White',
       'Tazo Bottled Iced Passion', 'Tazo Bottled Organic Iced Black Tea',
       'Teavana Shaken Iced Black Tea',
       'Teavana Shaken Iced Black Tea Lemonade',
       'Teavana Shaken Iced Green Tea',
       'Teavana Shaken Iced Green Tea Lemonade',
       'Teavana Shaken Iced Passion Tango Tea',
       'Teavana Shaken Iced Passion Tango Tea Lemonade',
       'Teavana Shaken Iced Peach Green Tea',
       'Starbucks Refreshers Raspberry Pomegranate',
       'Starbucks Refreshers Strawberry Lemonade',
       'Starbucks Iced Coffee Caramel',
       'Starbucks Iced Coffee Light Sweetened',
       'Starbucks Iced Coffee Unsweetened',
       'Tazo Bottled Berry Blossom White', 'Tazo Bottled Iced Passion',
       'Tazo Bottled Organic Iced Black Tea'

In [39]:
#Moyenne des boissons les moins caloriques
np.mean(data[niveaux_calories <=1,:])

np.float64(10.333333333333334)