## Table of Contents

1. [Loading the data and necessary libraries](#loading-the-data-and-necessary-libraries)
2. [Data cleaning](#data-cleaning)
3. [Data analysis](#data-analysis)

## Loading the necessary libraries and data
<a class="anchor" id="loading-the-data-and-necessary-libraries"></a>

In [1]:
#import libraries
import pandas as pd
import numpy as np
import utils

data = pd.read_excel('Data/AllResponses.xlsx', "Cleaned Data")

## Data cleaning
<a class="anchor" id="data-cleaning"></a>

In [2]:
#rename columns
to_be_renamed_dict = {"Geschlecht": "gender",
       "Alter": "age",
       "Arbeitserfahrung als ErnährungsberaterIn (in Jahren)": "years_of_work_experience",
       'Wie viele Patienten betreuen Sie durchschnittlich pro Monat?\n': "patients_per_month",
       'Wie häufig nutzen Sie bereits Software Applikationen in ihrem Arbeitsalltag': 'frequency_of_software_usage',
       'Bei einer Person, von der ein kleiner Teil (~25%) der Lebensmittel-Einkaufsdaten zur Verfügung stehen': "single_person_25%",
       'Bei einer Person, von der etwa die Hälfte (~50%) der Lebensmittel-Einkaufsdaten zur Verfügung stehen': "single_person_50%",
       'Bei einer Person, von der ein Grossteil (~75%) der Lebensmittel-Einkaufsdaten zur Verfügung stehen':"single_person_75%",
       'Bei einer Person, von der alle (100%) Lebensmittel-Einkaufsdaten zur Verfügung stehen': "single_person_100%",
       'Bei einer Person, von der 1 Monat der Lebensmittel-Einkaufsdaten zur Verfügung stehen': "single_person_1_month",
       'Bei einer Person, von der 3 Monate der Lebensmittel-Einkaufsdaten zur Verfügung stehen': "single_person_3_months",
       'Bei einer Person, von der 6 Monate der Lebensmittel-Einkaufsdaten zur Verfügung stehen': "single_person_6_months",
       'Bei einer Person, von der ein kleiner Teil (~25%) der Lebensmittel-Einkaufsdaten zur Verfügung stehen2': "multi_person_25%",
       'Bei einer Person, von der etwa die Hälfte (~50%) der Lebensmittel-Einkaufsdaten zur Verfügung stehen2': "multi_person_50%",
       'Bei einer Person, von der ein Grossteil (~75%) der Lebensmittel-Einkaufsdaten zur Verfügung stehen2': "multi_person_75%",
       'Bei einer Person, von der alle (100%) Lebensmittel-Einkaufsdaten zur Verfügung stehen2': "multi_person_100%",
       'Bei einer Person, von der 1 Monat der Lebensmittel-Einkaufsdaten zur Verfügung stehen2': "multi_person_1_month",
       'Bei einer Person, von der 3 Monate der Lebensmittel-Einkaufsdaten zur Verfügung stehen2': "multi_person_3_months",
       'Bei einer Person, von der 6 Monate der Lebensmittel-Einkaufsdaten zur Verfügung stehen2': "multi_person_6_months",
       'Vergleichen und Vorschlagen alternativer Produkte zu aktuell gekauften Produkten': 'recommend_alternative_products',
       'Vorschlagen von Mahlzeitenplänen mit spezifischen Lebensmitteln': "suggest_meal_plans",
       'Vorschlagen von Empfehlungen in standardisiertem Format (z.B. "Zuckeraufnahme aus Müsli und Getreideflocken reduzieren", "Nahrungsfasern aus Getreideprodukten erhöhen")': "recommendation_in_standard_format",
       'Vorschlagen von Empfehlungen in einem Freitext Feld für weitere Ergänzungen': "recommendation_in_free_text",
       'Vergleich zwischen Ihren vergangenen Empfehlungen und den tatsächlichen Lebensmitteleinkäufen ihres Klienten': "compare_recommendation_and_actual_shopping",
       'Ansicht der Lebensmitteleinkäufe über die Zeit (in Form eines Diagramms oder Ernährungstagebuchs für Lebensmitteleinkäufe)': "view_shopping_over_time",
       'Energieverteilung aus verschiedenen Lebensmittelkategorien': 'energy_distribution_categories',
       'Energieverteilung aus verschiedenen Makronährstoffen': 'energy_distribution_macros',
       'Makronährstoffe aus verschiedenen Lebensmittelkategorien': 'macros_from_different_food_categories',
       'Nahrungsfasern aus verschiedenen Lebensmittelkategorien': 'fiber_from_different_food_categories',
       'Ratios wie z.B. das Verhältnis von tierischem zu pflanzlichem Protein  ': 'ratios',
       'Mikronährstoffe aus verschiedenen Lebensmittelkategorien': 'micros_from_different_food_categories',
       'Ausgaben aus verschiedenen Lebensmittelkategorien': 'expenses_from_different_food_categories',
       'Lebensmitteleinkaufshistorie': 'shopping_history',
       'Rangliste der am häufigsten gekauften Lebensmittelprodukte': 'most_bought_products',
       'Rangliste der am häufigsten gekauften Lebensmittelprodukte pro Lebensmittelkategorie': 'most_bought_products_per_category',
       'Rangliste der Produkte mit dem größten Beitrag an Nährstoffen (z. B. Kohlenhydrate, Fette) und/oder Energie': 'most_nutrient_dense_products',
       'Energiegehalt des Produkts  ': 'product_energy', 
       'Makronährstoffgehalt des Produkts  ': 'product_macros',
       'Mikronährstoffgehalt des Produkts  ': 'product_micros',
       'Nahrungsfasergehalt des Produkts  ': 'product_fibers', 
       'Gehalt an zugesetztem Zucker  ': 'product_added_sugar',
       'Allergene in der Zutatenliste': 'allergens', 
       'Gesamte Zutatenliste': 'ingredients',
       'Preis pro Produkt': 'price_per_product', 
       'Preis pro 100g/100ml Produkt': 'price_per_100g_product',
       'Produktgröße': 'product_size',
       'Nutri-Score': 'nutriscore',
       'NOVA-Score (zur Angabe des Verarbeitungsgrads der Produkte)': 'nova_score',
       'Nachhaltigkeitsinformationen, z. B. CO2-Emissionen ': 'sustainability_info'}

#rename colums and select relevant columns
cleaned_data = data.copy()
cleaned_data = cleaned_data.rename(columns=to_be_renamed_dict)
cleaned_data = cleaned_data[to_be_renamed_dict.values()]


In [3]:
#map likert scales to numebrs
representativeness_mapping = {
    'Sehr gering': 1,
    'Gering': 2,
    'Neutral': 3,
    'Hoch': 4,
    'Sehr hoch': 5,
    'Sehr Hoch': 5 #typo in the data
}

importance_mapping = {
    "Sehr unwichtig": 1,
    "Unwichtig": 2,
    "Neutral": 3,
    "Neural": 3, #typo in the data
    "Wichtig": 4,
    "Sehr wichtig": 5   
}

columns_to_representativeness_mapping = ['single_person_25%', 'single_person_50%',
       'single_person_75%', 'single_person_100%', 'single_person_1_month',
       'single_person_3_months', 'single_person_6_months', 'multi_person_25%',
       'multi_person_50%', 'multi_person_75%', 'multi_person_100%',
       'multi_person_1_month', 'multi_person_3_months',
       'multi_person_6_months']

columns_to_use_case_importance_mapping = ['recommend_alternative_products',
       'suggest_meal_plans', 'recommendation_in_standard_format',
       'recommendation_in_free_text',
       'compare_recommendation_and_actual_shopping', 'view_shopping_over_time',]

columns_to_feature_importance_mapping = ['energy_distribution_categories', 'energy_distribution_macros',
       'macros_from_different_food_categories',
       'fiber_from_different_food_categories', 'ratios',
       'micros_from_different_food_categories',
       'expenses_from_different_food_categories', 'shopping_history',
       'most_bought_products', 'most_bought_products_per_category',
       'most_nutrient_dense_products', 
       'product_energy', 'product_macros', 'product_micros', 'product_fibers',
       'product_added_sugar', 'allergens', 'ingredients', 'price_per_product',
       'price_per_100g_product', 'product_size', 'nutriscore', 'nova_score',
       'sustainability_info']

for col in columns_to_representativeness_mapping :
    cleaned_data[col] = cleaned_data[col].map(representativeness_mapping)

for col in columns_to_use_case_importance_mapping + columns_to_feature_importance_mapping:
    cleaned_data[col] = cleaned_data[col].map(importance_mapping)



In [4]:
cleaned_data.describe()

Unnamed: 0,age,years_of_work_experience,patients_per_month,frequency_of_software_usage,single_person_25%,single_person_50%,single_person_75%,single_person_100%,single_person_1_month,single_person_3_months,...,product_fibers,product_added_sugar,allergens,ingredients,price_per_product,price_per_100g_product,product_size,nutriscore,nova_score,sustainability_info
count,18.0,18.0,18.0,18.0,18.0,18.0,18.0,18.0,18.0,18.0,...,18.0,18.0,18.0,18.0,18.0,18.0,18.0,18.0,18.0,18.0
mean,38.388889,11.916667,74.666667,2.0,1.833333,2.444444,3.777778,4.444444,3.666667,4.055556,...,3.833333,4.111111,3.388889,3.722222,2.944444,3.111111,3.777778,1.833333,2.777778,3.0
std,11.637358,12.336281,51.320217,1.137593,0.707107,0.783823,0.548319,0.615699,1.137593,1.055642,...,0.707107,0.6764,0.916444,0.894792,0.998365,1.07861,0.878204,0.785905,0.942809,0.907485
min,26.0,1.5,10.0,1.0,1.0,1.0,2.0,3.0,1.0,1.0,...,2.0,3.0,2.0,2.0,1.0,1.0,2.0,1.0,1.0,2.0
25%,30.0,3.25,41.25,1.0,1.0,2.0,4.0,4.0,3.0,4.0,...,4.0,4.0,3.0,3.0,2.0,2.25,3.25,1.0,2.0,2.0
50%,34.0,6.5,60.0,2.0,2.0,2.5,4.0,4.5,4.0,4.0,...,4.0,4.0,3.0,4.0,3.0,3.0,4.0,2.0,3.0,3.0
75%,45.25,18.0,110.0,3.0,2.0,3.0,4.0,5.0,4.0,5.0,...,4.0,4.75,4.0,4.0,3.75,4.0,4.0,2.0,3.0,3.75
max,63.0,42.0,175.0,5.0,3.0,4.0,4.0,5.0,5.0,5.0,...,5.0,5.0,5.0,5.0,5.0,5.0,5.0,3.0,4.0,5.0


## Data analysis
<a class="anchor" id="data-analysis"></a>

In [5]:
purchasing_data_representativeness_results = []
for col in columns_to_representativeness_mapping:
    purchasing_data_representativeness_results.append((col,) + utils.get_column_stats(cleaned_data, col))
    # print(col, utils.get_column_stats(cleaned_data, col))

data_representativeness_df = pd.DataFrame(purchasing_data_representativeness_results, columns=['Data', 'N', 'Parametric', 'Mean', 'Std'])


In [6]:
data_representativeness_df

Unnamed: 0,Data,N,Parametric,Mean,Std
0,single_person_25%,18,True,1.8,0.7
1,single_person_50%,18,True,2.4,0.8
2,single_person_75%,18,True,3.8,0.5
3,single_person_100%,18,True,4.4,0.6
4,single_person_1_month,18,True,3.7,1.1
5,single_person_3_months,18,True,4.1,1.1
6,single_person_6_months,18,True,4.1,1.1
7,multi_person_25%,18,True,1.6,1.0
8,multi_person_50%,18,True,2.1,0.9
9,multi_person_75%,18,True,3.1,1.1


In [7]:
use_case_result = []
for col in columns_to_use_case_importance_mapping:
    use_case_result.append((col,) + utils.get_column_stats(cleaned_data, col))
    # print(col, utils.get_column_stats(cleaned_data, col))

use_case_importance_df = pd.DataFrame(use_case_result, columns=['Use case', 'N', 'Parametric', 'Mean/Median', 'SD/IQR'])

feature_result = []
for col in columns_to_feature_importance_mapping:
    feature_result.append((col,) + utils.get_column_stats(cleaned_data, col))
    # print(col, utils.get_column_stats(cleaned_data, col))

feature_importance_df = pd.DataFrame(use_case_result, columns=['Feature', 'N', 'Parametric', 'Mean/Median', 'SD/IQR'])

In [8]:
feature_importance_df

Unnamed: 0,Feature,N,Parametric,Mean/Median,SD/IQR
0,recommend_alternative_products,18,True,4.2,0.9
1,suggest_meal_plans,18,True,3.4,0.7
2,recommendation_in_standard_format,18,True,3.8,1.0
3,recommendation_in_free_text,18,True,4.1,0.7
4,compare_recommendation_and_actual_shopping,18,True,4.1,0.8
5,view_shopping_over_time,18,True,3.8,0.7


In [9]:
cleaned_data.describe()

Unnamed: 0,age,years_of_work_experience,patients_per_month,frequency_of_software_usage,single_person_25%,single_person_50%,single_person_75%,single_person_100%,single_person_1_month,single_person_3_months,...,product_fibers,product_added_sugar,allergens,ingredients,price_per_product,price_per_100g_product,product_size,nutriscore,nova_score,sustainability_info
count,18.0,18.0,18.0,18.0,18.0,18.0,18.0,18.0,18.0,18.0,...,18.0,18.0,18.0,18.0,18.0,18.0,18.0,18.0,18.0,18.0
mean,38.388889,11.916667,74.666667,2.0,1.833333,2.444444,3.777778,4.444444,3.666667,4.055556,...,3.833333,4.111111,3.388889,3.722222,2.944444,3.111111,3.777778,1.833333,2.777778,3.0
std,11.637358,12.336281,51.320217,1.137593,0.707107,0.783823,0.548319,0.615699,1.137593,1.055642,...,0.707107,0.6764,0.916444,0.894792,0.998365,1.07861,0.878204,0.785905,0.942809,0.907485
min,26.0,1.5,10.0,1.0,1.0,1.0,2.0,3.0,1.0,1.0,...,2.0,3.0,2.0,2.0,1.0,1.0,2.0,1.0,1.0,2.0
25%,30.0,3.25,41.25,1.0,1.0,2.0,4.0,4.0,3.0,4.0,...,4.0,4.0,3.0,3.0,2.0,2.25,3.25,1.0,2.0,2.0
50%,34.0,6.5,60.0,2.0,2.0,2.5,4.0,4.5,4.0,4.0,...,4.0,4.0,3.0,4.0,3.0,3.0,4.0,2.0,3.0,3.0
75%,45.25,18.0,110.0,3.0,2.0,3.0,4.0,5.0,4.0,5.0,...,4.0,4.75,4.0,4.0,3.75,4.0,4.0,2.0,3.0,3.75
max,63.0,42.0,175.0,5.0,3.0,4.0,4.0,5.0,5.0,5.0,...,5.0,5.0,5.0,5.0,5.0,5.0,5.0,3.0,4.0,5.0
