# Food Environmental Impact
## ILV Datenvisualisierung und Visual Analytics
## Christina Köck
## Februar 2023
### Link to the Gitlab-Repo: https://gitlab.web.fh-kufstein.ac.at/christina.koeck/datenvisualisierung_und_visualanalytics

Die Visualisierungen werden in diesem Notebook erstellt. Designentscheidungen werden hier dokumentiert. Nach der Entwicklung wird der Code in eine streamlit-Anwendung für das Dashboarding übertragen.

Die Streamlit-Anwendung ist für interessierte Verbaucher mit leicht wissenschaftlichem Hintergrund gedacht. Die Informationen sollten für VerbraucherInnen verständlich sein, allerdings sind gewisse Kenntnisse zu den Nachhaltigkeitsparamtern vorausgesetzt. Besonders die Darstellung der Korrelation setzt Kenntnisse der Pearson-Korrelation voraus. Die Streamlit-Anwendung könnte auch im Unterricht verwendet werden, um Lernenden verschiedene Ernährungsformen näherzubringen. Die Anwendung ist so gestaltet, dass sie mit verschiedenen Fragen durch die Daten führt. Somit soll auf verschiedene Aspekte und Zusammenhänge hingewiesen werden. Die NutzerInnen können dabei selbst wählen, welche Lebenmittel dargestellt werden sollen.

### Libraries and data

In [5]:
import math as math
import pandas as pd
import numpy as np
import seaborn as sns

import matplotlib.pyplot as plt
import plotly.express as px

In [6]:
# Data are from:
# Hannah Ritchie and Max Roser (2022)
# "Environmental Impacts of Food Production".
# Published online at OurWorldInData.org. 'https://ourworldindata.org/environmental-impacts-of-food' [Online Resource]
# Data was retrieved in a shorter form from https://www.kaggle.com/datasets/selfvivek/environment-impact-of-food-production
df_food = pd.read_csv("Food_Production.csv")
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

In [7]:
df_food

Unnamed: 0,Food product,Land use change,Animal Feed,Farm,Processing,Transport,Packging,Retail,Total_emissions,Eutrophying emissions per 1000kcal (gPO₄eq per 1000kcal),Eutrophying emissions per kilogram (gPO₄eq per kilogram),Eutrophying emissions per 100g protein (gPO₄eq per 100 grams protein),Freshwater withdrawals per 1000kcal (liters per 1000kcal),Freshwater withdrawals per 100g protein (liters per 100g protein),Freshwater withdrawals per kilogram (liters per kilogram),Greenhouse gas emissions per 1000kcal (kgCO₂eq per 1000kcal),Greenhouse gas emissions per 100g protein (kgCO₂eq per 100g protein),Land use per 1000kcal (m² per 1000kcal),Land use per kilogram (m² per kilogram),Land use per 100g protein (m² per 100g protein),Scarcity-weighted water use per kilogram (liters per kilogram),Scarcity-weighted water use per 100g protein (liters per 100g protein),Scarcity-weighted water use per 1000kcal (liters per 1000 kilocalories)
0,Wheat & Rye (Bread),0.1,0.0,0.8,0.2,0.1,0.1,0.1,1.4,,,,,,,,,,,,,,
1,Maize (Meal),0.3,0.0,0.5,0.1,0.1,0.1,0.0,1.1,,,,,,,,,,,,,,
2,Barley (Beer),0.0,0.0,0.2,0.1,0.0,0.5,0.3,1.1,,,,,,,,,,,,,,
3,Oatmeal,0.0,0.0,1.4,0.0,0.1,0.1,0.0,1.6,4.281357,11.23,8.638462,183.911552,371.076923,482.4,0.945482,1.907692,2.897446,7.6,5.846154,18786.2,14450.92308,7162.104461
4,Rice,0.0,0.0,3.6,0.1,0.1,0.1,0.1,4.0,9.514379,35.07,49.394366,609.983722,3166.760563,2248.4,1.207271,6.267606,0.759631,2.8,3.943662,49576.3,69825.77465,13449.89148
5,Potatoes,0.0,0.0,0.2,0.0,0.1,0.0,0.0,0.3,4.754098,3.48,20.470588,80.737705,347.647059,59.1,0.628415,2.705882,1.202186,0.88,5.176471,2754.2,16201.17647,3762.568306
6,Cassava,0.6,0.0,0.2,0.0,0.1,0.0,0.0,0.9,0.708419,0.69,7.666667,,,0.0,1.355236,14.666667,1.858316,1.81,20.111111,0.0,,
7,Cane Sugar,1.2,0.0,0.5,0.0,0.8,0.1,0.0,2.6,4.820513,16.92,,176.666667,,620.1,0.911681,,0.581197,2.04,,16438.6,,4683.361823
8,Beet Sugar,0.0,0.0,0.5,0.2,0.6,0.1,0.0,1.4,1.541311,5.41,,62.022792,,217.7,0.51567,,0.521368,1.83,,9493.3,,2704.643875
9,Other Pulses,0.0,0.0,1.1,0.0,0.1,0.4,0.0,1.6,5.008798,17.08,7.977581,,203.503036,435.7,0.524927,0.836058,4.565982,15.57,7.272303,22477.4,10498.55208,


### Short EDA

In [8]:
df_food.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 43 entries, 0 to 42
Data columns (total 23 columns):
 #   Column                                                                   Non-Null Count  Dtype  
---  ------                                                                   --------------  -----  
 0   Food product                                                             43 non-null     object 
 1   Land use change                                                          43 non-null     float64
 2   Animal Feed                                                              43 non-null     float64
 3   Farm                                                                     43 non-null     float64
 4   Processing                                                               43 non-null     float64
 5   Transport                                                                43 non-null     float64
 6   Packging                                                                 43 

In [9]:
df_food.describe()

Unnamed: 0,Land use change,Animal Feed,Farm,Processing,Transport,Packging,Retail,Total_emissions,Eutrophying emissions per 1000kcal (gPO₄eq per 1000kcal),Eutrophying emissions per kilogram (gPO₄eq per kilogram),Eutrophying emissions per 100g protein (gPO₄eq per 100 grams protein),Freshwater withdrawals per 1000kcal (liters per 1000kcal),Freshwater withdrawals per 100g protein (liters per 100g protein),Freshwater withdrawals per kilogram (liters per kilogram),Greenhouse gas emissions per 1000kcal (kgCO₂eq per 1000kcal),Greenhouse gas emissions per 100g protein (kgCO₂eq per 100g protein),Land use per 1000kcal (m² per 1000kcal),Land use per kilogram (m² per kilogram),Land use per 100g protein (m² per 100g protein),Scarcity-weighted water use per kilogram (liters per kilogram),Scarcity-weighted water use per 100g protein (liters per 100g protein),Scarcity-weighted water use per 1000kcal (liters per 1000 kilocalories)
count,43.0,43.0,43.0,43.0,43.0,43.0,43.0,43.0,33.0,38.0,27.0,30.0,26.0,38.0,33.0,27.0,33.0,38.0,27.0,38.0,26.0,30.0
mean,1.260465,0.453488,3.469767,0.253488,0.195349,0.269767,0.069767,5.972093,27.181547,46.141316,52.771953,504.188977,1437.975324,932.605263,5.633943,13.524906,12.423165,29.264474,29.105042,36607.428947,59196.438503,17380.575408
std,3.35773,0.9192,7.083264,0.372475,0.158795,0.342633,0.11027,10.501753,46.445959,82.808808,52.033823,539.130695,1441.98197,1296.999186,10.613575,19.427462,28.348693,78.490074,49.307339,56891.283046,89928.189299,16232.080209
min,-2.1,0.0,0.1,0.0,0.0,0.0,0.0,0.2,0.708419,0.69,3.384338,0.723982,32.375,0.0,0.069919,0.263319,0.273756,0.33,3.0,0.0,421.25,4.095023
25%,0.0,0.0,0.35,0.0,0.1,0.1,0.0,0.85,4.214932,3.7525,17.855335,106.927557,373.573281,105.5,0.628415,4.027439,1.3125,1.1125,5.088235,3325.075,11018.401008,2969.124983
50%,0.2,0.0,0.8,0.1,0.1,0.1,0.0,1.6,7.0,11.46,37.333333,338.059413,1083.327272,417.1,1.351351,6.5,2.976244,6.865,7.936314,14533.05,20917.213595,12605.25679
75%,0.8,0.0,2.2,0.3,0.2,0.3,0.15,6.0,26.324324,45.84,55.297183,694.805356,1832.386339,1340.375,5.335135,14.983333,6.605405,14.9175,23.002381,35960.175,70651.721023,28056.471593
max,16.3,2.9,39.4,1.3,0.8,1.6,0.3,59.6,197.357143,365.29,185.050659,2062.178771,6003.333333,5605.2,50.946429,93.3,119.490842,369.81,184.812594,229889.8,431620.0,49735.88235


All data are numeric/float.

'Land use change' has negative values, all other columns have min 0 or above.
According to the [notebook Analysis,Visualization,Imputation -Food Production](https://www.kaggle.com/code/jamespauls/analysis-visualization-imputation-food-production#2.-Importing-Libraries-and-Datasets) this is the explanation: "Since the trees of nut crops sequester carbon dioxide, when they replace some grasslands this can actually result in an emission saving due to positive land use change."


'Freshwater withdrawals per 100g protein (liters per 100g protein)' and 'Scarcity-weighted water use per 100g protein (liters per 100g protein)' only have 26 non-null values of 43.

### Feature engineering
Code from the [notebook Analysis,Visualization,Imputation -Food Production](https://www.kaggle.com/code/jamespauls/analysis-visualization-imputation-food-production#2.-Importing-Libraries-and-Datasets) 

In [10]:
# Creating a food category column which we will retain for all following sections of this analysis.
# Code from https://www.kaggle.com/code/jamespauls/analysis-visualization-imputation-food-production#2.-Importing-Libraries-and-Datasets

df_food["Category"] = df_food["Food product"] # creating a new column with the exact list of [Food_Products]

# Setting various lists for different types of [Food_Products]
Grains = ["Wheat & Rye (Bread)", "Maize (Meal)", "Oatmeal", "Barley (Beer)", "Rice"]
Nuts = ['Nuts', 'Groundnuts']
Vegetables = ["Potatoes", "Cassava", 'Other Pulses',"Peas",'Tomatoes', 'Onions & Leeks','Root Vegetables',"Brassicas",'Other Vegetables']
Fruits = ['Citrus Fruit', 'Bananas','Apples', 'Berries & Grapes', 'Other Fruit']
Sugars = ['Cane Sugar', 'Beet Sugar',]
Oils = ['Soybean Oil', 'Palm Oil', 'Sunflower Oil', 'Rapeseed Oil', 'Olive Oil']
Dairy = ['Milk', 'Cheese']
Animal_Prod = ['Beef (beef herd)', 'Beef (dairy herd)','Lamb & Mutton', 'Pig Meat', 'Poultry Meat', 'Fish (farmed)', 'Shrimps (farmed)']
Other = ["Coffee", "Dark Chocolate", "Wine"]
Plant_Dairy = ["Soymilk", "Tofu"]
Egg_Prod = ['Eggs']

# Replacing all [Food_Products] in the newly developed column with their respective food [Category]
for i in df_food["Category"]:
    if i in Grains:
        df_food["Category"].replace([i], "Grains", inplace=True)
    elif i in Nuts:
        df_food["Category"].replace([i], "Nuts", inplace=True)
    elif i in Vegetables:
        df_food["Category"].replace([i], "Vegetables", inplace=True)
    elif i in Fruits:
        df_food["Category"].replace([i], "Fruits", inplace=True)
    elif i in Sugars:
        df_food["Category"].replace([i], "Sugar", inplace=True)
    elif i in Oils:
        df_food["Category"].replace([i], "Oils", inplace=True)
    elif i in Dairy:
        df_food["Category"].replace([i], "Dairy", inplace=True)
    elif i in Animal_Prod:
        df_food["Category"].replace([i], "Animal_Prod", inplace=True)
    elif i in Other:
        df_food["Category"].replace([i], "Other", inplace=True)
    elif i in Plant_Dairy:
        df_food["Category"].replace([i], "Plant_Dairy", inplace=True)
    elif i in Egg_Prod:
        df_food["Category"].replace([i], "Egg_Prod", inplace=True)

Own code
Define category if further processing in the kitchen before consumption is needed [Further processing needed]:
Consumption is only possible with extensive heat treatment.

Options:

no

yes

The options are chosen to be strings and not encoded for easier usage in the visualisations.

In [11]:
df_food['Further processing needed'] = df_food["Food product"]
processing = ['Wheat & Rye (Bread)',
    'Maize (Meal)',
    'Barley (Beer)',
    'Rice',
    'Potatoes',
    'Cassava',
    'Other Pulses',
    'Peas',
    'Coffee',
    'Beef (beef herd)',
    'Beef (dairy herd)',
    'Lamb & Mutton',
    'Pig Meat',
    'Poultry Meat',
    'Eggs',
    'Fish (farmed)',
    'Shrimps (farmed)']

for food in df_food['Further processing needed']:
    if food in processing:
        df_food["Further processing needed"].replace([food], "yes", inplace=True)
    else:
        df_food["Further processing needed"].replace([food], "no", inplace=True)

In [12]:
df_food

Unnamed: 0,Food product,Land use change,Animal Feed,Farm,Processing,Transport,Packging,Retail,Total_emissions,Eutrophying emissions per 1000kcal (gPO₄eq per 1000kcal),Eutrophying emissions per kilogram (gPO₄eq per kilogram),Eutrophying emissions per 100g protein (gPO₄eq per 100 grams protein),Freshwater withdrawals per 1000kcal (liters per 1000kcal),Freshwater withdrawals per 100g protein (liters per 100g protein),Freshwater withdrawals per kilogram (liters per kilogram),Greenhouse gas emissions per 1000kcal (kgCO₂eq per 1000kcal),Greenhouse gas emissions per 100g protein (kgCO₂eq per 100g protein),Land use per 1000kcal (m² per 1000kcal),Land use per kilogram (m² per kilogram),Land use per 100g protein (m² per 100g protein),Scarcity-weighted water use per kilogram (liters per kilogram),Scarcity-weighted water use per 100g protein (liters per 100g protein),Scarcity-weighted water use per 1000kcal (liters per 1000 kilocalories),Category,Further processing needed
0,Wheat & Rye (Bread),0.1,0.0,0.8,0.2,0.1,0.1,0.1,1.4,,,,,,,,,,,,,,,Grains,yes
1,Maize (Meal),0.3,0.0,0.5,0.1,0.1,0.1,0.0,1.1,,,,,,,,,,,,,,,Grains,yes
2,Barley (Beer),0.0,0.0,0.2,0.1,0.0,0.5,0.3,1.1,,,,,,,,,,,,,,,Grains,yes
3,Oatmeal,0.0,0.0,1.4,0.0,0.1,0.1,0.0,1.6,4.281357,11.23,8.638462,183.911552,371.076923,482.4,0.945482,1.907692,2.897446,7.6,5.846154,18786.2,14450.92308,7162.104461,Grains,no
4,Rice,0.0,0.0,3.6,0.1,0.1,0.1,0.1,4.0,9.514379,35.07,49.394366,609.983722,3166.760563,2248.4,1.207271,6.267606,0.759631,2.8,3.943662,49576.3,69825.77465,13449.89148,Grains,yes
5,Potatoes,0.0,0.0,0.2,0.0,0.1,0.0,0.0,0.3,4.754098,3.48,20.470588,80.737705,347.647059,59.1,0.628415,2.705882,1.202186,0.88,5.176471,2754.2,16201.17647,3762.568306,Vegetables,yes
6,Cassava,0.6,0.0,0.2,0.0,0.1,0.0,0.0,0.9,0.708419,0.69,7.666667,,,0.0,1.355236,14.666667,1.858316,1.81,20.111111,0.0,,,Vegetables,yes
7,Cane Sugar,1.2,0.0,0.5,0.0,0.8,0.1,0.0,2.6,4.820513,16.92,,176.666667,,620.1,0.911681,,0.581197,2.04,,16438.6,,4683.361823,Sugar,no
8,Beet Sugar,0.0,0.0,0.5,0.2,0.6,0.1,0.0,1.4,1.541311,5.41,,62.022792,,217.7,0.51567,,0.521368,1.83,,9493.3,,2704.643875,Sugar,no
9,Other Pulses,0.0,0.0,1.1,0.0,0.1,0.4,0.0,1.6,5.008798,17.08,7.977581,,203.503036,435.7,0.524927,0.836058,4.565982,15.57,7.272303,22477.4,10498.55208,,Vegetables,yes


In [13]:
# Speichern des verarbeiten DF für die Streamlit Anwendung:
# df_food.to_csv('df_food.csv')

In [14]:
df_food.to_excel('df_food.xlsx')

### Visualisierungen

In [None]:
df = df_food
fig = px.scatter(df, size="Total_emissions", y="Land use per kilogram (m² per kilogram)",
                 x = 'Freshwater withdrawals per kilogram (liters per kilogram)', color="Category",
           hover_name="Food product", size_max=60,
                color_discrete_sequence=px.colors.qualitative.Prism)
fig.show()

Zum Einstieg wurde eine interaktive Graphik mit plotly express erstell. Die Graphik kann viele Aspekte auf einmal darstellen. Es werden 3 metrische Merkmale (Wasserverbrauch, Landverbrauch, Gesamtemissionen dargestellt. Es können verschiedene Kategorien einzeln gewählt werden. Interaktiv auf einer Website eignen sich die Graphik ganz gut, aber als statisches Bild wäre sie nicht geeignet. Dafür werden die folgenden Graphiken zu bestimmten Fragestellungen entwickelt.

#### Frage 1:
Welches ist das nachhaltigste Lebensmittel (geringste Gesamtemissionen) für die gewählte Kategorie?

In [None]:
categories = df_food["Category"].unique()
categories

In [None]:
plt.figure(figsize=(20, 10))
cats = ['Dairy', 'Plant_Dairy', 'Animal_Prod', 'Egg_Prod']
filtered = df_food[df_food['Category'].isin(cats)]
sns.barplot(x = filtered['Food product'], y = filtered['Total_emissions'], palette="rocket")
plt.title(f'Total Emissions per kg of Food for Different Foods in the Chosen Categories = {cats}',
          fontsize=18, color= 'black', fontweight='bold')
plt.xlabel('')
plt.xticks(fontsize=10)
plt.yticks(fontsize=15)
plt.ylabel('Total Emissions', fontsize=18)
sns.despine(left=True, bottom=True)

#### Design Entscheidungen für Frage 1:
Die Achsen werden zum Decluttering entfernt, nur die Beschriftung wird zu einfacheren Einordnung beibehalten. Zur Information über die Gewählten Kategorien werden diese im Titel angegeben. Ein leichter Farbverlauf ist zur ästhestischen Wahrnehmung gewählt. Die Farbpalette ist in Rot-Violett-Tönen gehalten, um die negative Auswirkung der Emissionen zu unterstreichen. Aufgrund der wählbaren Kategorien ist es schwierig, die Farben und die Größe der x-Achsen-Beschriftung zur stärkeren Hervorhebung zu wählen. Die Größe der x-Achsen-Beschriftung wurde daher eher kleiner gewählt, um Überlappung zu vermeiden. Als automatisch 'Preattentive' kann schon die Höhe der Balken gelten, wobei die Aufmerksamkeit auf die größten Balken gelenkt wird.
Zur allgemeinen ästhetischen Gestaltung werden einfache Formen mit angenehmem Abstand gewählt. Die Balken eignen sich gut, um die absolute Größe der Emissionen auszudrücken. Es werden keine Linien eingezeichnet, da die genaue Zahl der Gesamtemissionen nicht im Vordergrund steht, sondern der Vergleich.
Die Beschriftung der y-Achse könnte zwar rotiert werden, passt dann aber nicht mehr in den gedachten Linienverlauf.

#### Frage 2:
Welcher Lebenszyklusschritt hat den größten Einfluss auf die Gesamtemissionen (für gewählte Lebensmittel)?

In [None]:
stages = ['Land use change', 'Animal Feed', 'Farm', 'Processing',
           'Transport', 'Packging', 'Retail']

In [None]:
lifecycle = df_food[['Food product','Land use change', 'Animal Feed', 'Farm', 'Processing',
           'Transport', 'Packging', 'Retail']]
lifecycle = lifecycle.T
lifecycle.columns = lifecycle.loc['Food product']
lifecycle.drop('Food product', axis = 0, inplace=True)

In [None]:
lifecycle['stage'] = stages

In [None]:
plt.figure(figsize=(20, 10))
plt.title(f'Total Emissions per Processing Stage of Different Foods',
          fontsize=18, color= 'black', fontweight='bold')

choice = ['Potatoes', 'Cassava', 'Cane Sugar', 'Maize (Meal)', 'Root Vegetables']
sns.lineplot(lifecycle[choice], dashes= True, legend='full', linewidth = 5, alpha = 0.6)
plt.xticks(fontsize=15)
plt.yticks(fontsize=15)
plt.legend(fontsize=15)
sns.despine(left=True, bottom=True)

#### Design Entscheidungen für Frage 2:
Die Achsen werden zum Decluttering entfernt, nur die Beschriftung wird zu einfacheren Einordnung beibehalten. Zur Information über die Gewählten Lebensmittel wird die Legende groß eingeblendet. Der Plot ist durch den Titel und die Achsenbeschriftungen trotzdem begrenzt.
Es wird ein Liniendiagram verwendet, um den Verlauf des Lebenszyklus zu zeigen. Es werden keine Grid-Linien eingezeichnet, da die genaue Zahl der Gesamtemissionen nicht im Vordergrund steht, sondern der Vergleich. Die Farben werden bei default belassen, da sich die Farben so deutlich unterscheiden, was eine bessere Erkennung gewährleistet. Obwohl die gestrichelten Linien nicht sehr ästhetisch wirken, werden sie hier eingesetzt, um eventuell überlappende Bereiche besser darstellen zu können. Das Gestalt-Prinzip 'Similarity' wird hier angewandt.Die Linien sind leicht durchsichtig, ebenfalls wegen überlappender Linien.
Als automatisch 'Preattentive' kann schon die Bewegung der Balken gelten, wobei die Aufmerksamkeit auf die größten Balken gelenkt wird. Es wird versucht, die Aufmerksamkeit mit den Farben NICHT speziell zu lenken, da der Plot interaktiv ist und daher die Aussage verändert werden kann.

#### Frage 3:
Was ist das am wenigsten effiziente Lebensmittel in Bezug auf Treibhausgasemissionen pro 100 g Protein (kg CO₂eq pro 100 g Protein)?

In [None]:
plt.figure(figsize=(20, 10))
cats =  ['Dairy', 'Plant_Dairy', 'Animal_Prod', 'Egg_Prod']
filtered = df_food[df_food['Category'].isin(cats)]
sns.barplot(x = filtered['Food product'],
            y = filtered['Greenhouse gas emissions per 100g protein (kgCO₂eq per 100g protein)'],
           palette="rocket")
plt.title(f'Greenhouse Gas Emissions per 100g PROTEIN in the Chosen Categories = {cats}', 
                   fontsize=18, color= 'black', fontweight='bold')
plt.xlabel('')
plt.xticks(fontsize=10)
plt.yticks(fontsize=15)
plt.ylabel('Greenhouse gas emissions per 100g protein (kgCO₂eq per 100g protein)', fontsize=13.5)
sns.despine(left=True, bottom=True)

#### Design Entscheidungen für Frage 3:
Die Achsen werden zum Decluttering entfernt, nur die Beschriftung wird zu einfacheren Einordnung beibehalten. Die  Der Plot ist durch den Titel und die Achsenbeschriftungen trotzdem begrenzt. Zur Information über die Gewählten Kategorien werden diese im Titel angezeigt. Der Fokus liegt hier auf der Einheit für 100g Protein, daher ist diese Information im Titel in Großbuchstaben angegeben.
Zur allgemeinen ästhetischen Gestaltung werden einfache Formen mit angenehmem Abstand gewählt. Es wird wiederum ein Balkendigram gewählt. Die Balken eignen sich gut, um die absolute Größe der Emissionen auszudrücken. Es werden keine Linien eingezeichnet, da die genaue Zahl der Gesamtemissionen nicht im Vordergrund steht, sondern der Vergleich. Die Darstellungen sollen für eine Website oder sogar eine einzige Seite designt werden. Um die Darstellungen konsistent zu halten, ist die Darstellung an der Darstellung für Frage 1 angelehnt.
Als automatisch 'Preattentive' kann wiederum die Höhe der Balken gelten, wobei die Aufmerksamkeit auf die größten Balken gelenkt wird. Je nach Auswahl der Kategorien sind auch jene Lebensmittel auffällig, bei denen kein Balken angezeigt wird. Diese haben besonders geringe Emissionen und sollten auch auffallen.

#### Frage 4:
Was ist das am wenigsten effiziente Lebensmittel in Bezug auf Treibhausgasemissionen pro 1000kcal (kgCO₂eq per 1000kcal)? Hier wird also nur der Nährwert des Lebensmittels berücksichtigt!

In [None]:
plt.figure(figsize=(20, 10))
cats = ['Dairy', 'Plant_Dairy', 'Oils', 'Sugar']
filtered = df_food[df_food['Category'].isin(cats)]
sns.barplot(x = filtered['Food product'], y = filtered['Greenhouse gas emissions per 1000kcal (kgCO₂eq per 1000kcal)'],
           palette="rocket")
plt.title(f'Greenhouse Gas Emissions per 1000kcal (CALORIFIC VALUE) in the Chosen Categories = {cats}',
                   fontsize=18, color= 'black', fontweight='bold')
plt.xlabel('')
plt.xticks(fontsize=10)
plt.yticks(fontsize=15)
plt.ylabel('Greenhouse gas emissions per 1000kcal (kgCO₂eq per 1000kcal)', fontsize=13.5)
sns.despine(left=True, bottom=True)

#### Design Entscheidungen für Frage 4:
Diese Darstellung ist sehr ähnlich zu Darstellung Nummer 3. Die meisten Designentscheidungen sind gleich, das Design soll konsistent gehalten werden. Der Unterschied zu Frage 3, worin es um den Protein/Eiweißgehalt des Lebensmittels geht, soll im Titel hervorgehoben werden. Eine Möglichkeit um noch mehr Information einzubringen, wäre das Annotieren (direkt über den Balken) der jeweiligen Proteingehalte in Darstellung 3 oder der Brennwerte hier in Darstellung 4. Die Informationen sind im aktuellen Datensatz nicht verfügbar. Der zusätzliche Text könnte außerdem die Darstellunge etwas überladen.

#### Frage 5:
Wie korrelieren Nachhaltigkeitsmaße und Emissionen?

In [None]:
per_protein = df_food.columns[[11, 13, 16, 19, 21]]
per_calories = df_food.columns[[9, 12, 15, 17, 22]]
measures = df_food[per_calories]
mask = np.triu(np.ones_like(measures.corr(), dtype=bool))
plt.figure()
ax = sns.heatmap(measures.corr(), cmap="mako",
            annot= True, center=0.8,
           square=True, linewidths=.5,
           mask=mask)
ax.xaxis.tick_top()
plt.xticks(fontsize=8)
plt.yticks(fontsize=8)
ax.set_xticklabels(['Eutrophying Em', 'Freshwater Withd', 'Greenhouse gem', 'Land use', 'Scarcity water' ], rotation=90)
sns.despine(left=True, bottom=True)
plt.title('Pearson - Correlations', loc = 'right', y= 0.8)

#### Design Entscheidungen für Frage 5:
Um Korrelationen festzustellen, wird eine Heatmap erstellt. Dabei werden ruhige Farben (Blautöne) gewählt. Korrelationen sind weder gut noch schlecht, nur die Helligkeit soll die Stärke der Korrelationen anzeigen. Unnötige Bereiche wie Begrenzungen oder die zweite Hälfte der Matrix werden für die bessere Übersichtlichkeit entfernt. Das Korrelationmaß wird im Gegensatz zum eben erwähnten Decluttering angegeben, um die Farben genauer deuten zu können. Die Farben sollen das Auge nur lenken. Auf der y-Achse ist die gesamte Beschreibung der Nachhaltigkeitsmaße angegeben, damit der Betrachter weiß, worum es sich genau handelt. Die Angaben können gekürzt werden, wie auf der x-Achse dargestellt. Aufgrund der Länge der Beschriftungen können diese nur vertikal dargestellt werden. Um das Lesen trotzdem zu erleichtern, wird der Text abgekürzt dargestellt. Vorraussetzung für das richtige Lesen des Plots ist nun, dass der Leser weiß, dass es sich bei der x-Achse um die gleichen Maße wie in der y-Achse handelt. Als Hinweis dazu dient der Titel 'Pearson-Correlations', der in den Plot verschoben wurde, um die aktuelle rechteckige Form beibehalten zu können. 

#### Frage 6:
Verursachen Lebensmittel, die keiner weiteren Verarbeitung bedürfen, während der vorhergehenden Verarbeitungsschritte höhere Emissionen?

In [None]:
plt.figure(figsize=(20, 20))
# filtered = df_food[df_food['Category']=='Animal_Prod']
sns.barplot(y = df_food['Food product'], x = df_food['Total_emissions'], hue = df_food['Further processing needed'],
          palette='magma', orient = 'h', width=0.8, dodge=False, hue_order= ['yes', 'no'] )
#px.bar(x = df_food['Food product'], y = df_food['Total_emissions'], color= df_food['Further processing needed'])
plt.title('Total_emissions per kg of food for differnt foods in the chosen category',
                            fontsize=18, color= 'black', fontweight='bold')

plt.ylabel('')
plt.xticks(fontsize=13)
plt.yticks(fontsize=13)
plt.xlabel('Greenhouse gas emissions per 1000kcal (kgCO₂eq per 1000kcal)', fontsize=15)
plt.legend(fontsize=15)
sns.despine(left=True, bottom=True)

#### Design Entscheidungen für Frage 6:
Diese Darstellung ist sehr ähnlich zu Darstellung Nummer 3 und 4. Die meisten Designentscheidungen sind gleich, das Design soll konsistent gehalten werden. Mehrere Farbpalette stehen zur Auswahl, aber das Design soll einerseits konisitenz gehalten werden, andererseits sollen die Farben gut voneinander zu unterscheiden sein. Starke Farben wie primärfarben (zB rot und grün in einem Plot) ind nicht sehr ästhetisch und wirken sehr intensiv. Die Farben in diesem Plot sollen besonders den Unterschied der beiden Kategorien (Weiterverarbeitung ja/nein) hervorheben. Die Farben sollen keinenfalls positives ausdrücken, da es immer noch um Emissionen geht. Daher sind die Farben wie schon vorher eher dunkel bis rötlich gewählt.
Aufgrund der langen Titel ist der Barplot horizontal ausgerichtet. Die Namen der Lebensmittelprodukte sollen gut lesbar sein. Der Parameter dodge=False, damit pro Lebensmittel nur ein Balken mit einer Kategorie angezeigt wird. Der Namer der y-Achse (ylabel) ist entfernt, da auch so erkennbar ist, dass es sich um Lebensmittel handelt. Es sollen zum Vergleich alle Lebensmittel dargestellt werden, daher gibt es keine Option zum Filtern.

#### Ergänzung zur Entwicklung mit Streamlit:
Für die Entwicklung in Streamlit wurden Select-Tools für die Kategorien gegeben. Es kann somit mit dem Plot interagiert werden. Zur besseren Erkennung der Kategorien wurde der Farberlauf für Plots 1, 3 und 4 gelöscht und die Kategorien mit Farbe gekennzeichnet.

Um mehr interaktive Plots einzubringen, wurde der letzte Plot mit plotly express gestaltet. Der Übersichtsplot mit Plotly zu Beginn wurde ebenfalls in die Streamlit-App übernommen. Die Farbskala wurde ähnlich zu den anderen Plots gewählt. Designentscheidungen bleiben weitgehendst erhalten.

In [None]:
fig2 = px.bar(data_frame =df_food,  y = 'Food product', x = 'Total_emissions', color= 'Further processing needed',
        color_discrete_sequence=px.colors.qualitative.Prism, width=1000, height= 800 )
fig2.show()