# Pylväsdiagrammi 1 – data sarakkeesta

#### Tämä pohja on tehty sinulle muokattavaksi.

Kuinka mukavia ovatkaan pylväsdiagrammit ja niiden mahdollistamat pohdintatehtävät! Tässä on esitelty, kuinka voit nopeasti pyöräyttää kuvaajan valitsemasi datasetin yhden sarakkeen tiedoista. Jos innostusta riittää monipuolisempaan tarkasteluun, niin alempana on annettu esimerkki siitä, kuinka tehdään kumulatiivisia pylväsdiagrammeja. Voit myös käyttää tätä kyseistä datasettiä ruuan hiilipäästöistä, joka on napattu [täältä](https://ourworldindata.org/environmental-impacts-of-food#you-want-to-reduce-the-carbon-footprint-of-your-food-focus-on-what-you-eat-not-whether-your-food-is-local). Tähän datasettiin on kerätty tieto, mistä muutamien erilaisten ruoka-aineiden hiilidioksidipäästöt syntyvät, ja kuinka suuria nämä päästöt ovat sektoreittain.

Voit siis käyttää tätä tiedostoa mallipohjana, jos haluat tehdä pylväsdiagrammin jonkin datatiedoston sarakkeesta. Luet vain oman datatiedoston, muokkailet vähän muuttujien nimiä ja lisäät sopivat tekstit ympärille. Jos tulee ongelmia joihin ei Googlesta tunnu löytyvän vastausta, niin meille voi aina laittaa sähköpostia matalalla kynnyksellä.

In [None]:
# Ladataan tietokirjastot käyttöön.

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

In [None]:
# Luetaan csv-tiedosto, joka on ladattu GitHubiin.
# Head-komennolla nähdään, miltä valittu datatiedosto näyttää.

ruuan_paastot = pd.read_csv('https://raw.githubusercontent.com/opendata-education/Mallipohjat/main/materiaali/data/food-emissions-supply-chain.csv')
ruuan_paastot.head()

### Pylväsdiagrammi yhdestä sarakkeesta

Valitaan tarkasteltavaksi sarakkeeksi ruoka-aineiden maankäytöstä syntyvät hiilipäästöt.

In [None]:
# Lajitellaan datatiedosto uudestaan maankäytöstä syntyvien päästöjen suuruuden mukaan.
# Yleensä pylväsdiagrammit tuppaa olemaan siistimpiä, kun pylväät ovat suuruusjärjestyksessä.

ruuan_paastot_lajiteltu = ruuan_paastot.sort_values('food_emissions_land_use')

# Tallennetaan muuttujaan 'ruuat' datasetissä olevien ruokien nimet.
# Tallennetaan muuttujaan 'maan_kaytto' maankäytöstä tulevat hiilipäästöt.

ruuat = ruuan_paastot_lajiteltu['Entity']
maan_kaytto = ruuan_paastot_lajiteltu['food_emissions_land_use']

```{margin} Tärkeää huomata
Molempiin muuttujiin 'ruuat' ja 'maan_kaytto' tallennettavat tiedot tulee ottaa lajitellusta
datatiedostosta, jotta ruokien nimet ja päästöjen suuruudet eivät mene keskenään sekaisin. Eli molemmat
tiedot joko lajitellusta tiedosta tai alkuperäisestä, ei sekoituksia.  
```

Sitten jatketaan piirtämällä meidän kuvaaja. Koska x-akselille tulisi useita ruokien nimiä, niin helpomman tarkastelun vuoksi tehdään nyt horisontaalinen kuvaaja. 

In [None]:
plt.figure(figsize = (10, 12)) # Muokkaa kuvaajan kokoa vaihtamalla numeroita, testailemalla löytää sopivan

plt.barh(ruuat, maan_kaytto) # horisontaalinen kuvaaja komennolla 'plt.barh(y,x)' ja vertikaalinen 'plt.bar(x,y)'
plt.title('Otsikko')
plt.xlabel('x-akselin nimi')
plt.ylabel('y-akselin nimi')

#plt.xticks(rotation=90) #Ota tämä rivi käyttöön, jos valitset vertikaalisen kuvaajan. Kääntää pylväiden nimet.

#plt.axhline(0, color='grey') #Jos haluat vertikaaliseen kuvaajaan viivan, missä y = 0.
plt.axvline(0, color='grey') #Jos haluat horisontaaliseen kuvaajaan viivan, missä x = 0.

plt.show()

### Kumulatiivinen pylväsdiagrammi

Tässäkin tapauksessa olisi kuitenkin mielenkiintoista tarkastella sitä, mistä sektoreista eri ruokien päästöt koostuvat ja miten niiden suuruudet vertautuvat toisiinsa. Pylväsdiagrammien tapauksessa kumulatiivisen kuvaajan tekemisessä on hieman enemmän työtä, mutta onneksi sen tekeminen on varsin suoraviivaista.

In [None]:
# Koska tässä datasetissä ei ole valmiiksi saraketta kokonaispäästöille, tehdään se nyt.
# Tätä tarvitaan siihen, että voidaan jälleen kerran järjestellä lopulliset pylväät suuruusjärjestykseen.
# Jos sinun datasetissä on jo tätä vastaava tieto tarjolla, niin voit pyyhkiä tämän osuuden pois. 

yht = np.zeros(len(ruuan_paastot)) # tallennetaan muuttujaan 'yht' niin monta nollaa, kuin meidän datasetin pituus on.
ruuan_paastot["Total"] = yht # Tehdään uusi sarake nimeltä 'Total', ja laitetaan sinne edellisen rivin nollat.
ruuan_paastot.head() # Katsotaan, että uusi sarake nollineen ilmestyi sinne.

In [None]:
# Lasketaan jokaiselta riviltä kokonaispäästöt summaamalla olennaisten sarakkeiden tiedot yhteen rivi riviltä.
# Tämä voi näyttää sekavalta ja vaikealta, niin listaan tänne valmiiksi ne asiat, mitä sinne pitää muuttaa.

for i in range(len(ruuan_paastot)): # se muuttuja, joka sisältää datasetin
    ruuan_paastot["Total"][i] # Datasetin muuttuja ja se sarake, joka on täynnä nollia
                                = (ruuan_paastot['food_emissions_land_use'][i] # datasetin muuttuja ja sarakkeen nimi
                                 + ruuan_paastot['food_emissions_farm'][i] # ja jokainen sarake erikseen,
                                 + ruuan_paastot['food_emissions_animal_feed'][i] # jotka haluat mukaan laskuun
                                 + ruuan_paastot['food_emissions_processing'][i]
                                 + ruuan_paastot['food_emissions_transport'][i]
                                 + ruuan_paastot['food_emissions_retail'][i]
                                 + ruuan_paastot['food_emissions_packaging'][i]
                                 + ruuan_paastot['food_emissions_losses'][i])
    
ruuan_paastot.head() # Tarkistetaan, että näyttää oikealta.

# Tästä tulee punainen virhekoodi, mutta se ei haittaa.

In [None]:
# Nyt lajitellaan datasetti kokonaispäästöjen mukaan ja tallennetaan se uuteen muuttujaan
# Jos sinun ei tarvinnut tehdä uutta saraketta lajittelua varten, voit hypätä tässä kohtaa taas takaisin mukaan.

ruuan_paastot_lajiteltu2 = ruuan_paastot.sort_values('Total')

# Uusi muuttuja ruuille, jotta ne tallennetaan oikeassa järjestyksessä
ruuat2 = ruuan_paastot_lajiteltu2['Entity']

In [None]:
# Selkeyden vuoksi tallennetaan jokaisen sarakkeen tiedot omiin muuttujiin.
# Tässäkin tärkeää ottaa tiedot nyt uudestaan lajitellusta datasetistä.

data1 = ruuan_paastot_lajiteltu2['food_emissions_land_use']
data2 = ruuan_paastot_lajiteltu2['food_emissions_farm']
data3 = ruuan_paastot_lajiteltu2['food_emissions_animal_feed']
data4 = ruuan_paastot_lajiteltu2['food_emissions_processing']
data5 = ruuan_paastot_lajiteltu2['food_emissions_transport']
data6 = ruuan_paastot_lajiteltu2['food_emissions_retail']
data7 = ruuan_paastot_lajiteltu2['food_emissions_packaging']
data8 = ruuan_paastot_lajiteltu2['food_emissions_losses']

Piirretään itse kuvaaja. Kumulatiivisen pylväsdiagrammin toimintaideana on, että ensin piirretään ensimmäinen pylväs. Sen jälkeen piirretään seuraava pylväs, mutta laitetaan se alkamaan ensimmäisen pylvään lopusta. Vastaavasti kolmas pylväs laitetaan alkamaan ensimmäisen ja toisen pylvään summan lopusta. Tätä sarjaa toistetaan niin pitkään, kunnes kaikki halutut pylväät on piirretty.

Nyt varmaan käy selväksi, miksi haluttiin tallentaa jokaisen sarakkeen tiedot helpompiin muuttujiin? 

Jokaisella rivillä on nyt piirretty yksi yksittäinen pylväs, valittu sille väri, nimi ja laskettu pylvään alkamispaikka. Koska tässä piirretään nyt horisontaalista kuvaajaa, pylvään alkupaikka määritetään komennolla 'left'. Jos olet tekemässä vertikaalista kuvaajaa, vaihda komennoksi 'bottom'. Vertikaalisen kuvaajan tapauksessa muista myös vaihtaa komento 'plt.barh(y,x)' komentoon 'plt.bar(x,y)'.

In [None]:
plt.figure(figsize = (20, 15)) # Voit taas muokata kuvaajan koon sopivaksi vaihtelemalla numeroita.

plt.barh(ruuat2, data1, color = 'red', label = 'Maan käyttö') # Ensimmäinen pylväs
plt.barh(ruuat2, data2, left=data1, color = 'orange', label = 'Maatila') # Toinen pylväs
plt.barh(ruuat2, data3, left=(data1+data2), color = 'yellow', label = 'Eläimen ruoka') # Kolmas pylväs
plt.barh(ruuat2, data4, left=(data1+data2+data3), color = 'green', label = 'Prosessointi')
plt.barh(ruuat2, data5, left=(data1+data2+data3+data4), color = 'aqua', label = 'Kuljetus')
plt.barh(ruuat2, data6, left=(data1+data2+data3+data4+data5), color = 'blue', label = 'Jälleenmyynti')
plt.barh(ruuat2, data7, left=(data1+data2+data3+data4+data5+data6), color = 'fuchsia', label = 'Pakkaus')
plt.barh(ruuat2, data8, left=(data1+data2+data3+data4+data5+data6+data7), color = 'purple', label = 'Häviöt')

plt.title('Otsikko')
plt.xlabel('x-akselin nimi')
plt.ylabel('y-akselin nimi')

plt.legend(loc = 'lower right') # Printataan pylväiden nimet näkyviin.
plt.show()

Tästäkin jo saadaan mukavasti pohdittavaa – onko esimerkiksi lähiruoka niin ympäristöystävällistä, kuin yleisesti halutaan uskoa? Toivottavasti tästä mallipohjasta oli apua, ja mukavia hetkiä pylväsdiagrammien pariin!