# 8. Izmjena tablica i pisanje u datoteke

U ovoj lekciji ćemo govoriti o:
1. kako dodati novi red ili stupac u indeksiranu tablicu; i
2. kako napisati tablicu u lokalnu datoteku.

## 8.1. Dodavanje novih redaka i stupaca

Izračunavanje iste statistike iznova i iznova može drastično usporiti analize podataka. Stoga je vrlo često u analizi velikih nizova podataka unaprijed izračunati neke stvari i pohraniti vrijednosti u tablicu. Razlog je očigledan: brže je dobiti unaprijed izračunatu vrijednost iz tablice, nego izvršiti izračunavanje ispočetka.

Pokažimo to na jednostavnom primjeru. Prisjetite se ocjena studenata s prethodnog predavanja:

In [None]:
import pandas as pd
ocjene = [["Anne",    5, 3, 5, 2, 4, 5],
         ["Ben",     5, 5, 5, 5, 5, 5],
         ["Colin",   4, 5, 3, 4, 5, 4],
         ["Diana",   5, 5, 5, 5, 5, 5],
         ["Ethan",   3, 4, 2, 3, 3, 4],
         ["Fred",    4, 5, 3, 4, 5, 4],
         ["Gloria",  3, 3, 3, 4, 2, 3],
         ["Hellen",  5, 5, 4, 5, 4, 5],
         ["Ian",     4, 5, 4, 4, 3, 5],
         ["Jane",    2, 2, 2, 2, 2, 5],
         ["Kate",    3, 4, 5, 4, 5, 5]]
ocjene_df = pd.DataFrame(ocjene)
ocjene_df.columns=["Ime", "Informatika", "Engleski", "Matematika", "Fizika", "Povijest", "Likovni"]
ocjene_ix = ocjene_df.set_index("Ime")
ocjene_ix

Sada ćemo u tablicu dodati novi stupac, izračunati prosječne ocjene učenika i spremiti ih u novi stupac. Da biste dodali novi stupac u tablicu, jednostavno dodijelite neku vrijednost novom nazivu stupca:

In [None]:
ocjene_ix["Prosjek(Studenti)"] = 0.0

Ovo stvara novi stupac pod nazivom "Prosjek(Studenti)" i dodjeljuje nulu svim unosima u stupcu. Da vidimo što smo postigli:

In [None]:
ocjene_ix

Kao sljedeći korak pohranit ćemo prosječnu ocjenu svakog učenika u odgovarajući unos tablice. Imajte na umu da nam više nije dopušteno pisanje `ocjene_ix.loc[student].mean()` jer imamo dodatni stupac čija se vrijednost ne smije uvrstiti u prosjek.

In [None]:
for student in ocjene_ix.index:
    ocjene_ix.loc[student, "Prosjek(Studenti)"] = ocjene_ix.loc[student, "Informatika":"Likovni"].mean()

Ovo je nova tablica:

In [None]:
ocjene_ix

Da bismo izračunali prosječnu ocjenu po predmetu, prvo dodamo novi redak i ispunimo ga s vrijednostima:

In [None]:
ocjene_ix.loc["Prosjek(Predmet)"] = 0.0
ocjene_ix

a zatim izračunati prosjeke i pohraniti ih:

In [None]:
for predmet in ocjene_ix.columns:
    ocjene_ix.loc["Prosjek(Predmet)", predmet] = ocjene_ix.loc["Anne":"Kate", predmet].mean()
ocjene_ix

Krenimo kroz još jedan primjer. Datoteka _PopulationSrb2017.csv_ in the folder _data_ u podacima mape sadrži procijenjenu broja građana Srbije u 2017. godini prema spolu i dobi. Prvi red je zaglavlje tablice. Učitajmo tablicu i pogledajte:

In [None]:
popSrb = pd.read_csv("data/PopulationSrb2017.csv")
popSrb.head()

In [None]:
popSrb.tail()

Indeksirajte tablicu prema dobi:

In [None]:
popSrb_ix = popSrb.set_index("Age")
popSrb_ix.head()

Te ćemo podatke iskoristiti za izradu male demografske analize. Izračunat ćemo prosjek muškaraca i žena po dobnoj skupini i prikazati to crtežom:

In [None]:
popSrb_ix["M/F"] = 0.0
for i in popSrb_ix.index:
    popSrb_ix.loc[i, "M/F"] = popSrb_ix.loc[i, "M"] / popSrb_ix.loc[i, "F"]
popSrb_ix.head(10)

The line chart is now easy to get:

In [None]:
import matplotlib.pyplot as plt
plt.figure(figsize=(20,5))
plt.plot(popSrb_ix.index, popSrb_ix["M/F"])
plt.title("Omjer muškaraca i žena u Srbiji u 2017. godini prema dobi")
plt.show()
plt.close()

Krivulja počinje otprilike oko 1 (što znači da ima otprilike isti broj muškaraca i žena u tim dobnim skupinama), ali onda pada znatno ispod 1 (što znači da je u nekom trenutku više žena nego muškaraca). Otkrijmo koje su dobne skupine kritične crtanjem vodoravne crte na visini 1:

In [None]:
plt.figure(figsize=(20,5))
plt.plot(popSrb_ix.index, popSrb_ix["M/F"])
plt.plot(popSrb_ix.index, [1.0] * len(popSrb_ix.index))
plt.title("Omjer muškaraca i žena u Srbiji u 2017. godini prema dobi")
plt.show()
plt.close()

Iz grafikona vidimo da je u dobnim skupinama od 46 godina i kasnije broj žena značajno veći od broja muškaraca.

## 8.2. Pisanje tablica u datoteke

Važno je biti u mogućnosti zapisati modificirane tablice u datoteke kako ne bismo morali ponavljati intermedijarne proračune čiji su rezultati već pohranjeni u tablici.

Funkcija `to_csv` upisuje tablicu u CSV datoteku čije se ime navodi kao argument. Na primjer, izmijenili smo tablicu `popSrb_ix` izračunavanjem omjera muškaraca i žena za svaku dobnu skupinu. Ima smisla napisati ovu novu tablicu u novu datoteku za kasniju upotrebu:

In [None]:
popSrb_ix.to_csv("data/PopulationSrb2017-MF-ratio.csv")

Kao još jedan primjer, nazovimo tablicu dostupnu na

    https://raw.githubusercontent.com/cs109/2014_data/master/countries.csv

i dopustite nam da tablicu napišemo u podatke lokalne datoteke _data/countries.csv_ :

In [None]:
countries = pd.read_csv("https://raw.githubusercontent.com/cs109/2014_data/master/countries.csv")
countries.to_csv("data/countries.csv")

Ako pogledate datoteku, vidjet ćete da ona izgleda ovako:

    ,Country,Region
    0,Algeria,AFRICA
    1,Angola,AFRICA
    2,Benin,AFRICA
    3,Botswana,AFRICA
    4,Burkina,AFRICA
    5,Burundi,AFRICA
    6,Cameroon,AFRICA
    7,Cape Verde,AFRICA
    8,Central African Republic,AFRICA
    9,Chad,AFRICA
    (etc)

Dakle, sustav je napisao stupac indeksa (zadani) zajedno s relevantnim podacima. To je bilo prikladno za vrijeme pisanja tablice u `popSrb_ix` u datoteku, jer je tablica indeksirana dobnim skupinama, ali ovdje to nije slučaj. Stoga ćemo ponovo napisati tablicu, ali ovaj put ćemo uputiti sustav da ne piše indeks (što je, u ovom slučaju, suludi slijed brojeva):

In [None]:
countries.to_csv("data/countries.csv", index=False)

Datoteka sada izgleda ovako:

    Country,Region
    Algeria,AFRICA
    Angola,AFRICA
    Benin,AFRICA
    Botswana,AFRICA
    Burkina,AFRICA
    Burundi,AFRICA
    Cameroon,AFRICA
    Cape Verde,AFRICA
    Central African Republic,AFRICA
    Chad,AFRICA
    (etc)

## 8.3. Zadaci

Zadatke riješite u Jupyteru.

**Zadatak 1.** Pažljivo pogledajte kod, a zatim odgovorite na donja pitanja:

In [None]:
import pandas as pd

US = pd.read_html("https://simple.wikipedia.org/wiki/List_of_U.S._states", header=[0,1])[0]
US.to_csv("data/USA.csv")

1. U kojem će formatu biti napisana tablica "US"?
2. Hoće li to biti napisano lokalno ili na neki udaljeni resurs?

**Zadatak 2.**  Biolozi su do sada klasificirali više od 2 000 000 vrsta živih bića. Sve su podijeljene u pet kraljevstava, a približan broj vrsta po kraljevstvu naveden je u ovoj tablici:

| Carstvo  | Broj vrsta |
|--|--|
| Životinje | 1,400,000 |
| Biljke    | 290,000 |
| Gljive    | 100,000 |
| Protoctista | 200,000 |
| Prokaryotae   | 10,000 |

Pretvorite ovu tablicu u indeksirani DataFrame, zatim dodajte novi redak pod nazivom "Ukupno" i izračunajte ukupni broj vrsta na koje se odnosi ova tablica.

**Zadatak 3.** Sljedeća ćelija sadrži podatke o težini i dužini/visini dječaka u prvih sedam godina njegovog života.

In [None]:
razdoblje    = ["6 m", "1.5 y", "2.5 y", "3.5 y", "4.5 y", "5.5 y", "6.5 y"]
težinaKG  = [5.9,   11.5,    14.8,    20.5,    22.0,    24.2,    29.0   ]
visinaCM  = [62.0,  84.0,    97.0,    115.0,   122.5,   131.5,   135.0  ]

Prenesite tablicu, dodajte novi stupac zvan "BMI" u transponiranu tablicu, a zatim za svaki red izračunajte BMI ( _indeks tjelesne mase_ ) koristeći formulu:

$$\hbox{BMI} = \frac{\hbox{težina u kilogramima}}{(\hbox{visina u metrima})^2}$$

Napišite novu tablicu u datoteke _data/BMI.csv_

**Zadatak 4.** Sljedeća tablica sažima najviše i najniže zabilježene temperature (in $^\circ$C) na svakom od kontinenata:

|Kontinent:              | Europa | Azija  | Afrika | Sjeverna Amerika   | Južna Amerika | Australija  | Antarktika |
|------------------------|--------|-------|--------|-----------------|---------------|------------|-----------|
|Najviša zabilježena temp:| 48     | 54    | 55     | 56.7            | 48.9          | 50.7       | 19.8      |
|Najniža zabilježena temp:| -58.1  | -67.8 | -23.9  | -63             | -32.8         | -23        | -89.2     |

Dodajte novi redak u ovu tablicu i izračunajte raspon maksimalne temperature za svaki kontinent (oduzimajući najnižu zabilježenu temperaturu od najviše zabilježene temperature).

**Zadatak 5.** Ovo je pregled potrošnje obitelji tijekom jedne godine (u lokalnoj valuti):
  
  | Stavka | Jan | Feb | Mar | Apr | May | Jun | Jul | Aug | Sep | Oct | Nov | Dec |
  |--------|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|
  | Stanarina             | 8,251 | 8,436 | 8,524 | 8,388 | 8,241 | 8,196 | 8,004 | 7,996 | 7,991 | 8,015 | 8,353 | 8,456 |
  | Struja      | 4,321 | 4,530 | 4,115 | 3,990 | 3,985 | 3,726 | 3,351 | 3,289 | 3,295 | 3,485 | 3,826 | 3,834 |
  | Telefon (fiksni) | 1,425 | 1,538 | 1,623 | 1,489 | 1,521 | 1,485 | 1,491 | 1,399 | 1,467 | 1,531 | 1,410 | 1,385 |
  | Telefon (mobitel)     | 2,181 | 2,235 | 2,073 | 1,951 | 1,989 | 1,945 | 3,017 | 2,638 | 2,171 | 1,831 | 1,926 | 1,833 |
  | TV i Internet  | 2,399 | 2,399 | 2,399 | 2,399 | 2,399 | 2,399 | 2,399 | 2,399 | 2,399 | 2,399 | 2,399 | 2,399  |
  | Prijevoz        | 1,830 | 1,830 | 1,830 | 1,830 | 1,950 | 1,950 | 1,450 | 1,450 | 1,950 | 1,950 | 2,050 | 2,050 |
  | Hrana             | 23,250 | 23,780 | 24,019 | 24,117 | 24,389 | 24,571 | 24,736 | 24,951 | 25,111 | 25,389 | 25,531 | 25,923 |
  | Ostalo             | 4,500 | 3,700 | 5,100 | 3,500 | 2,750 | 4,250 | 7,320 | 8,250 | 3,270 | 4,290 | 3,200 | 8,390 |

Ova tablica predstavljena kao lista izgleda ovako:

In [None]:
troškovi = [
  ["Stanarina", 8251, 8436, 8524, 8388, 8241, 8196, 8004, 7996, 7991, 8015, 8353, 8456],
  ["Struja", 4321, 4530, 4115, 3990, 3985, 3726, 3351, 3289, 3295, 3485, 3826, 3834],
  ["Telefon (fiksni)", 1425, 1538, 1623, 1489, 1521, 1485, 1491, 1399, 1467, 1531, 1410, 1385],
  ["Telefon (mobitel)", 2181, 2235, 2073, 1951, 1989, 1945, 3017, 2638, 2171, 1831, 1926, 1833],
  ["TV i Internet", 2399, 2399, 2399, 2399, 2399, 2399, 2399, 2399, 2399, 2399, 2399, 2399 ],
  ["Prijevoz", 1830, 1830, 1830, 1830, 1950, 1950, 1450, 1450, 1950, 1950, 2050, 2050],
  ["Hrana", 23250, 23780, 24019, 24117, 24389, 24571, 24736, 24951, 25111, 25389, 25531, 25923],
  ["Ostalo", 4500, 3700, 5100, 3500, 2750, 4250, 7320, 8250, 3270, 4290, 3200, 8390]
]

_(a)_ Pretvorite ovaj popis u indeksirani _DataFrame_.

_(b)_ Dodajte novi redak pod nazivom "Ukupno" i u njega pohranite ukupne troškove života po mjesecu (siječanj, veljača, ožujak itd.).

_(c)_ Dodajte novi stupac nazvan "Prosječno" i u njega unesite prosječne troškove po svakoj vrsti troškova (Najam, Električna energija itd.).

_(d)_ Napišite novu tablicu u podatke _data/LivingCosts.csv_