# 8. Модификације табеле и записивање табеле у датотеку

У овој лекцији ћемо говорити о:
1. додавању нове врсте или колоне табели; и
2. записивању табеле у датотеку.

## 8.1. Додавање нове врсте или колоне табели

Понекад је важно да вредности које смо израчунали на основу података у табели (на пример, просеке оцена по ученицима) и сачувамо у табели. Ако табела нема за то предвиђену колону или врсту лако је можемо додати!

Вратимо се поново на пример са оценама ученика кога смо видели на раније:

In [None]:
import pandas as pd
razred = [["Ana",     5, 3, 5, 2, 4, 5],
          ["Bojan",   5, 5, 5, 5, 5, 5],
          ["Vlada",   4, 5, 3, 4, 5, 4],
          ["Gordana", 5, 5, 5, 5, 5, 5],
          ["Dejan",   3, 4, 2, 3, 3, 4],
          ["Đorđe",   4, 5, 3, 4, 5, 4],
          ["Elena",   3, 3, 3, 4, 2, 3],
          ["Žaklina", 5, 5, 4, 5, 4, 5],
          ["Zoran",   4, 5, 4, 4, 3, 5],
          ["Ivana",   2, 2, 2, 2, 2, 5],
          ["Jasna",   3, 4, 5, 4, 5, 5]]
ocene = pd.DataFrame(razred)
ocene.columns=["Ime", "Informatika", "Engleski", "Matematika", "Fizika", "Hemija", "Likovno"]
ocene1 = ocene.set_index("Ime")
ocene1

Овде смо прво увезли библиотеку *pandas* са скраћеним именом "pd", од листе података смо направили табелу, дали колонама имена и индексирали смо табелу по имену ученика.

Као што смо раније видели, лако можемо да израчунамо просек оцена сваког ученика и да те податке испишемо. Међутим, ако желимо да просеке запамтимо у табели, треба нам нова колона. Нова колона се табели додаје тако што се просто напише:

In [None]:
ocene1["ProsekUc"] = 0.0

Ако покушамо да непостојећој колони додамо неку вредност, систем ће сам на крај табеле додати нову колону и попунити је наведеним вредностима:

In [None]:
ocene1

Сада ћемо у једном *for*-циклусу да прођемо кроз индексну колону табеле и да за сваки ред табеле израчунамо просек бројева уписаних у колоне "Informatika"--"Likovno". (Не смемо да рачунамо просек целог реда, јер редови сада садрже и колону "ProsekUc" која не сме да се укључи у рачун просека!)

In [None]:
for ucenik in ocene1.index:
    ocene1.loc[ucenik, "ProsekUc"] = ocene1.loc[ucenik, "Informatika":"Likovno"].mean()

Ево како изгледа нова табела:

In [None]:
ocene1

Да бисмо израчунали просечну оцену за сваки предмет, додаћемо нову врсту:

In [None]:
ocene1.loc["ProsekPr"] = 0.0
ocene1

Овде треба да застанемо за тренутак и да се подсетимо да се запис облика `ocene1["ProsekUc"]` односи на колоне табеле тако да ће наредба

    ocene1["ProsekUc"] = 0.0

додати нову колону попуњену нулама, док се запис `ocene1.loc["ProsekPr"]` односи на врсте табеле, па ће наредба

    ocene1.loc["ProsekPr"] = 0.0

додати нову врсту попуњену нулама (што се и десило у примеру).



In [None]:
for predmet in ocene1.columns:
    ocene1.loc["ProsekPr", predmet] = ocene1.loc["Ana":"Jasna", predmet].mean()
ocene1

Ево још једног примера. У фолдеру *podaci* се налази датотека *StanovnistvoSrbije2017.csv* која садржи процену броја становника Републике Србије по годинама на дан 31.12.2017. Први ред табеле представља заглавље табеле које нам каже да табела има три колоне (Старост, Мушко, Женско). Прво ћемо учитати табелу и индексирати је колоном "Старост":

In [None]:
stanovnistvo = pd.read_csv("podaci/StanovnistvoSrbije2017.csv")
stanovnistvo1 = stanovnistvo.set_index("Старост")

Сада ћемо урадити малу демографску анализу: израчунаћемо однос броја мушкараца и жена по годинама старости и приказаћемо податке линијским дијаграмом.

Прво ћемо табели додати нову колону "М/Ж" и у ту колону уписати израчунате односе:

In [None]:
stanovnistvo1["М/Ж"] = 0.0
for i in stanovnistvo1.index:
    stanovnistvo1.loc[i, "М/Ж"] = stanovnistvo1.loc[i, "Мушко"] / stanovnistvo1.loc[i, "Женско"]

Ево првих неколико редова табеле:

In [None]:
stanovnistvo1.head(10)

Потом ћемо приказати дијаграм коме ћемо додати линију на висини 1.0 да бисмо лакше уочили у ком тренутку број мушкараца постаје мањи од броја жена:

In [None]:
import matplotlib.pyplot as plt
plt.figure(figsize=(20,5))
plt.plot(stanovnistvo1.index, stanovnistvo1["М/Ж"])
plt.plot(stanovnistvo1.index, [1.0] * len(stanovnistvo1.index))
plt.title("Однос броја мушких и женских држављана Србије по годинама старости\nпрема проценама броја становника на дан 31.12.2017")
plt.show()
plt.close()

## 8.2. Записивање табеле у датотеку

Веома је важно омогућити да се подаци који су учитани из неке датотеке могу, након обраде, поново уписати у датотеку. Да ова могућност не постоји морали бисмо сваки пут изнова вршити обраду података, што у неким случајевима може да буде веома дуготрајан посао.

Табела се уписује у датотеку типа *CSV* позивом функције `to_csv` (енгл. "у csv"). На пример, табелу `stanovnistvo1` смо модификовали тако што смо јој додали нову колону у коју смо уписали однос броја мушкараца и жена по узрастима. Ако желимо да тако модификовану табелу сачувамо под новим именом, то можемо учинити овако:

In [None]:
stanovnistvo1.to_csv("podaci/StanovnistvoSrbije2017-Novo.csv", encoding="utf-8")

Први податак који се прослеђује функцији `to_csv` представља име нове датотеке у коју ће бити уписани подаци, док аргумент `encoding="utf-8"` значи да ће подаци бити уписани у датотеку користећи систем за кодирање који се зове *UTF-8*. Ово морамо да наведемо зато што у табели имамо податке који су записани ћирилицом. Чак и да смо користили латиницу морали бисмо да користимо UTF-8 систем за кодирање због слова као што су č, ć, š, ž, đ, а која не постоје у енглеском алфабету. Аргумент `encoding="utf-8"` можемо да изоставимо само ако знамо да су за записивање података у табели коришћени искључиво симболи из енглеског алфабета.

Ево примера. Са линка

    https://raw.githubusercontent.com/cs109/2014_data/master/countries.csv

ћемо учитати списак држава на свету и записаћемо ту табелу (без икаквих трансформација) у локалну датотеку *drzavesveta.csv* у фолдеру *podaci*:

In [None]:
drzave = pd.read_csv("https://raw.githubusercontent.com/cs109/2014_data/master/countries.csv")
drzave.to_csv("podaci/drzavesveta.csv")

Ако сада из неког програма за уређивање текста (рецимо, *Notepad*) погледамо датотеку коју смо добили записивањем, видећемо да она изгледа овако (наведено је само првих неколико редова):

    ,Country,Region
    0,Algeria,AFRICA
    1,Angola,AFRICA
    2,Benin,AFRICA
    3,Botswana,AFRICA
    4,Burkina,AFRICA
    5,Burundi,AFRICA
    6,Cameroon,AFRICA
    7,Cape Verde,AFRICA
    8,Central African Republic,AFRICA
    9,Chad,AFRICA
    (итд)

Приликом уписивања података у табелу Пајтон је уписао и индексну колону. Код табеле `stanovnistvo1` нам је то одговарало јер је табела била индексирана колоном "Старост". Овде нам то, ипак, не одговара зато што индексна колона не даје никакву важну информацију о подацима у табели. Ако желимо да упижемо табелу у датотеку, али тако да се индексна колона не уписује, можемо то урадити овако:

In [None]:
drzave.to_csv("podaci/drzavesveta.csv", index=False)

Сада у датотеци пише:

    Country,Region
    Algeria,AFRICA
    Angola,AFRICA
    Benin,AFRICA
    Botswana,AFRICA
    Burkina,AFRICA
    Burundi,AFRICA
    Cameroon,AFRICA
    Cape Verde,AFRICA
    Central African Republic,AFRICA
    Chad,AFRICA
    (итд)

што смо и желели.

## 8.3. Задаци

Задатке реши у Џупитеру.

**Задатак 1.** Погледај пажљиво наредбе у следећој ћелији, па одговори на питања:

In [None]:
import pandas as pd

US = pd.read_html("https://simple.wikipedia.org/wiki/List_of_U.S._states", header=[0,1])[0]
US.to_csv("podaci/SAD.csv")

1. У ком формату ће бити записани подаци из табеле "US"?
2. Да ли ће подаци бити записани локално, или на неки удаљени ресурс?

**Задатак 2.** Биолози су до данас описали око два милиона врста живих бића. Сва она су подељена у пет царстава. Њихов приближан број по царствима је дат следећом табелом:

| Царство  | Број врста |
|--|--|
| Животиње | 1.400.000 |
| Биљке    | 290.000 |
| Гљиве    | 100.000 |
| Протисти | 200.000 |
| Монере   | 10.000 |

Додај нову врсту табели која се зове "Укупно" и у њу унеси укупан број врста. Немој рачунати ручно, већ примени функцију `sum` на одговарајућу колону табеле.

**Задатак 3.** У наредној ћелији дати су подаци о тежини (у килограмима) и дужини/висини (у центиметрима) једног дечака од његовог шестог месеца па до његових 6,5 година.

In [None]:
merenja   = ["6 мес", "1,5 год", "2,5 год", "3,5 год", "4,5 год", "5,5 год", "6,5 год"]
masaKG    = [5.9,     11.5,      14.8,      20.5,      22.0,      24.2,      29.0     ]
visinaCM  = [62.0,    84.0,      97.0,      115.0,     122.5,     131.5,     135.0    ]

Транспонуј табелу, тако транспонованој табели додај нову колону, па за свако мерење (што је сада врста у новој, транспонованој табели) израчунај *BMI* (*body mass index*) по формули:

$$\hbox{BMI} = \frac{\hbox{masa u kilogramima}}{(\hbox{visina u metrima})^2}$$

Добијену табелу упиши у датотеку *BMI.csv* (обрати пажњу на то да у табели имаш податке записане ћирилицом).

**Задатак 4.** У следећој табели су приказане највише и најниже температуре (у Целзијусима) икада измерене на континентима:

|Континент:              | Европа | Азија | Африка | Северна Америка | Јужна Америка | Аустралија | Антарктик |
|------------------------|--------|-------|--------|-----------------|---------------|------------|-----------|
|Највиша забележена темп:| 48     | 54    | 55     | 56.7            | 48.9          | 50.7       | 19.8      |
|Најнижа забележена темп:| -58.1  | -67.8 | -23.9  | -63             | -32.8         | -23        | -89.2     |

(Подаци су преузети са странице https://www.space.com/17816-earth-temperature.html). Додај нови ред овој табели па у њега упиши максимални температурни распон за сваки континент, који се добија када се од највише забележене температуре одузме најнижа забележена температура.

**Задатак 5.** У фолдеру *podaci* се налази датотека *StanovnistvoSrbije2017.csv* (која има заглавље). Табела има три колоне које се зову "Старост", "Мушко" и "Женско".

*(а)* Учитај датотеку у структуру података *DataFrame* и индексирај табелу колоном "Старост".

*(б)* Додај табели нову колону "УкупноСт" и онда израчунај и у ту колону упиши податак о томе колики је укупан процењени број становника по старости. Прикажи укупан процењени број становника по старости линијским дијаграмом.

*(в)* Додај табели нову врсту "УкупноПол" и онда израчунај и у ту врсту упиши податак о томе колики је укупан процењени број становника по полу. Прикажи укупан процењени број становника по полу секторским дијаграмом.

*(г)* На овај начин измењену табелу сними у датотеку *podaci.csv* (обрати пажњу на то да у табели имаш податке записане ћирилицом).

**Задатак 6.** Ево трошкова живота једне породице током једне године, по месецима (сви износи су представљени у динарима):
  
  | Ставка | Јан | Феб | Мар | Апр | Мај | Јун | Јул | Авг | Сеп | Окт | Нов | Дец |
  |--------|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|
  | Станарина | 8.251 | 8.436 | 8.524 | 8.388 | 8.241 | 8.196 | 8.004 | 7.996 | 7.991 | 8.015 | 8.353 | 8.456 |
  | Струја | 4.321 | 4.530 | 4.115 | 3.990 | 3.985 | 3.726 | 3.351 | 3.289 | 3.295 | 3.485 | 3.826 | 3.834 |
  | Телефон (фиксни) | 1.425 | 1.538 | 1.623 | 1.489 | 1.521 | 1.485 | 1.491 | 1.399 | 1.467 | 1.531 | 1.410 | 1.385 |
  | Телефон (мобилни) | 2.181 | 2.235 | 2.073 | 1.951 | 1.989 | 1.945 | 3.017 | 2.638 | 2.171 | 1.831 | 1.926 | 1.833 |
  | ТВ и интернет | 2.399 | 2.399 | 2.399 | 2.399 | 2.399 | 2.399 | 2.399 | 2.399 | 2.399 | 2.399 | 2.399 | 2.399  |
  | Превоз | 1.830 | 1.830 | 1.830 | 1.830 | 1.950 | 1.950 | 1.450 | 1.450 | 1.950 | 1.950 | 2.050 | 2.050 |
  | Храна | 23.250 | 23.780 | 24.019 | 24.117 | 24.389 | 24.571 | 24.736 | 24.951 | 25.111 | 25.389 | 25.531 | 25.923 |
  | Остало | 4.500 | 3.700 | 5.100 | 3.500 | 2.750 | 4.250 | 7.320 | 8.250 | 3.270 | 4.290 | 3.200 | 8.390 |

У ћелији испод су исти подаци представљени листом:

In [None]:
troskovi = [
  ["Станарина", 8251, 8436, 8524, 8388, 8241, 8196, 8004, 7996, 7991, 8015, 8353, 8456],
  ["Струја", 4321, 4530, 4115, 3990, 3985, 3726, 3351, 3289, 3295, 3485, 3826, 3834],
  ["Телефон (фиксни)", 1425, 1538, 1623, 1489, 1521, 1485, 1491, 1399, 1467, 1531, 1410, 1385],
  ["Телефон (мобилни)", 2181, 2235, 2073, 1951, 1989, 1945, 3017, 2638, 2171, 1831, 1926, 1833],
  ["ТВ и интернет", 2399, 2399, 2399, 2399, 2399, 2399, 2399, 2399, 2399, 2399, 2399, 2399 ],
  ["Превоз", 1830, 1830, 1830, 1830, 1950, 1950, 1450, 1450, 1950, 1950, 2050, 2050],
  ["Храна", 23250, 23780, 24019, 24117, 24389, 24571, 24736, 24951, 25111, 25389, 25531, 25923],
  ["Остало", 4500, 3700, 5100, 3500, 2750, 4250, 7320, 8250, 3270, 4290, 3200, 8390]
]

*(а)* Представи табелу структуром *DataFrame*. Индексирај табелу.

*(б)* Додај табели нову врсту "Укупно" па у њу унеси укупне трошкове ове породице по месецима (колико је породица укупно потрошила у јануару, колико у фебруару итд).

*(в)* Додај табели нову колону "Просечно" па у њу унеси просечну потрошњу ове породице по ставкама (колико је породица просечно потрошила на станарину, колико на струју, итд).

*(г)* Добијену табелу упиши у датотеку *Troskovi.csv* водећи рачуна о томе да у табели има података који су записани ћирилицом.