# 15. час: Учитавање табеларно представљених података из спољашњих извора

На овом часу ћемо говорити о:
1. Ексел датотеке
2. Он-лајн ресурси
3. Зашто Џупајтер а не Ексел?

## 15.1. Учитавање података из локалних Ексел датотека

Мајкрософтов Ексел (_Microsoft Excel_) представља један од најраспрострањенијих софтверских производа за обраду табеларно представљених података. (На крају овог часа рећи ћемо неколико речи о томе зашто смо се ми и поред тога одлучили за Џупајтер.) Библиотека _pandas_ зато има функцију која може да учита податке представљене Ексел табелом.

Структура Ексел документа је релативно сложена јер у једном документу може да се налази више табела. Један Ексел документ се, зато, састоји из неколико _радних листова_ (енгл. _work sheets_):

<img src = "slike/Excel.jpg">

па функцији за учитавање Ексле табеле поред имена датотеке треба дати и име радног листа са кога се учитава табела.

Уколико се не наведе име раднлог листа, функција ће учитати табелу из првог радног листа на који наиђе.

У следећој ћелији ћемо из датотеке _Aditivi.xlsx_ која се налази у фолдеру _podaci_ учитати табелу из (јединог) радног листа "Адитиви":

In [None]:
# изврши ову ћелију
import pandas as pd
aditivi = pd.read_excel("podaci/Aditivi.xlsx", sheet_name="Адитиви")

Ова датотека садржи податке о адитивима, што су супстанце које се користе у индустрији. Неки од њих се користе и у индустрији хране. (Подаци су преузети из уџбеника биологије за 8. разред.)

Ево првих неколико редова ове табеле:

In [None]:
# изврши ову ћелију
aditivi.head(15)

Видимо да су ћелије које су биле празне у Ексел табели овде добиле специјалну вредност _NaN_ што је скраћеница од _not a number_ (енгл. "није број"). Ово је специјална вредност која се користи да се открију потенцијалне грешеке које могу да настану приликом учитавања великих табела. У нашем случају празне ћелије у колони "Напомена" и треба да остану празне, па ћемо табелу учитати поново, с тим да ћемо "замолити Пајтон да искљчи вештачку интелигенцију":

In [None]:
# изврши ову ћелију
aditivi = pd.read_excel("podaci/Aditivi.xlsx", sheet_name="Адитиви", na_filter=False)
aditivi.head(15)

Аргумент `na_filter=False` каже функцији `read_excel` да празне ћелије остану празне и да у њих не уноси вредност _NaN_.

Направићемо сада фреквенцијску анализу ове табеле на основу штетности адитива.

In [None]:
# изврши ову ћелију
aditivi["Штетност"].value_counts()

Профилтрираћемо табелу да бисмо излистали адитиве који могу изазвати рак.

In [None]:
# изврши ову ћелију
aditivi[aditivi.Напомена == "може изазвати рак"]

За крај, излистаћемо адитиве који су изузетно опасни или могу изазвати рак.

In [None]:
# изврши ову ћелију
aditivi[(aditivi.Напомена == "може изазвати рак") | (aditivi.Штетност == "ИЗУЗЕТНО ОПАСАН")]

## 15.2. Учитавање података из удаљених ресурса

Могуће је преузети и податке са удањених ресурса без потребе да се они прво пребаце на локалну машину. Да бисмо приступили податку који се налази на некој другој машини потребно је да обе машине имају приступ Интернету и да знамо тачну локацију податка на удањеној машини. Тачна локација било ког ресурса на Интернету је описана његовим _URL_-ом (од енгл. _Universal Resource Locator_, што значи "Универзални локатор ресурса").

На адреси

    https://raw.githubusercontent.com/cs109/2014_data/master/countries.csv
    
се налази јавно доступан списак свих држава на свету. Ову табелу можемо лако учитати наредбом `read_csv`:

In [None]:
# изврши ову ћелију
drzave = pd.read_csv("https://raw.githubusercontent.com/cs109/2014_data/master/countries.csv")
drzave.head(5)

Број држава по континентима можемо видети овако:

In [None]:
# изврши ову ћелију
drzave["Region"].value_counts()

Прикажимо број држава по континентима секторским дијаграмом:

In [None]:
# изврши ову ћелију
import matplotlib.pyplot as plt
po_kontinentima = drzave["Region"].value_counts()
plt.figure(figsize=(8,8))
plt.pie(po_kontinentima.values, labels=po_kontinentima.index)
plt.title("Број држава по континентима")
plt.show()
plt.close()

Помоћу наредбе `read_html` може се прочитати и табела дирекнто из _HTML_ кода неке веб странице. Рецимо, следећа наредба чита списак свих федералних јединица Сједињених Америчких Држава са одговарајуће странице Википедије:

In [None]:
# изврши ову ћелију
US = pd.read_html("https://simple.wikipedia.org/wiki/List_of_U.S._states", header=0)[0]

Наредба `read_html` враћа релативно сложену структуру, али табела коју желимо да видимо је прва у тој структури. Зато иза наредбе следи конструкт `[0]` који враћа прву компоненту сложене структуре. Аргумент `header=0` значи да прву врсту треба узети за заглавље табеле. Ево како изгледа табела:

In [None]:
# изврши ову ћелију
US

## 15.3. Зашто Џупајтер, а не Ексел

Мајкрософтов Ексел (_Microsoft Excel_) представља један од најраспрострањенијих софтверских производа за обраду табеларно представљених података, па се природно намеће питање зашто овај курс није организован око Ексела. Разлога има много, а навешћемо три најважнија.

**Цена.** За разлику од Ексела који је комерцијални производ и који мора да се купи да би могао легално да се користи, Пајтон, све његове библиотеке и Џупајтер (као радно окружење за Пајтон) су _бесплатни_. Свако може без икакве накнаде да инсталира Пајтон и Џупајтер и да их користи за личне потребе и за образовне потребе.

**Флексибилност.** Пајтон долази са веома великим бројем библиотека које су развијане за потребе ефикасне обраде великих количина података. Све те библиотеке су доступне из Џупајтера. Ако се за коју годину појави нека нова библиотека која нуди нове могућности, можемо је лако и брзо увести у Џупајтер и користити.

Слично Џупајтеру, Ексел подржава писање мањих програмских фрагмената, али у програмском језику _Visual Basic for Applications_. За разлику од Џупајтера, нове функционалности се не дистрибуирају кроз библиотеке функција које се просто додају систему, већ свака нова функционалност изискује инсталацију нове верзије програма.

**Континуитет.** На крају, Пајтон смо већ учили претходне две године. Док би увођење у _Visual Basic for Applications_ трајало дуже и тиме би се изгубило на континуитету, окружење засновано на Пајтону као што је Џупајтер омогућује да се одмах постави фокус на обраду и визуелизацију података.


## 15.4. Задаци

**Задатак 1.** У табели `podaci/SO2.xlsx` налазе се резултати мерења концентрације сумпор-диоксида у 2017. години у неким градовима Србије. Табела има четири колоне:

* МернаСтаница = Мерна станица
* СГВ = Средња годишња вредност у микрограмима по кубном метру
* БД125 = Број дана са више од 125 микрограма по кубном метру
* МДВ = Максимална дневна вредност у микрограмима по кубном метру

_(а)_ Учитати ову табелу у структуру података _DataFrame_.

_(б)_ Сортирати подаке по колони МДВ и приказати вредности у овој колони линијским дијаграмом.

_(в)_ Издвојити из табеле оне редове код којих је вредност у колони БД125 већа од 0.

**Задатак 2.** На адреси

    https://raw.githubusercontent.com/resbaz/r-novice-gapminder-files/master/data/gapminder-FiveYearData.csv

се налази јавно доступна табела са списком држава света и неким параметрима економског развоја тих држава праћеним у интервалима од 5 година.

Табела има следеће колоне:

* country = држава
* year = година на коју се односе подаци
* pop = број становника (енгл. _population_)
* continent = континент
* lifeExp = очекивани животни век у годинама (енгл. _life expextancy_)
* gdpPercap = БДП по глави становника у америчким доларима (енгл. _GDP per capitem_)

_(а)_ Учитати ову табелу у структуру података _DataFrame_.

_(б)_ У нову табелу издвојити податке који се односе на Србију (Упутство: `tabela[tabela.country == "Serbia"]`)

_(в)_ Приказати линијским дијаграмом како се мењао очекивани животни век грађана Србије за године за које постоје подаци у табели.

_(г)_ Приказати хистограмом како се мењао БДП по глави становника Србије за године за које постоје подаци у табели.