# Част I. Отвъд Excel: Боравене с данни чрез Python

В увода казахме, че данните са една от основите на съвременното общество. Макар там да говорихме за големите масиви от данни, събирани и анализирани от големи бизнеси като Google, Facebook или Amazon, всеки от нас често има работа с данни и в ежедневието си. Създаваме графици, смятаме разходи и организираме събития с помощта на разнообразни таблици. Често предпочитания инструмент за такава дейност е Microsoft Office Excel. Въпреки това, Excel лесно става твърде сложен за работа, ако работим с по-сложни данни. По тази причина в индустриални среди в наши дни се предпочита употребата на програмни езици подходящи за работа с данни. Може би най- подходящият и версатилен такъв език е Python (популярна алтернатива е R). 

Настоящата част цели да запознае читателя си с принципите на езика Python и, по-специално, неговите възможности за обработка, анализ и визуализация на данни. По този начин тя дава възможност не само за придобиване на високоценени професионални умения, но и предоставя един изключително мощен инструмент за автоматизация на разнообразни ежедневни задачи. Python има библиотеки за боравене както с данни, така и с изображения, документи, аудио, видео, имейл, уеб съдържание и т.н. Макар повечето от тези библиотеки да остават извън целите на настоящото ръководство, читателят ще получи основите на езика, както и уменията сам да разучава нови библиотеки и тяхната документация.

## ЛУ 1: Увод в Python
Това упражнение представлява увод в основите на езика Python. То определено не е изчерпателно (напр. не покрива дефинирането на функции и класове), но предоставя достатъчен арсенал на читателя, за да може той да разбира операциите в следващите упражнения.

Отдолу читателят може да намери така наречения 'Дзен на Python': кратко изложение на основните принципи на езика. Python има свой собствен стил и този текст е полезен за четене на различни нива в познанието ни върху езика. Препоръчваме на читателя да се връща от време на време към този манифест.

In [1]:
import this

The Zen of Python, by Tim Peters

Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!


За идеален допълнителен ресурс препоръчвам книгата [A Whirlwind Tour of Python](https://jakevdp.github.io/WhirlwindTourOfPython/). В случай че читателят не разбира английски, преведената чрез гугъл версия на книгата (уебсайта) е достатъчно добра за обучение.

### Google Colaboratoy
Настоящият курс от упражнения ще използва формата на Jupyter Notebooks, който използва отделно написани клетки (cells), съдържащи фрагменти код или текст (както настоящата). По-конкретно, ще използваме Google Colaboratory, безплатна имплементация на Jupyter Notebook от Google, неизискваща инсталация и притежаваща множество допълнителни функции, като преглед на променливите, коментари и улеснена навигация.

Читателят може да свали стандартната версия на Jupyter Notebooks заедно с [Miniconda пакета](https://https://docs.conda.io/en/latest/miniconda.html), да свали тефтерите (File/Download/Download .ipynb) и да ги използва в собствена среда (environment).

### Коментари. Назначаване на обекти. Вградени функции.

Чрез диез въвеждаме коментари. Използва се с цел пояснение стъпките на нашия код, така че да информираме бъдещи негови ползватели, включително и нас самите. При стартиране на код не връща изходен продукт (output).

In [2]:
 #Това е коментар и няма отношение с кода.

Чрез знака '=' назначаваме стойност на определена променлива. Ако променливата не съществува преди това, тя автоматично бива създадена.

Python съдържа набор от основни [вградени функции](https://www.w3schools.com/python/python_ref_functions.asp). Основна след тях е print(), която принтира стойността на аргумента си в стандартното изходно устройство, в този случай полето под клетката. Аргументи се наричат обектите включени в скобите на определена функция.

In [3]:
x = 1
print(x)

1


Jupyter Notebooks автоматично принтира обекта в последната си линия.

In [4]:
x

1

## Основни видове обект

Друга основна функция е type(), която ни казва какъв е видът на аргумента. В Python, това са цяло число, десетична дроб, низ, булева стойност, списък, кортеж и речник.

In [5]:
#int, или integer означава цяло число
x = 1
type(x)

int

In [6]:
#float, или floating point number означава десетична дроб
x = 1.0
type(x)

float

In [7]:
#str, или string означава низ
x = '1'
type(x)

str

In [8]:
#bool, или boolean value означава булева стойност (Грешно-Вярно)
x = True
type(x)

bool

In [9]:
#обектът list създава списък, който може да включва всякакви обекти
x = [1, .1, '1', True]
type(x)

list

In [10]:
#dict, или dictionary (речник) е обект, съдържащ ключове и стойности във формата {ключ1: стойност1, ключ2: стойност2}
y = {1: 'one', 2: 'two', 3: 'three'}
type(y)

dict

### Индексиране
Сложните обекти в Python подлежат на индексиране. Квадратни скоби след името на обекта ни позволяват да локализираме негов елемент, с който да работим индивидуално. Това ще е важно в работата ни с numpy и pandas по-нататък.

In [11]:
x= [1, 2, 3, 4, 5]
x[0]

1

In [12]:
x[-2:]

[4, 5]

In [13]:
y[2]

'two'

### If, elif, else

Често искаме определен код да се извърши само при определени условия. В такива случаи можем да поставим if-условия. То винаги трябва да се приравнява към булева стойност - True или False.

In [14]:
1 < 2

True

In [15]:
if 1 < 2:
    print('Mathematics still works.')

Mathematics still works.


Да се обърне внимание, че резултатът на условието винаги трябва да е индентиран под самото условие, докато условието трябва да завършва с двуеточие. Този синтаксис се използва почти навсякъде в Python.

Можем да въведем и код, който да се изпълни в случай, че условието ни не работи. За тази цел използваме думата else:

In [16]:
if not 1 < 2: #not обръща значението на израза
    print('There is something wrong.')

else:
    print('Mathematics still works.')

Mathematics still works.


Последно, ако искаме да приложим няколко последователни условия, можем да използваме elif (else + if):

In [17]:
x = -3

if x > 0:
    print(f'{x} if positive.')

elif x < 0:
    print(f'{x} if negative.')

elif x == 0:
    print(f'{x} is zero.')

-3 if negative.


Тествайте горния код с различни стойности на x. Също така, горе демонстрирахме f-низове (f-strings), относително ново въведение в Python, което позволява лесна интеграция на променливи в низове.

In [18]:
x = [1, 4, 6]
y = 'value'

print(f'F-strings allow us to make flexible string statements, \
incorporating variables, such as y: {y} and even executing code, \
such as taking the first item of x ({x}), which is {x[0]}.')\
# Знакът '\' сигнализира, че продължаваме същата линия код на нов ред.

F-strings allow us to make flexible string statements, incorporating variables, such as y: value and even executing code, such as taking the first item of x ([1, 4, 6]), which is 1.


### For loops

Сложните обекти в Python съдържат свои подобекти, с които може да се работи един по един. Затова те се наричат итерируеми (iterable) обекти. ЧЕсто е особено полезно да можем да създадем цикъл, който извършва дадена операция за всеки елемент в такъв обект.

In [19]:
x = [1,2,3,4,5]
for i in x:
  print(i)
  

1
2
3
4
5


За да итерираме през речник, трябва да използваме един от методите keys, values, items:

In [20]:
y = {1: 'one', 2: 'two', 3: 'three'}

print('Printing keys of dict y:')
for k in y.keys():
  print(k)

print('\nPrinting values of dict y:')
for v in y.values():
  print(v)

print('\nPrinting the values of dict y, where the keys answer a certain condition:')
for k, v in y.items():
  if k>1:
    print(v)

Printing keys of dict y:
1
2
3

Printing values of dict y:
one
two
three

Printing the values of dict y, where the keys answer a certain condition:
two
three


### Библиотеки

Често операциите в Python изискват функции и класове (видове обекти), които нямаме време (а често и възможност) да пишем сами. Затова често ни се налага да използваме вече готов код в нашето програмиране.

In [21]:
import numpy as np # импортираме цяла библиотека, задавайки ѝ прякор (np)

In [22]:
np.array(x) # вече можем да викаме всички методи на библиотеката, използвайки зададения ѝ прякор

array([1, 2, 3, 4, 5])

По-големите библиотеки имат модули, като често имаме нужда само от конкретен клас или метод на модула. Долната клетка код импортира класа RandomForestClassifier, който се намира в модула ensemble на библиотеката scikit-learn (чието съкращение в Python е sklearn).

In [23]:
from sklearn.ensemble import RandomForestClassifier # импортираме само определен клас на библитеката

### Нагнездени сложни обекти

Сложните обекти, като списъци и речници, могат да бъдат нагнездявани, по този начин създавайки доста сложни масиви от данни, подобни на json формата.

In [24]:
nested_dict={
    'dict1': {
        1:'one',
        2: 'two',
        3: 'three'
    },
    'list1':[1, 2, 3, 4, 5],
    'dict2':{
        'first_name': 'John',
        'last_name': 'Smith'
    }
}


In [25]:
nested_dict['list1'][0]

1

In [26]:
nested_dict['dict2']['first_name']

'John'

По гореуказания начин чрез индексиране намираме елемент от речника/ списъка, след което индексираме намерения елемент. Това може да се повтори до последното итерируемо ниво в речника/ списъка.

In [27]:
nested_dict['dict2']['last_name'][2]

'i'

### Задача

1. Напишете код, който, в случай че дадена променлива е цяло число, я умножава по две и я принтира.
2. Създайте списък, съставен от три речника, съдържащи ключове за име и фамилия и стойности: Иван Иванов, Петър Петров, Геоги Георгиев.