# Języki programowania w Data Science (Python)

## 1. Ankieta na wstęp
https://forms.gle/L5KXFDErp8NRJJx79



## 2. Krótki wstęp do pythona

### 2.1 Najważniejsze cechy

 - język operujący na wysokim poziomie abstrakcji
 - interpretowany (CPython, ale istnieją alternatywy)
 - łączy elementy wielu paradygmatów programowania (proceduralne, obiektowe, funkcyjne)
 - dynamiczne typowanie
 - ogromna ilość bilbiotek

### 2.2 Typy liczbowe i operacje na nich

In [None]:
# Najprostszym typem jest boolean reprezentujący wartości prawdy i fałszu w algebrze Boole'owskiej
type(True)

In [None]:
# Równość zapisujemy dwoma znakami '==' a nierówność '!='
True != False

In [None]:
# Operacje logiczne 'lub' oraz 'i' zapisujemy jako 'or' oraz 'and'
True and False

In [None]:
# Liczby całkowite reprezentowane są przez int (integer)
type(-3)

In [None]:
3 - 2 * 4

In [None]:
# Wartość bezwzględną otrzymujemy wykorzystując funkcję abs
abs(-5)

In [None]:
# Operacje porównania na cyfrach zwrócą wartości logiczne
4 >= 2

In [None]:
# Dzielenie zawsze zmienia typ wyniku na zmiennoprzecinkowy
13 / 6

In [None]:
# Chyba, że zastosujemy dzielenie całkowitoliczbowe, które zwróci nam wynik bez reszty
13 // 6

In [None]:
# Aby uzyskać resztę z dzielenia stosujemy operator modulo reprezentowany przez %
13 % 6

In [None]:
# Liczby rzeczywiste reprezentowane są przez float (floating-point od zmiennego położenia przecinka)
type(3.0)

In [None]:
# Ze względu na ograniczenia urządzeń cyfrowych liczby zmiennoprzecinkowe reprezentują jedynie podzbiór liczb rzeczywistych, czego rezultatem są błędy obliczeniowe
3.2 - 2.05 * 4.0

In [None]:
# Znaczenie ma również kolejność wykonywania działań. Szczególnie jeśli operujemy na liczbach o znacząco różnej mantysie.
print((1234.567 + 45.67834) + 0.0004)
print(1234.567 + (45.67834 + 0.0004))

In [None]:
# Notacja naukowa
1.1e-5 + 1.0

In [None]:
# Liczby zespolone (przydają się w zaskakujących momentach). Poniżej liczba urojona i, która w pythonie jest po prostu zespoloną o zerowej części rzeczywistej.
type(1j)

In [None]:
complex(1.1, 2) == 1.1 + 2j

Zarówno inty jak i floaty mają swoje ograniczenia i w związku z tym inne zadania. Inty służą do dokładnego zliczania a floaty do reprezentacji wartości pomiarowych, gdzie błąd na 15 miejscu po przecinku nie ma dużego znaczenia.

### 2.3 Dane tekstowe

In [None]:
# Dane tekstowe w pythonie reprezentowane są typem str, który jest sekwencją pojedynczych znaków.
type('Ala ma kota')

In [None]:
# Z tego powodu możemy odwołać się do znaku w sekwencji za pomocą jego pozycji (numerujemy od 0).
'Ala ma kota'[1]

In [None]:
# Operacje na napisach i sekwencjach w ogóle mają inne działanie, niż na typach liczbowych. Dodawanie łączy składowe w dłuższą sekwencję.
'Ala' + ' ' + 'ma kota'

In [None]:
# A mnożenie powiela.
'ab'*5

In [None]:
# Typ tekstowy to znaki zamknięte w cudzysłowia. Możemy użyć kilku dostępnych zestawów - " ", ' ' albo ''' '''.
"Mixing quotes isn't a problem" # Jeśli chcemy umieścić jeden z cudzysłowów wewnątrz stringa, to musimy użyć innego rodzaju jako zewnętrznego.

In [None]:
# Potrójny apostrof pozwala nam tworzyć napisy wielolinijkowe. Przy wykonaniu komórki pojawią się specjalne symbole \n oznaczające przejście do kolejnej linii.
'''And you
can even use
multiline'''

In [None]:
# Istnieją różne symbole specjalne, które zostają potem zinterpretowane do konkretnych elementów tekstowych np. przy wypisaniu przez funkcję print.
print("Newline \nTab\tulation \nspecific character by its code \u0104 \u1234\nand escaping an escape character \\")

In [None]:
# Wykorzystując metody charakterystyczne dla string możemy rozdzielić tekst po wyszczególnionym znaku (domyślnie jest to spacja, ale możesz w nawiasy wpisać dowolny tekst np.: 'i').
"String to be divided into words.".split()

In [None]:
# Inna metoda usuwa wyszczególnione znaki z obu końców tekstu. Domyślnie są to białe znaki.
"   String with some unnecessary whitespace characters.  ".strip()

In [None]:
# W różnych przypadkach potrzebujemy zinterpretować wartość jakiegoś typu jako inny typ. używamy wtedy metod konwersji typów albo rzutowania. Metoda chr zwraca znak o zadanym kodzie całkowitym.
chr(97) + chr(122)

In [None]:
# Metoda ord jest odwrotnością chr.
ord('a')

In [None]:
# Jeśli string jest zgodny z tekstową reprezentacją danego typu liczbowego, to możemy go wprost przekonwertować na zadany typ.
float('1.1e-5')

In [None]:
# Natomiast reprezentację tekstową nie tylko liczb, ale w ogóle każdego obiektu w pythonie uzyskujemy wykonując na nim funkcję str.
str(complex(1.1, 2))

### 2.4 Importowanie dodatkowych funkcjonalności

Dużą siłą Pythona jest ogrom narzędzi programistycznych stworzonych przez twórców języka, społeczność i duże korporacje. Podstawowe funkcjonalności dostępne bez dodatkowych importów nazywają się wbudowanymi (built-in). Część z nich zobaczyliśmy już w poprzednich punktach. Kolejnym elementem są pozostałe pakiety biblioteki standardowej języka zawarte w instalacji pythona, ale wymagające zaimportowania. Dla zainteresowanych indeks wszystkich pakietów dostępny jest w dokumentacji https://docs.python.org/3/library/index.html. Jak widać zakres narzędzi dostarczonych przez twórców jest duży. Nie równa się on jednak ilości bibliotek third-party. Instaluje się je za pomocą package managera pip, który pobiera je z repozytorium https://pypi.org. Istnieją popularne alternatywy dla pip takie jak conda (https://docs.conda.io/en/latest/), które pobierają z odrębnych repozytoriów. Kiedy już zainstalujemy potrzebną bibliotekę, możemy zaimportować do naszego modułu jej całość lub wybrane funkcjonalności.

In [None]:
# W ten sposób możemy wypisać cały namespace built-in, czyli nazwy wszystkich wbudowanych obiektów. Poniżej liczba elementów tej listy.
print(dir(__builtins__))
len(dir(__builtins__))

In [None]:
# Nazwy podstawowych funkcjonalności można nadpisać, ale nikt rozsądny nie powinien tego robić. Poniżej przykład.
min = max
print(min(1,24))
del min # Na koniec usuwamy nadpisaną funkcję z namespace globals, czyli strefy nazw zmiennych programowych. Interpreter nie znajdzie w niej już min, więc odwoła się do built-ins jak wcześniej.
min(1,24)

In [None]:
# Spróbujmy wykonać taką linijkę kodu.
timezone
# Jeśli nie zaimportowaliśmy wcześniej nazwy timezone, to pojawi się komunikat NameError.
# Oznacza on, że interpreter nie odnalazł takiej nazwy w żadnym namespace.

In [None]:
# Zaimportujmy teraz odpowiednią zmienną z biblioteki standardowej time.
from time import timezone
timezone # <- Przytrzymaj wciśnięty ctrl i kliknij lewym przyciskiem myszy na zmienną timezone ... Zostałeś przed chwilą odesłany do pliku .pyi specyfikującego interfejs biblioteki time.

In [None]:
# Można zaimportować zawartość całej biblioteki na raz.
import time
print(time.timezone)
# A jeśli nie boimy się zaśmiecić strefy nazw a nie chce nam się pisać za każdym razem nazwy modułu, to możemy zastosować.
from time import *
print(tzname)
# Jeśli wykorzystujemy jakąś funkcjonalność często a nazwa jest za długa, to możemy jej też przypisać alias.
from itertools import accumulate as acc
acc([1,2,3]).__next__() # Ważne, aby znaleźć balans między zrozumiałością kodu a estetyką. Do Twojej decyzji pozostaje, czy lepsza w danym przypadku będzie nazwa, czy skrót.

In [None]:
# W Twoim środowisku powinny już być zainstalowane biblioteki zewnętrzne. Spróbujmy zaimportować jedną z nich.
import pandas as pd # Pandas nie jest szczególnie długą nazwą, ale jako bardzo popularna biblioteka ma tak rozpoznawalny skrót, że każdy zrozumie, co oznacza pd.
pd.DataFrame() # <- Ponownie kliknij lewym przyciskiem myszy trzymając wciśnięty ctrl na nazwę DataFrame ...
               # W tym przypadku zostałeś przerzucony bezpośrednio do implemetacji. Możesz od razu zerknąć na widniejący pod nazwą docstring opisujący z przykładami jej funkcjonalności.

### 2.5 Zmienne, instrukcje warunkowe, pętle
#### Zmienne, czyli nazwy, do których przypisana jest wartość.

In [None]:
# Przykładowo przypiszmy zmiennej x wartość int 5. Możemy teraz sprawdzić jej typ i użyć odpowiadających typowi int metod.
x = 5
type(x)

In [None]:
# Możemy wykonywać działania nadpisujące wartość x.
x = 7
# Oraz odwoływać się w przypisaniu do jej własnej wartości.
x = x + 7
# Takie działanie, jak powyżej można w pythonie wyrazić skrótowo operatorem +=. Analogicznie -= a nawet *=. Nie ma za to w pythonie słynnego ++.
x += 7
x

#### Instrukcja warunkowa if
Jednymi z podstawowych i jednocześnie najważniejszych narzędzi dla każdego języka programowania są warunkowe wykonywanie fragmentów kodu oraz wykonywanie ich wielokrotnie. Pierwszą z tych funkcjonalności zapewnia 'if'. Poznaliśmy już operacje logiczne. Łącząc je z operatorem if możemy napisać program postępujący w różny sposób w zależności od swojego stanu.

In [None]:
x = 1 # Ustal dowolną liczbową wartość zmiennej.
if x > 0:
    print('Given value is positive') # Kod wykonywany wewnątrz ifa jest wcięty czterema spacjami.
elif x == 0: # W przypadku, gdy pierwszy warunek nie jest spełniony, możemy sprawdzić kolejne wykorzystując elif.
    print('Given value is 0')
else: # Gdy wszystkie warunki nie zostaną spełnione wykonuje się fragment kodu zawarty wewwnątrz else.
    print('Given value is negative')

In [None]:
# Odwoływanie się do zmiennych deklarowanych wewnątrz warunkowych fragmentów kodu jest z reguły niebezpieczne. Szczególnie jeśli nie wszystkie możliwe przypadki są pokryte.
x = -2
if x > 0:
    y = x - 1
    print("{value} is nonnegative".format(value = y)) # Sposób na umieszczenie zmiennej wartości wewnątrz tekstu.
print(y)
# Notebooki, z których korzystamy przechowują wartości zmiennych w przestrzeni roboczej żeby móc się do nich odwoływać w kolejnych komórkach.
# Jeśli więc najpierw wykonacie kod wchodzący do ifa, to przy kolejnym wykonaniu gdy warunek nie będzie spełniony wypisze się wyliczony poprzednio y.

In [None]:
# Możemy tworzyć dowolnie skomplikowane operacje logiczne.
x = 1.0
if type(x) == int or x % 1 == 0:
    print("given value is efectively an integer")

#### Pętla while
Ta instrukcja sprawdza wartość wyrażenia logicznego podobnie do ifa, ale odmiennie do niego wykonuje fragment kodu tak długo, póki warunek jest spełniony.

In [None]:
x = 0
while x < 5: # Należy upewnić się, że w każdym przypadku warunek zostanie kiedyś spełniony - w innym wypadku program się 'zapętli'.
    print(x)
    x += 1

### 2.6 Kolekcje, czyli obiekty zawierające inne obiekty
Inaczej zwane kontenerami, kolekcje służą do organizowania danych w struktury i operowaniu w ten sposób na wielu wartościach na raz.
#### Listy
Lista jest podstawową kolekcją w pythonie. Podobnie jak typ tekstowy string, lista jest sekwencją, ale zawiera obiekty a nie znaki. Podobnie też operacje na listach będą miały analogiczne działanie do tych, które zobaczyliśmy w przypadku typu tekstowego.

In [None]:
# Listę tworzymy wypisując kolejne wartości po przecinkach wewnątrz nawiasów kwadratowych.
x = complex(1,1)
mixed_type_list = [1, 2, 'napis', x]
mixed_type_list[3] # Odwołanie do czwartego elementu listy

In [None]:
mixed_type_list.append(6) # funkcja listy 'append' dodaje obiekt na koniec listy
mixed_type_list.pop() # a funkcja pop odcina z niej ostatni element i go zwraca

In [None]:
# Możemy nadpisywać wartosci na danych indeksach w liście
x = [0] * 3
x[1] = 1
x

In [None]:
# Jeśli jednak chcemy utworzyć sekwencję, której nikt już nie będzie potem rozszerzał ani nadpisywał, bo na przykład reprezentuje konkretny rekord danych, to tworzymy tuplę.
x = tuple([0]*3)
type(x)

In [None]:
x[1] = 1

In [None]:
x.append(1)
# Ta cecha niezmienności stanu obiektu nazywa się niemutowalnością.

In [None]:
# Ciekawostka: kolekcje tak naprawdę nie zawierają obiektów tylko referencje do nich, więc tupla nie ma skąd wiedzieć, czy obiekt, do którego odnosi się referencja jest niemutowalny.
# Niezmienność stanu tupli odwołuje się więc tak na prawdę do niezmienności właśnie tych referencji a nie obiektów w pamięci, na które wskazują.
tuple_of_lists = (['A', 'l', 'a'], ['m', 'a'], ['k', 'o', 't', 'a']) # Jeśli więc umieścimy wewnątrz tupli listy...
tuple_of_lists[2][0] = 'p'
tuple_of_lists[2][1] = 's'
tuple_of_lists[2][2] = 'a'
tuple_of_lists[2].pop()
tuple_of_lists # to możemy zmieniać ich zawartość dopóty, dopóki nie użyjemy przy tym przypisania nowej wartości do pozycji w tupli.

In [None]:
x = [1, 2, 3]
y = list(range(4,10,2)) # Możemy też stworzyć listę zrzutując typ range (zakres), który służy do generowania sekwencji liczb. Podajemy jej ostatni element i opcjonalnie pierwszy oraz długość kroku.
x + y # Dodawanie w przypadku list skleja je w jedną, dłuższą listę

In [None]:
# Możemy iterować po elementach listy wykorzystując funkcję while oraz funkcję len, która zwraca długość listy.
x = list("ab")*4
i = 0
while i < len(x):
    print(x[i])
    i += 1
# Jednak lepszym sposobem jest wykorzystanie pętli for...

#### Pętla for (in)
Instrukcja for w pythonie wykonuje ten sam fragment kodu wielokrotnie, ale nie na podstawie warunku a dla każdego elementu w (in) podanej sekwencji.

In [None]:
# Ten kod daje taki sam efekt, co przykład powyżej, ale jest bardziej zwięzły i zrozumiały.
x = list("ab")*4
for i in x:
    print(i)

In [None]:
# W pythonie zwykle wykonuje się dany kod n razy wykorzystując połączenie instrukcji for oraz range
x_1 = 0
x_2 = 1
for _ in range(10): # W tym wypadku element sekwencji nie jest potrzebny, więc wpisujemy w jego miejsce pythonowy placeholder _. Jedna wartość n podana do range jest równoznaczna range(0,n).
    x_2 = x_1 + x_2
    x_1 = x_2 - x_1
x_2

#### Slicing, czyli odwołanie do wycinka listy
Możemy odwołać się do całego fragmentu listy na raz specyfikując w nawiasach kwadratowych start, koniec oraz krok (co ile elementów).

In [None]:
word_list = "Ala ma kota" # Typ tekstowy string to też rodzaj sekwencji - szeregu kolejnych znaków
word_list[4:6] # Możemy więc stosować na nim slicing

In [None]:
numbers = range(20)
positive_even_numbers = numbers[2::2] # Podaliśmy pierwszy indeks, od którego zaczynamy wycinek, nie podaliśmy ostatniego, więc idziemy do końca i podaliśmy krok o wartości 2
list(positive_even_numbers)

In [None]:
positive_even_numbers[-1] # Używając ujemnych indeksów odwołujemy się 'patrząc od tyłu'. -1 to ostatni element.

In [None]:
x = [1,2,3,4]
list(reversed(x)) == list(x[::-1]) # Ustalając ujemny krok poruszamy się po liście w odwrotnym kierunku, efektywnie ją odwracając.

#### List comprehensions
Ten element składni języka daje nam bardzo elegancki sposób operacji na listach. Przyjrzyjmy się budowie list comprehension poniżej.

In [19]:
[x**2 for x in range(10)] # Jak widać utworzyliśmy sekwencję pierwszych dziesięciu kwadratów liczb całkowitych niujemnych.
# x**2          operacja do wykonania dla każdego elementu - nazywamy je przykładowo x, ale w liście ludzi może to być np. age(person)
# for x in      dla każdego elementu w...
# range(10)     jakiejś zadanej sekwencji.
# Całość zamykamy w nawiasy kwadratowe, bo tworzymy listę.

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

In [20]:
# Poniżej użycie wyżej wymiarowego list comprehension na liście list. Wynikiem jest spłaszczona lista.
vec = [[1,2,3], [4,5,6], [7,8,9]]
[num for elem in vec for num in elem]

[1, 2, 3, 4, 5, 6, 7, 8, 9]

In [21]:
# Na końcu możemy też dodać warunek, który musi zostać spełniony, by element został uwzględniony w wyniku
x = [1, 2, 3, 1.123, 5, 6, "tekst", 7]
filtered_x = [i for i in x if type(i) == int]
filtered_x

[1, 2, 3, 5, 6, 7]

#### Zbiory
Zbiory zawierają zestaw unikalnych wartości. Każda wartość wewnątrz zbioru musi mieć zaimplementowaną funkcję hashującą - dzięki niej możemy efektywnie umieszczać i odwoływać się do wartości wewnątrz zbioru oraz sprawdzać, czy wstawiana wartość nie jest duplikatem.

In [None]:
# Pusty zbiór tworzy się za pomocą funkcji set
x = set()
x.add("Ala")
x

In [None]:
# Natomiast zawierający elementy deklarujemy wypisując je wewnątrz klamr
x = {"Ala", "ma", "kota"}
x.remove("ma")
print(x)
x.remove("ma") # Należy być ostrożnym przy odwoływaniu się do wartości, których może nie być wewnątrz zbioru

In [None]:
"ma" in x # Możemy upewnić się co do obecności w kolekcji słowem kluczowym in

In [22]:
# Rzutowanie listy na zbiór usuwa duplikaty. Potem możemy zrzutować z powrotem na listę
unique_numbers = set([1,2,3,4,1,2,3,4])
unique_numbers

{1, 2, 3, 4}

In [24]:
# Operacje na zbiorach
a = {2, 3, 5, 7, 11}
b = {2, 4, 6, 8, 10}
print('Suma: ', a | b) # union
print('Iloczyn: ', a & b) # intersection
print('Różnica: ', a - b) # difference
print('Różnica symetryczna: ', a ^ b) # symmetric difference (union - intersection)

Suma:  {2, 3, 4, 5, 6, 7, 8, 10, 11}
Iloczyn:  {2}
Różnica:  {11, 3, 5, 7}
Różnica symetryczna:  {3, 4, 5, 6, 7, 8, 10, 11}


In [25]:
# Po zbiorze iterujemy jak po sekwencji, ale trzeba mieć na uwadze, że kolejność elementów może się zmieniać (patrz niektóre wyniki działań wyżej).
for number in a:
    if number == 7: print(number)

7


#### Słowniki
Słowniki składają się ze zbioru kluczy oraz zestawu wartości, które są do nich przypisane.

In [None]:
# Podobnie jak zbiór, słownik zamykamy klamrami. Pusty słownik deklarujemy wypisując klamry bez zawartości (dlatego zbiór musi używać metody set()).
dict_a = {}
dict_a['a'] = [1,2,3] # Klucze muszą być hashowalne, ale wartości już nie
dict_a

In [None]:
print(dict_a.keys()) # Za pomocą metody keys dostajemy listę kluczy
print(dict_a.values()) # A metoda values da nam listę wartości

In [None]:
# Możemy iterować po słowniku. Iterator przechodzi wtedy po kluczach.
for i in dict_a:
    print(i)
    print(dict_a[i])

In [None]:
# Jeśli podczas iteracji chcemy mieć od razu dostęp zarówno do kluczy jak i wartości to używamy metody items. Zwraca ona listę par klucz-wartość.
for key, value in dict_a.items():
    print("{k}: {v}".format(k=key, v=value))

In [None]:
# Mamy też słownikowy odpowiednik list-comprehension.
a = [2, 3, 5, 7, 11]
b = ["a", "b", "c", "d", "d"]
c = {a[i]: b[i] for i in range(len(a))}
c

In [None]:
# Do wartości słownika nie odwołujemy się po indeksie a po kluczach. Należy jednak uważać, czy w słowniku znajduje się dany klucz.
c[13]

In [None]:
# Dla bezpieczeństwa możemy zajrzeć, czy klucz znajduje się w strukturze.
to_peek = 13
if to_peek in c:
    print(c.get(to_peek))

#### Inne ciekawe kolekcje
 - Default dict - słownik z wartością domyślną przy braku elementu.
 - Ordered dict - słownik pamiętający kolejność wstawiania.
 - Named Tuple - unikalna struktura; spomiędzy już poznanych najbliżej jej do słownika. Metoda namedtuple() tworzy nową klasę tupli o nazwanych polach. 
 - Chain Map - kolekcja słowników przydatna, gdy chcemy operować na nich jednocześnie nie łącząc ich
 - Counter - specjalny słownik do trzymania liczności wystąpień kluczy
 - Deque (Double-Ended Queue) - lista o równie szybkich operacjach na obu końcach implementująca m.in. operację popleft i appendleft, które pozwalają używać listy jako kolejki (fifo)

### 3. Funkcje, klasy i obiekty
Im program bardziej zaawansowany, tym bardziej musimy dbać, aby jego kod był uporządkowany. W tym celu wyżej poziomowe języki programowania oferują użytkownikom coraz bogatszą sładnię zaczynając od instrukcji warunkowych poprzez pętle i docierając do funkcji i klas. I tak, jak pętle pozwalały nam wykonać ten sam kod wiele razy, tak funkcje zawierają ten sam kod, który możemy potem wywoływać w kilku miejscach.

#### 3.1 Funkcje
Definicja funkcji (sygnature) składa się z deklaracji, która zawiera nazwę, argumenty oraz opcjonalnie typ zwracany i sekwencji instrukcji programowych, które mogą zwracać jakąś wartość.

In [None]:
%%capture
# Jak zapisywać funkcje:
def nazwa_funkcji(argument1: typ_argumentu, parametr2: typ_argumentu) -> typ_zwracany:
        # logika funkcji
        return zwracana_wartość

In [None]:
# Deklarowanie typów zwracanych nie jest wymagane przez interpreter pythona, ale jest dobrą praktyką. Do tego celu wykorzystuje się pakiet biblioteki standardowej typing albo od nowszych wersji wbudowane typy.
from typing import List

In [None]:
def weighted_list_avg(val_list: List[float], weights_list: list[float]) -> float: # Typ List pochodzi z pakietu typing, natomiast list jest wbudowanym typem pythona.
    if sum(weights_list) != 1.0:
        raise ArithmeticError("Invalid weights do not sum up to 1!") # Kiedy niespełnione są założenia programu i zwrócona wartość nie miałaby sensu, możemy poinformować użytkownika wyjątkiem.
    return sum([val_list[i] * weights_list[i] for i in range(len(val_list))])

In [None]:
weighted_list_avg([2.0, 3.0, 5.0], [0.2, 0.2, 0.6])

In [None]:
weighted_list_avg(weights_list=[0.3, 0.3, 0.3], val_list=[2.0, 3.0, 5.0])

Wykorzystując funkcje należy pamiętać, że zmienne deklarowane wewnątrz nich mają zasięg lokalny, tzn. istnieją jedynie wewnątrz samej funkcji.

In [None]:
x = 10
x_list = [x]

def add_one(x: int, x_list: list) -> int:
    x += 1 # Zmienna x wewnątrz funkcji jest zmienną lokalną, która nie ma nic wspólnego z x zdefiniowanym na zewnątrz. "Przesłania" oryginalny x.
    z = x
    x_list.append(x)
    return x

print("Result x: ", add_one(x, x_list))
print("Result x: ", add_one(x, x_list)) # Wynik nie zmienia się, bo zmienna x wewnątrz funkcji nie ma wpływu na zmienną x zdefiniowaną na zewnątrz.
print("Original x remains unchanged: ", x)
print("But the list has been modified: ", x_list) # Lista została przekazana w formie referencji, więc wykonanie jej metody append zmienia jej zawartość również poza funkcją.
print("Variable z is not accessible outside the function: ", z) # Otrzymamy NameError, bo zmienna y jest zadeklarowana wewnątrz funkcji i nie jest dostępna poza nią.

#### 3.2 Klasy i obiekty
__Obiekt to struktura łącząca dane oraz funkcje. W pythonie wszystko jest obiektem.__ Widzieliśmy już przykłady wykonywania funkcji obiektów, gdy zapisujemy wartość bądź zmienną ją reprezentującą i po niej kropkę i nazwę funkcji. __Klasy to szablony do tworzenia obiektów.__ Zawierają deklaracje zmiennych reprezentujących dane obiektu oraz kod funkcji, które do niego należą. Każda klasa zawiera specjalne metody, których nazwy otoczone są dwoma podłogami ( \_\_nazwa\_\_() ). Są to podstawowe metody dla języka i nie należy ich nadpisywać.

In [None]:
import random # Pakiet biblioteki standardowej do pracy z wartościami pseudolosowymi.
from dataclasses import dataclass # Funkcjonalność klas danych.
from typing import Generator # Generator to funkcja, która zwraca wartości w trakcie swojego wykonywania.
from functools import total_ordering # Dekorator, który pozwala na automatyczne generowanie metod porównujących obiekty.

In [None]:
# Przykładowa klasa reprezentująca punkt w przestrzeni 2D.
@total_ordering
class Vector2D:
    def __init__(self, x: float = 0.0, y: float = 0.0): # Specjalna metoda konstruktora służąca do tworzenia nowych obiektów. Argumenty mają wartości domyślne.
        self._x = x # Zmienna zaczynająca się od _ jest traktowana jako protected, tzn. nie powinno być do niej bezpośredniego dostępu z zewnątrz.
        self._y = y
        self._length = (self._x**2 + self._y**2)**0.5
    
    def set_coords(self, x: float, y: float) -> None: # Metoda ustawiająca wartość zmiennej x. Nazywana zwyczajowo setterem a jej nazwa zaczyna się od 'set'.
        self._x = x
        self._y = y
        self._length = (self._x**2 + self._y**2)**0.5
    
    def get_length(self) -> float: # Analogicznie metoda zwracająca wartość zmiennej nazywana jest getterem i zaczyna się od 'get'.
        return self._length
    
    def scalar_product(self, scalar: float) -> 'Vector2D': # Metoda, która mnoży wektor przez skalar i zwraca nowy wektor.
        return Vector2D(self._x * scalar, self._y * scalar)
    
    def __eq__(self, other: 'Vector2D') -> bool: # Specjalna metoda, która pozwala na porównywanie obiektów za pomocą operatora '=='.
        return self._length == other.get_length()

    def __lt__(self, other: 'Vector2D') -> bool:
        return self._length < other.get_length()

    def __repr__(self): # Ta metoda definiuje reprezentację tekstową obiektu, która jest zwracana np. przez funkcję print.
        return f"Vector2D(x={self._x}, y={self._y})"

In [None]:
vec_1 = Vector2D(3, 4)
vec_2 = Vector2D()
vec_3 = vec_1.scalar_product(2)

vec_list = [vec_1, vec_3, vec_2]
print(vec_list)
vec_list.sort() # Metoda sortująca listę. Działa, bo zaimplementowaliśmy metody porównujące w klasie Vector2D.
print(vec_list)

In [None]:
# Kod przykładowej klasy wykorzystującej generator
class RandomWalker:
    def __init__(self, name):
        self._name = name
        self.position = [0.0,0.0]

    def walk(self, n) -> Generator[float]:
        for _ in range(n):
            yield self.position.copy() # Rodzaj zwracania, który nie kończy wykonania funkcji (w przeciwieństwie do return).
            self.position[0] += random.uniform(-1.0, 1.0)
            self.position[1] += random.uniform(-1.0, 1.0)
    
    def __str__(self) -> str: # Metoda odpowiedzialna za reprezentację tekstową obiektu.
        return "My name is {name}. I am a RandomWalker and my current position is {position}".format(name = self._name, position=self.position)
    
    @staticmethod # Metoda statyczna, tzn należąca do samej klasy a nie jej instancji, czyli obiektów. Rozpoznamy ją dekoratorem @staticmethod i brakiem argumentu self.
    def __doc__() -> str:
        return '''RandomWalker is an example class created for Python course. It represents a point moving randomly on a 2-d plane.
--- Attributes:
    _name: represents a name, purpose and dreams of specific RandomWalker object
    position: xy coordinates on a 2-d plane
--- Methods:
    walk(parameter n - number of steps): performs n random steps uniformly sampled between -1.0 and 1.0 for both dimensions. Returns list of consecutive positions.'''

In [None]:
print(RandomWalker.__doc__())

In [None]:
walker = RandomWalker("Wanderer")
print(walker)

In [None]:
# Za pomocą metody next otrzymujemy kolejny element wskazywany przez iterator lub kolejną wartość produkowaną przez generator.
generator = walker.walk(2)
print(next(generator))
print(next(generator))
next(generator) # Jednak w ten sposób możemy nie mieć pewności, czy żądana wartość istnieje.

In [None]:
list(walker.walk(10)) # Rzutując wartości zwracane przez generator na listę otrzymamy od razu pełny zakres zwracany. Minusem jest większe obciążenie dla pamięci komputera.

#### 3.3 Dataclassy
Te specjalne klasy zostały dodane do pythona około 6 lat temu. Służą do uproszczonego pisania prostych klas skoncentrowanych na przechowywaniu danych raczej niż na powiązanych z nimi metodach. Dataclassy od razu generują za nas funkcje konstruktora, reprezentacji tekstowej i porównania - wystarczy jedynie zadeklarować dane i ich typ.

In [None]:
@dataclass # Przed deklaracją klasy umieszczamy taki oto dekorator.
class Author():
    name: str
    year_born: int

@dataclass
class Book():
    name: str
    publication_year: int
    author: Author

In [None]:
fiodor = Author('Dostoyewsy', 1999)
crime = Book('Punishment', 1998, fiodor)

if crime.publication_year < fiodor.year_born: # Prosty test integralności danych.
    print("Invalid year of book publication!")

### 3.4 Obsługa wyjątków
Czasami spodziewamy się błędów programu występujących w trakcie jego działania i zawczasu przygotowujemy dla nich odpowiednią obsługę.

In [None]:
user_input = input("Type, how many apples do you want and press Enter: ") # Funkcja input pozwala na interakcję z użytkownikiem poprzez wczytanie tekstu wpisanego z klawiatury. Użytkownik nie zawsze zachowa się tak, jak oczekujemy...

# W takich sytuacjach możemy wykorzystać konstrukcję try-except, która pozwala na obsługę wyjątków (błędów wykonania programu) w kontrolowany sposób.
try: # Próbujemy wykonać poniższy kod.
    user_input = int(user_input)
except ValueError: # Jeśli podczas wykonywania kodu w bloku try pojawi się błąd typu ValueError, to wykonany zostanie blok except.
    print("That's not an integer!")
    user_input = 0
finally: # Blok finally wykona się zawsze, niezależnie od tego, czy pojawił się wyjątek, czy nie.
    print(f"You will get: {user_input} apples")

### Ćwiczenie 1.
Zmodyfikuj powyższy kod, by pytał użytkownika o ilość jabłek do skutku (aż poda liczbę całkowitą). Czy warto obsłużyć jeszcze jakiś inny przypadek niepoprawnego wejścia?

In [6]:
def get_int_apples():
    user_input = input("Type, how many apples do you want and press Enter: ")
    
    try: # Próbujemy wykonać poniższy kod.
        user_input = int(user_input)
        
        if user_input> 0:
            print(f"You will get: {user_input} apples")
            return user_input
        else:
            print("Number of apples must be greater than 0! Try again")
            print("You will get: 0 apples\n")
            get_int_apples()
        
    except ValueError: # Jeśli podczas wykonywania kodu w bloku try pojawi się błąd typu ValueError, to wykonany zostanie blok except.
        print("That's not an integer!")
        print("You will get: 0 apples\n")
        user_input = 0
        get_int_apples()
        
    # finally: # Blok finally wykona się zawsze, niezależnie od tego, czy pojawił się wyjątek, czy nie.
    #     #if type(user_input) == int:
    #     print(f"You will get: {user_input} apples")
    #     #return user_input
   
get_int_apples()

#czy int większy od 0
# while type(get_int_apples()) != int:
#      get_int_apples()

That's not an integer!
You will get: 0 apples

That's not an integer!
You will get: 0 apples

That's not an integer!
You will get: 0 apples

Number of apples must be greater than 0! Try again
You will get: 0 apples

That's not an integer!
You will get: 0 apples

That's not an integer!
You will get: 0 apples

You will get: 5 apples


### 3.5 Operacje na plikach
Aby programy mogły produkować wartościowe wyniki koniecznym jest możliwość wczytywania do nich danych oraz zapisu wyników między uruchomieniami (persystencja). Najważniejszym z tego typu mechanizmów są operacje wczytywania i zapisu do plików.

#### Praca z plikiem tekstowym
Natomiast najprostszym rodzajem plików, z którymi możemy pracować są pliki tekstowe.

In [None]:
import os

print("CURRENT WORKING DIRECTORY:")
print(os.getcwd())
print("\nFILES IN CURRENT DIRECTORY:")
print(os.listdir('.'))

# Przeszukaj drzewo katalogów od bieżącego miejsca w dół i wypisz pliki o nazwie zawierającej 'Moby' lub 'Data_Moby'
matches = []
for root, dirs, files in os.walk('.'):
    for f in files:
        if 'Moby' in f or 'Data_Moby' in f or f.lower().endswith('.txt'):
            matches.append(os.path.join(root, f))

print("\nPOSSIBLE MATCHES (przeszukane z '.'): ")
for m in matches:
    print(m)


In [1]:
# Wywołując metodę open otwieramy plik określony przez ścieżkę. Jako wartość zwracaną otrzymujemy obiekt pliku przechowujący jego zawartość i własności.
fp = open('Data_MobyDick.txt', encoding="UTF-8")
fp

<_io.TextIOWrapper name='Data_MobyDick.txt' mode='r' encoding='UTF-8'>

In [2]:
# Obiekt reprezentujący zczytywany plik przechowuje, w którym miejscu obecnie jesteśmy, więc możemy wczytywać kolejne linie tak, jak w przypadku generatorów.
next(fp)

'The Project Gutenberg eBook of Moby-Dick; or The Whale, by Herman Melville\n'

In [3]:
# Na koniec pracy z plikiem musimy pamiętać o jego zamknięciu.
fp.close()

In [4]:
# Chyba, że użyjemy wygodnej konstrukcji with open, która zamknie plik na końcu wciętej sekcji kodu.
with open('Data_MobyDick.txt', "r", encoding="UTF-8") as mb_file:
    count = 0
    if count < 10:
        for line in mb_file:
            count += 1
count

22315

### Ćwiczenie 2
Wykorzystując poznane wcześniej techniki, wczytaj tylko pierwsze 10 linii, usuń białe znaki na ich końcach i odfiltruj puste linie. Na koniec wypisz wynik.

In [11]:

#.split()
#list_comprehension
with open('Data_MobyDick.txt', "r", encoding="UTF-8") as mb_file:
    count = 0
    for line in mb_file:
        if count < 10:
            count += 1
            print(count," ",line)

1   The Project Gutenberg eBook of Moby-Dick; or The Whale, by Herman Melville

2   

3   This eBook is for the use of anyone anywhere in the United States and

4   most other parts of the world at no cost and with almost no restrictions

5   whatsoever. You may copy it, give it away or re-use it under the terms

6   of the Project Gutenberg License included with this eBook or online at

7   www.gutenberg.org. If you are not located in the United States, you

8   will have to check the laws of the country where you are located before

9   using this eBook.

10   



In [None]:
mb_head = ['The Project Gutenberg eBook of Moby-Dick; or The Whale, by Herman Melville',
 'This eBook is for the use of anyone anywhere in the United States and',
 'most other parts of the world at no cost and with almost no restrictions',
 'whatsoever. You may copy it, give it away or re-use it under the terms',
 'of the Project Gutenberg License included with this eBook or online at',
 'www.gutenberg.org. If you are not located in the United States, you',
 'will have to check the laws of the country where you are located before',
 'using this eBook.']

# Do plików możemy zapisywać otwierając je w trypie zapisu ("w"), albo nadpisu ("a"). Pierwszy tryb usunie poprzednią zawartość, podczas gdy nowy doda naszą nową treść na koniec obecnej.
with open('Head.txt', "a", encoding="UTF-8") as head_file:
    head_file.write(str.join("\n", mb_head))

In [None]:
# Metodą readlines wczytujemy od razu wszystkie linie. Ponownie jak przy rzutowaniu generatora na listę jest to wygodne, ale należy uważać na pojemność pamięci.
with open('Head.txt', "r", encoding="UTF-8") as head_file:
    print(head_file.readlines())

#### Praca z plikiem CSV
CSV (Comma Separated Values) to prosty format plików tabelarycznych. Jest jednym z najpopularniejszych formatów do przechowywania uporządkowanych danych. Umiejętność pracy z nim jest bardzo istotna dla kogoś chcącego zajmować się data science.

In [None]:
# Jak zwykle python ma do zaoferowania specjalne pakiety do pracy z takimi plikami.
# W tym przypadku wykorzystamy podstawowy z biblioteki standardowej a na przyszłych zajęciach poznamy bardziej rozbudowane alternatywy.
import csv

In [None]:
with open('Dataset_WorldPortIndex.csv', 'r') as csv_file:
    reader = csv.reader(csv_file) # Wykorzystujemy specjalny czytnik, który od razu podzieli wiersze pliku csv po ustalonym separatorze i sprowadzi je do list.
    header = next(reader)
    head = [row for row in reader][:10]

print(header)
head

#### Praca z plikiem JSON
JSON (JavaScript Object Notation) to bardzo popularny format przechowywania danych w strukturze zbliżonej do słowników Pythona. Wykorzystywany jest m.in. do przesyłania danych między serwerami i aplikacjami internetowymi.
Stanowi jeden z podstawowych formatów, z którymi pracuje się w data science i w programowaniu w ogóle.

In [None]:
# Ponownie mamy do dyspozycji odpowiedni pakiet biblioteki standardowej.
import json

# Wymyślona odpowiedź z API, które prezentowałoby informacje o portach morskich.
api_response = {
    "status": "success",
    "timestamp": "2025-08-08T10:23:00Z",
    "data": {
        "port_id": 10234,
        "name": "Gdańsk Port",
        "country": "Poland",
        "location": {"lat": 54.35, "lon": 18.65},
        "facilities": ["cargo", "container", "passenger"],
        "traffic": {
            "ships_per_day": 45,
            "main_routes": ["Copenhagen", "Hamburg", "Rotterdam"]
        }
    }
}

# Zapis do pliku JSON
with open('api_response.json', 'w', encoding='utf-8') as json_file:
    json.dump(api_response, json_file, indent=4)

print("Plik JSON został utworzony.")

# Odczyt z pliku JSON
with open('api_response.json', 'r', encoding='utf-8') as json_file:
    loaded_response = json.load(json_file)

print("Dane odczytane z pliku:")
print(loaded_response)

### Ćwiczenie 3
Napisz program, który po otrzymaniu jsonowej odpowiedzi (przykładowo reprezentowanej przez zadeklarowany wyżej api_response) wypisze, czy port obsługuje kontenery (facility - container)

## 4. Zadania
1. Zaimplementuj funkcjonalność obliczającą dystans euklidesowy między dwoma punktami 3-wymiarowymi. Zastanów się, jak reprezentować punkty.
2. Utwórz plik utility.py i zakoduj w nim funkcję implementującą wyliczanie średniej wszystkich wartości w słowniku. Zaimportuj funkcję do notatnika i wykonaj na słowniku data = {'a': 100, 'b': 120, 'c': 130}
3. Utwórz tuplę zawierającą wszystkie litery alfabetu łacińskiego. Utwórz słownik, którego kluczami są elementy tupli a wartościami listy n-elementowe, gdzie każdy element to litera w kluczu a n to numer tej litery w alfabecie (zaczynając od 0). Dla jasności dla tylko pierwszych 3 liter słownik wyglądałby tak: {a: [], b: ['b'], c: ['c', 'c']}.
    - ★ Spróbuj uzyskać taki sam słownik jedno-linijkowym kodem.
4. Zainstaluj bibliotekę third-party o nazwie requests i wykonaj za jej pomocą zapytanie na dostępne publicznie api meowfacts (https://meow-facts.netlify.app/docs) w taki sposób, by otrzymać na raz trzy fakty. Wypisz kazdy z nich w nowej linijce.
5. Policz, ile słów znajduje się w tekście zawartym w pliku Data_MobyDick.txt
    - ★ Przygotuj Bag of Words dla tekstu zawartego w pliku Data_MobyDick.txt (Zlicz wystąpienia unikalnych słów bez rozróżniania WIELKICH i małych liter. Wyeliminuj znaki interpunkcyjne itp.) Zadanie może ułatwić Ci pakiet biblioteki standardowej re zawierający zaawansowane operacje na tekście wykorzystujące wyrażenia regularne.
6. Wczytaj plik Dataset_WorldPortIndex.csv. Następnie przygotuj listę obiektów port, które będą instancjami dataclassy zawierającymi wybrane informacje na temat odpowiadających portów ze zbioru danych (niech pola będą ograniczone do współrzędnych geograficznych, nazwy, kraju i informacji o obecności lotniska).
    - ★ Zakładając, że lecę samolotem w punkcie x, w którym najbliższym porcie mogę wylądować?

1) Zaimplementuj funkcjonalność obliczającą dystans euklidesowy między dwoma punktami 3-wymiarowymi. Zastanów się, jak reprezentować punkty.

punkt x [1,2,3]
punkt y [4,5,6]

In [None]:
import math as m

#dla list uzupełnionych
x = [1.0, 2.0, 3.0]
y = [4.0, 5.0, 6.0]

print(x,"\n",y,"\n")

calculating = (x[0]-y[0])**2 + (x[1]-y[1])**2 + (x[2]-y[2])**2
print(calculating)

len_squrt = m.sqrt(calculating)
print(len_squrt)

[1.0, 2.0, 3.0] 
 [4.0, 5.0, 6.0] 

27.0
5.196152422706632


calculating = (1-4)^2 + (2-5)^2 + (3-6)^2 


3^2 + 3^2 + 3^2


27

sqrt(27) = 

In [None]:
#FUNKCJE W RANDOM:

#number = random.randint(1,10)
number = random.uniform(1,15)
print(number)

#losowy element z listy:
pick_list = [10, 25, 30, 45, 60, 80]
print(random.choice(pick_list))


In [None]:
import random
import math
#dla list pustych + rand wypełnianie
x = []
y = []

for i in range(3):
    x[i-1] = round(random.uniform(1,10),2)
    y[i-1] = round(random.uniform(1,10),2)

print("first x: ", x)
print("first y: ", x)
    
for i in range(len(x)):          # przejdź po indeksach 0, 1, 2
    diff = x[i] - y[i]           # różnica między współrzędnymi
    sum_of_squares += diff ** 2  # dodaj kwadrat różnicy
distance = m.sqrt(sum_of_squares)
print("first distance: ",distance)

    #jakieś ograniczenie liczby elemntów listy? 
    #Czy punkty w przestrzeni mogą być ujemne? 
#2------------------------------------------------------
for i in range (3):
     # można dolosowac przedział lol
    x.append(round(random.uniform(1,10),3))
    y.append(round(random.uniform(1, 10),3))
    
print("second x: ",x, "\n","second y:", y, "\n")
print("X table size/length: ", len(x))
#3------------------------------------------------------
x = [round(random.uniform(1,10),3) for i in range(3)]
y = [round(random.uniform(1,10),3) for i in range(3)]
    
print("third x: ",x, "\n","third y: ", y, "\n")


#4-------------------------ZIP()
distance = m.sqrt(sum((a - b)**2 for a, b in zip(x, y)))


IndexError: list assignment index out of range

In [None]:
#Punkty jako SŁOWNIKI:

#Punkty jako dataclass? CO TO ZA STRUKTURA JAK SIĘ Z NIĄ OBCHODIĆ? JAKIE MA CECHY? CO w niej unikalne? Na co mi pozwala? DO czego się nadaje? 


Jakie błędy się pojawiły?

1)  ValueError: math domain error || Pierwiastek z liczby ujemnej XD. We wzorze zamiast + wpisałam -