# Pakiety i moduły

### Wyszukiwanie lokalizacji interpretera

Korzystając z języków skryptowych (takich jak Python) niejednokrotnie będziemy musieli skorzystać z programu powłoki (terminal, konsola). W systemie Windows będzie to cmd, w systemie Linux - bash, w systemie macOS - zsh. Jeżeli interpreter Pythona jest poprawnie zainstalowany w systemie operacyjnym, możemy sprawdzić jego wersję korzystając z polecenia powłoki: python -V. Jeżeli polecenie python -V zwróci wersję Pythona, to znaczy, że ścieżka do programu interpretera jest dołączona do zmiennej środowiskowej Path. W takim wypadku możemy sprawdzić gdzie znajduje się instalacja interpretera z poziomu Pythona za pomocą instrukcji: 

<pre>import sys
locate_python = sys.exec_prefix
print(locate_python)</pre>

Interpreter wskaże ścieżkę do aktualnie uruchomionej instancji Pythona (jeżeli interpreter został uruchomiony w środowisku izolowanym, polecenie sys.exec_prefix wskaże miejsce w którym znajduje się środowisko izolowane).

Instrukcje interpretera można wykonywać również z linii poleceń powłoki, korzystając ze składni:
- w Windows: python -c "import nazwa_modulu; instrukcje" 
- w macOS: python3 -c "import nazwa_modulu; instrukcje"

Warto pamiętać, że wykonując dowolne polecenie w powłoce systemu, możemy zapoznać się z jego składnią i opcjonalnymi argumentami korzystając z polecenia: komenda -h, lub --help. Wyświetlą one dokument "pomocy".

### Sprawdzanie ścieżki do aktualnego katalogu roboczego

Aby sprawdzić ścieżkę do aktualnego katalogu roboczego (Current Working Directory) możemy skorzystać z modułu os:

<pre>import os
cwd = os.getcwd()
print(cwd)</pre>

Aby zmienić aktualną lokalizację katalogu roboczego, możemy skorzystać z polecenia z modułu os: os.chdir(sciezka). Należy pamiętać, że w przypadku pracy z systemem operacyjnym możemy natrafić okoliczności, w ramach których niemożliwa będzie zmiana ścieżki katalogu roboczego (katalog wskazywany przez ścieżkę nie istnieje, nie posiadamy uprawnień do pracy w katalogu wskazywanym przez ścieżkę, ścieżka wzkazuje na obiekt, który nie jest katalogiem). Obsługa wymienionych sytuacji jest możliwa dzięki zdefiniowanym wyjątkom Pythona:
- katalog pod wskazaną nie istnieje: FileNotFoundError
- obiekt pod wskazaną ścieżką nie jest katalogiem: NotADirectoryError
- brak uprawnień: PermissionError
Poniższy przykład prezentuje sposób zmiany lokalizacji aktualnego katalogu roboczego:

<pre>import os

path = '/projekt/app'

try:
    os.chdir(path)
    print(f"Aktualny katalog roboczy: {os.getcwd()}")
except FileNotFoundError:
    print(f"Katalog: {path} nie istnieje")
except NotADirectoryError:
    print(f"{path} nie jest katalogiem")
except PermissionError:
    print(f"Nie masz uprawnień do zmian w {path}")</pre>

### Ścieżki w Pythonie

Przez ścieżkę rozumiemy łańcuch znaków, który reprezentuje lokalizację danego zasobu w drzewie katalogów systemu. W zależności od systemu operacyjnego (Windows, macOS, Linux) ścieżki te mają różną strukturę oraz korzystają z różnych symboli (np. do rozdzielania ścieżek w systemach macOS i Linux służy symbol "/", tymczasem w systemach Windows jest to "\"). Aby skrypty w Pythonie były niezależne od systemu, na którym zostaną uruchomione, korzystamy z biblioteki pathlib, a w szczególności z jej klasy Path. Jeżeli ścieżkę umieścimy w konstruktorze klasy Path() zostatnie utworzony obiekt ścieżki. Co ciekawe, do tak powstałego obiektu możemy dostawiać kolejne elementy ścieżki za pomocą ukośników i łańcuchów znaków, a dopóki skrajny lewy element instrukcji będzie obiektem typu ścieżki - wynik całej linii będzie obiektem typu ścieżki. 

Przykład:
<pre>
from pathlib import Path

print(Path('app'))
print(type(Path('app')))

print(Path('app')/'dir')
print(type(Path('app')/'dir'))

print(Path('app', 'dir'))
print(type(Path('app', 'dir')))
</pre>

Klasa Path umośliwia również na oczytanie lokalizacji bieżącego katalogu roboczego (cwd) oraz na jago zmianę. 

Przykład:
<pre>
from pathlib import Path
import os

print(Path.cwd())
os.chdir('/Users')
print(Path.cwd())

</pre>

### Instalacja i lokalizacja pakietów i modułów

Instalacja bibliotek - biblioteki instalujemy za pomocą managerów pakietów. Najczęściej za pomocą mamagerów:
- pip
- conda

Powyższe managery uruchamiamy z poziomu wiersza poleceń powłoki, za pomocą komend:

Windows:
- py -m pip install nazwa_pakietu 
- conda install nazwa_pakietu

macOS:
- pip install nazwa_pakietu 
- conda install nazwa_pakietu

Manager pakietów pip:
Maganer pip jest podstawowym instalatorem pakietów w Pythonie. Pozwala na instalację pakietów z repozytorium Python Package Index oraz z innych repozytoriów. Więcej na temat pip i PyPI (instalacja, szczegóły techniczne) można znaleźć pod adresem https://pypi.org/project/pip/. Dokumentację pip można znaleźć pod adresem: https://pip.pypa.io/en/stable/cli/pip_install/.

Ze szczegółami obsługi managera pip można zapoznać się pod adresem: https://pip.pypa.io/en/stable/cli/
W szczególności warto zwrócić uwagę na najczęściej wykorzystywane polecenia:
- wyświetlanie pomocy managera pip: <pre>pip -h</pre> lub <pre>pip --help</pre>
- wyświetlanie listy zainstalowanych pakietów: <pre>pip list</pre>
- instalacja pakietu: <pre>pip install nazwa_pakietu</pre>
- deinstalacja pakietu: <pre>pip uninstall nazwa_pakietu</pre>
- instalacja listy pakietów z pliku tekstowego: <pre>pip install -r lista_pakietow.txt</pre>
- aktualizacja managera pip: <pre>pip install --upgrade pip</pre>

Pakiet a moduł:
- moduł - w praktyce oznacza plik z rozszerzeniem .py, który zawiera/wystawia zmienne, funkcje, klasy itd.
- pakiet - folder z modułami

Aby znaleźć ścieżkę, w której znajduje się pakiet lub moduł można skorzystać z instrukcji z poziomu interpretera:
- dla pakietów: korzystając z pola nazwa_pakietu.__path__
- dla konkretnego modułu: korzystając z pola nazwa_pakietu__file__

lub z poziomu linii poleceń powłoki:
- pip show nazwa_pakietu

Moduły i pakiety, które doinstalowujemy za pomocą managera pip najczęściej są instalowane w katalogu site-packages.

Kiedy importujemy biblioteki, interpreter Pythona najpierw sprawdza, czy dany zasób znajduje się w katalogu projektu. Jeżeli nie, wówczas przeszukuje katalog bibliotek zainstalowanych w środowisku interpretera. W związku z tym tworzone przez nas moduły lub pakiety możemy umieszczać w:
- katalogu projektu
- katalogu lib/PythonXX.XX/site-packages

### Zadanie 4.1 
Utwórz moduł statystyka zawierający następujące funkcje:
- suma (funkcja zwracająca sumę z listy)
- srednia (funkcja zwracająca średnią z listy)
- min (funkcja zwracająca wartość minimalną z listy)
- max (funkcja zwracająca wartość maksymalną z listy)

Następnie zapisz plik pod dwiema nazwami:
- stats_local.py, który umieścisz w aktualnym katalogu roboczym
- stats_global.py, który umieścisz w katalogu site-packages (najpierw trzeba znaleźć jego położenie)

Utwórz program, w którym zaimportujesz oba moduły i zaprezentujesz ich działanie.

# Środowisko izolowane

Tworząc projekt w Pythonie możemy natknąć się na problem związany z wersjami bibliotek lib środowiska. Przykładowo - na jednym komputerze projekt działa, na drugim nie ze względu na różnice w wersjach bibliotek i środowiska. W związku z tym dobrym pomysłem jest dołączenie do skryptu środowiska, w którym projekt będzie działać poprawnie. Takie środowisko nazywamy środowiskiem izolowanym, a najpopularniejszymni rozwiązaniami dla Pythona są:
- Veritual Env (venv)
- Conda Create

### Virtual Env

MacOS:
1. instalacja: <pre>pip3 -m install venv</pre> lub <pre>pip3 install virtualenv</pre>
2. Tworzenie środowiska: <pre>python3 -m venv nazwa_srodowiska</pre>
3. Aktywacja środowiska: <pre>source nazwa_srodowiska/bin/activate</pre>
4. Dezaktywacja środowiska: <pre>deactivate</pre>

Windows:
1. instalacja: <pre>pip -m install virtualenv</pre> lub <pre>pip install venv</pre>
2. Tworzenie środowiska: <pre>python -m venv nazwa_srodowiska</pre>
3. Aktywacja środowiska: <pre>.\nazwa_srodowiska\Scripts\activate</pre>
4. Dezaktywacja środowiska: <pre>deactivate</pre>

### Conda Create

Alternatywnym sposobem tworzenia środowiska izolowanego jest skorzystanie z polecenia conda create. Warunkiem koniecznym jest posiadanie managera conda.

Windows/macOS
1. Tworzenie środowiska: <pre>conda create -n nazwa_srodowiska python=wersja_pythona</pre>
2. Aktywacja środowiska: <pre>conda activate nazwa_srodowiska</pre>
3. Dezaktywacja środowiska: <pre>deactivate</pre>

### Zadanie 4.2

Utwórz katalog projektu, w którym założysz środowisko izolowane, a następie aktywuj je i zainstaluj w nim (za pomocą maganera pakietów pip) wybrane biblioteki (np. numpy, jupyter, matplotlib, pandas). Następnie utwórz skrypt Pythona i zademonstruj (za pomocą polecenia sys.exec_prefix) w jakim środowisku pracuje. 

# Zaawansowane edytory kodu

Tworzenie kodu programu nieuchronnie wiąże się z popełnianiem błędów. Z kolei - kiedy tworzymy większy projekt lub aplikację, w jej skład zaczyna wchodzić więcej niż jeden plik. Nasza aplikacja dodatkowo może odnosić się lub korzystać z zasobów komputera, na której jest uruchamiana i wymaga od nas częstej pracy w programie powłoki systemowej (bash, cmd, zsh). W takiej sytuacji coraz większe znaczenie przy wytwarzaniu oprogramowania ma środowisko programistyczne. Na obecnym etapie nauki najważniejszymi cechami/funkcjonalnościami środowiska są:
- uzupełnianie składni (wpisując nazwy instrukcji z przestrzeni nazw, po naciśnięciu klawisza tab uzupełniana jest wprowadzana instrukcja lub pojawia się lista dostępnych instrukcji)
- linter (aplikacja analizująca cały nasz kod i wskazująca potencjalne błędy)
- połączenie z powłoką systemową
- podgląd zasobów w katalogu projektu

Do takich środowisk należą:
- Spyder: https://www.spyder-ide.org
- PyCharm: https://www.jetbrains.com/pycharm/
- Visual Studio Code: https://code.visualstudio.com

# Operacje na plikach

Pliki służą do trwałego przechowywania danych. W trakcie działania programu możemy otwierać i odczytywać lub zapisywać informacje w plikach tekstowych korzystająć m. in. z funkcji open("nazwa_pliku.txt", "tryb").

Aby przeprowadzić odczyt pliku tworzymy zmienną, do której przypisujemy wynik działania fukcji open(). Poniżej przegląd najważniejszych instrukcji:

- plik = open("plik.txt", "r") - otwarcie pliku
- plik.close() - zamknięcie pliku
- linia = plik.readline() - odczytywanie pojedynczo linii zapisanych w pliku
- linie = plik.readlines() - odczytanie wszystkich linii zapisanych w pliku
- plik.write("Wiadomość testowa\n") - zapis do pliku zwykłej wiadomości.
- plik.writelines(linie) - zapis do pliku listy 

### Tryby dostępu do pliku tekstowego

Instrukcja open() posiada kilka trybów dostępu do pliku. Dla przypomnienia, aby dokonać odczytu zawartości pliku, warto wynik działania funckji open() przypisać do zmiennej. Funkcja open() ma składnię: <br>

plik = open("nazwa_plik.rozszerzenie", "tryb") - otwarcie pliku

Poniżej opis najważniejszych trybów funkcji open():
- „r” - tryb odczytu danych. Jeśli plik nie istnieje, zostaje zasygnalizowany błąd.
- „w” - tryb zapisu danych. Wybrany plik zostaje nadpisany nowymi danymi. Jeśli plik nie istnieje, zostanie utworzony.
- „a” - tryb zapisu danych. Do wybranego pliku zostają dopisane nowe dane. Jeśli plik nie istnieje, zostanie utworzony.

In [1]:
import os
cwd = os.getcwd()
print(cwd)

/Users/szymonmackowiak/GIT/Podstawy-programowania-w-Pythonie


In [2]:
os.chdir("/Users/szymonmackowiak/GIT/Podstawy-programowania-w-Pythonie/CDV")

In [3]:
cwd = os.getcwd()
print(cwd)

/Users/szymonmackowiak/GIT/Podstawy-programowania-w-Pythonie/CDV


In [5]:
plik = open("przykladowy_plik.txt", "w")
plik.close()

### Zadanie 4.3

Stwórz plik tekstowy z kilkoma wierszami danych, a następnie napisz program, który wypisze zawartość utworzonego pliku do konsoli.

In [6]:
plik=open("przykladowy_plik.txt", "r")
dane = plik.readlines()
for item in dane:
    print(item)
plik.close()

1

2

3

7

4

"udało się!"


### Zadanie 4.4

Napisz program, który tworzy plik i wpisuje liczby od 0-10, każdą w następnej linii, następnie zamyka i otwiera ponownie plik i dopisuje litery alfabetu, każdą następną w nowej linii.

In [11]:
import string

alfabet = string.ascii_uppercase
dane = []

for i in range(11):
    dane.append(i)
    
plik = open("dane.txt", "w")
for i in range(0, len(dane)):
    plik.write(str(dane[i]) + "\n")
    
plik.close()

plik = open("dane.txt", "a")
for i in range(0, len(alfabet)):
    plik.write(alfabet[i] + "\n")
plik.close()

plik=open("dane.txt", "r")
dane = plik.readlines()
for item in dane:
    print(item)
plik.close()

0

1

2

3

4

5

6

7

8

9

10

A

B

C

D

E

F

G

H

I

J

K

L

M

N

O

P

Q

R

S

T

U

V

W

X

Y

Z



### Zadanie 4.5

Napisz program, który umożliwia zapisywanie do pliku .txt danych takich jak: imię, nazwisko, stanowisko i wynagrodzenie. Użytkownik ma mieć możliwość dodawania, usuwania i wypisywania listy osób. Usuwanie pozycji powinno działać po podaniu samego nazwiska osoby. Program powinien posiadać interaktywne menu: D-dodaj, U-usuń, W-wypisz i Q-wyjście.
Podpowiedź: Utwórz funkcje: dodaj, usuń, pokaż zawartość pliku


In [32]:
def dodaj(imie, nazwisko, stanowisko, wynagrodzenie):
    plik = open("dane_firmy.txt", "a")
    plik.write(f"{imie};{nazwisko};{stanowisko};{wynagrodzenie}\n")
    plik.close()
    
def pokaz():
    plik = open("dane_firmy.txt", "r")
    linie = plik.readlines()
    for item in linie:
        fragmenty = item.split(";")
        print(f"Imię: {fragmenty[0]}, Nazwisko: {fragmenty[1]}, \
        Stanowisko: {fragmenty[2]}, Wynagrodzenie: {fragmenty[3]}")
    plik.close()

def usun(nazwisko):
    plik = open("dane_firmy.txt", "r")
    linie = plik.readlines()
    bufor = []
    for item in linie:
        fragmenty = item.split(";")
        if (fragmenty[1]!=nazwisko):
            bufor.append(item)
    plik.close()
    
    plik = open("dane_firmy.txt", "w")
    for item in bufor:
        plik.write(item)
    plik.close()
    
while(True):
    menu = input("D-dodaj, U-usuń, P-pokaż, Q-koniec").upper()
    if(menu == "D"):
        imie = input("Podaj imię: ")
        nazwisko = input("Podaj nazwisko: ")
        stanowisko = input("Podaj stanowisko: ")
        wynagrodzenie = input("Podaj wynagrodzenie: ")
        dodaj(imie, nazwisko, stanowisko, wynagrodzenie)
    elif(menu == "U"):
        nazwisko = input("Podaj nazwisko")
        usun(nazwisko)
    elif(menu == "P"):
        pokaz()
    elif(menu == "Q"):
        print("Koniec programu")
        break
    else:
        print("Nieznana opcja menu")
    
        

D-dodaj, U-usuń, P-pokaż, Q-koniecD
Podaj imię: a
Podaj nazwisko: a
Podaj stanowisko: a
Podaj wynagrodzenie: 1
D-dodaj, U-usuń, P-pokaż, Q-koniecP
Imię: Władysław, Nazwisko: Nowak,         Stanowisko: portier, Wynagrodzenie: 5000

Imię: Władysław, Nazwisko: Nowak,         Stanowisko: portier, Wynagrodzenie: 5000

Imię: Władysław, Nazwisko: Nowak,         Stanowisko: portier, Wynagrodzenie: 5000

Imię: Władysław, Nazwisko: Nowak,         Stanowisko: portier, Wynagrodzenie: 5000

Imię: Władysław, Nazwisko: Nowak,         Stanowisko: portier, Wynagrodzenie: 5000

Imię: a, Nazwisko: a,         Stanowisko: a, Wynagrodzenie: 1

D-dodaj, U-usuń, P-pokaż, Q-koniecP
Imię: Władysław, Nazwisko: Nowak,         Stanowisko: portier, Wynagrodzenie: 5000

Imię: Władysław, Nazwisko: Nowak,         Stanowisko: portier, Wynagrodzenie: 5000

Imię: Władysław, Nazwisko: Nowak,         Stanowisko: portier, Wynagrodzenie: 5000

Imię: Władysław, Nazwisko: Nowak,         Stanowisko: portier, Wynagrodzenie: 5000

In [28]:
dodaj("Władysław", "Kowalski", "portier", "5000")

In [30]:
usun("Kowalski")

### Zadanie 4.6
Korzystając ze znanych Ci zagadnień (struktury danych, listy, łańcuchy znaków, konkatenacja łańcuchów znaków, f-stringi, pętle, funkcje, klasy, generatory liczb losowych, wczytywanie plików z danymi) zaproponuj program do generowania danych kadrowych przedsiębiorstwa. Pojedyńcza encja danych powinna zawierać następujące dane: 
- numer porządkowy
- nazwisko
- imię
- płeć
- stanowisko
- data zatrudnienia
- wynagrodzenie
- niewykorzystane dni urlopu

Aby maksymalnie zbliżyć dane do rzeczywistości, skorzystaj z bazy danych dotyczących nazwisk i imion wystepujących w Polsce. Znajdziesz je na stronach:
- baza imion: https://dane.gov.pl/pl/dataset/1501,lista-imion-wystepujacych-w-rejestrze-pesel
- baza nazwisk: https://dane.gov.pl/pl/dataset/568,nazwiska-wystepujace-w-rejestrze-pesel

Program powinien wczytać dane dot. imion i nazwisk i na tej podstawie generować dane osobowe. Wygenerowane dane zapisz do pliku w postaci wyrażeń rozdzielonych średnikami i nazwij go dane_kadrowe.csv. Plik powinien zawierać min. 1000 rekordów.

### Zadanie 4.7

Napisz program, który pobierze od użytkownika nazwę pliku z danymi, wczyta plik o wskazanej nazwie i wypisze jego zawartość w konsoli. Przed wyświetleniem pliku, program pyta użytkownika, czy jego dane posiadają nagłówek oraz jaki symbol stanowi separator danych. Jeżeli dane posiadają nagłówek - zadbaj, aby również został wyświetlony. Program ma informować użytkownika ile wierszy zawiera plik z danymi oraz przyjmować od użytkownika zakres wierszy, które chce przejrzeć. Następnie użytkownik podejmuje decyzję, czy chce powtórzyć działanie programu, czy zakończyć pracę z programem.

### Zadanie 4.8
Korzystając ze znanych Ci zagadnień (struktury danych, listy, łańcuchy znaków, konkatenacja łańcuchów znaków, f-stringi, pętle, funkcje, klasy, generatory liczb losowych) zaproponuj program do generowania sztucznych danych dot. cen nieruchomości (mieszkań) w Warszawie. Pojedyncza encja danych powinna zawierać:
- numer porządkowy nieruchomości
- adres
- kod pocztowy
- liczbę pokoi
- numer piętra
- powierzchnię w metrach kwadratowych
- cenę

Dane dot. adresów w mieście Warszawa możesz pobrać korzystając ze strony:
https://dane.gov.pl/pl/dataset/469/resource/27518,adresy-mst-warszawy-format-csv-adres-uniwersalny/table?page=1&per_page=20&q=&sort=

Załóż, że cena nieruchomości zależy tylko od jej powierzchni zgodnie z uproszczonym równaniem: $cena = cena_{m^2} \cdot powierzchnia \pm odchylenie$. Odchylenie to pewna losowa liczba. Wygenerowane dane zapisz do pliku z rozszerzeniem csv. Plik powinien zawierać conajmniej 1000 rekordów.

### Zadanie 4.9
Korzystając z bibliotek math oraz numpy utwórz plik zawierający tablice trygonometryczną. Plik powinien zawierać następujące dane:
- numer rekordu
- wartość kąta w stopniach
- odpowiadającą wartość kąta w radianach
- wartość funkcji sinus
- wartość funkcji cosinus
- wartość funckji tangens
- wartość funkcji cotangens

Dane należy wygenerować dla kolenych kątów w stopniach, co pół stopnia, w zakresie od 0 do 360 stopni. 


### Zadanie 4.10
Załóż, że średni wzrost kobiet w Polsce wynosi 165 cm, a średni wzrost mężczyzn to 175 cm. Załóż również, że średnia waga kobiety to 55 kg, a mężczyzny to 70 kg. W oparciu o powyższe założenia, oraz korzystając z generatorów liczb losowych (skorzystaj z tzw. rozkładu normalnego Gaussa) wynegeruj dane dotyczące wzrostu i wagi dla 1000 osób (zarówno kobiet i mężczyzn). Jeden rekord powinien zawierać następujące dane:
- numer porządkowy
- płeć
- wzrost
- wagę

Dane zapisz do pliku z rozszerzeniem csv.

### Zadanie 4.11
Maksymalne tętno człowieka można oszacować korzystając z przybliżonego wyrażenia: $HR_{max} = 208 - (0.7 \cdot A)$
gdzie: 
- $HR_{max}$ - maksymalne tętno w uderzeniach na minutę
- $A$ - wiek w latach

(na podstawie: http://www.shapesense.com/fitness-exercise/calculators/heart-rate-based-calorie-burn-calculator.shtml)

Na podstawie powyższego równania wygeneruj dane wartości maksymalnego tętna w zależności od wieku. Pojedyńczy rekord powinien zawierać:
- numer porządkowy
- wiek
- tętno maksymalne

Dane zapisz do pliku z rozszerzeniem csv.

### Zadanie 4.12
Aby określić ilość spalonych kalorii (czyli wydzielone ciepło) w trakcie wysiłku fizycznego, można skorzystać z następujących, przybliżonych równań, które w sytuacji, kiedy pułap tlenowy (V02 max) nie jest znany:
 - dla kobiet: Q = ((-20.4022 + (0.4472 x HR) - (0.1263 x W) + (0.074 x A))/4.184) x 60 x T
 - dla mężczyzn: Q = ((-55.0969 + (0.6309 x HR) + (0.1988 x W) + (0.2017 x A))/4.184) x 60 x T

gdzie:
HR - tętno (w uderzeniach na minutę)
W = waga (w kilogramach)
A = wiek (w latach)
T = czas ćwiczeń (w godzinach)
(na podstawie: http://www.shapesense.com/fitness-exercise/calculators/heart-rate-based-calorie-burn-calculator.shtml)

Na podstawie powyższych danych wygeneruj plik z danymi dotyczącymi spalonych kalorii przez próbę 1000 osób. Jeden rekord powinien zawierać następujące dane:
- numer porządkowy
- płeć
- wiek
- wagę
- czas ćwiczeń w godzinach
- średnie tętno
- ilość wydzielonego ciepła

Dane zapisz do pliku z rozszerzeniem csv.

### Zadanie 4.13

Decyzję o tym, czy kierowca samochodu terenowego może jechać w terenie szybko czy wolno można podjąć (w uproszczonym wariancie) na podstawie nachylenia i wyboistości terenu. Załóżmy, że wyboistość, nachylenie oraz niepewność decyzji reprezentujemy w postaci liczb w przedziale od 0 do 1 (takie liczby możemy generować korzystając z funkcji random() z modułu random). Załózmy również, że decyzja kierowcy może być opisana uproszczonym równaniem: $decyzja = round(nachylenie \cdot wyboistosc + 0.1 \cdot niepewnosc + 0.25)$ Dodatkowo przyjmijmy, że jeżeli nachylenie lub wyboistość będą większe niż 0.75, to $decyzja = 1$. W takim przypadku wartość decyzji równa 0 oznacza jazdę szybką, a wartość równa 1 oznacza jazdę wolną. 

W oparciu o powyższe założenia, wygeneruj dane dotyczące decyzji kierowcy samochodu terenowego. Pojedyńczy rekord powinien zawierać dane:
- numer porządkowy (liczba całkowita)
- nachylenie (liczba rzeczywista w przedziale 0-1, gdzie 0 to teren płaski, a 1 to stromy)
- wyboistosc (liczba rzeczywista w przedziale 0-1, gdzie 0 to teren gładki, a 1 to bardzo nierówny)
- niepewnosc (liczba rzeczywista w przedziale 0-1)
- decyzja (liczba całkowita - 0 lub 1, gdzie 0 to jazda szybka, a 1 to jazda wolna)

Dane zapisz do pliku z rozszerzeniem csv.

In [7]:
n_points = 100

random.seed(42)
grade = [random.random() for ii in range(0,n_points)]
bumpy = [random.random() for ii in range(0,n_points)]
error = [random.random() for ii in range(0,n_points)]
y = [round(grade[ii]*bumpy[ii]+0.1*error[ii]+0.25) for ii in range(0,n_points)]
for ii in range(0, len(y)):
    if grade[ii]>0.8 or bumpy[ii]>0.8:
        y[ii] = 1.0

# Zapis złożonych struktur danych

Aby przechowywać bardziej złożone informacje w Pythonie używany jest moduł „pickle”. Proces ten jest nazywany również marynowaniem.

Marynować można: liczby, łańcuchy znaków, krotki, listy, słowniki, zbiory i obiekty.
<pre>
import pickle # dodanie modułu do projektu
</pre>
Tryby dostępu do plików ze złożonymi strukturami

- plik = open("dane.dat", "wb") - otwarcie pliku.
- „rb” - tryb odczytu danych z pliku binarnego. Jeśli plik nie istnieje, zostaje zasygnalizowany błąd.
- „wb” - tryb zapisu danych do pliku binarnego. Wybrany plik zostaje nadpisany nowymi danymi. Jeśli plik nie istnieje, zostanie utworzony.
- „ab” - tryb zapisu danych do pliku binarnego. Do wybranego pliku zostają dopisane nowe dane. Jeśli plik nie istnieje, zostanie utworzony.

Zapisywanie i odczytywanie danych w pliku

- pickle.dump(lista, plik) - do otwartego pliku „plik” zostaje dopisana struktura listy „lista”.
- obiekt = pickle.load(plik) - z otwartego pliku „plik” zostaje odczytana struktura obiektu i przypisana do obiektu „obiekt”.

Metody dump i load mogą być wykonywanie wielokrotnie, przy użyciu różnych typów danych!

<pre>import pickle

class Kontakt:
    def __init__(self, imie, nazwisko, komunikatory):
        self.imie = imie
        self.nazwisko = nazwisko
        self.komunikatory = komunikatory

ob1 = Kontakt("Adam", "Nowak", {"skype": "adam", "tweeter": "@an"})
ob2 = Kontakt("Filip", "Zalewski", {"skype": "fil", "tweeter": "@fil"})
ob3 = Kontakt("Anna", "Barańska", {"skype": "an", "tweeter": "@baranska"})

lista = [ob1, ob2, ob3]

plik = open("obiekty.dat", "wb") 
pickle.dump(lista, plik)
plik.close()</pre>
    

<pre>plik = open("obiekty.dat", "rb") 
obiekt = pickle.load(plik)</pre>

<pre>obiekt[0].komunikatory</pre>

### Zadanie 4.14

Napisz program do organizowania kontaktów w bazie, która zawiera informacje w postaci: imię, nazwisko i nick w komunikatorze sieciowym (użytkownić może posiadać ich kilka, każdy stanowi parę komunikator - nick). Dane przechowywane są w obiektach, a potem marynowane i zapisane w pliku .dat. Program powinien posiadać interaktywny interfejs w postaci tekstowego menu (CLI). Najpierw użytkownik wybiera, czy chce wprowadzać dane, czy przeglądać dane w bazie. Część do wprowadzania danych powinna mieć menu: W - wyświetlanie, DK - dodaj kontakt, UK - usuń kontakt, DT - dodaj komunikator, UT - usuń komunikator, Q - wyjście i zapis. Część umożliwiająca przegląd danych tylko wyświetla zawartość pliku .dat, a następnie przechodzi do pytania, czy użytkownik życzy sobie powtórzyć wykonanie całego programu.

### Zadanie 4.15
Napisz program generujący bestiariusz - bazę legendarnych stworzeń z wybranego uniwersum (mitologia, powieść fantasy, wybrana gra komputerowa). Każda postać powinna posiadać atrybyty: nazwa (tekst), zdolnosci (lista), ekwipunek (lista). Dane przechowywane są w obiektach, a potem marynowane i zapisane w pliku .dat. Program powinien posiadać interaktywny interfejs w postaci tekstowego menu (CLI). Najpierw użytkownik wybiera, czy chce wprowadzać bazę, czy przeglądać bazę. Część do wprowadzania danych powinna mieć menu: W - wyświetlanie, DP - dodaj postać, UP - usuń postać, Q - wyjście i zapis. Część umożliwiająca przegląd danych tylko wyświetla zawartość pliku .dat, a następnie przechodzi do pytania, czy użytkownik życzy sobie powtórzyć wykonanie całego programu.

# Pandas

### 1. Wstęp 
Nazwa Pandas odnosi się do wyrażenia "Panel Data" lub do "Python Data Analysis". Autorem biblioteki jest Wes McKinney, który utworzył ją w 2008 roku. Stronę projektu można znaleźć pod adresem: https://github.com/pandas-dev/pandas.

Biblioteka Pandas służy do pracy z danymi - posiada wiele użytecznych rozwiązań umożliwiających bądź ułatwiająych wykonywanie rutynowych działań na danych. Posiada m. in. funkcje do:
- oczyszczania danych, 
- analizy danych, 
- eksplorowania danych, 
- przetwarzania danych. 
Pandas pozwala również na pracę z dużymi zbiorami danych (tzw. Big Data) oraz posiada bogaty zbiór funkcji statystycznych. Do najważniejszych możliwości pakietu Pandas możemy zaliczyć:
- wyznaczanie wartości mimimalnych i maksymalnych, 
- wyznaczanie wartości średnich,
- wyznaczanie korelacji między kolumnami
- usuwanie niepotrzebnych wierszy lub poprawianie uszkodzonych

### 2. Instalacja

Bibliotekę można zainstalować za pomocą managera pakietów pip korzystając z polecenia w programie powłoki: 
- pip install pandas (system Windows)
- pip3 install pandas (system macOS)

### 3. Import

Bibliotekę możemy zaimportować w całości za pomocą jej nazwy, nadać jej alias lub zaimportować wyłącznie wybrany moduł/klasę:
- import pandas
- import pansad as pd
- from pandas import DataFrame

W trakcie pracy z pakietem może okazać się, że musimy sprawdzić jego wersję. Wersję pakietu można znaleźć w polu __version__ pakietu pandas.

#### Przykład - sprawdzanie wersji biblioteki Pandas

<pre>import pandas
pandas.__version__</pre>

### 4. Szeregi (obiet typu Series)

Szeregi (obiety typu Series) w bibliotece Pandas są odpowiednikiem kolumny w tabeli. Można je określić jako jednowymiarowe tablice, bądź listy przechowujące dane dowolnego typu.

#### Przykład - tworzenie szeregu

<pre>import pandas as pd

lista = [1, 2, [3, 3], "cztery", 5]

szereg = pd.Series(lista)

print(szereg)</pre>

In [37]:
import pandas as pd

lista = [1, 3, 5]

slownik = {"pierwszy":1, "drugi":2, "trzeci":3}

# szereg = pd.Series(lista, index=["pierwszy", "drugi", "trzeci"])
szereg = pd.Series(slownik)

print(szereg)

pierwszy    1
drugi       2
trzeci      3
dtype: int64


Powyższy przykład pokazuje, że elementy szeregu posiadają etykiety (wartości po lewej stronie kolumny). Domyślnie etykiety przyjmują wartości indeksu w liście (liczone od 0). 

### Etykietowanie elementów szeregu

Poprzedni przykład ilustrował, że domyślnie etykiety przyjmują wartość indeksu w liście (liczone od 0). Aby nadać kolejnym elementom szeregu etykiety należy skorzystać z argumentu index, a po znaku równości podać listę (w nawiasach kwadratowych) z kolejnymi nazwami w postaci tekstowej, rozdzielone przecinkami. 

#### Przykład - etykietowanie

<pre>
import pandas as pd

lista = [5000, 6000, 4500, 3000]

wynagrodzenia = pd.Series(lista, index=["Kowalski", "Nowak", "Matysik", "Molęda"])

print(wynagrodzenia)
</pre>

Po utworzeniu etykiet zyskujemy możliwość odnoszenia się do elementów szeregu poprzez etykietę, np.:

<pre>
print(wynagrodzenia['Nowak'])
</pre>

### Obiekty klucz-wartość jako szeregi

Szeregi możemy tworzyć również z obiektów przechowujących pary klucz-wartość, czyli ze słowników. Wówczas klucz par staje się etykietą. 

Przykład:

<pre>
import pandas as pd

miesiace = {"styczeń": 1, "luty": 2, "marzec": 3, "kwiecień": 4}

kalendarz = pd.Series(miesiace)

print(kalendarz)
</pre>

W tym przypadku za pomocą argumentu index możemy wskazać, które elementy słownika mają zostać wstawione do szeregu. Przykład:

<pre>
import pandas as pd

miesiace = {"styczeń": 1, "luty": 2, "marzec": 3, "kwiecień": 4}

kalendarz = pd.Series(miesiace, index=["luty", "kwiecień"])

print(kalendarz)
</pre>

### Ramki danych
Dane są zazwyczaj przechowywane w wielokolumnowych tabelach (lub wielowymiarowych macierzach). Do pracy z takimi obiektami służą ramki danych (z agn. data frame). W porównaniu do ramek danych można powiedzieć, że szereg może odpowiadać pojedyńczej kolumnie z ramki. 

Przykład - tworzymy ramkę danych z dwóch szeregów:

<pre>
import pandas as pd

wynagrodzenia = {
  "styczeń": [5000, 6000, 7000, 8000],
  "luty": [5200, 6200, 7200, 8200]
}

df = pd.DataFrame(wynagrodzenia)

print(df)
</pre>

In [57]:
import pandas as pd

wynagrodzenia = {
  "styczeń": [5000, 6000, 7000, 8000],
  "luty": [5200, 6200, 7200, 8200]
}

df = pd.DataFrame(wynagrodzenia, index=["Kowalski", "Nowak", "Piechocki", "Maćkowiak"])

print(df)

           styczeń  luty
Kowalski      5000  5200
Nowak         6000  6200
Piechocki     7000  7200
Maćkowiak     8000  8200


In [58]:
df.loc["Kowalski"]

styczeń    5000
luty       5200
Name: Kowalski, dtype: int64

### Zwracanie wierszy z ramki danych
Ramki danych to zazwyczaj struktury dwuwymiarowe - posiadają kolumny i wiersze. Aby zwrócić wiersz z ramki danych należy skorzystać z polecenia loc[nr_wiersza].

Przykłady:

<pre>import pandas as pd

wynagrodzenia = {
  "styczeń": [5000, 6000, 7000, 8000],
  "luty": [5200, 6200, 7200, 8200]
}

df = pd.DataFrame(wynagrodzenia)
</pre>

- zwracanie pierwszego wiersza: 

<pre>
print(df.loc[0])
</pre>

- zwracanie pierwszego i drugiego wiersza:
<pre>
print(df.loc[[0, 1]])
</pre>

- zwracanie wierszy od pierwszego do trzeciego:
<pre>
print(df.loc[0:2]])
</pre>

Aby zwrócić całą ramkę danych można skorzystać z instrukcji: print(df.to_string())

In [54]:
import pandas as pd

wynagrodzenia = {
  "styczeń": [5000, 6000, 7000, 8000],
  "luty": [5200, 6200, 7200, 8200]
}

df = pd.DataFrame(wynagrodzenia)

In [56]:
df.loc[0]

styczeń    5000
luty       5200
Name: 0, dtype: int64

### Etykietowanie wierszy 

Aby nadać nazwy poszczególnym wierszom w ramce danych, możemy skorzystać (ponownie) z argumentu index, do którego po znaku równości przypiszemy listę nazw kolejnych wierszy rozdzielone przecinkami. 

Przykład - etykietowanie wierszy

<pre>
import pandas as pd

wynagrodzenia = {
  "styczeń": [5000, 6000, 7000, 8000],
  "luty": [5200, 6200, 7200, 8200]
}

df = pd.DataFrame(wynagrodzenia, index = ["Kowalski", "Nowak", "Cieślak", "Stasik"])

print(df)
</pre>

Indeks wiersza może posłużyć do wskazania danego wiersza:

<pre>
print(df.loc["Nowak"])
</pre>

### Wczytywanie danych

Zazwyczaj korzystamy z biblioteki Pandas do analizowania danych przechowywanych w zasobach komputera np. w postaci plików tekstowych. Często stosowanymi formatami dla plików z danymi są formaty: 
- csv (plik tekstowy z danymi rozdzielonymi ustalonym separatorem)
- json (pliki zawierające ustrukturalizowane dane w postaci zbliżonej do słowników)
- xlsx (pliki w formacie programu MS Excel)

Pliki w poszczególnych formatach możemy importować korzystając z następujących instrukcji:
- wczytywanie danych w formacie csv: df = pd.read_csv('plik_z_danymi.csv')
- wczytywanie danych w formacie json: df = pd.read_json('plik_z_danymi.json')
- wczytywanie danych w formacie xlsx: df = pd.read_excel('plik_z_danymi.xlsx')

### Wyświetlanie i analiza danych

Domyślnie wywołując zapełnioną ramkę danych zostanie zwrócone 5 pierwszych i 5 ostatnich wierszy. Wyświetlanie w innych formach odbywa się przy zastosowaniu metod:

- head(n) - zwraca pierwsze n wierszy, domyślnie n=5
- tail(n) - zwraca ostatnie n wierszy, domyślnie n=5

Ramka danych posiada również metodę info(), która zwraca najważniejsze informacje dotyczące zbioru - wraz z informacją na temat występowania wartości typu null oraz non-null.

### Czyszczenie danych

Przez czyszczenie danych rozumiemy naprawianie źle wprowadzonych (wadliwych) danych. Do wadliwych danych możemy zaliczyć m.in. puste komórki, dane w złym formacie, złe dane, duplikaty.

#### Puste komórki

Powszechnym problemem wielu zbiorów danych są puste komórki. Nieobsłużone puste komówki mogą być przyczyną błędów w wyliczanych statystykach (np. przy wyliczaniu średniej, suma elementów będzie dzielona przez złą wartość). 

Jednym ze sposobów radzenia sobie z problemem pustych komórek jest ich usuwanie. Jeżeli zbiór danych jest duży - to rozwiązanie jest do zaakceptowania. 

Usuwanie pustych komórek wykonujemy poleceniem dropna(). Domyślnie - zawsze zwraca nową ramkę danych nie zmieniająć oryginału. 

Jeżeli chcemy podmienić oryginał, możemy skorzystać z argumentu inplace i nadać mu wartość True: dropna(inplace = True).

Przykład:

<pre>
new_df = df.dropna()
df.dropna(inplace = True)
</pre>

Komórki zawieracjące wartości NULL możemy również naprawić korzystając z metody dropna().

Problem brakujących wartości możemy również rozwiązać poprzez zastępowanie pustych komórek. Ta metoda polega na wypełnieniu uszkodzonych komórek za pomocą polecenia fillna(), która jako pierwszy argument przyjmuje wartość do wstawienia. 

Argumentem metody fillna() może w szczególności być średnia, mediana lub dominanta. 

Przykład - usuwanie brakujących rekordów:

<pre>
import pandas as pd

df = pd.read_csv('plik_z_danymi.csv')

new_df = df.dropna()

print(new_df.to_string())
</pre>

Przykład - usuwanie brakujących rekordów (nadpisywanie oryginalnej ramki):

<pre>
import pandas as pd

df = pd.read_csv('plik_z_danymi.csv')

df.dropna(inplace = True)

print(df.to_string())
</pre>

Przykład - zastępowanie wartości NULL wartością 111:

<pre>
import pandas as pd

df = pd.read_csv('plik_z_danymi.csv')

df.fillna(130, inplace = True)
</pre>

Przykład - zastąpienie wartości NULL na wartość 111 tylko w zadanej kolumnie:

<pre>
import pandas as pd

df = pd.read_csv('plik_z_danymi.csv')

df["nazwa kolumny"].fillna(111, inplace = True)
</pre>

Przykład - zastępowanie brakujących wartości w zadanej kolumnie z wykorzystaniem średniej:

<pre>
import pandas as pd

df = pd.read_csv('plik_z_danymi.csv')

x = df["nazwa kolumny"].mean()

df["nazwa kolumny"].fillna(x, inplace = True)

</pre>

Przykład - zastępowanie brakujących wartości w zadanej kolumnie z wykorzystaniem mediany:

<pre>
import pandas as pd

df = pd.read_csv('plik_z_danymi.csv')

x = df["nazwa kolumny"].median()

df["nazwa kolumny"].fillna(x, inplace = True)
</pre>

Przykład - zastępowanie brakujących wartości w zadanej kolumnie z wykorzystaniem dominanty (mody):

<pre>
import pandas as pd

df = pd.read_csv('plik_z_danymi.csv')

x = df["nazwa kolumny"].mode()[0]

df["nazwa kolumny"].fillna(x, inplace = True)
</pre>

#### Błędny format danych
 
Analiza danych zawierających komórki z błędami formatu może być bardzo kłopotliwa albo nawet niemożliwa. Poradzić sobie z tym problemem można na dwa sposoby: usunąć wiersze zawierające błędne formaty lub dokonać konwersji wszystkich komórek (np. w kolejnych kolumnach) na jednakowy format. 

Przykład - konwersja formatu (na format daty) w zadanej kolumnie za pomocą metody to_datetime():

<pre>
import pandas as pd

df = pd.read_csv('plik_z_danymi.csv')

df['Data'] = pd.to_datetime(df['Data'])

print(df.to_string())
</pre>

Przykład - usuwanie wierszy zawierające dane nieokreślone (NaN, NaT, ...) za pomocą metody dropna():

<pre>
df.dropna(subset=['Date'], inplace = True)
</pre>

#### Złe dane

Zdarza się, że tabela zawiera nie tyle braki czy dane w złym formacie, ale błędne wyniki. Dla przykładu - w momencie zbierania danych rejestrator pomylił miejsca po przecinku (tzw. błędy grube). Tego typu usterki naprawiamy wykonując podstawienia błędnych danych lub poprzez usuwanie wierszy.

Przykład - podstawianie poprawionych danych do zlokalizowanej komórki z błędem:

<pre>
df.loc[7, 'Duration'] = 45
for x in df.index: 
  if df.loc[x, "Duration"] > 120:
    df.loc[x, "Duration"] = 120
</pre>

Przykład - usuwanie wierszy:

<pre>
for x in df.index: 
  if df.loc[x, "Duration"] > 120:
    df.drop(x, inplace = True)
</pre>

#### Duplikaty
Przez duplikat rozumiemy powtórzenie rekordu w tabeli. Pandas posiada metody zarówno do wyświetlania duplikatów jak również do ich usuwania.

Przykład - wyszukiwanie duplikatów:
<pre>
print(df.duplicated())
</pre>

Przykład - usuwanie duplikatów:
<pre>
df.drop_duplicates(inplace = True)
</pre>

### Przegląd przydatnych instrukcji

Poniżej zostały wymienione wybrane instrukcje przydatne w trakcie pracy z danymi za pomocą pakietu pandas w postaci ramki danych (tutaj przypisanej do zmiennej df):
- df.info() - opis danych, zwraca opis zawartości poszczególnych kolumn
- list(df) - zwraca listę kolumn w ramce danych
- df.rename(columns={"old name 1" : "new name 1", "old name 2" : "new name 2"}) - zmiana nazw kolumn, nazwy do zamiany podawane są w postaci słownika
- df.corr() - zwraca tablicę korelacji pomiędzy kolumnami w ramce danych
- df["col1_name"].corr(df["col2_name"]) - zwraca współczynnik korelacji pomiędzy zadanymi kolumnami
- df["col_name"].unique() - zwraca unikatowe wartości w kolumnie
- df.replace(to_replace=value_1, value=value_2, inplace=True) - podmienia wskazaną wartość w całej ramce danych
- df.hist() - zwraca histogram ze wszystkich kolumn
- df.insert(loc, column, value) - wstawia kolumnę do ramki danych
- df.drop(columns = ["col_1", "col_2", "col_3"]) - usuwa z ramki danych wskazane kolumny

Bogatym źródłem informacji dot. wszystkich dostępnych instrukcji jest strona internetowa biblioteki pandas: https://pandas.pydata.org/docs/reference/frame.html

W czasie pracy z pandas (w szczególności na początku) warto wspierać się arkuszem informacyjnym przygotowanym przez twórców pakietu: https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf