# Zapis złożonych struktur danych

Aby przechowywać bardziej złożone informacje w Pythonie używany jest moduł „pickle”. Proces ten jest nazywany również marynowaniem.

Marynować można: liczby, łańcuchy znaków, krotki, listy, słowniki, zbiory i obiekty.
<pre>
import pickle # dodanie modułu do projektu
</pre>
Tryby dostępu do plików ze złożonymi strukturami

- plik = open("dane.dat", "wb") - otwarcie pliku.
- „rb” - tryb odczytu danych z pliku binarnego. Jeśli plik nie istnieje, zostaje zasygnalizowany błąd.
- „wb” - tryb zapisu danych do pliku binarnego. Wybrany plik zostaje nadpisany nowymi danymi. Jeśli plik nie istnieje, zostanie utworzony.
- „ab” - tryb zapisu danych do pliku binarnego. Do wybranego pliku zostają dopisane nowe dane. Jeśli plik nie istnieje, zostanie utworzony.

Zapisywanie i odczytywanie danych w pliku

- pickle.dump(lista, plik) - do otwartego pliku „plik” zostaje dopisana struktura listy „lista”.
- obiekt = pickle.load(plik) - z otwartego pliku „plik” zostaje odczytana struktura obiektu i przypisana do obiektu „obiekt”.

Metody dump i load mogą być wykonywanie wielokrotnie, przy użyciu różnych typów danych!

In [2]:
import pickle

class Ksiazka:
    def __init__(self, tytul, autor, isbn, rok_wydania):
        self.tytul = tytul
        self.autor = autor
        self.isbn = isbn
        self.rok_wydania = rok_wydania
        
    def __str__(self):
        return f"Tytuł: {self.tytul}, autor: {self.autor}, ISBN: {self.isbn}, rok wydania: {self.rok_wydania}"
        
ks_1 = Ksiazka("W pustyni i w puszczy", "Henryk Sienkiewicz", 1234, 1900)
ks_2 = Ksiazka("Ogiem i mieczem", "Henryk Sienkiewicz", 3322, 1901)
ks_3 = Ksiazka("Potop", "Henryk Sienkiewicz", 2212, 1902)

lista_obiektow = [ks_1, ks_2, ks_3]

#zapis (marynowanie)

plik = open("ksiazki.dat", "wb")
pickle.dump(lista_obiektow, plik)
plik.close()

# odczyt 

plik = open("ksiazki.dat", "rb")
obiekt = pickle.load(plik)

print(obiekt[2])

### Zadanie

Napisz program do organizowania kontaktów w bazie, która zawiera informacje w postaci: imię, nazwisko i nick w komunikatorze sieciowym (użytkownić może posiadać ich kilka, każdy stanowi parę komunikator - nick, należy skorzystać ze słownika). Dane przechowywane są w obiektach, a potem marynowane i zapisane w pliku .dat. Następnie wczytaj zapisane dane.

### Przykładowe rozwiązanie:

In [14]:
import pickle

class Kontakt:
    def __init__(self, imie, nazwisko, komunikatory):
        self.imie = imie
        self.nazwisko = nazwisko
        self.komunikatory = komunikatory
        
    def __str__(self):
        return f"Imię: {self.imie}, nazwisko: {self.nazwisko}, komunikatory: {self.komunikatory}"
    

Adam = Kontakt("Adam", "Nowak", {"skype": "an", "twiteer": "@an"})
Maciej = Kontakt("Maciej", "Kowalski", {"skype": "mk", "twiteer": "@mk"})
Dawid = Kontakt("Dawid", "Kaczmarek", {"skype": "dk", "twiteer": "@dk"})

kontakty = [Adam, Maciej, Dawid]

plik = open("kontakty.dat", "wb")
pickle.dump(kontakty, plik)
plik.close()

plik = open("kontakty.dat", "rb")
dane = pickle.load(plik)

for item in dane:
    print(item)

Imię: Adam, nazwisko: Nowak, komunikatory: {'skype': 'an', 'twiteer': '@an'}
Imię: Maciej, nazwisko: Kowalski, komunikatory: {'skype': 'mk', 'twiteer': '@mk'}
Imię: Dawid, nazwisko: Kaczmarek, komunikatory: {'skype': 'dk', 'twiteer': '@dk'}


### Zadanie 5.1

Napisz program do organizowania kontaktów w bazie, która zawiera informacje w postaci: imię, nazwisko i nick w komunikatorze sieciowym (użytkownić może posiadać ich kilka, każdy stanowi parę komunikator - nick). Dane przechowywane są w obiektach, a potem marynowane i zapisane w pliku .dat. Program powinien posiadać interaktywny interfejs w postaci tekstowego menu (CLI). Najpierw użytkownik wybiera, czy chce wprowadzać dane, czy przeglądać dane w bazie. Część do wprowadzania danych powinna mieć menu: W - wyświetlanie, DK - dodaj kontakt, UK - usuń kontakt, DT - dodaj komunikator, UT - usuń komunikator, Q - wyjście i zapis. Część umożliwiająca przegląd danych tylko wyświetla zawartość pliku .dat, a następnie przechodzi do pytania, czy użytkownik życzy sobie powtórzyć wykonanie całego programu.

### Zadanie 5.2
Napisz program generujący bestiariusz - bazę legendarnych stworzeń z wybranego uniwersum (mitologia, powieść fantasy, wybrana gra komputerowa). Każda postać powinna posiadać atrybyty: nazwa (tekst), zdolnosci (lista), ekwipunek (lista). Dane przechowywane są w obiektach, a potem marynowane i zapisane w pliku .dat. Program powinien posiadać interaktywny interfejs w postaci tekstowego menu (CLI). Najpierw użytkownik wybiera, czy chce wprowadzać bazę, czy przeglądać bazę. Część do wprowadzania danych powinna mieć menu: W - wyświetlanie, DP - dodaj postać, UP - usuń postać, Q - wyjście i zapis. Część umożliwiająca przegląd danych tylko wyświetla zawartość pliku .dat, a następnie przechodzi do pytania, czy użytkownik życzy sobie powtórzyć wykonanie całego programu.

# Podstawy operacji na bazie danych

Bazy danych służą do organizacji zbiorów danych. Szczególnie istotne są tzw. relacyjne bazy danych, gdzie dane są rozłożone na powiązane relacjami tabele.

Najważniejsze silniki bazodanowe:

- Oracle
- MS SQL
- PostrgeSQL
- MySQL
- SQLite

Operacje na danych wykonujemy korzystając z języka zapytań SQL. Zazwyczaj do pracy z bazą danych potrzebny jest serwer. Ze względów technicznych skupimy się na implementacji SQLite, która nie wymaga serwera bazodanowego.

SQLite: https://www.sqlite.org/index.html
Przeglądarka danych: https://sqlitebrowser.org

Przykład pracy z bazą danych:

Import biblioteki
<pre>
import sqlite3
</pre>

Tworzenie tabel
<pre>
conn = sqlite3.connect('produkty') 
c = conn.cursor()

c.execute('''
          CREATE TABLE IF NOT EXISTS produkty
          ([produkt_id] INTEGER PRIMARY KEY, [nazwa_produktu] TEXT)
          ''')
          
c.execute('''
          CREATE TABLE IF NOT EXISTS ceny
          ([produkt_id] INTEGER PRIMARY KEY, [cena] INTEGER)
          ''')
                     
conn.commit()
</pre>

Wstawianie danych

<pre>
c.execute('''
          INSERT INTO produkty (produkt_id, nazwa_produktu)

                VALUES
                (1,'Komputer'),
                (2,'Monitor'),
                (3,'Mysz'),
                (4,'Klawiatura'),
                (5,'Drukarka')
          ''')

c.execute('''
          INSERT INTO ceny (produkt_id, cena)

                VALUES
                (1,1800),
                (2,500),
                (3,50),
                (4,45),
                (5,550)
          ''')

conn.commit()

</pre>

Wybieranie i wyświetlanie danych

<pre>
import pandas as pd

                   
c.execute('''
          SELECT
          a.nazwa_produktu,
          b.cena
          FROM produkty a
          LEFT JOIN ceny b ON a.produkt_id = b.produkt_id
          ''')

df = pd.DataFrame(c.fetchall(), columns=['produkt_name','cena'])
df

</pre>

In [25]:
import sqlite3

conn = sqlite3.connect("nasza_baza")

c = conn.cursor()

c.execute('''CREATE TABLE IF NOT EXISTS produkty ([produkt_id] INTEGER PRIMARY KEY, [nazwa_produktu] TEXT)''')

c.execute('''CREATE TABLE IF NOT EXISTS ceny ([produkt_id] INTEGER PRIMARY KEY, [cena] TEXT)''')

conn.commit()



In [26]:
c.execute('''INSERT INTO produkty (produkt_id, nazwa_produktu) 
VALUES 
(1, 'Komputer'), 
(2, 'Monitor'),
(3, 'Mysz'),
(4, 'Klawiatura'),
(5, 'Drukarka')
''')

conn.commit()


IntegrityError: UNIQUE constraint failed: produkty.produkt_id

In [24]:
c.execute('''INSERT INTO ceny (produkt_id, cena) 
VALUES 
(1, 1800), 
(2, 500),
(3, 50),
(4, 45),
(5, 550)
''')

conn.commit()

IntegrityError: UNIQUE constraint failed: ceny.produkt_id

In [20]:
import pandas as pd

c.execute('''
SELECT a.nazwa_produktu, b.cena FROM produkty a LEFT JOIN ceny b ON a.produkt_id = b.produkt_id
''')

df = pd.DataFrame(c.fetchall(), columns = ['Nazwa produktu', 'Cena'])
df

Unnamed: 0,Nazwa produktu,Cena
0,Komputer,1800
1,Monitor,500
2,Mysz,50
3,Klawiatura,45
4,Drukarka,550


In [27]:
import sqlite3

conn = sqlite3.connect("nasza_baza")

c = conn.cursor()

c.execute('''CREATE TABLE IF NOT EXISTS produkty ([produkt_id] INTEGER PRIMARY KEY, [nazwa_produktu] TEXT)''')

c.execute('''CREATE TABLE IF NOT EXISTS ceny ([produkt_id] INTEGER PRIMARY KEY, [cena] TEXT)''')

conn.commit()

c.execute('''INSERT INTO produkty (produkt_id, nazwa_produktu) 
VALUES 
(1, 'Komputer'), 
(2, 'Monitor'),
(3, 'Mysz'),
(4, 'Klawiatura'),
(5, 'Drukarka')
''')


c.execute('''INSERT INTO ceny (produkt_id, cena) 
VALUES 
(1, 1800), 
(2, 500),
(3, 50),
(4, 45),
(5, 550)
''')

conn.commit()

import pandas as pd

c.execute('''
SELECT a.nazwa_produktu, b.cena FROM produkty a LEFT JOIN ceny b ON a.produkt_id = b.produkt_id
''')

df = pd.DataFrame(c.fetchall(), columns = ['Nazwa produktu', 'Cena'])
df

Unnamed: 0,Nazwa produktu,Cena
0,Komputer,1800
1,Monitor,500
2,Mysz,50
3,Klawiatura,45
4,Drukarka,550


### Zadanie 5.3

Korzystając z biblioteki sqlite3 utwórz plik bazodanowy do przechowywania danych dla książek w księgarni internetowej. Baza powinna składać się z tabel: ksiazki, autorzy, ceny. Wprowadź do bazy 12 egzemplarzy różnych pozycji książkowych. Zarówno książki jak i autorzy mogą się powtarzać. Na koniec ułóż zapytanie, za pomocą którego zaprezentujesz przechowywane dane.

# Aplikacje okienkowe

Wiele aplikacji wykorzystuje graficzny interfejs użytkownika (GUI - graphic user interface). Aplikacja okienkowa zazwyczaj korzysta z koncepcji wyrastających z nurtu programowania obiektowego, dlatego warto najpierw dobrze zrozumieć tą część. W języku Python mamy kilka bibliotek umożliwiających tworzenie GUI. Do najważniejszych należą:

- tkinter
- Qt
- PySide
- Kivy

Domyślną i najprostszą biblioteką umożliwiającą tworzenie graficznych interfejsów użytkownika jest tkinter. 

Przykład:

<pre>
from tkinter import *

root = Tk()
root.title("Moja aplikacja NOE")
root.geometry("700x500")

ramka = Frame(root)
ramka.grid()

etykieta = Label(ramka, text = "Tutaj jest jakiś tekst!!")
etykieta.grid() # zawsze trzeba umieszczać na siatce

root.mainloop()
</pre>

Prosty kalkulator:

<pre>
from tkinter import *

expression = ""

def press(num):
    global expression
    expression = expression + str(num)
    equation.set(expression)

def equalpress():
    try:
        global expression
        total = str(eval(expression))
        equation.set(total)
        expression = ""

    except:

        equation.set(" error ")
        expression = ""

def clear():
    global expression
    expression = ""
    equation.set("")

root = Tk()

root.configure(background="light green")

root.title("Simple Calculator")

root.geometry("270x150")

equation = StringVar()

expression_field = Entry(root, textvariable=equation)

expression_field.grid(columnspan=4, ipadx=70)

button1 = Button(root, text=' 1 ', fg='black', bg='red', command=lambda: press(1), height=1, width=7)
button1.grid(row=2, column=0)

root.mainloop()
</pre>

In [32]:
from tkinter import *

root = Tk()
root.title("Nasza pierwsza aplikacja")
root.geometry("600x600")

ramka = Frame(root)
ramka.grid()

etykieta = Label(ramka, text = "Nasz tekst!!!")
etykieta.grid()

root.mainloop()

In [57]:
from tkinter import *

expression = ""

def press(num):
    global expression
    expression = expression + str(num)
    equation.set(expression)
    
def clear():
    global expression
    expression = ""
    equation.set("")
    
def equalpress():
    global expression
    total = str(eval(expression))
    equation.set(total)
    expression = ""
    
root = Tk()

equation = StringVar()

root.configure(background = "light green")

root.title("Prosty kalkulator")

root.geometry("330x300")

expression_field = Entry(root, textvariable = equation)

expression_field.grid(columnspan = 4, ipadx = 70)

button1 = Button(root, text = ' 1 ', fg = 'black', command = lambda: press(1), height = 1, width = 5)
button1.grid(row = 2, column = 0)

button2 = Button(root, text = ' 2 ', fg = 'black', command = lambda: press(2), height = 1, width = 5)
button2.grid(row = 2, column = 1)

button3 = Button(root, text = ' 3 ', fg = 'black', command = lambda: press(3), height = 1, width = 5)
button3.grid(row = 2, column = 2)

add = Button(root, text = ' + ', fg = 'black', command = lambda: press("+"), height = 1, width = 5)
add.grid(row = 2, column = 3)

equal = Button(root, text = ' = ', fg = 'black', command = equalpress, height = 1, width = 5)
equal.grid(row = 3, column = 0)

clear = Button(root, text = ' C ', fg = 'black', command = clear, height = 1, width = 5)
clear.grid(row = 3, column = 1)

root.mainloop()
    

In [39]:
eval("1+3*12/7+100")

106.14285714285714

### Zadanie 5.4 

Ukończyć kalkulator z powyższego przykładu.

# Podstawy aplikacji webowych w Pythonie

Aplikacja internetowa - program komputerowy wykonywany na serwerze (host) i obsługiwany przez użytkownika za pomocą pewnego interfejsu, często w wykorzystaniem przeglądarki internetowej (możliwe również wykorzystane dedykowanych aplikacji mobilnych lub dekstopowych). 

Architektura Client-Server - system aplikacji, których działanie opiera się na wydawaniu zapytań i odbieraniu odpowiedzi od zcentralizowanych zasobów komputerowych (host) przez rozproszoną grupę użytkowników (clients).

Protokół HTTP - protokół przesyłania dokumentów hipertekstowych (Hypertext Transfer Protocol). Komunikacja sieciowa wymaga stosowania tzw. protokołu, który określa reguły wymiany informacji. Protokół HTTP posiada szereg metod o ściśle określonym działaniu i zastosowaniu. Do najważniejszych z punktu widzenia naszych projektów należą:
- GET - pobieranie zasobu wskazanego przez URI (Uniform Resource Identifier) (np. przeglądanie kolejnych podstron w witrynie)
- POST - przyjmowanie danych przesyłanych od klienta do serwera (np. wysyłanie zawartości formularzy)
- PUT - przyjmowanie danych przesyłanych od klienta do serwera (w odróżnieniu od metody POST zazwyczaj wykorzystywana aby aktualizować wartości encji)
- DELETE - żądanie usunięcia zasobu (włączone dla uprawnionych użytkowników)

Odpowiedzi serwera - host po odebraniu zapytania od klienta, oprócz wykonania, zwraca kod statusu odpowiedzi. Spis możliwych odpowiedzi serwera można sprawdzić m. in. na stronie: https://developer.mozilla.org/en-US/docs/Web/HTTP/Status

Flask - mikro framework do tworzenia aplikacji sieciowych napisany w języku Python

Przykłady projektów wykorzystujących Flask:
- Pinterest https://pinterest.com
- LinkedIn https://www.linkedin.com
- Flask https://flask.palletsprojects.com

Projekt - kalkulator sieciowy
1. Zakładamy katalog i tworzymy w nim środowisko izolowane
2. Tworzymy plik z zależnościami requirements.txt. Będziemy potrzebować w naszym projekcie bibliotek flask oraz mpmath
3. Tworzymy w katalogu projektu katalog templates w którym znajdować się będą widoki naszej aplikacji
4. Tworzymy plik main.py - główny plik nasze aplikacji.
5. Zacznijmy od przygotowania widoków index.html, kalkulator.html, wynik.html. 
6. W pliku main.py umieszczamy kod:

<pre>
from flask import Flask, render_template, request
import math
import mpmath

app = Flask(__name__)

@app.route('/', methods = ['GET'])
def index():
    return render_template('index.html')

@app.route('/kalkulator', methods=['GET'])
def kalkulator():
    return render_template('kalkulator.html')

@app.route('/wynik_dzialania/', methods=['POST'])
def wynik_dzialania():
    result = None

    first_input = request.form['Input1']
    second_input = request.form['Input2']
    operation = request.form['operation']

    try:
        input1 = float(first_input)
        input2 = float(second_input)

        if operation == "+":
            result = input1 + input2

        elif operation == "-":
            result = input1 - input2

        elif operation == "/":
            result = input1 / input2

        elif operation == "*":
            result = input1 * input2

        return render_template(
            'wynik.html',
            result=result,
            calculation_success=True
        )

    except ZeroDivisionError:
        return render_template(
            'wynik.html',
            calculation_success=False,
            error="Nie mozna podzielić przez zero"
        )

    except ValueError:
        return render_template(
            'wynik.html',
            calculation_success=False,
            error="Nie prawidłowy format - program przyjmuje tylko liczby"
        )

if __name__ == '__main__':
    app.debug = True
    app.run()
</pre>

# Pandas

### 1. Wstęp 
Nazwa Pandas odnosi się do wyrażenia "Panel Data" lub do "Python Data Analysis". Autorem biblioteki jest Wes McKinney, który utworzył ją w 2008 roku. Stronę projektu można znaleźć pod adresem: https://github.com/pandas-dev/pandas.

Biblioteka Pandas służy do pracy z danymi - posiada wiele użytecznych rozwiązań umożliwiających bądź ułatwiająych wykonywanie rutynowych działań na danych. Posiada m. in. funkcje do:
- oczyszczania danych, 
- analizy danych, 
- eksplorowania danych, 
- przetwarzania danych. 
Pandas pozwala również na pracę z dużymi zbiorami danych (tzw. Big Data) oraz posiada bogaty zbiór funkcji statystycznych. Do najważniejszych możliwości pakietu Pandas możemy zaliczyć:
- wyznaczanie wartości mimimalnych i maksymalnych, 
- wyznaczanie wartości średnich,
- wyznaczanie korelacji między kolumnami
- usuwanie niepotrzebnych wierszy lub poprawianie uszkodzonych

### 2. Instalacja

Bibliotekę można zainstalować za pomocą managera pakietów pip korzystając z polecenia w programie powłoki: 
- pip install pandas (system Windows)
- pip3 install pandas (system macOS)

### 3. Import

Bibliotekę możemy zaimportować w całości za pomocą jej nazwy, nadać jej alias lub zaimportować wyłącznie wybrany moduł/klasę:
- import pandas
- import pansad as pd
- from pandas import DataFrame

W trakcie pracy z pakietem może okazać się, że musimy sprawdzić jego wersję. Wersję pakietu można znaleźć w polu __version__ pakietu pandas.

#### Przykład - sprawdzanie wersji biblioteki Pandas

<pre>import pandas
pandas.__version__</pre>

### 4. Szeregi (obiet typu Series)

Szeregi (obiety typu Series) w bibliotece Pandas są odpowiednikiem kolumny w tabeli. Można je określić jako jednowymiarowe tablice, bądź listy przechowujące dane dowolnego typu.

#### Przykład - tworzenie szeregu

<pre>import pandas as pd

lista = [1, 2, [3, 3], "cztery", 5]

szereg = pd.Series(lista)

print(szereg)</pre>

Powyższy przykład pokazuje, że elementy szeregu posiadają etykiety (wartości po lewej stronie kolumny). Domyślnie etykiety przyjmują wartości indeksu w liście (liczone od 0). 

### Etykietowanie elementów szeregu

Poprzedni przykład ilustrował, że domyślnie etykiety przyjmują wartość indeksu w liście (liczone od 0). Aby nadać kolejnym elementom szeregu etykiety należy skorzystać z argumentu index, a po znaku równości podać listę (w nawiasach kwadratowych) z kolejnymi nazwami w postaci tekstowej, rozdzielone przecinkami. 

#### Przykład - etykietowanie

<pre>
import pandas as pd

lista = [5000, 6000, 4500, 3000]

wynagrodzenia = pd.Series(lista, index=["Kowalski", "Nowak", "Matysik", "Molęda"])

print(wynagrodzenia)
</pre>

Po utworzeniu etykiet zyskujemy możliwość odnoszenia się do elementów szeregu poprzez etykietę, np.:

<pre>
print(wynagrodzenia['Nowak'])
</pre>

### Obiekty klucz-wartość jako szeregi

Szeregi możemy tworzyć również z obiektów przechowujących pary klucz-wartość, czyli ze słowników. Wówczas klucz par staje się etykietą. 

Przykład:

<pre>
import pandas as pd

miesiace = {"styczeń": 1, "luty": 2, "marzec": 3, "kwiecień": 4}

kalendarz = pd.Series(miesiace)

print(kalendarz)
</pre>

W tym przypadku za pomocą argumentu index możemy wskazać, które elementy słownika mają zostać wstawione do szeregu. Przykład:

<pre>
import pandas as pd

miesiace = {"styczeń": 1, "luty": 2, "marzec": 3, "kwiecień": 4}

kalendarz = pd.Series(miesiace, index=["luty", "kwiecień"])

print(kalendarz)
</pre>

### Ramki danych
Dane są zazwyczaj przechowywane w wielokolumnowych tabelach (lub wielowymiarowych macierzach). Do pracy z takimi obiektami służą ramki danych (z agn. data frame). W porównaniu do ramek danych można powiedzieć, że szereg może odpowiadać pojedyńczej kolumnie z ramki. 

Przykład - tworzymy ramkę danych z dwóch szeregów:

<pre>
import pandas as pd

wynagrodzenia = {
  "styczeń": [5000, 6000, 7000, 8000],
  "luty": [5200, 6200, 7200, 8200]
}

df = pd.DataFrame(wynagrodzenia)

print(df)
</pre>

### Zwracanie wierszy z ramki danych
Ramki danych to zazwyczaj struktury dwuwymiarowe - posiadają kolumny i wiersze. Aby zwrócić wiersz z ramki danych należy skorzystać z polecenia loc[nr_wiersza].

Przykłady:

<pre>import pandas as pd

wynagrodzenia = {
  "styczeń": [5000, 6000, 7000, 8000],
  "luty": [5200, 6200, 7200, 8200]
}

df = pd.DataFrame(wynagrodzenia)
</pre>

- zwracanie pierwszego wiersza: 

<pre>
print(df.loc[0])
</pre>

- zwracanie pierwszego i drugiego wiersza:
<pre>
print(df.loc[[0, 1]])
</pre>

- zwracanie wierszy od pierwszego do trzeciego:
<pre>
print(df.loc[0:2]])
</pre>

Aby zwrócić całą ramkę danych można skorzystać z instrukcji: print(df.to_string())

### Etykietowanie wierszy 

Aby nadać nazwy poszczególnym wierszom w ramce danych, możemy skorzystać (ponownie) z argumentu index, do którego po znaku równości przypiszemy listę nazw kolejnych wierszy rozdzielone przecinkami. 

Przykład - etykietowanie wierszy

<pre>
import pandas as pd

wynagrodzenia = {
  "styczeń": [5000, 6000, 7000, 8000],
  "luty": [5200, 6200, 7200, 8200]
}

df = pd.DataFrame(wynagrodzenia, index = ["Kowalski", "Nowak", "Cieślak", "Stasik"])

print(df)
</pre>

Indeks wiersza może posłużyć do wskazania danego wiersza:

<pre>
print(df.loc["Nowak"])
</pre>

### Wczytywanie danych

Zazwyczaj korzystamy z biblioteki Pandas do analizowania danych przechowywanych w zasobach komputera np. w postaci plików tekstowych. Często stosowanymi formatami dla plików z danymi są formaty: 
- csv (plik tekstowy z danymi rozdzielonymi ustalonym separatorem)
- json (pliki zawierające ustrukturalizowane dane w postaci zbliżonej do słowników)
- xlsx (pliki w formacie programu MS Excel)

Pliki w poszczególnych formatach możemy importować korzystając z następujących instrukcji:
- wczytywanie danych w formacie csv: df = pd.read_csv('plik_z_danymi.csv')
- wczytywanie danych w formacie json: df = pd.read_json('plik_z_danymi.json')
- wczytywanie danych w formacie xlsx: df = pd.read_excel('plik_z_danymi.xlsx')

### Wyświetlanie i analiza danych

Domyślnie wywołując zapełnioną ramkę danych zostanie zwrócone 5 pierwszych i 5 ostatnich wierszy. Wyświetlanie w innych formach odbywa się przy zastosowaniu metod:

- head(n) - zwraca pierwsze n wierszy, domyślnie n=5
- tail(n) - zwraca ostatnie n wierszy, domyślnie n=5

Ramka danych posiada również metodę info(), która zwraca najważniejsze informacje dotyczące zbioru - wraz z informacją na temat występowania wartości typu null oraz non-null.

### Czyszczenie danych

Przez czyszczenie danych rozumiemy naprawianie źle wprowadzonych (wadliwych) danych. Do wadliwych danych możemy zaliczyć m.in. puste komórki, dane w złym formacie, złe dane, duplikaty.

#### Puste komórki

Powszechnym problemem wielu zbiorów danych są puste komórki. Nieobsłużone puste komówki mogą być przyczyną błędów w wyliczanych statystykach (np. przy wyliczaniu średniej, suma elementów będzie dzielona przez złą wartość). 

Jednym ze sposobów radzenia sobie z problemem pustych komórek jest ich usuwanie. Jeżeli zbiór danych jest duży - to rozwiązanie jest do zaakceptowania. 

Usuwanie pustych komórek wykonujemy poleceniem dropna(). Domyślnie - zawsze zwraca nową ramkę danych nie zmieniająć oryginału. 

Jeżeli chcemy podmienić oryginał, możemy skorzystać z argumentu inplace i nadać mu wartość True: dropna(inplace = True).

Przykład:

<pre>
new_df = df.dropna()
df.dropna(inplace = True)
</pre>

Komórki zawieracjące wartości NULL możemy również naprawić korzystając z metody dropna().

Problem brakujących wartości możemy również rozwiązać poprzez zastępowanie pustych komórek. Ta metoda polega na wypełnieniu uszkodzonych komórek za pomocą polecenia fillna(), która jako pierwszy argument przyjmuje wartość do wstawienia. 

Argumentem metody fillna() może w szczególności być średnia, mediana lub dominanta. 

Przykład - usuwanie brakujących rekordów:

<pre>
import pandas as pd

df = pd.read_csv('plik_z_danymi.csv')

new_df = df.dropna()

print(new_df.to_string())
</pre>

Przykład - usuwanie brakujących rekordów (nadpisywanie oryginalnej ramki):

<pre>
import pandas as pd

df = pd.read_csv('plik_z_danymi.csv')

df.dropna(inplace = True)

print(df.to_string())
</pre>

Przykład - zastępowanie wartości NULL wartością 111:

<pre>
import pandas as pd

df = pd.read_csv('plik_z_danymi.csv')

df.fillna(130, inplace = True)
</pre>

Przykład - zastąpienie wartości NULL na wartość 111 tylko w zadanej kolumnie:

<pre>
import pandas as pd

df = pd.read_csv('plik_z_danymi.csv')

df["nazwa kolumny"].fillna(111, inplace = True)
</pre>

Przykład - zastępowanie brakujących wartości w zadanej kolumnie z wykorzystaniem średniej:

<pre>
import pandas as pd

df = pd.read_csv('plik_z_danymi.csv')

x = df["nazwa kolumny"].mean()

df["nazwa kolumny"].fillna(x, inplace = True)

</pre>

Przykład - zastępowanie brakujących wartości w zadanej kolumnie z wykorzystaniem mediany:

<pre>
import pandas as pd

df = pd.read_csv('plik_z_danymi.csv')

x = df["nazwa kolumny"].median()

df["nazwa kolumny"].fillna(x, inplace = True)
</pre>

Przykład - zastępowanie brakujących wartości w zadanej kolumnie z wykorzystaniem dominanty (mody):

<pre>
import pandas as pd

df = pd.read_csv('plik_z_danymi.csv')

x = df["nazwa kolumny"].mode()[0]

df["nazwa kolumny"].fillna(x, inplace = True)
</pre>

#### Błędny format danych
 
Analiza danych zawierających komórki z błędami formatu może być bardzo kłopotliwa albo nawet niemożliwa. Poradzić sobie z tym problemem można na dwa sposoby: usunąć wiersze zawierające błędne formaty lub dokonać konwersji wszystkich komórek (np. w kolejnych kolumnach) na jednakowy format. 

Przykład - konwersja formatu (na format daty) w zadanej kolumnie za pomocą metody to_datetime():

<pre>
import pandas as pd

df = pd.read_csv('plik_z_danymi.csv')

df['Data'] = pd.to_datetime(df['Data'])

print(df.to_string())
</pre>

Przykład - usuwanie wierszy zawierające dane nieokreślone (NaN, NaT, ...) za pomocą metody dropna():

<pre>
df.dropna(subset=['Date'], inplace = True)
</pre>

#### Złe dane

Zdarza się, że tabela zawiera nie tyle braki czy dane w złym formacie, ale błędne wyniki. Dla przykładu - w momencie zbierania danych rejestrator pomylił miejsca po przecinku (tzw. błędy grube). Tego typu usterki naprawiamy wykonując podstawienia błędnych danych lub poprzez usuwanie wierszy.

Przykład - podstawianie poprawionych danych do zlokalizowanej komórki z błędem:

<pre>
df.loc[7, 'Duration'] = 45
for x in df.index: 
  if df.loc[x, "Duration"] > 120:
    df.loc[x, "Duration"] = 120
</pre>

Przykład - usuwanie wierszy:

<pre>
for x in df.index: 
  if df.loc[x, "Duration"] > 120:
    df.drop(x, inplace = True)
</pre>

#### Duplikaty
Przez duplikat rozumiemy powtórzenie rekordu w tabeli. Pandas posiada metody zarówno do wyświetlania duplikatów jak również do ich usuwania.

Przykład - wyszukiwanie duplikatów:
<pre>
print(df.duplicated())
</pre>

Przykład - usuwanie duplikatów:
<pre>
df.drop_duplicates(inplace = True)
</pre>

### Przegląd przydatnych instrukcji

Poniżej zostały wymienione wybrane instrukcje przydatne w trakcie pracy z danymi za pomocą pakietu pandas w postaci ramki danych (tutaj przypisanej do zmiennej df):
- df.info() - opis danych, zwraca opis zawartości poszczególnych kolumn
- list(df) - zwraca listę kolumn w ramce danych
- df.rename(columns={"old name 1" : "new name 1", "old name 2" : "new name 2"}) - zmiana nazw kolumn, nazwy do zamiany podawane są w postaci słownika
- df.corr() - zwraca tablicę korelacji pomiędzy kolumnami w ramce danych
- df["col1_name"].corr(df["col2_name"]) - zwraca współczynnik korelacji pomiędzy zadanymi kolumnami
- df["col_name"].unique() - zwraca unikatowe wartości w kolumnie
- df.replace(to_replace=value_1, value=value_2, inplace=True) - podmienia wskazaną wartość w całej ramce danych
- df.hist() - zwraca histogram ze wszystkich kolumn
- df.insert(loc, column, value) - wstawia kolumnę do ramki danych
- df.drop(columns = ["col_1", "col_2", "col_3"]) - usuwa z ramki danych wskazane kolumny

Bogatym źródłem informacji dot. wszystkich dostępnych instrukcji jest strona internetowa biblioteki pandas: https://pandas.pydata.org/docs/reference/frame.html

W czasie pracy z pandas (w szczególności na początku) warto wspierać się arkuszem informacyjnym przygotowanym przez twórców pakietu: https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf