## Struktury danych
Na poprzednich zajęciach omawialismy proste typy danych. Każdą taką zmienną można łączyć z innymi w strukturę. Przedstawimy 3 podstawowe struktury:

In [None]:
a = (1, 2, 3) #Krotka - Tuple
b = [1, 2, 3] #Lista - List
c = {1, 2, 3} #Zbiór - Set

print(type(a), type(b), type(c))

Do analiz statystycznych będziemy wykorzystywać głównie **listy**.

* Krotki wymagają zachowania stałej struktury - to przydatny aspekt gdy pracujesz na określonych strukturach mających kilka wartości np. współrzędnych geograficznych.
* Zbiory wymagają unikatowych wartości. Pozwalają na kilka ciekawych zastosowań np. określenie części wspólnej 2 zbiorów, ich sumy etc.  

## Listy - podstawy

Listę można stworzyć z obiektów dowolnego typu:

In [None]:
list_integers = [1, 2, 3]
list_floaters = [1.0, 2.3, 3.2]
list_strings = ["Black Sabbath", "Judas Priest", "Kiss"]

Listy mogą bazować na różnych typach obiektów oraz zawierać braki danych (None) - to ważne np. w kontekście ściagania danych z sieci web, gdzie informacje mogą zostać rozpoznane na rózne sposoby.

In [None]:
list_mixed_types = [1, 3.0, True, "String"]

In [None]:
list_with_nones = [1.0, None]
type(list_with_nones[1])

Listy mogą grupować inne zaawansowane struktury np. lista list, lista zbiorów. Do każdego elementu można odwołąć się używając odpowiedniego indeksu.

In [None]:
list_complex_types = [(1,2,3), [1, 2, 3], {1, 2, 3}]

print("Typ - Lista: ", type(list_complex_types), sep = "\t")
print('\n')
print("Typ - Element 0: ", type(list_complex_types[0]), sep = "\t")
print("Typ - Element 1: ", type(list_complex_types[1]), sep = "\t")
print("Typ - Element 2: ", type(list_complex_types[2]), sep = "\t")

## Indeksowanie - rozwinięcie
Operacje na listach przebiegają podobnie do tych, które wcześniej wykonywaliśmy w przypadku typu string. Możliwe jest poproszenie o rozmiar oraz wydzielenie określonej części:

In [None]:
list_ProgLanguages = ["C", "Cpp", "C#", "Objective C", "Java", "Python", "SQL", "R"]

print(len(list_ProgLanguages))

list_CFamilyLangages = list_ProgLanguages[0:4]
print(list_CFamilyLangages)

Przypomnienie numerowanie rozpoczyna się od zera i kończy na wielkości o 1 mniejszej niż rozmiar listy

In [None]:
print(list_ProgLanguages[0])

In [None]:
# Ostatni element listy
print(list_ProgLanguages[len(list_ProgLanguages)-1])

Alternatywnie możemy też numerować listy z ujemnymi indeksami. Taka notacja oznacza to numer od końca.

In [None]:
print(list_ProgLanguages[-2])

### Przykład - webscrapping

Czas na praktyczne zastosowanie nowych umiejętności. Często nie mamy wpływu jakie dane otrzymamy - dobrym przykładem jest zbieranie informacji ze stron internetowych. Przykład przedstawi ściągnięcie artykulów o systemie płatniczym ze strony [KIR](https://www.kir.pl/aktualnosci)



In [None]:
# Ta częśc kodu przygotuje listę. Warto zapamiętać pakiet Beautiful Soup - służy do parsowania stron www.
from bs4 import BeautifulSoup
import requests

URL = "https://www.kir.pl/aktualnosci"
headers = {'User-Agent': 'Mozilla/5.0 (X11; CrOS x86_64 8172.45.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.64 Safari/537.36'}
page = requests.get(URL, headers = headers)
soup = BeautifulSoup(page.content, 'html.parser', from_encoding="utf-8")

downloaded_List = soup.find_all(name= 'p', class_= None)
print(*downloaded_List, sep='\n')

Zebrane dane poza tekstami dotyczącymi transakcji zawierają informacje kontaktowe do PSIK. Usuńmy je:

In [None]:
cleanList = downloaded_List[-1]

print("Potrzebne rzeczy:")
print(*cleanList, sep='\n')


***Wskazówka***: Zwróćcie uwagę na znak mnożenia przy instrukcji drukowania. Sprawia on, że każdy element listy jest drukowany odrębnie w nowej linii.

## Modyfikowanie treści
Każdy element listy można nadpisać inną wartością:

In [None]:
OffspringSongs = ["Americana", "Pretty Fly for a White Guy", "Ace of Spades"]
OffspringSongs[2] = "Want you bad"

# przetestujemy różne wydruki z * i bez

print("Standardowy wydruk:")
print(OffspringSongs)
print("\n")
print("Wydruk z gwiazdką (rozpakowaniem listy):")
print(*OffspringSongs, sep = "\n")


Zmianie może ulec także typ zmiennej:

In [None]:
OffspringSongs[2] = 3
print(OffspringSongs)

### Przykład - konwersja rozszerzenia do PDF
Rozpatrzmy następujący przykład: Dostajemy listę plików pdf do pobrania. W niektórych przypadkach nie zgadza się jednak rozszerezenie.

Rozwiązanie: Wykorzystamy metodę string.***replace***()

In [None]:
list_BIS_PDFs = [ "https://www.bis.org/review/r210903a.pdf",
                 "https://www.bis.org/review/r210903b.pdf",
                 "https://www.bis.org/review/r210903c.htm",
                 "https://www.bis.org/review/r210902a.pdf" ]

#Naprawimy blad metodą replace
list_BIS_PDFs[2] = list_BIS_PDFs[2].replace(".htm", ".pdf")

print(list_BIS_PDFs[2])

Aby realnie pobrać taki plik z listy wystarczy uruchomić ten kod - na razie nie będziemy się zajmować jego znaczeniem:

In [None]:
import urllib.request

PDF_URL = list_BIS_PDFs[2]

response = urllib.request.urlopen(PDF_URL)

filename = PDF_URL.replace("https://www.bis.org/review/", "")
file = open(filename, 'wb')
file.write(response.read())
file.close()

##Dodawanie do listy

Istnieją dwie metody dodawania nowego elementu na koniec listy ***append()*** i ***extend()***.

Pierwsza z metod będzie dodawać zmienne numeryczne (int, float) i logiczne (boolean)

Obie dodają też zmienne string. Efekt zastosowania obu operacji jest taki sam:   

In [None]:
lista1 = ["f","b","c"]
lista2 = ["f","b","c"]

lista1.append("a")
lista2.extend("a")

print(lista1, lista2, sep='\n')

Rózne wyniki zaczniecie obserwować dopiero gdy będziecie dodawać typy złożone np. listy. ***Append()*** doda je jako pojedynczy element listy, ***extend()*** rozszerzy listę.


In [None]:
lista1 = ["f","b","c"]
lista2 = ["f","b","c"]

lista1.append(["a", "b"])
lista2.extend(["a", "b"])

print(lista1, lista2, sep='\n')

**Wskazówka:** Obie listy będa miały inny rozmiar:

In [None]:
print(len(lista1), len(lista2), sep ="\t")

Co jednak, gdy chcemy dodać element w środku listy? W takim momencie pomaga metoda ***insert()***. Przyjmuje ona 2 parametry:
* pozycje na liście na którą wstawić zmienną
* wstawianą wartość

In [None]:
lista = [1, 2, 4,5]

lista.insert(2,3)

print(lista)

## Usuwanie z listy

Podobnie jak przy dodawaniu, także usuwanie opracowane jest przez 2 komendy.

Instrukcja ***pop()*** usuwa wybrany element i zwraca jego wartość

In [None]:
A7XSongs = ["Afterlife", "Beast and the Harlot", "Ace of Spades", "Critical Acclaim"]

MotorHeadBestseller = A7XSongs.pop(2)

print(MotorHeadBestseller)
print(A7XSongs)

Instrukcja ***remove()*** usuwa pierwszy element o żadanej wartości

In [None]:
ItalianCities = ["Milano", "Turin", "Paris", "Firenze"]
ItalianCities.remove("Paris")
print(ItalianCities)

**Uwaga**: Jeżeli żądanego elementu nie ma na liście instrukcja wywali program.

In [None]:
#To skończy się błędem
ItalianCities.remove("Dortmund")

Alternatywnie większość zmiennych w Python można usunąć instrukcją ***del***

In [None]:
lista = [1,2,3]

del lista[0]
print(lista)

## Operacje na listach:
Listy można sortować - pomaga komenda ***sort()***

**Uwaga:** Sortowanie wielkich i małych liter odbywa się według kodów [ASCII](https://pl.wikipedia.org/wiki/ASCII) - wielkie litery zawsze pierwsze przed małymi.

In [None]:
randomList = ["Janusz","Brian", "zara", "costam"]
randomList.sort()

print(randomList)

Instrukcja ***reverse()*** odwraca kolejność listy

In [None]:
listToReverse = [3, 2 ,1]

listToReverse.reverse()
print(listToReverse)

## Krotki - ang. tuples
Zawartość krotek służy wyłącznie do odczytu - nie można jej zmodyfikować przy pomocy zwykłego indeksowania, bądź usuwania elementów.

In [None]:
#Ten kod nie zadziała
Krotka = (1, 3)

Krotka[0] = 12

In [None]:
#Ten kod nie zadziała
Krotka = (1, 3)

del Krotka[1]

W przypadku potrzeby zaktualizowania elementu można to zrobić w sposób dość karkołomny - na początku zmieniamy typ elementu na listę poprzez konwersję. Następnie modyfikujemy element i ponownie konwertujemy go na krotkę. Przykład poniżej:  

In [None]:
x = (1, 2, 3)
y = list(x)
y[1] = "Tekst"
x = tuple(y)

print(x)

### Łączenie krotek

Chociaż zawartości krotek praktycznie nie można modyfikować, to jednak można ją rozszerzać. Krotki da się ze sobą łączyć poprzez dodawanie:

In [None]:
Krotka = (1, 3)
Krotka2 = (2, 4)

PolaczonaKrotka = Krotka + Krotka2
print(PolaczonaKrotka)


### Rozpakowywanie krotek

Zawartość krotki można zapisać do kilku pojedynczych zmiennych. Wykorzystujemy do tego standardowe przypisanie. Zmienne rozdzielamy po lewej stronie przecinkiem.

**Warunek:** Liczba zmiennych musi być taka sama jak liczba elementów krotki.

In [None]:
Krotka = (1, 3)
pierwszy, drugi = Krotka

print(pierwszy)
print(drugi)

## Przydatne linki:

Ćwiczenia od [W3 Schools](https://www.w3schools.com/python/exercise.asp?filename=exercise_lists1)

[Notpron](https://deathball.net/notpron/) - po kilku łamigłówkach będziecie ekspertami co można zrobić przy pomocy URL.