# Moduły

Jedną z największych zalet Pythona jest jego modularność. Podstawowy Python zawiera tylko napotrzebniejsze funkcje, natomiast jego możliwości są znacznie rozszerzone poprzez _moduły_. Moduł to nic innego jak zbiór funkcji służących do realizacji określonych czynności. Wiele modułów dostępnych jest razem z podstawową instalacją Pythona (<https://docs.python.org/3/py-modindex.html>), jeszcze więcej zanistalowanych jest domyślnie wraz z Anacondą (<https://docs.anaconda.com/anaconda/packages/old-pkg-lists/4.3.1/py35/>). Możesz też instalować dodatkowe moduły poprzez Anacondę (<https://conda.io/docs/user-guide/tasks/manage-pkgs.html>).

## Przykład - moduł `pandas`

Jeżeli dany moduł jest zainstalowany na twoim komputerze, musisz go zaimportować zanim skorzystasz z jego funkcji. Zaimportujemy teraz moduł, który służy do analizy danych w Pythonie. Nie mamy czasu na tym kursie aby opowiedzieć o nim w szczegółach, posłuży on nam tylko jako ilustracja _modularności_ Pythona. Aby zaimportować moduł stosujemy słowo kluczowe `import` i nazwę modułu. Aby uniknąć konfliktów w nazwach funkcji najczęściej podajemy też krótką nazwę, po której identyfikować będziemy funkcje z danego modułu. Zwyczajowo dla `pandas` jest to `pd`. Całość wygląda tak:

In [1]:
import pandas as pd

Dzięki tej linijce zaimportowane i dostępne są wszystkie funkcje odstępne w module `pandas`. Żeby z nich skorzystać, musimy ich nazwy poprzedzić prefiksem `pd.`. Skorzystamy teraz z funkcji `read_csv`, która otwiera plik `csv` znajdujący się na dysku, odczytuje go i umieszcza w czymś, co nazywa się `pandas dataframe` - strukturze służącej do przechowywania danych w formie tabel. Załadujemy plik `movies.csv` dostępny w repo przedmiotu w folderze `data`. W pliku tym znajduje się kompletna baza filmów z serwisu <http://imdb.com> aż do 2005 roku. W argumencie funkcji musimy podać właściwą ścieżkę dostepu do pliku.

In [2]:
filmy = pd.read_csv('data/movies.csv')

Jeśli teraz spróbujemy wyświetlić zmienną filmy, Jupyter pokaże nam ładnie sformatowaną tabelę. Zwróć uwagę na ostatnią linijkę. Ile mamy filmów w naszym zbiorze danych?

In [3]:
filmy

Unnamed: 0,title,year,length,budget,rating,votes,mpaa,Action,Animation,Comedy,Drama,Documentary,Romance,Short
0,$,1971,121,,6.4,348,,0,0,1,1,0,0,0
1,$1000 a Touchdown,1939,71,,6.0,20,,0,0,1,0,0,0,0
2,$21 a Day Once a Month,1941,7,,8.2,5,,0,1,0,0,0,0,1
3,"$40,000",1996,70,,8.2,6,,0,0,1,0,0,0,0
4,"$50,000 Climax Show, The",1975,71,,3.4,17,,0,0,0,0,0,0,0
5,$pent,2000,91,,4.3,45,,0,0,0,1,0,0,0
6,$windle,2002,93,,5.3,200,R,1,0,0,1,0,0,0
7,'15',2002,25,,6.7,24,,0,0,0,0,1,0,1
8,'38,1987,97,,6.6,18,,0,0,0,1,0,0,0
9,'49-'17,1917,61,,6.0,51,,0,0,0,0,0,0,0


Wydaje się, że filmów jest ponad 58 tysięcy. Dla każdego z nich, w kolumnach, mamy dostępny szereg interesujących informacji. Spróbuj się domyślić, co oznaczają dane w poszczególnych kolumnach.

## Zmień kolumnę na listę

Żeby wyświetlić zawartość jednej kolumny, wystarczy podać jej nazwę w nawiasie kwadratowym (i oczywiście w cudzysłowiu!):

In [4]:
filmy['title']

0                                                        $
1                                        $1000 a Touchdown
2                                   $21 a Day Once a Month
3                                                  $40,000
4                                 $50,000 Climax Show, The
5                                                    $pent
6                                                  $windle
7                                                     '15'
8                                                      '38
9                                                  '49-'17
10                                                     '68
11                                  '94 du bi dao zhi qing
12                                       '?' Motorist, The
13                                                     'A'
14                                            'A' gai waak
15                                   'A' gai waak juk jaap
16                                        'Breaker' Mora

Każdą kolumnę możemy zamienić na listę, korzystając ze znanej nam funkcji `list()`.

In [5]:
tytuly = list(filmy['title'])
lata = list(filmy['year'])
dlugosci = list(filmy['length'])
oceny = list(filmy['rating'])

## Najdłuższy film świata

Powiedzmy, że chcemy dowiedzieć się, ile trwa najdłuższy film w naszym zbiorze danych. Jak to zrobić? Skorzystajmy ze znanej nam już funkcji `max()`

In [6]:
max(dlugosci)

5220

Czy to możliwe? 5220 minuty daje jakieś 87 godzin czyli ponad trzy dni. Spróbujmy sprawdzić, jaki tytuł ma film o najdłuższym czasie trwania. Jak to sprawdzić? Najpierw musimy znaleźć indeks najdłuższej długości na liście długości. Skorzystamy w tym celu z metody `index()` a wynik umieścimy w zmiennej `najdluzszy`. 

In [7]:
najdluzszy = dlugosci.index(max(dlugosci))
najdluzszy

11936

Widzimy, że poszukujemy filmu, który ma indeks 11936. Jak znaleźć jego tytuł? Wystarczy zmienną `najdłuższy` umieścić w nawiasie kwadratowym.

In [8]:
tytuly[najdluzszy]

'Cure for Insomnia, The'

To niesamowite, ale ten film na prawdę powstał i na prawdę trwa 87 godzin. Więcej info o nim możesz znaleźć na wikipedii: <https://en.wikipedia.org/wiki/The_Cure_for_Insomnia>

## Najlepszy i najgorszy film świata

W porządku. W ten sam sposób spróbujemy teraz znaleźć najlepszy i najgorszy film w naszej bazie. Wykorzystamy do tego celu listę `oceny`. Pozostałe kroki są dokładnie takie same jak powyżej (z wyjątkiem funkcji `min()` w jednym miejscu). Prześledź poniższy kod i upewnij się, że wszystko rozumiesz.

In [9]:
najlepszy_ocena = max(oceny)
najlepszy_indeks = oceny.index(najlepszy_ocena)
najlepszy_tytul = tytuly[najlepszy_indeks]

najgorszy_ocena = min(oceny)
najgorszy_indeks = oceny.index(najgorszy_ocena)
najgorszy_tytul = tytuly[najgorszy_indeks]

print('Najlepszy film do 2005 roku to', najlepszy_tytul)
print('Jego ocena to', najlepszy_ocena)

print('Najgorszy film do 2005 roku to', najgorszy_tytul)
print('Jego ocena to', najgorszy_ocena)

Najlepszy film do 2005 roku to Dimensia Minds Trilogy: The Hope Factor
Jego ocena to 10.0
Najgorszy film do 2005 roku to 20/20 Vision
Jego ocena to 1.0
