# Wprowadzenie do czytania danych z plików Excel

## Przygotowanie środowiska Python

Do pracy z plikami Excel wykorzystamy bibliotekę `openpyxl`, która dostarcza niezbędne metody do odczytu, edycji i zapisu danych w arkuszach Excela. Dokumentacja biblioteki znajduje się na stronie https://openpyxl.readthedocs.io/

Aby móc korzystać z biblioteki `openpyxl` należy się upewnić czy jest zainstalowana w systemie. 

Wykonaj następujący kod.

In [1]:
from openpyxl import Workbook

Jeśli wykonanie kodu nie spowodowało błędu, oznacza to, że biblioteka `openpyxl` jest zainstalowana w Twoim środowisku Python. Jeśli jednak zobaczyłeś błąd, zainstaluj biblitekę za pomocą poniższego polecenia.

In [None]:
# Installs a pip package in the current Jupyter kernel
import sys
!{sys.executable} -m pip install openpyxl --user

Zrestartuj Kernel Jupytera (interpreter języka Python) za pomocą opcji w menu głównym: `Kernel -> Restart & Clear Output`.

## Wprowadzenie

Po poprawnym zainstalowaniu biblioteki, do dalszej pracy konieczne jest jej zaimportowanie (kod poniżej). 
W każdym skrypcie, w którym wykorzystasz bibliotekę `openpyxl` konieczne jest wykonanie odpowiednich importów. W pierwszym przypadku importujemy metodę do odczytu istniejacęgo pliku `load_workbook` oraz główną klasę reprezentującą skoroszyt `Workbook`. W dalszej części ćwiczenia przedstawione zostaną metody ich wykorzystania.

In [2]:
from openpyxl import load_workbook
from openpyxl import Workbook

## Odczyt informacji z pliku


### Skoroszyt (Workbook)

W celu wczytania istniejacego skoroszytu (ang. *workbook*) należy zaimportowaną wcześniej metodę `load_workbook`, podając jako argument ścieżkę do pliku XLSX.

Po wczytaniu skoroszytu, możemy pobrać nazwy wszystkich arkuszy (ang. *sheet*), które są dostępne w `sheetnames` skoroszytu.

Pełną specyfikację klasy `Workbook` znajdziejsz na stronie: https://openpyxl.readthedocs.io/en/stable/api/openpyxl.workbook.workbook.html

In [3]:
wb = load_workbook('exercises/data/f1-results.xlsx')
sheetnames = wb.sheetnames
# print names at console
print(sheetnames)

# Kolumny w kazdym arkuszu
#pozycja
#nr zawodnika
#nazwa kierowcy
#nazwa zespolu
#czasy
#liczba punktow

['Australia', 'China', 'Bahrain', 'Russia', 'Spain', 'Monaco', 'Canada', 'Azerbaijan', 'Austria', 'Great Britain', 'Hungary', 'Belgium', 'Italy', 'Singapore', 'Malaysia', 'Japan', 'United States', 'Mexico', 'Brazil', 'Abu Dhabi']


### Arkusz (sheet, worksheet)

Po wczytaniu skoroszytu, należy przejść do wybranego **arkusza** (ang. *sheet*). Najprostszym sposobem jest wykorzystanie metody `active` na skoroszycie, które zwraca aktywny arkusz. 

Każdy arkusz ma unikalną nazwę co pokazano w poprzednim przykładzie. Za pomocą nazwy można pobrać obiekt arkusza:
`ws = wb['name']`.

W wyniku otrzymuje sie obiekt arkusza (typu `Worksheet`). Pełną specyfikacje klasy `Worksheet` znajdziesz na stronie: https://openpyxl.readthedocs.io/en/stable/api/openpyxl.worksheet.worksheet.html#openpyxl.worksheet.worksheet.Worksheet

In [4]:
active_sheet = wb.active
print(active_sheet)

monaco_sheet = wb['Monaco']
print(monaco_sheet)

<Worksheet "Italy">
<Worksheet "Monaco">


**Wskazówka:** W celu przeczytania szybszego dostępu do dokumentacji wybranej metody napisz kod poprzedzony `?` i wywołaj wykonanie kodu (`Shift+Enter`). Przykład poniżej:

In [5]:
?wb.active

[0;31mType:[0m        property
[0;31mString form:[0m <property object at 0x116027778>
[0;31mDocstring:[0m  
Get the currently active sheet or None

:type: :class:`openpyxl.worksheet.worksheet.Worksheet`


***
**Zadanie**: Napisz kod, który pobierze wszystkie arkusze skoroszytu `wb` (uwaga, nie ich nazwy) i wypisze je na konsolę. 

Wykorzystaj w tym celu pętlę `for` oraz metodę `sheetnames`. Do wypisywania na konsolę wykorzystaj metodę `print`. 

In [7]:
# TODO
for sheet in wb.sheetnames:
    print(wb[sheet])

<Worksheet "Australia">
<Worksheet "China">
<Worksheet "Bahrain">
<Worksheet "Russia">
<Worksheet "Spain">
<Worksheet "Monaco">
<Worksheet "Canada">
<Worksheet "Azerbaijan">
<Worksheet "Austria">
<Worksheet "Great Britain">
<Worksheet "Hungary">
<Worksheet "Belgium">
<Worksheet "Italy">
<Worksheet "Singapore">
<Worksheet "Malaysia">
<Worksheet "Japan">
<Worksheet "United States">
<Worksheet "Mexico">
<Worksheet "Brazil">
<Worksheet "Abu Dhabi">


### Komórki (cells) 

W plikach Excela właściwe dane przechowywane są w komórkach (ang. *cells*). Komórki można pobrać z wykorzystaniem dwóch metod:
1. Kolumna: litery A..Z, AA..ZZ, ...; wiersz: liczby 1... Przykład: `sheet['A1']`
2. Współrzędne całkowite: wiersz (row) 1.., kolumna (column) 1... W tym celu wykorzystuje się metodę `cell` obiektu `Worksheet`, na przykład: `sheet.row(1,1)` 

Każda komórka jest obiektem klasy `Cell`, której pełną dokumentację znajdziesz na stronie: https://openpyxl.readthedocs.io/en/stable/api/openpyxl.cell.cell.html

Najistotniejszym atrybutem obiektu `Cell` jest atrybut `value`, który przechowuje wartość komórki.

Poniżej przedstawiono kod umożliwiający odwołanie się do komórek oraz wydrukowania ich wartości.


In [8]:
c1 = active_sheet['C1']
print(c1.value)

c2 = active_sheet.cell(row=2, column=3)
print(c2.value)

print(active_sheet.title)

Lewis Hamilton HAM
Valtteri  Bottas BOT
Italy


***
**Zadanie:** Napisz kod, który wypisze wszystkich zwycięzców poszczególnych wyścigów w następującej postaci:

    Australia -> Lewis Hamilton HAM
    China -> Lewis Hamilton HAM

In [9]:
# TODO
sheetnames = wb.sheetnames
for sheet in sheetnames:
    active_sheet = wb[sheet]
    c1 = active_sheet['C1']
    #print("{} -> {}".format(sheet, c1.value))
    print(f"{sheet} -> {c1.value}")

Australia -> Sebastian Vettel VET
China -> Lewis Hamilton HAM
Bahrain -> Sebastian Vettel VET
Russia -> Valtteri  Bottas BOT
Spain -> Lewis Hamilton HAM
Monaco -> Sebastian Vettel VET
Canada -> Lewis Hamilton HAM
Azerbaijan -> Daniel Ricciardo RIC
Austria -> Valtteri  Bottas BOT
Great Britain -> Lewis Hamilton HAM
Hungary -> Sebastian Vettel VET
Belgium -> Lewis Hamilton HAM
Italy -> Lewis Hamilton HAM
Singapore -> Lewis Hamilton HAM
Malaysia -> Max Verstappen VER
Japan -> Lewis Hamilton HAM
United States -> Lewis Hamilton HAM
Mexico -> Max Verstappen VER
Brazil -> Sebastian Vettel VET
Abu Dhabi -> Valtteri  Bottas BOT


In [10]:
for sheet in wb:
    print(sheet.title, ' -> ', sheet['C1'].value)

Australia  ->  Sebastian Vettel VET
China  ->  Lewis Hamilton HAM
Bahrain  ->  Sebastian Vettel VET
Russia  ->  Valtteri  Bottas BOT
Spain  ->  Lewis Hamilton HAM
Monaco  ->  Sebastian Vettel VET
Canada  ->  Lewis Hamilton HAM
Azerbaijan  ->  Daniel Ricciardo RIC
Austria  ->  Valtteri  Bottas BOT
Great Britain  ->  Lewis Hamilton HAM
Hungary  ->  Sebastian Vettel VET
Belgium  ->  Lewis Hamilton HAM
Italy  ->  Lewis Hamilton HAM
Singapore  ->  Lewis Hamilton HAM
Malaysia  ->  Max Verstappen VER
Japan  ->  Lewis Hamilton HAM
United States  ->  Lewis Hamilton HAM
Mexico  ->  Max Verstappen VER
Brazil  ->  Sebastian Vettel VET
Abu Dhabi  ->  Valtteri  Bottas BOT


### Przeglądanie zawartości komórek (cell ranges)

Przeglądanie komórek wpisując ich dokładne adresy (współrzędne) nie jest elastyczne i wystarczające zwłaszcza przy analizie dużych plików danych. Biblioteka `openpyxl` udostępnia zestaw metod, które pozwalają odwołać się do wielu komórek jednocześnie, iterować po nich w pętli i dzięki temu wykonać bardziej złożone operacje.

W bibliotece w klasie `Worksheet` wprowadzono następujące metody
1. `iter_cols(min_col, min_row, max_col, max_row)` - zwraca komórki z podanego zakresu idąc po kolumnach
1. `iter_rows(min_col, min_row, max_col, max_row)` - zwraca komórki z podanego zakresu idąc po wierszach
1. podanie zakresu komórek w notacji A1:B2: `ws['A1:B2']` - analogiczicznie do metody `iter_rows`

Poniżej przykłady poszczególnych metod drukujących wyniki dla trzech pierwszych kierowców:

In [11]:
print('Print values by columns:')
for column in active_sheet.iter_cols(min_col=3, min_row=1, max_col=5, max_row=3):
    print(column)
    for cell in column:
        print(cell.value)

Print values by columns:
(<Cell 'Abu Dhabi'.C1>, <Cell 'Abu Dhabi'.C2>, <Cell 'Abu Dhabi'.C3>)
Valtteri  Bottas BOT
Lewis Hamilton HAM
Sebastian Vettel VET
(<Cell 'Abu Dhabi'.D1>, <Cell 'Abu Dhabi'.D2>, <Cell 'Abu Dhabi'.D3>)
Mercedes
Mercedes
Ferrari
(<Cell 'Abu Dhabi'.E1>, <Cell 'Abu Dhabi'.E2>, <Cell 'Abu Dhabi'.E3>)
1:34:14.062
+3.899s
+19.330s


In [12]:
print('Print values by rows')
for row in active_sheet.iter_rows(min_col=3, min_row=1, max_col=5):
    for cell in row:
        print(cell.value)

Print values by rows
Valtteri  Bottas BOT
Mercedes
1:34:14.062
Lewis Hamilton HAM
Mercedes
+3.899s
Sebastian Vettel VET
Ferrari
+19.330s
Kimi Räikkönen RAI
Ferrari
+45.386s
Max Verstappen VER
Red Bull Racing TAG Heuer
+46.269s
Nico Hulkenberg HUL
Renault
+85.713s
Sergio Perez PER
Force India Mercedes
+92.062s
Esteban Ocon OCO
Force India Mercedes
+98.911s
Fernando Alonso ALO
McLaren Honda
+1 lap
Felipe Massa MAS
Williams Mercedes
+1 lap
Romain Grosjean GRO
Haas Ferrari
+1 lap
Stoffel Vandoorne VAN
McLaren Honda
+1 lap
Kevin Magnussen MAG
Haas Ferrari
+1 lap
Pascal Wehrlein WEH
Sauber Ferrari
+1 lap
Brendon Hartley HAR
Toro Rosso
+1 lap
Pierre Gasly GAS
Toro Rosso
+1 lap
Marcus Ericsson ERI
Sauber Ferrari
+1 lap
Lance Stroll STR
Williams Mercedes
+1 lap
Carlos Sainz SAI
Renault
DNF
Daniel Ricciardo RIC
Red Bull Racing TAG Heuer
DNF


In [13]:
print('Print values by rows using cell range')
for row in active_sheet['C1:E3']:
    for cell in row:
        print(cell.value)

Print values by rows using cell range
Valtteri  Bottas BOT
Mercedes
1:34:14.062
Lewis Hamilton HAM
Mercedes
+3.899s
Sebastian Vettel VET
Ferrari
+19.330s


W metodach `iter_rows` i `iter_cols` można pominąć ograniczenia na min/max kolumny i wiersz jeśli chcemy, aby otrzymać domyślne wartości: od pierwszego wiersza/kolumny do ostatniego wiersza/kolumny.

W poniższym przykładzie wydrukowaną zostaną wynikia dla wszystkich zawodników.

In [14]:
print('Print values by rows with default range')
for row in active_sheet.iter_rows(min_col=3, max_col=5):
    for cell in row:
        print(cell.value)

Print values by rows with default range
Valtteri  Bottas BOT
Mercedes
1:34:14.062
Lewis Hamilton HAM
Mercedes
+3.899s
Sebastian Vettel VET
Ferrari
+19.330s
Kimi Räikkönen RAI
Ferrari
+45.386s
Max Verstappen VER
Red Bull Racing TAG Heuer
+46.269s
Nico Hulkenberg HUL
Renault
+85.713s
Sergio Perez PER
Force India Mercedes
+92.062s
Esteban Ocon OCO
Force India Mercedes
+98.911s
Fernando Alonso ALO
McLaren Honda
+1 lap
Felipe Massa MAS
Williams Mercedes
+1 lap
Romain Grosjean GRO
Haas Ferrari
+1 lap
Stoffel Vandoorne VAN
McLaren Honda
+1 lap
Kevin Magnussen MAG
Haas Ferrari
+1 lap
Pascal Wehrlein WEH
Sauber Ferrari
+1 lap
Brendon Hartley HAR
Toro Rosso
+1 lap
Pierre Gasly GAS
Toro Rosso
+1 lap
Marcus Ericsson ERI
Sauber Ferrari
+1 lap
Lance Stroll STR
Williams Mercedes
+1 lap
Carlos Sainz SAI
Renault
DNF
Daniel Ricciardo RIC
Red Bull Racing TAG Heuer
DNF


In [15]:
print('Print values by rows with default range')
for row in active_sheet['A1':'A1']:
    for cell in row:
        print(cell.value)

Print values by rows with default range
1


In [16]:
for row in active_sheet.iter_rows():
    print(row[2].value) # trzeci element listy, czyli kolumna
    print(row[2].value, ' -> ', row[5].value)

Valtteri  Bottas BOT
Valtteri  Bottas BOT  ->  25
Lewis Hamilton HAM
Lewis Hamilton HAM  ->  18
Sebastian Vettel VET
Sebastian Vettel VET  ->  15
Kimi Räikkönen RAI
Kimi Räikkönen RAI  ->  12
Max Verstappen VER
Max Verstappen VER  ->  10
Nico Hulkenberg HUL
Nico Hulkenberg HUL  ->  8
Sergio Perez PER
Sergio Perez PER  ->  6
Esteban Ocon OCO
Esteban Ocon OCO  ->  4
Fernando Alonso ALO
Fernando Alonso ALO  ->  2
Felipe Massa MAS
Felipe Massa MAS  ->  1
Romain Grosjean GRO
Romain Grosjean GRO  ->  0
Stoffel Vandoorne VAN
Stoffel Vandoorne VAN  ->  0
Kevin Magnussen MAG
Kevin Magnussen MAG  ->  0
Pascal Wehrlein WEH
Pascal Wehrlein WEH  ->  0
Brendon Hartley HAR
Brendon Hartley HAR  ->  0
Pierre Gasly GAS
Pierre Gasly GAS  ->  0
Marcus Ericsson ERI
Marcus Ericsson ERI  ->  0
Lance Stroll STR
Lance Stroll STR  ->  0
Carlos Sainz SAI
Carlos Sainz SAI  ->  0
Daniel Ricciardo RIC
Daniel Ricciardo RIC  ->  0


## Zadania

**Zadanie 1:**

Napisz kod, który wypisze kierowców, którzy co najmniej raz zwyciężyli wyścig GP.

**Zadanie 2:**

Napisz kod, który wypisze ile punktów zdobył Lewis Hamilton.

**Zadanie 3:**

Napisz kod, który wypisze ile punktów zdobył zespół Ferrari.

**Zadanie 4:**

Napisz kod, który wypiszę tabelę wyników na koniec sezonu. W pojedynczym wierszu na konsoli wypisz miejsce, imię i nazwisko kierowcy, sumaryczna liczba punktów.

In [17]:
# Zadanie 1
winners = []
for sheet in wb:
    winners.append(sheet['C1'].value)
    
print(set(winners))

{'Daniel Ricciardo RIC', 'Lewis Hamilton HAM', 'Max Verstappen VER', 'Valtteri  Bottas BOT', 'Sebastian Vettel VET'}


In [18]:
winners = set()
for sheet in wb:
    winners.add(sheet['C1'].value)
winners

{'Daniel Ricciardo RIC',
 'Lewis Hamilton HAM',
 'Max Verstappen VER',
 'Sebastian Vettel VET',
 'Valtteri  Bottas BOT'}

In [19]:
# Zadanie 2
total = 0
for sheet in wb:
    for row in sheet.iter_rows():
        #print(row)
        name = row[2].value
        #print(name)
        if name == 'Lewis Hamilton HAM':
            #print(row[5].value)
            total += int(row[5].value)

print(total)

363


In [20]:
# Zadanie 3
total = 0
for sheet in wb:
    for row in sheet.iter_rows():
        #print(row)
        team_name = row[3].value
        #print(team_name)
        if team_name == 'Ferrari':
            #print(row[5].value)
            total += int(row[5].value)

print(total)

522


In [67]:
# Zadanie 4
# Napisz kod, który wypiszę tabelę wyników na koniec sezonu. 
# W pojedynczym wierszu na konsoli wypisz miejsce, imię i nazwisko kierowcy, sumaryczna liczba punktów.
scores = {}
for sheet in wb:
    for row in sheet.iter_rows():
        name = row[2].value
        scores.setdefault(name, 0)
        scores[name] += int(row[5].value)

#print(scores)

#import operator
#sorted_x = sorted(scores.items(), key=operator.itemgetter(1))
sorted_d = sorted(scores.items(), key=lambda x: x[1], reverse=True)
print(sorted_d)

[('Lewis Hamilton HAM', 363), ('Sebastian Vettel VET', 317), ('Valtteri  Bottas BOT', 305), ('Kimi Räikkönen RAI', 205), ('Daniel Ricciardo RIC', 200), ('Max Verstappen VER', 168), ('Sergio Perez PER', 100), ('Esteban Ocon OCO', 87), ('Carlos Sainz SAI', 54), ('Felipe Massa MAS', 43), ('Nico Hulkenberg HUL', 43), ('Lance Stroll STR', 40), ('Romain Grosjean GRO', 28), ('Kevin Magnussen MAG', 19), ('Fernando Alonso ALO', 17), ('Stoffel Vandoorne VAN', 13), ('Jolyon Palmer PAL', 8), ('Daniil Kvyat KVY', 5), ('Pascal Wehrlein WEH', 5), ('Antonio Giovinazzi GIO', 0), ('Marcus Ericsson ERI', 0), ('Jenson Button BUT', 0), ('Paul di Resta DIR', 0), ('Pierre Gasly GAS', 0), ('Brendon Hartley HAR', 0)]
