# Języki programowania w analityce danych - python

# Laboratoria 12.01.2025

# Pandas - struktury danych

## `Series`

`Series` to jednowymiarowa struktura danych, która jest po prostu indeksowanym wektorem (jednowymiarową tablicą). Tworzymy serię za pomocą konstruktora `pandas.Series(data,index=indexes)`, gdzie `data` to elementy tworzonej tablicy, a `indexes` to lista (jednowymiarowa tablica, wektor) indeksów przypisanych do elementów. Przypisanie indeksu do określonego elementu jest stałe i nie zmieni się, chyba że wyraźnie wymusimy zmianę indeksacji (więcej na ten temat później). Możliwe typy elementów serii to:

- pojedyncza liczba - w tym przypadku podanie indeksów jest obowiązkowe. Utworzony wektor będzie składał się z tylu powtórzeń podanej liczby, ile podamy indeksów.

In [1]:
import pandas as pd

s=pd.Series(7,index=['a','b','c','d'])
print(s)

a    7
b    7
c    7
d    7
dtype: int64


- jednowymiarowa tablica `ndarray` lub inny jednowymiarowy indeksowany typ tablicowy (np. lista) - podawanie indeksów jest opcjonalne. W tym przypadku wartością domyślną jest `index=[0,1,...,len(data)-1]`. Jeśli określimy `index` ręcznie, jego długość musi być równa liczbie elementów w tablicy `data`, ale nie muszą to być koniecznie liczby; ponadto indeksy mogą się powtarzać (ale nie jest to zalecane). Typ danych zostanie wybrany tak, aby obejmował wszystkie typy poszczególnych elementów.

In [2]:
import numpy as np

data=np.random.random(5)

t=pd.Series(data)
print(t)

0    0.774746
1    0.593530
2    0.638739
3    0.091126
4    0.938308
dtype: float64


In [3]:
t1=pd.Series(data,index=['a','b','c','d','e'])
print(t1)

a    0.774746
b    0.593530
c    0.638739
d    0.091126
e    0.938308
dtype: float64


- słownik - podanie indeksów jest opcjonalne. Domyślnie `index` będzie listą kluczy słownika w kolejności danych w słowniku (lub w kolejności leksykograficznej kluczy danych w słowniku - starsze wersje Pythona). Możemy określić indeksy ręcznie a jeśli zaczniemy podawać indeksy spoza kluczy słownika, zostanie im przypisane `NaN` -  *not-a-number* (brak danych).


In [4]:
d={'tarantula':'Kubuś','kot':'Mruczek','pies':'Rex'}

sd=pd.Series(d)
print(sd)

tarantula      Kubuś
kot          Mruczek
pies             Rex
dtype: object


In [5]:
sd1=pd.Series(d,index=['kot','pies','rybka','papuga'],name='Zwierzęta')
print(sd1)

kot       Mruczek
pies          Rex
rybka         NaN
papuga        NaN
Name: Zwierzęta, dtype: object


Typ `Series` dopuszcza pewne metody tablicy i słownika w tym samym czasie. Na przykład, jeśli chcemy odwołać się do określonego elementu szeregu, możemy to zrobić wywołując element po indeksie porządkowym, jak w tablicy, pamiętając, że pierwszy element ma indeks 0, lub wywołując konkretny indeks z listy `index` (jak w słowniku).

In [6]:
print(sd1[0])
print(sd1['kot'])

Mruczek
Mruczek


In [7]:
sp=pd.Series(['a','b','c'],index=[1,2,3])
print(sp)

1    a
2    b
3    c
dtype: object


In [8]:
sp[1] #wywołanie po indeksie z listy index

'a'

In [9]:
sp.iat[0] #wywołanie po indeksie porządkowym

'a'

In [10]:
sp.iloc[0] #również wywołanie po indeksie porządkowym

'a'

In [11]:
print(sd1[1:3])

pies     Rex
rybka    NaN
Name: Zwierzęta, dtype: object


Działają również podstawowe operacje znane nam z operacji na tablicach:

- `+,-` dodawanie/odejmowanie szeregu do/od szeregu, a także pojedynczych obiektów zgodnego typu do/od elementu (elementów) szeregu (dodawanie liczby, konkatenacja stringów),
- `*, /` mnożenie/dzielenie szeregów miejsce w miejsce lub przez liczbę dla `dtype` numerycznego.

Wybrane podstawowe metody dla typu `Series` (przykładowy szereg nazywa się `sd1`):

- `sd1.dtype` - typ danych w szeregu,
- `sd1.index` - zwraca `index` lub w przypadku `sd1.index[]` indeksy wybranych elementów,
- `sd1.hasnans` - zwraca `True`, jeśli szereg zawiera co najmniej jedną brakującą wartość `NaN`
- `sd1.iat[]` i `sd1.iloc[]` - wywoływane tylko przez indeks porządkowy (podanie indeksu z `index` nie zadziała),
- `sd1.loc[]` - wywoływane tylko przez indeks z `index`,
- `sd1.is_monotonic` - zwraca `True`, jeśli szereg jest monotoniczny,
- `sd1.is_monotonic_decreasing` - zwraca `True`, jeśli szereg jest malejący,
- `sd1.is_monotonic_increasing` - zwraca `True`, jeśli szereg jest rosnący,
- `sd1.is_unique` - zwraca `True`, jeśli szereg ma wszystkie wyrazy różne,
- `sd1.name` - zwraca nazwę nadaną szeregowi, można również użyć do nadania nazwy,
- `sd1.nbytes` - zwraca liczbę bajtów (B) zajmowanych przez szereg,
- `sd1.size` - zwraca liczbę elementów w szeregu (w tym elementów `NaN`),
- `sd1.values` - zwraca `data` - dane z szeregu w formie tablicy `ndarray`.

### Ćwiczenie 1.
Utwórz trzy szeregi: `s1` zawierający liczby całkowite od 1 do 20, `s2` zawierający liczby całkowite od 5 do 15 indeksowane automatycznie i `a2` zawierający liczby od 5 do 15 indeksowane kolejnymi literami alfabetu (wskazówka: użyj `string.ascii_lowercase` z biblioteki `string`).

In [16]:
#TYPE YOUR CODE BELOW

import string

s1=pd.Series(range(1,21))
s2=pd.Series(range(5,16))

a2=pd.Series(range(5,16),index=list(string.ascii_lowercase[:11]))

print(s1)
print(s2)
print(a2)

0      1
1      2
2      3
3      4
4      5
5      6
6      7
7      8
8      9
9     10
10    11
11    12
12    13
13    14
14    15
15    16
16    17
17    18
18    19
19    20
dtype: int64
0      5
1      6
2      7
3      8
4      9
5     10
6     11
7     12
8     13
9     14
10    15
dtype: int64
a     5
b     6
c     7
d     8
e     9
f    10
g    11
h    12
i    13
j    14
k    15
dtype: int64


### Ćwiczenie 2.
Utwórz listę `l1` zawierającą elementy szeregu `s1` z indeksami parzystymi i listę `l2` zawierającą te elementy szeregu `a2`, które są indeksowane samogłoskami.

In [21]:
#TYPE YOUR CODE BELOW

l1=[s1[x] for x in s1.index if x%2==0]
l2=[a2[x] for x in a2.index if x in 'aeiouy']

print(l1)
print(l2)

[1, 3, 5, 7, 9, 11, 13, 15, 17, 19]
[5, 9, 13]


### Ćwiczenie 3.
Ze słownika `dict1` utwórz szereg `sd1` zawierający dwa dodatkowe indeksy oznaczające gatunki zwierząt. Wyświetl szereg `sd1`, a następnie uzupełnij go o brakujące imiona zwierząt.

In [34]:
dict1={'pies':'Rex','kot':'Mruczek','papuga':'Ara','rybka':'Nemo','żółw':'Oldball'}

#TYPE YPUR CODE BELOW

idx=list(dict1.keys())
idx.extend(['tarantula','wąż'])

sd1=pd.Series(dict1,index=idx)
print(sd1)

sd1['tarantula']='Kubuś'
sd1['wąż']='Gryzek'

print(sd1)

pies             Rex
kot          Mruczek
papuga           Ara
rybka           Nemo
żółw         Oldball
tarantula        NaN
wąż              NaN
dtype: object
pies             Rex
kot          Mruczek
papuga           Ara
rybka           Nemo
żółw         Oldball
tarantula      Kubuś
wąż           Gryzek
dtype: object


## `DataFrame`

`DataFrame` to dwuwymiarowa struktura danych przypominająca dwuwymiarową tablicę, w której każda kolumna może być innego typu. Ramka jest tworzona za pomocą konstruktora

`pandas.DataFrame(data,index=index,columns=kolumny)`

gdzie `index` jest listą indeksów wierszy, a `columns` jest listą indeksów kolumn. Dozwolone typy danych to:

- słownik szeregów lub słownik słowników - podanie indeksów jest opcjonalne: klucze „zewnętrznego” słownika będą indeksami kolumn - `columns`, podczas gdy indeksy wierszy `index` będą sumą indeksów (kluczy) szeregów (słowników).

In [35]:
s1=pd.Series([1,2,3],index=['a','b','c'])
s2=pd.Series([2,2,1,1],index=['b','c','d','e'])

dic1={'series1':s1,'series2':s2}

df=pd.DataFrame(dic1)
df

Unnamed: 0,series1,series2
a,1.0,
b,2.0,2.0
c,3.0,2.0
d,,1.0
e,,1.0


Możemy sami nadać jeden z indeksów (lub oba): jeśli podajemy indeksy wierszy lub kolumn spoza istniejących indeksów (kluczy), to puste wiersze lub kolumny o podanym przez nas indeksie zostaną dodane do ramki, natomiast klucze (indeksy) przez nas nie określone zostaną pominięte.

In [36]:
df1=pd.DataFrame(dic1,index=['b','c','f'],columns=['series2','series3'])
print(df1)

   series2 series3
b      2.0     NaN
c      2.0     NaN
f      NaN     NaN


- słownik tablic jednowymiarowych lub słownik list o długości $n$ - podanie `index` jest opcjonalne; lista `columns` zostanie utworzona z kluczy słownika, podczas gdy lista `index` będzie liczbami całkowitymi od 0 do $n-1$. Jeśli określimy indeksy ręcznie, lista `index` musi mieć długość $n$. `columns` możemy wybrać według własnego uznania.

In [37]:
A=[1,2,3,4]
B=['a','b','c','d']

dic2={'list1':A,'list2':B}

df2=pd.DataFrame(dic2)

from IPython.display import display

display(df2) #w przypadku DataFrame __repr__ jest ładniejszy od __str__

Unnamed: 0,list1,list2
0,1,a
1,2,b
2,3,c
3,4,d


In [38]:
df3=pd.DataFrame(dic2,columns=['list1','list3'],index=['i','ii','iii','iv'])
display(df3)

Unnamed: 0,list1,list3
i,1,
ii,2,
iii,3,
iv,4,


- lista słowników - podanie indeksu `index` jest opcjonalne; lista `columns` będzie listą kluczy obu słowników, a lista `index` będzie miała tyle elementów, ile jest słowników na liście (kolejne liczby całkowite zaczynając od 0). W przypadku bardziej złożonych słowników otrzymamy ramkę multiindeksowaną. Podobnie jak poprzednio możemy ręcznie określić `columns`, aby wybrać tylko niektóre słowniki. Ręcznie podana lista `index` musi mieć tyle elementów, ile jest słowników.

In [39]:
dic3={'cat':'Fluffy','dog':'Rex'}
dic4={'a':10,'b':20}

dane1=[dic3,dic4]

df4=pd.DataFrame(dane1)
display(df4)

Unnamed: 0,cat,dog,a,b
0,Fluffy,Rex,,
1,,,10.0,20.0


In [40]:
df5=pd.DataFrame(dane1,index=[1,2],columns=['b','cat'])
display(df5)

Unnamed: 0,b,cat
1,,Fluffy
2,20.0,


- pojedynczy szereg - lista `columns` będzie miała długość 1, lista `index` będzie równa liście `index` szeregu.
- słownik indeksowany krotką - sposób ręcznego, kontrolowanego tworzenia ramki multiindeksowanej:

In [41]:
dic5={('A','A'):1,('A','B'):2}
dic6={('A','A'):3,('A','B'):4}

dic7={('a','a'):dic5,('a','b'):dic6}

df6=pd.DataFrame(dic7)
display(df6)

Unnamed: 0_level_0,Unnamed: 1_level_0,a,a
Unnamed: 0_level_1,Unnamed: 1_level_1,a,b
A,A,1,3
A,B,2,4


Podstawowe operacje na ramkach danych (przykładową ramką jest `df`):

- `df['name']` - wywołanie konkretnej kolumny; `'name'` musi być elementem listy `columns`,
- `df['name']=....` - zmiana istniejącej kolumny lub utworzenie (dodanie) nowej kolumny o indeksie `'name'`; nowa kolumna musi mieć wymiary zgodne z istniejącymi, można również podać jedną wartość, która wypełni całą kolumnę,
- `+,-,*,/` - operacje na kolumnach (wierszach, pojedynczych elementach) zgodnych typów danych wykonywane miejsce po miejscu.

Podstawowe metody dla typu `DataFrame`:

- `df.T` - zamiana rolami wierszy z kolumnami (transpozycja)
- `df.empty` - `True/False`, zwraca `True` jeśli ramka jest pusta,
- `df.at[index,column]` - wywołanie pojedynczych danych z ramki; `index` musi pochodzić z listy `index`, podobnie `column` z listy `columns`,
- `df.iat[n,m]` - zwraca element w `n`-tym wierszu i `m`-tej kolumnie (wywołanie przez indeksy porządkowe),
- `df.axes` - zwraca informacje o osiach: indeksy i typ danych,
- `df.dtypes` - typy danych w poszczególnych kolumnach,
- `df.index` - zwraca `index`
- `df.columns` - zwraca `columns`
- `df.loc[index]` - wywołuje wiersz według indeksu z `index`,
- `df.iloc[n]` - wywołuje wiersz według indeksu porządkowego,
- `df.ndim` - zwraca liczbę wymiarów,
- `df.shape` - zwraca wymiary ramki danych (wiersze na kolumny),
- `df.size` - zwraca liczbę elementów w ramce (w tym elementy `NaN`),
- `df.values` - zwraca dane z ramki w formie macierzy `ndarray`.

### Ćwiczenie 4.
Utwórz dwa szeregi: `s1` zawierającą liczby całkowite od 1 do 20 oraz `s2` zawierającą liczby całkowite od 5 do 15, obydwa indeksowane automatycznie (ćwiczenie 1). Następnie utwórz szeregi `s3`,`s4` i `s5` będące odpowiednio sumą `s1+s2`, różnicą `s1-s2` i ilorazem `s1/s2` dwóch wyjściowych szeregów.

Utwórz ramkę danych zawierającą szeregi `s1, s2, s3, s4` i `s5`. Dodaj do ramki kolumnę, która jest iloczynem pierwszych dwóch kolumn i dodatkowy wiersz, który jest sumą pierwszych trzech wierszy.

In [46]:
#TYPE YOUR CODE BELOW

s1=pd.Series(range(1,21))
s2=pd.Series(range(5,16))

s3=s1+s2
s4=s1-s2
s5=s1/s2

dct={'s1':s1,'s2':s2,'s3':s3,'s4':s4,'s5':s5}
dfr=pd.DataFrame(dct)

display(dfr)

dfr['s6']=dfr['s1']*dfr['s2']
display(dfr)

dfr.loc[len(df.)]=dfr.iloc[0]+dfr.iloc[1]+dfr.iloc[2]
display(dfr)

Unnamed: 0,s1,s2,s3,s4,s5
0,1,5.0,6.0,-4.0,0.2
1,2,6.0,8.0,-4.0,0.333333
2,3,7.0,10.0,-4.0,0.428571
3,4,8.0,12.0,-4.0,0.5
4,5,9.0,14.0,-4.0,0.555556
5,6,10.0,16.0,-4.0,0.6
6,7,11.0,18.0,-4.0,0.636364
7,8,12.0,20.0,-4.0,0.666667
8,9,13.0,22.0,-4.0,0.692308
9,10,14.0,24.0,-4.0,0.714286


Unnamed: 0,s1,s2,s3,s4,s5,s6
0,1,5.0,6.0,-4.0,0.2,5.0
1,2,6.0,8.0,-4.0,0.333333,12.0
2,3,7.0,10.0,-4.0,0.428571,21.0
3,4,8.0,12.0,-4.0,0.5,32.0
4,5,9.0,14.0,-4.0,0.555556,45.0
5,6,10.0,16.0,-4.0,0.6,60.0
6,7,11.0,18.0,-4.0,0.636364,77.0
7,8,12.0,20.0,-4.0,0.666667,96.0
8,9,13.0,22.0,-4.0,0.692308,117.0
9,10,14.0,24.0,-4.0,0.714286,140.0


Unnamed: 0,s1,s2,s3,s4,s5,s6
0,1.0,5.0,6.0,-4.0,0.2,5.0
1,2.0,6.0,8.0,-4.0,0.333333,12.0
2,3.0,7.0,10.0,-4.0,0.428571,21.0
3,4.0,8.0,12.0,-4.0,0.5,32.0
4,5.0,9.0,14.0,-4.0,0.555556,45.0
5,6.0,10.0,16.0,-4.0,0.6,60.0
6,7.0,11.0,18.0,-4.0,0.636364,77.0
7,8.0,12.0,20.0,-4.0,0.666667,96.0
8,9.0,13.0,22.0,-4.0,0.692308,117.0
9,10.0,14.0,24.0,-4.0,0.714286,140.0


# Pandas - import/eksport danych

## Zapisywanie bezpośrednio do pliku

Każda struktura danych (i nie tylko) utworzona w Pythonie może zostać zapisana bezpośrednio do pliku za pomocą funkcji `pickle`. Piklowanie konwertuje dane na ciąg znaków (serializacja), z którego skrypt Pythona może je bezpośrednio odtworzyć, bez konieczności konwersji. Jeśli mamy strukturę `Series` lub `DataFrame`, funkcja piklująca wygląda następująco:

`structure.to_pickle('access_path', compression='infer', protocol=4)`

gdzie:

- `'access_path'` - ścieżka, pod którą chcemy zapisać plik wraz z nazwą pliku. Jeśli pozostawimy domyślną opcję `compression='infer'` i chcemy od razu skompresować plik, podajemy odpowiednie rozszerzenie: ` .gzip, .bz2, .zip, .xz, .tar`. Jeśli określimy inne rozszerzenie pliku (popularne opcje ` .txt, .pickle`) lub nie określimy rozszerzenia wcale (Windows wymaga określenia rozszerzenia), plik nie zostanie skompresowany.
- `compression` - typ kompresji używany podczas tworzenia pliku. Dostępne opcje:
    - `'infer'` (domyślnie) - typ kompresji (jeśli istnieje) zostanie wybrany po rozszerzeniu pliku,
    - `'gzip'`, `'bz2'`, `'zip'`, `'xz'` itd. - określony typ kompresji,
    - `None` - brak kompresji.
- `protocol` (domyślnie: najwyższy dostępny) - typ protokołu używany do serializacji danych. Dostępne opcje: `0,1,2,3,4,5`. Wersja 4 działa od Pythona 3.4, wersja 3 od 3.0, wersja 2 od 2.3, 1 i 0 zawsze działają. Im wyższa wersja, tym bardziej wydajna serializacja (możliwość piklowania dużych obiektów, optymalizacja dla typu danych itp.). Jeśli podajemy liczbę ujemną, zostanie użyty najwyższy dostępny protokół.

Funkcja odczytu piklowanej struktury danych biblioteki Pandas to:

`pandas.read_pickle('ścieżka dostępu', compression='infer')`

Przy domyślnych ustawieniach (`compression='infer'`), jeśli plik został skompresowany, zostanie on rozpakowany przy użyciu metody wybranej na podstawie jego rozszerzenia. Jeśli plik nie ma rozszerzenia i wiemy, że został skompresowany przy użyciu określonej metody, określamy metodę. Jeśli plik nie został skompresowany, ale ma rozszerzenie sugerujące kompresję (jest to możliwe, np. gdy plik został piklowany z rozszerzeniem `.zip` z ustawieniem `compression=None`, ale ogólnie nie jest to zalecane), należy określić `compression=None`.

Typ struktury będzie dokładnie taki sam jak przed piklowaniem, tj. jeśli piklowaliśmy szereg `Series`, to po odczytaniu otrzymamy typ `Series`. Jeśli chcemy sprawdzić typ zwróconej struktury, używamy funkcji `type()`. Nie jest dobrym pomysłem wyświetlanie danych o nieznanym rozmiarze i typie na ekranie.

Przykład - piklowanie szeregu i ramki danych:

In [None]:
import pandas as pd
import pickle

series=pd.Series(range(0,100),index=range(1,101))
frame=pd.DataFrame({'col1':{'w1':'a','w2':'b','w3':'c'},'col2':{'w1':1,'w2':2,'w3':3}})

series.to_pickle('data01.zip')
frame.to_pickle('data02.zip')

Odczyt pikli:

In [None]:
import pandas as pd
import pickle

data1=pd.read_pickle('data01.zip')
data2=pd.read_pickle('data02.zip')
    
print(type(data1)) #sprawdzanie typu
print(type(data2))

display(data2)

## Import/eksport z pliku csv

Biblioteka Pandas ma wbudowane funkcje importowania/eksportowania danych w różnych formatach do odpowiednich struktur (`Series`, `DataFrame`). Obsługiwane typy:

- pliki tekstowe typu `coma separated values` (` .csv`),
- pliki tekstowe typu `fixed-width` (dane w każdym wierszu stałej kolumny mają dokładnie taką samą liczbę znaków),
- arkusze kalkulacyjne Excel (` .xls, .xlsx`),
- bazy danych SQL (` .sql`),
- dane w formatach JSON (` .json`), HTML (` .html`), HDF4 i HDF5 (` .hdf, .hdf5, .h5, .hdf4, .h4`),
- pliki binarne w formacie Feather (` .feather`),
- dane w formacie Apache Parquet (` .parquet`),
- dane ładowane bezpośrednio z Google BigQuery,
- pliki wyjściowe programów SAS (` .sas`) i programów STATA (` .ado, .gph`).

Aby zaimportować strukturę danych z pliku csv, używamy funkcji

`pandas.read_csv(filepath_or_buffer, *, sep=<no_default>, delimiter=None, header='infer', names=<no_default>, index_col=None, usecols=None, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, skipfooter=0, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=<no_default>, skip_blank_lines=True, parse_dates=None, infer_datetime_format=<no_default>, keep_date_col=<no_default>, date_parser=<no_default>, date_format=None, dayfirst=False, cache_dates=True, iterator=False, chunksize=None, compression='infer', thousands=None, decimal='.', lineterminator=None, quotechar='"', quoting=0, doublequote=True, escapechar=None, comment=None, encoding=None, encoding_errors='strict', dialect=None, on_bad_lines='error', delim_whitespace=<no_default>, low_memory=True, memory_map=False, float_precision=None, storage_options=None, dtype_backend=<no_default>)`

Poszczególne opcje funkcji `pandas.read_csv` pozwalają na import niestandardowo sformatowanych lub nawet nieprawidłowo sformatowanych plików `.csv`, od razu z obsługą znalezionych w pliku błędów, braków danych, parsowaniem dat itp.

Ważniejsze opcje:
- `filepath_or_buffer` - ścieżka do pliku lub adres URL, np. `'file://localhost/path/to/table.csv'`,
- `sep`, `delimiter` - string, domyślnie `','`; separator kolumnowy użyty w importowanym pliku. Jeśli separator w pliku jest nietypowy (np. tabulator lub spacja), Python może go wykryć automatycznie (przed zrzuceniem do struktury danych Python analizuje plik csv za pomocą funkcji `csv.Sniffer`), więc w 90% przypadków można bezpiecznie pozostawić tę opcję jako domyślną z ustawieniem `engine='python'`.
- `header` - `None`, `'infer'`, liczba całkowita lub ich lista, domyślnie `'infer'`; w przypadku pojedynczej liczby jest to numer wiersza pliku `.csv` zawierającego nazwy (nagłówki) kolumn. Zrzucanie pliku do struktury danych rozpocznie się od tego wiersza — poprzednie zostaną zignorowane. Uwaga: `header=0` oznacza, że pierwszy wiersz pliku zawiera nazwy kolumn. Jeśli w pliku w ogóle nie ma nazw kolumn, należy określić `header=None`. `header='infer'` wykrywa tę różnicę automatycznie i ustawia 0 lub `None`. W przypadku danych multiindeksowanych określamy listę numerów wierszy zawierających indeksy w kolejności od ogólnego do szczegółowego.
- `names` - lista, tablica jednowymiarowa; lista nowych nazw kolumn (można również dodawać puste kolumny). Jeśli plik nie zawierał nazw kolumn i chcemy je przypisać za pomocą tej opcji, powinniśmy ustawić `header=None` zamiast opcji domyślnej. Jeśli chcemy nadpisać istniejące nazwy, powinniśmy ustawić `header=n`, gdzie `n` jest numerem wiersza zawierającym bieżące nazwy kolumn w pliku.
- `index_col` - liczba, lista liczb lub `False`; numer kolumny zawierający indeksy wierszy (lub lista takich kolumn w przypadku danych multiindeksowanych), jeśli plik zawiera taką kolumnę.
- `usecols` - lista, tablica jednowymiarowa; numery porządkowe lub nazwy kolumn, które chcemy zaimportować do struktury (jeśli plik ma takie nazwy kolumn lub nadaliśmy nazwy opcją `names`). Używamy w sytuacji, gdy nie chcemy importować wszystkich kolumn a jedynie wybrane.
- `dtype` - dictionary; wymuszanie typów danych w kolumnach. Kluczami są nazwy kolumn lub ich numery porządkowe.
- `engine` - `'c'`,`'python'` lub `'pyarrow'`; wybór parsera. Parser C jest szybszy, ale w przypadku pliku `.csv` z nietypowymi separatorami lub innymi problemami polecam parser Pythona. Parser `'pyarrow'` jest na razie eksperymentalny.
- `converters` - słownik funkcji konwertujących wartości w poszczególnych kolumnach. Kluczami są nazwy kolumn lub ich numery porządkowe.
- `true_values` - lista wartości, które należy rozumieć jako `True`
- `false_values` - lista wartości, które należy rozumieć jako `False`
- `skipinitialspace=True/False` - często w źle sformatowanych plikach `.csv` po przecinku czy innym znaku oddzielającym kolumny znajduje się spacja. Ustawienie `True` spowoduje, że zostanie ona pominięta podczas zrzucania danych do kolumn (dane nie będą w formie `' text'`, ale `'text'`).
- `skiprows` - lista, liczba lub funkcja; lista numerów wierszy lub liczba wierszy (licząc od góry), które zostaną pominięte podczas importowania danych.
- `skipfooter` - liczba wierszy, które zostaną pominięte, licząc od dołu pliku.
- `nrows` - liczba; liczba wierszy, które zostaną zaimportowane (funkcja przydatna przy zrzucaniu pliku po kawałku).
- `na_values` - lista stringów lub słownik; lista wartości, które mają być rozumiane jako brak danej `NaN`. W przypadku podania słownika, w którym kluczami są nazwy kolumn możemy ustawić osobne listy dla każdej kolumny.
- `keep_default_na=True/False` - jeżeli `True`, to zawsze stringi `‘’, ‘#N/A’, ‘#N/A N/A’, ‘#NA’, ‘-1.#IND’, ‘-1.#QNAN’, ‘-NaN’, ‘-nan’, ‘1.#IND’, ‘1.#QNAN’, ‘N/A’, ‘NA’, ‘NULL’, ‘NaN’, ‘n/a’, ‘nan’, ‘null’` będą rozumiane jako `NaN`.
- `na_filter=True/False` - automatyczne wykrywanie braku danych `NaN` (domyślne i z listy `na_values`).
- `skip_blank_lines=True/False` - jeżeli `True` puste wiersze zostaną pominięte zamiast wypełnienia `NaN`.
- `parse_dates` - `True/False`, lista kolumn (po nazwach lub indeksach), lista list albo słownik. Automatyczne wykrywanie daty:
    - `True` - parser wyszuka daty w nazwach wierszy i kolumn,
    - lista `[...]` indeksów kolumn - elementy tych kolumn zostaną potraktowane jako daty,
    - lista list `[[...]]` indeksów kolumn - kolumny podane w ,,podwójnej'' liście zostaną połączone w jedną kolumnę daty (użyteczne w przypadku, gdy w oryginalnych danych jedna kolumna to dzień, druga miesiąc a trzecia to rok),
    - słownik `{'nazwa':[...]}` dane z kolumn z listy zostaną połączone w datę i powstała kolumna zostanie nazwana `nazwa`.
    

- `keep_date_col=True/False` - jeżeli `True`, to przy parsowaniu daty z kilku kolumn w jedną zachowane zostaną oryginalne kolumny,
- `date_format` - string formatujący datę, np.`'%d.%m.%Y'`. Najlepie używać razem z `dayfirst=True`.

- `dayfirst=True/False` - włącza/wyłącza format daty DD/MM,


- `compression` - automatyczne rozpakowywanie pliku przed importem; do wyboru `‘infer’, ‘gzip’, ‘bz2’, ‘zip’, ‘xz’, None`,
- `thousands` - string; postać separatora tysięcznego w importowanych danych,
- `decimal` - string; postać separatora dziesiętnego w importowanych danych; domyślnie `'.'`,
- `lineterminator` - znak końca linii w importowanych danych; działa wyłącznie z parserem C,
- `quotechar` - znak początku/końca cytatu (wszelkie znaki formatujące wewnątrz cytatu zostaną zignorowane)

- `comment` - znak początku komentarza w importowanym pliku. Zawartość linii po tym znaku zostanie zignorowana.
- `encoding` - typ kodowania przy odczycie pliku (domyślnie `'utf-8'`),
- `encoding_errors` - sposób obsługi błędów kodowania; do wyboru m.in. `'strict'` - wyrzuca błąd, `'ignore'` - całkowicie pomija, `'replace'` - zastępuje nieznany znak przez `?`.
- `dialect` - możliwość wyboru jednego ze standardów znaków specjalnych (separator kolumn, cytat itp.) z biblioteki `csv.Dialect`,
- `on_bad_lines` -  do wyboru `'error'`- w przypadku pliku csv z błędnymi wierszami (więcej separatorów kolumnowych niż kolumn) plik nie zostanie zaimportowany do struktury i wyświetli się komunikat błędu, `'warn'` - błędne wiersze zostaną pominięte i struktura danych zostanie utworzona, ale wyświetli się ostrzeżenie, `'skip'` - błędne wiersze zostaną pominięte i struktura danych zostanie utworzona bez żadnych dodatkowych informacji.



Do eksportu danych ze struktury danych (`DataFrame` lub `Series`) do pliku csv używamy funkcji

`struktura.to_csv(path_or_buf=None, *, sep=',', na_rep='', float_format=None, columns=None, header=True, index=True, index_label=None, mode='w', encoding=None, compression='infer', quoting=None, quotechar='"', lineterminator=None, chunksize=None, date_format=None, doublequote=True, escapechar=None, decimal='.', errors='strict', storage_options=None)`

gdzie:

- `path_or_buf` - ścieżka dostępu,
- `sep, decimal, quoting, doublequote, quotechar, escapechar` - jak wyżej,
- `na_rep` - string; reprezentacja braku danych `NaN`,
- `float_format` - string formatujący zmienne zmiennoprzecinkowe,
- `columns` - lista kolumn do eksportu,
- `header` - `True/False` lub lista stringów; spowoduje zapis nazw kolumn w pierwszej linii pliku csv,
- `index=True/False` - `True` spowoduje zapis do csv kolumny zawierającej indeksy wierszy,
- `index_label` - opcjonalna nazwa dla kolumny indeksów wierszy,
- `mode` - tryb zapisu do pliku, domyślnie `'w'`; do wyboru `'w'` - skasowanie/utworzenie i zapis, `'x'` - jeżeli plik już istniał, nie zostanie nadpisany, `'a'` - tryb dopisywania do istniejącego pliku.
- `encoding` - wybór kodowania,
- `compression` - wybór rodzaju kompresji (jak wyżej),
- `lineterminator` - string; wybór znaku końca linii - domyślnie `os.linesep`, czyli znak odpowiedni dla systemu operacyjnego,
- `chunksize` - liczba lub `None`; liczba wierszy eksportowanych "na raz" (opcja dla dużych zbiorów danych),
- `date_format` - string formatujący dla obiektów typu `datetime`, czyli daty i godziny,
- `errors` - obsługa błędów formatowania.

### Ćwiczenie 6.
Zaimportuj plik `good.csv` do ramki danej wyglądającej jak poniżej:
```
            clients  turnover  profit
date                                 
2019-05-07       20  1034.32   245.93
2019-05-08       32  2054.43   543.23
2019-05-09       19  1042.56   234.99
2019-05-10       24  2450.42   482.24
2019-05-11       42  3010.86   732.13
2019-05-12       53  4529.34  1009.54
2019-05-13       25  1358.60   358.64
2019-05-14       19   934.45   289.13
2019-05-15       36  2874.84   523.49
2019-05-16       22  1873.12   346.97
2019-05-17       36  3010.11   704.21
2019-05-18       48  3722.13   989.06
```

In [None]:
#TYPE YOUR CODE BELOW


### Ćwiczenie 6A (dla zaawansowanych).
Zaimportuj plik `bad.csv` do struktury danych wyglądającej jak poniżej:
```
	         clients "M,P"  turnover "M,P"  profit "M,P"
date                                              
2019-05-07             20        1034.32        245.93
2019-05-08             32        2054.43        543.23
2019-05-09             19        1042.56        234.99
2019-05-10             24        2450.42        482.24
2019-05-11             42        3010.86        732.13
2019-05-12             53        4529.34       1009.54
2019-05-13             25        1358.60        358.64
2019-05-14             19         934.45        289.13
2019-05-15             36        2874.84        523.49
2019-05-16             22        1873.12        346.97
2019-05-17             36        3010.11        704.21
2019-05-18             48        4722.13       1289.06
```

In [None]:
#TYPE YOUR CODE BELOW


## Import/eksport z arkusza kalkulacyjnego

Odczyt danych z arkusza kalkulacyjnego najczęściej jest dużo mniej kłopotliwy, niż z pliku csv. Używamy do tego funkcji

`pandas.read_excel(io, sheet_name=0, *, header=0, names=None, index_col=None, usecols=None, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, parse_dates=False, date_parser=<no_default>, date_format=None, thousands=None, decimal='.', comment=None, skipfooter=0, storage_options=None, dtype_backend=<no_default>, engine_kwargs=None)`

Ważniejsze opcje importu:

- `io` - string; ścieżka dostępu do pliku Excela lub URL,
- `sheet_name` - string, liczba lub lista; nazwa (nazwy) lub liczba (liczby) porządkowe arkuszy w pliku, które chcemy zaimportować. Domyślnie 0 (pierwszy arkusz). W przypadku podania większej liczby arkuszy otrzymamy słownik ramek danych.
- `header` - liczba lub lista liczb; numer wiersza zawierającego indeksy kolumn (jak przy imporcie csv)
- `names` - lista nazw kolumn (jak przy imporcie z csv),
- `index_col` - indeksy kolumny (kolumn) zawierające indeksy wierszy,
- `usecols` - lista nazw lub indeksów kolumn do zaimportowania,
- `dtype` - lista lub słownik wymuszonych typów danych dla kolumn,
- `engine` - do wyboru: `‘openpyxl’`, `‘calamine’`, `‘odf’`, `‘pyxlsb’`, `‘xlrd’`, domyślnie `None`,
- `converters` - słownik konwerterów typów danych dla poszczególnych kolumn,
- `true_values, false_values, na_values, keep_default_na` - jak przy imporcie csv,
- `na_filter = True/False` - jeżeli mamy pewność, że plik nie zawiera braków danych `NaN`, to ustawienie `False` przyspiesza parsowanie dużych plików, 
- `skiprows` - liczba początkowych wierszy do pominięcia przy imporcie,
- `nrows` - liczba wierszy parsowanych na raz,
- `parse_dates` - automatyczne wykrywanie daty; opcje jak przy imporcie csv,
- `date_format` - string formatujący datę,
- `thousands` - separator tysięczny; używany wyłącznie przy imporcie danych tekstowych jako liczb (dane liczbowe zostaną automatycznie przekonwertowane na format Pythona),
- `decimal` - separator dziesiętny,
- `skipfooter` - liczba wierszy opuszczanych przy imporcie licząc od dołu.

Do eksportu struktury danych (`DataFrame`, `Series`) do arkusza Excela służy funkcja 

`struktura.to_excel(excel_writer, *, sheet_name='Sheet1', na_rep='', float_format=None, columns=None, header=True, index=True, index_label=None, startrow=0, startcol=0, engine=None, merge_cells=True, inf_rep='inf', freeze_panes=None, storage_options=None, engine_kwargs=None)`, gdzie:

- `excel_writer` - ścieżka dostępu lub obiekt typu `ExcelWriter`,
- `sheet_name` - string; nazwa utworzonego arkusza,
- `na_rep` - string; reprezentacja braków danych `NaN`
- `float_format` - string formatujący liczby typu `float`,
- `columns` - lista kolumn do eksportu,
- `header` - jeżeli `True`, to zostaną użyte istniejące nagłówki kolumn, można też podać nowe nagłówki kolumn jako listę stringów;
- `index=True/False` - jeżeli `True`, to zostaną wyeksportowane indeksy wierszy,
- `index_label` - lista stringów; nowe indeksy wierszy,
- `startrow` - wiersz lewej górnej komórki w arkuszu, od której mają się zaczynać eksportowane dane,
- `startcol` - kolumna lewej górnej komórki w arkuszu, od której mają się zaczynać eksportowane dane,
- `engine` - do wyboru `‘openpyxl’, ‘xlsxwriter’`,
- `merge_cells=True/False` - eksport ramki multiindeksowanej od razu z odpowiednim połączeniem komórek,
- `inf_rep` - string; reprezentacja nieskończoności (domyślnie `'inf'`),
- `freeze_panes` - para liczb; położenie najniższego wiersza i najdalszej kolumny, które mają być zamrożone.

### Ćwiczenie 7.
Zaimportuj obydwa arkusze z pliku `grupa00.xlsx`:
- każdy arkusz do osobnej struktury,
- obydwa arkusze do słownika struktur.

Wybierz odpowiednią kolumnę z indeksami wierszy, aby uniknąć niepotrzebnego podwójnego indeksowania.

In [None]:
#TYPE YOUR CODE BELOW


# Wybrane podstawowe metody struktur danych

## Metody ogólne

- `pd.isna()` - zwraca strukturę z wartościami `True/False`; `True`, jeśli element jest brakiem danych `NaN`
- `pd.notna()` - zwraca strukturę z wartościami `True/False`; `False`, jeśli element jest brakiem danych `NaN`
- `pd.to_numeric(list of elements)` - konwertuje elementy listy na typ numeryczny (przydatne, gdy z jakiegoś powodu liczby w strukturze danych są typu `string`)
- `pd.date_range(start=beginning, end=end, periods=n, freq=frequency)` - automatycznie tworzy listę elementów `DataTime` od podanej daty `beginning` do daty `end`, dzieląc ją na daną liczbę `n` równych okresów lub z określoną częstotliwością występowania `frequency`; `frequency` musi być ciągiem w formacie `'nX'`, gdzie `X` jest tak zwanym *aliasem częstotliwości*: `H` - godziny, `D` - dni, `B` - dni robocze, `M` - miesiące itd.
- `pd.period_range(start=beginning, end=end, periods=n, freq=frequency)` - automatycznie tworzy stałą częstotliwość `PeriodIndex`; reszta jak w `pd.date_range`
- `pd.concat()` - łączy podane struktury wzdłuż podanej osi


In [None]:
import numpy as np
import pandas as pd

lst = [np.nan,1,'2',3,4,'5',np.nan,6,7,np.nan,9]
s1 = pd.Series(pd.to_numeric(lst))
s1_nan = pd.isna(s1)

print(s1_nan)

s1[s1_nan == True]=0

print(s1)

In [None]:
l2=pd.date_range(start='3/12/2024',end='3/21/2024',freq='1D')

s2=pd.Series(np.random.randint(5,25,10),index=l2)
s3=pd.Series(np.random.randint(10,50,10),index=l2)

df1=pd.DataFrame({'clients shop 1':s2,'clients shop 2':s3})
print(df1)

In [None]:
from IPython.display import display #ładne wyświetlanie struktur danych

l3=pd.date_range(start='3/22/2024',end='3/29/2024',freq='1D')

s4=pd.Series(np.random.randint(5,25,len(l3)),index=l3)
s5=pd.Series(np.random.randint(10,50,len(l3)),index=l3)

df2=pd.DataFrame({'clients shop 1':s4,'clients shop 2':s5})
display(df2)

df3=pd.concat([df1,df2])
display(df3)

## Series - podstawowe metody

### Konwersja danych, usuwanie, ponowne indeksowanie itp.

- `Series.copy()` - tworzy kopię szeregu
- `Series.convert_dtypes()` - konwertuje zawartość na typy danych obsługujące `pd.NA`
- `Series.infer_objects()` - próbuje wybrać typ danych dostosowany do elementów,
- `Series.to_numpy()` - tworzy macierz `ndarray` z elementów szeregu,
- `Series.to_list()` - tworzy listę z elementów szeregu,
- `Series.replace(old, new)` - zmienia wartość `old` w szeregu na `new`,
- `Series.drop(index)` - usuwa element o podanym indeksie,
- `Series.drop_duplicates()` - usuwa zduplikowane wartości z szeregu,
- `Series.isin(list_values)` - zwraca `True`, gdy szereg zawiera wyłącznie wartości z listy,
- `Series.reindex([list_index])` - dostosowuje szereg do nowego indeksowania; elementy z indeksami nieznajdującymi się na nowej liście indeksów zostaną usunięte,
- `Series.rename(index)` - jeśli `index` jest słownikiem, zmienia nazwy starych indeksów (klucze słownika) na nowe (wartości słownika),
- `Series.add_prefix(prefix)` - dodaje `prefix` do indeksów,
- `Series.add_suffix(suffix)` - dodaje `suffix` dla indeksów,
- `Series.truncate(before=index1, after=index2, copy=True/False)` - obcina wszystkie elementy szeregu przed `index1` i po `index2`,
- `Series.where(condition, other=new)` - gdy `condition` **nie** jest spełniony, zastępuje wartość w szeregu wartością `new`,
- `Series.mask(condition,other=new)` - gdy `condition` **jest** spełniony, zamienia wartość w szeregu na wartość `new`.


In [None]:
s2=pd.Series([5,6,6,6,6,6,7,8,9,10])

print(s2)

s2=s2.replace(6,1)
print(s2)

s2=s2.drop_duplicates()
print(s2)

In [None]:
s1=pd.Series([1,2,3,4],index=[a for a in 'abcd'])
print(s1)

s1=s1.reindex([a for a in 'bcde'])
print(s1)

s1=s1.convert_dtypes()
print(s1)

s1=s1.rename({'e':'enum','d':'data','b':'bin','c':'call'})
print(s1)

s1=s1.add_suffix('_1')
print(s1)

In [None]:
s1['enum_1']=5
print(s1)

s2=s1.where(s1%2==0)
print(s2)

s3=s1.where(s1%2==0,other=0)
print(s3)

s4=s1.mask(s1%2==0)
print(s4)

s5=s1.mask(s1%2==0,other=0)
print(s5)

### Operacje na elementach

- `Series.get(index)` - zwraca element o podanym indeksie,
- `Series.pop(index)` - zwraca element o podanym indeksie i usuwa go z szeregu,
- `Series.add(object)` - dodaje `obiekt` do każdego elementu szeregu, miejsce w miejsce,
- `Series.sub(object)` - odejmuje `obiekt` od każdego elementu szeregu, miejsce w miejsce,
- `Series.mul(object)` - mnoży każdy element przez `obiekt`, miejsce w miejsce,
- `Series.div(object)` - dzieli każdy element przez `obiekt`, miejsce w miejsce,
- `Series.abs()` - zwraca szereg modułów wartości szeregu wyjściowego,
- `Series.round(n)` - zaokrągla wartości szeregu do podanej liczby miejsc dziesiętnych,
- `Series.product()` - zwraca iloczyn wyrazów szeregu,
- `Series.sum()` - zwraca sumę wyrazów szeregu.

In [None]:
s=pd.Series([1,2,3,4,5])
s=s.add(1)
print(s)
print(s.sum())

### Obsługa brakujących danych `NaN`

- `Series.isna()` - zwraca szereg z danymi `True/False`; `True`, jeżeli element to brak danych `NaN`,
- `Series.notna()`- zwraca szereg z danymi `True/False`; `False`, jeżeli element to brak danych `NaN`,
- `Series.dropna()` - usuwa z szeregu braki danych `NaN`,
- `Series.fillna(wartość lub method=metoda)` - uzupełnianie `NaN` o zadaną wartość lub poprzez wybraną metodę: `'ffill'` koliuje poprzednią wartość,`'bfill'` kopiuje następną wartość,
- `Series.interpolate(method=metoda)` - uzupełnia `NaN` o wartość powstałą przez interpolację pozostałych wartości zadaną metodą: `‘linear’` (interpolacja liniowa), `‘time’` (dla danych w formacie `DataTime`),`‘index’` (wstawia wartość indeksu), `‘polynomial’` (interpolacja wielomianowa) i wiele, wiele innych.

In [None]:
s=pd.Series([1,2,np.nan,4,5,6,np.nan,8,9])
s=s.fillna(method='ffill')
print(s)

In [None]:
s=pd.Series([1,2,np.nan,4,5,6,np.nan,8,9])
s=s.interpolate(method='linear')
print(s)

### Sortowanie

- `Series.argsort()` - zwraca szereg, którego wartości to miejsce wyrazu o danym indeksie w posorowanym szeregu,
- `Series.reorder_levels(porządek)` - przestawia elementy w szeregu według nowej kolejności indeksów `porządek`,
- `Series.sort_values()` - sortowanie po wartościach; opcjonalny argument `ascending=True/False`,
- `Series.sort_index()` - sortowanie po indeksach; opcjonalny argument `ascending=True/False`.

In [None]:
s=pd.Series(np.random.randint(0,9,5),index=['b','c','e','a','d'])
print(s)
print(s.sort_values())
print(s.sort_index())
print(s.argsort())

### Podstawowe funkcje statystyczne.
- `Series.count()` - zwraca liczbę niepustych wyrazów w szeregu (nie `NaN`),
- `Series.autocorr()` - oblicza autokorelacja danych w szeregu,
- `Series.corr(another series, method=’pearson’, min_periods=None)` - oblicza korelację danych z innym szeregiem przy użyciu wybranej metody:
    - `’pearson’` - standardowy współczynnik korelacji liniowej Pearsona,
    - `’kendall’` - estymator $\tau$ Kendalla,
    - `’spearman’` - współczynnik korelacji rangowej Spearmana.
Ponieważ wszystkie trzy metody ignorują `NaN`, opcjonalna wartość `min_periods` określa minimalną liczbę niepustych obserwacji wymaganych do uznania obliczeń za wiarygodne.
- `Series.cov(another_series, min_periods=None)` - oblicza kowariancję danych z danymi z innego szeregu; wartość opcjonalna `min_periods` - minimalna liczba niepustych obserwacji wymagana do uznania obliczeń za wiarygodne,
- `Series.describe(percentiles=None)` - generuje podstawowe statystyki opisowe danych w szeregu: dla danych liczbowych podaje liczbę danych, średnią, odchylenie standardowe, minimum, maksimum i wartości percentyli (domyślnie $[.25, .5, .75]$, możemy również określić własne wartości),
- `Series.mad(skipna=True/False)` - oblicza odchylenie bezwzględne od średniej; określając `skipna` możemy wybrać, czy wartości `NaN` mają być ignorowane (domyślnie `True`),
- `Series.min(skipna=True/False)` - znajduje minimum; (`skipna` jak wyżej),
- `Series.idxmin(skipna=True/False)` - znajduje pozycję (indeks) wartości minimalnej; (`skipna` jak wyżej),
- `Series.max(skipna=True/False)` - znajduje wartość maksymalną; (skipna jak wyżej),
- `Series.idxmax(skipna=True/False)` - znajduje pozycję (indeks) wartości maksymalnej; (`skipna` jak wyżej),
- `Series.mean(skipna=True/False)` - oblicza średnią (`skipna` jak wyżej),
- `Series.median(skipna=True/False)` - znajduje medianę (`skipna` jak wyżej),
- `Series.kurt(skipna=True/False)` - oblicza kurtozę (`skipna` jak wyżej),
- `Series.nlargest(n=5, keep=’first’)` - zwraca $n$ największych elementów jako nowy szereg; `keep` określa sposób obsługi duplikatów:
    - `’first’` - zwraca tylko pierwsze napotkane wystąpienie (w kolejności rosnącej według indeksu),
    - `’last’` - zwraca tylko ostatnie wystąpienie,
    - `’all’` - zwraca wszystkie wystąpienia.
- `Series.nsmallest(n=5, keep=’first’)` - zwraca serię `n` najmniejszych elementów; `keep` jak wyżej,
- `Series.quantile(q=0.5, interpolation=’linear’)` - zwraca wartość kwantyla (lub kwantyli w przypadku tablicy) rzędu $q$; w przypadku wartości, które nie są danymi z serii, kwantyl jest interpolowany za pomocą określonej metody (`’linear’`, `’lower’`, `’higher’`, `’midpoint’`, `’nearest’`),
- `Series.std(skipna=None, ddof=1)` - oblicza odchylenie standardowe z próbki; `skipna` - jak wyżej, `ddof` określa liczbę stopni swobody,
- `Series.var(skipna=None, ddof=1)` - oblicza wariancję; `skipna`, `ddof` jak wyżej,
- `Series.value counts(normalize=False, sort=False, ascending=False, bins=None, dropna=True)` - zwraca liczbę wystąpień poszczególnych elementów w formie Serii:
- `normalize` - jeśli `True`, zamiast liczby wystąpień, zostanie zwrócona względna częstość występowania (normalizacja do 1)
- `sort` - jeśli `True`, zwrócone wartości zostaną natychmiast posortowane rosnąco
- `bins` - jeśli określimy liczbę `bins=n`, wówczas elementy serii zostaną podzielone na `n` przedziały i otrzymamy liczbę elementów w każdym przedziale
- `dropna` jak wyżej.

### Ćwiczenie 8.
Zaimportuj dane z pliku `random_series.csv` do szeregu.
- zaokrągl wartości do 2 miejsc po przecinku
- posortuj je rosnąco
- wyeksportuj dane do pliku `random_series_sorted.csv`

In [None]:
#TYPE YOUR CODE BELOW



### Ćwiczenie 9.
Zaimportuj dane z pliku `random_series.csv` do szeregu. Zaokrągl wartości szeregu do liczb całkowitych.
- zamień liczby podzielne przez 2 na 2
- zamień liczby podzielne przez 3 na 3
- usuń zduplikowane wartości z szeregu
- wyeksportuj dane do pliku `random_series_drem.csv`

In [None]:
#TYPE YOUR CODE BELOW



## DataFrame - podstawowe metody

### Konwersja danych, usuwanie, reindeksacja itp.

- `DataFrame.copy()` - kopiuje ramkę do nowej ramki,
- `DataFrame.insert(indeks, nazwa, [lista wartości])` - wstawia na indeks o numerze `indeks` kolumnę o nazwie `nazwa` i zadanej liście wartości.
- `DataFrame.replace(stary, nowy)` - zmienia w ramce wartości `stary` na `nowy`,
- `DataFrame.drop(labels=[indeksy], axis=0)` - usuwa wiersze (`axis=0`) lub kolumny (`axis=1`) o zadanych indeksach,
- `DataFrame.drop_duplicates()` - usuwa z ramki powtórzone wiersze,
- `DataFrame.isin(lista_wartości)` - zwraca `True` tam, gdzie w ramce znajduje się wartość z listy,
- `DataFrame.set_axis([lista indeksów],axis=0)` - nadaje zadanej osi indeksy z listy,
- `DataFrame.rename({słownik},axis=0)` - na wybranej osi zmienia nazwy starych indeksów (klucze słownika) na nowe (wartości słownika),
- `DataFrame.rename_axis(nazwa,axis=0)` - zmienia nazwę wybranej osi
- `DataFrame.truncate(before=indeks1, after=indeks2, axis=0, copy=True/False)` - obcina wszystkie wiersze (`axis=0`) lub kolumny (`axis=1`) przed `indeks1` i po `indeks2`,
- `DataFrame.where(warunek, other=nowa)` - gdy `warunek` **nie jest** spełniony, zamieni wartość słownika na wartość `nowa`,
- `DataFrame.mask(warunek, other=nowa)`- gdy `warunek` **jest** spełniony, zamieni wartość słownika na wartość `nowa`,
- `DataFrame.add_prefix(prefiks)` - dodaje `prefiks` do indeksów kolumn,
- `DataFrame.add_suffix(sufiks)` - dodaje `sufiks` do indeksów kolumn,
- `DataFrame.filter(items=None, like=None, regex=None, axis=None)` - filtrowanie indeksów wierszy (`axis=0`) lub kolumn (`axis=1`) ramki: po nazwach (`items`), wyrażeniach regularnych (`regex`) albo zawieraniu danego stringa w nazwie (`like`).

In [None]:
s1=pd.Series(np.random.randint(0,9,10))
s2=pd.Series(np.random.randint(0,9,10))
s3=pd.Series(np.random.randint(0,9,10))

df1=pd.DataFrame({'1':s1,'col 2':s2,'3':s3})
display(df1)

df1=df1.drop(labels=[0,3],axis=0)
display(df1)

df1=df1.set_axis(range(8),axis=0)
display(df1)

df1=df1.rename({'1':'col 1','3':'col 3'},axis=1)
df1=df1.rename_axis('columns',axis=1)
df1=df1.rename_axis('rows')
display(df1)

### Operacje na elementach

- `DataFrame.pop(indeks)` - zwraca kolumnę o zadanym indeksie i usuwa ją z ramki,
- `DataFrame.add(obiekt)` - dodaje `obiekt` do każdego elementu ramki, miejsce w miejsce,
- `DataFrame.sub(obiekt)` - odejmuje `obiekt` od każdego elementu ramki, miejsce w miejsce,
- `DataFrame.mul(obiekt)` - mnoży każdy element przez `obiekt`, miejsce w miejsce,
- `DataFrame.div(obiekt)` - dzieli każdy element przez `obiekt`, miejsce w miejsce,
- `DataFrame.abs()` - zwraca ramkę modułów wartości wyjściowej ramki,
- `DataFrame.round(n)` - zaokrągla wartości ramki do zadanej liczby miejsc po przecinku,
- `DataFrame.product(axis=0)` - zwraca iloczyny po wierszach (`axis=0`) lub kolumnach (`axis=1`),
- `DataFrame.sum()` - zwraca sumy po wierszach (`axis=0`) lub kolumnach (`axis=1`).

In [None]:
df1=df1.mul(2)
print(df1)

print(df1.product(axis=1))
print(df1.sum(axis=0))

### Obsługa brakujących danych `NaN`

- `DataFrame.isna()` - zwraca ramkę z danymi `True/False`; `True`, jeżeli element to brak danych `NaN`,
- `DataFrame.notna()`- zwraca ramkę z danymi `True/False`; `False`, jeżeli element to brak danych `NaN`,
- `DataFrame.dropna(axis=0, how='any')` - usuwa z ramki wiersze (`axis=0`) lub kolumny (`axis=1`) zawierające: co najmniej jedną wartość `NaN` (`how='any'`) albo wszystkie wartości równe `NaN` (`how='all'`),
- `DataFrame.fillna(wartość lub method=metoda)` - uzupełnianie `NaN` o zadaną wartość lub poprzez wybraną metodę: `'ffill'` kopiuje poprzednią wartość,`'bfill'` kopiuje następną wartość,
- `DataFrame.interpolate(method=metoda)` - uzupełnia `NaN` o wartość powstałą przez interpolację pozostałych wartości zadaną metodą: `‘linear’` (interpolacja liniowa), `‘time’` (dla danych w formacie `DataTime`),`‘index’` (wstawia wartość indeksu), `‘polynomial’` (interpolacja wielomianowa) i wiele, wiele innych.

In [None]:
s1=pd.Series([1,9,6,2],index=['a','b','c','d'])
s2=pd.Series([5,7,4,8,3],index=['a','b','c','d','e'])

d1={'k1':s1,'k2':s2}

df=pd.DataFrame(d1,columns=['k1','k2','k3'],dtype='float')
display(df)

df=df.dropna(axis=1,how='all')
display(df)

df=df.dropna(axis=0,how='any')
display(df)

### Sortowanie

- `DataFrame.sort_values(klucz, axis=0)` - sortowanie wartości względem wiersza (kolumny) `klucz`; opcjonalny argument `ascending=True/False`,
- `DataFrame.sort_index(axis=0)` - sortowanie po indeksach wierszy (kolumn); opcjonalny argument\\
`ascending=True/False`.

In [None]:
df['k3']=[3.,2,6,5]

df=df.sort_values('k2',axis=0)
print(df)

df=df.sort_values('a',axis=1)
print(df)

### Podstawowe funkcje statystyczne.

- `DataFrame.count(axis=0, level=None, numeric_only=False)` - oblicza liczbę niepustych pól w każdej kolumnie (`axis=0`) lub wierszu (`axis=1`), jeśli `numeric_only=True`, to kolumny z formatami danych nienumerycznych zostaną pominięte,
- `DataFrame.corr(method=’pearson’, min_periods=1)` - oblicza korelację między kolumnami ramki (parami) przy użyciu wybranej metody (jak w przypadku analogicznej funkcji dla szeregu); `min_periods` - minimalna liczba niepustych obserwacji wymagana do uznania wyniku za wiarygodny,
- `DataFrame.corrwith(structure, axis=0, drop=False, method=’pearson’)` - oblicza korelację między kolumnami (`axis=0`) lub wierszami (`axis=1`) ramki a strukturą zewnętrzną (szeregiem lub ramką),
- `DataFrame.cov(min periods=None)` - oblicza kowariancję między kolumnami (parami), `min_periods` jak wyżej,
- `DataFrame.describe(percentiles=None, include=None, exclude=None)` - generuje statystyki opisowe dla ramki; `percentiles` - lista interesujących nas percentyli; `include` - `’all’` lub lista typów danych, które funkcja powinna uwzględnić podczas generowania statystyk; `exclude` - lista typów danych pomijanych podczas generowania statystyk,
- `DataFrame.mad(axis=None, skipna=None, level=None)` - oblicza odchylenie bezwzględne od średniej wzdłuż wybranej osi (tj. `axis=0` będzie obliczane w kolumnach, a `axis=1` w wierszach); określając `skipna` możemy wybrać, czy wartości `NaN` mają być ignorowane (domyślnie `True`); `level` służy do wybierania poziomu w ramkach wieloindeksowanych;
- `DataFrame.min(axis=None, skipna=None, level=None, numeric_only=None)` - oblicza wartości minimalne w kolumnach (`axis=0`) lub wierszach (`axis=1`), `skipna`, `level`, `numeric_only` - jak wyżej,
- `DataFrame.idxmin(axis=0, skipna=True)` - zwraca indeks (lub kolumnę) pierwszego wystąpienia minimum,
- `DataFrame.max(axis=None, skipna=None, level=None, numeric_only=None)` - oblicza wartości maksymalne w kolumnach (`axis=0`) lub wierszach (`axis=1`), `skipna`, `level`, `numeric_only` - jak wyżej,
- `DataFrame.idxmax(axis=0, skipna=True)` - zwraca indeks (lub kolumnę) pierwszego wystąpienia maksimum,
- `DataFrame.mean(axis=None, skipna=None, level=None, numeric_only=None)` - zwraca wartości średnie wzdłuż podanej osi,
- `DataFrame.median(axis=None, skipna=None, level=None, numeric_only=None)` - zwraca mediany wzdłuż podanej osi,
- `DataFrame.kurt(axis=None, skipna=None, level=None, numeric only=None)` - zwraca kurtozę wzdłuż podanej osi,
- `DataFrame.quantile(q=0.5, axis=0, numeric only=True, interpolation=’linear’)` - zwraca wartość podanego kwartyla `q` (lub kwartyli w przypadku `q` będąc listą) wzdłuż wybranej osi; `interpolacja` - podobnie jak dla szeregu,
- `DataFrame.std(axis=None, skipna=None, level=None, ddof=1, numeric_only=None)` - oblicza odchylenie standardowe próbki wzdłuż wybranej osi, `ddof` ustawia liczbę stopni swobody,
- `DataFrame.var(axis=None, skipna=None, level=None, ddof=1, numeric_only=None)` - zwraca wariancję wzdłuż określonej osi, `ddof` - jak wyżej.

### Ćwiczenie 10.
Zaimportuj do ramki danych plik `liczby_PN.csv`. Usuń puste wiersze i puste kolumny. Przeindeksuj wiersze tak, aby indeksy ponownie były kolejnymi liczbami naturalnymi.

In [None]:
#TYPE YOUR CODE BELOW



# Szeregi czasowe

## Series - funkcje dedykowane do szeregów czasowych

 - `Series.asfreq(freq, method=None, normalize=False, fill_value=None)` - zwraca wyrazy szeregu występujące co zadaną częstotliwość `freq`. Częstotliwość zadajemy *stringiem częstotliwości* lub funkcją `pd.offsets`. Podstawowe *stringi*:
     - `'D'` - dzień `Day`,
     - `'B'` - dzień roboczy `BDay`, (tzn. od poniedziałku do piątku)
     - `'W'` - tydzień `Week`; domyślnie otrzymamy szereg pierwszych dni tygodnia (wszystkie niedziele). Jeżeli chcemy otrzymać np. wszystkie poniedziałki, to piszemy `'W-MON'`, wtorki - `'W-TUE'` itd. 
     - `'M'` - kalendarzowy koniec miesiąca `MonthEnd`,
     - `'MS'` - kalendarzowy początek miesiąca `MonthBegin`,
     - `'BM'` - ostatni dzień roboczy w miesiącu `BMonthEnd`,
     - `'BMS'` - pierwszy dzień roboczy w miesiącu `BMonthBegin`,
     - `'Q'` - koniec kwartału `QuarterEnd`,
     - `'QS'` - początek kwartału `QuarterBegin`,
     - `'A'` - koniec roku `YearEnd`,
     - `'AS'` - początek roku `YearBegin`,
     - `'H'` - godzina `Hour`,
     - `'T'` - minuta `Minute`,
     - `'S'` - sekunda `Second`.

    Jeżeli domyślnie przyjmowane ustawienia nie spełniają naszych potrzeb, to korzystamy z funkcji `pd.offsets`. Przykładowo, jeżeli chcemy zwrócić dane z częstotliwością co rok ale na koniec maja, a nie domyślnego grudnia, to zamiast `freq='A'` piszemy `freq=pd.offsets.YearEnd(month=5)`.

    Opcja `method` to wybór sposobu, w jaki mają zostać uzupełnione braki `NaN` w nowo tworzonym szeregu: `'ffill', 'pad'` - kopiuje poprzednią wartość, `'bfill','backfill'` - kopiuje następną wartość. Jeżeli chcemy uzupełnić braki o z góry zadaną wartość, to korzystamy z opcji `fill_value`. Jeżeli `normalize=True`, wszystkie godziny w nowo tworzonym szeregu zostaną zresetowane na północ (24:00);

In [None]:
import numpy as np
import pandas as pd

indeksy=pd.date_range(start='5/1/2023',end='5/31/2023',freq='1D')
s1=pd.Series(range(1,len(indeksy)+1),index=indeksy)
print(s1)

In [None]:
co_tydzien=s1.asfreq('W-MON')
print(co_tydzien)

In [None]:
dni_robocze=s1.asfreq('B')
print(dni_robocze)

 
- `Series.asof(indeks)` - zwraca ostatni niepusty element przed indeksem `indeks`;
- `Series.shift(periods=1, freq=None, fill_value=None)` - przesuwa indeksy o zadaną liczbę okresów `periods` zadanych opcją `freq`. Jeżeli nie zadamy opcji `freq`, dane zostaną przesunięte względem istniejących indeksów o zadaną liczbę okresów obliczonych automatycznie a powstałe braki danych `NaN` zostaną uzupełnione o wartość zadaną przez `fill_value`.

In [None]:
s2=s1.shift(periods=7)
print(s2)

In [None]:
s3=s1.shift(periods=7,fill_value=0)
print(s3)

In [None]:
s4=s1.shift(periods=7,freq='D')
print(s4)

- `Series.first_valid_index()` - zwraca indeks pierwszego niepustego wyrazu;
- `Series.last_valid_index()` - zwraca indeks ostatniego niepustego wyrazu;
- `Series.resample(zasada, closed=None, label=None, convention='start', kind=None, loffset=None, limit=None, base=0).metoda()` - bardziej zaawansowana funkcja tworząca z próbek nowy szereg o zadanej częstotliwości (wyłącznie dla szeregów o indeksach w formacie `DatatimeIndex` lub `PeriodIndex`)

    - `metoda()` - metoda resamplowania próbek (domyślnie `mean()`: nowa próbka będzie średnią z próbek z przedziału nowej częstotliwości, dopuszczalne wszystkie funkcje, jakie da się wykonać na szeregu `Series`) albo metoda wypełniania braków danych: do wyboru `pad()` oraz `backfill()`;
    - `zasada` - *string częstotliwości* określający nową częstotliwość próbek;
    - `closed='right'/'left'` - domknięcie przedziału, na którym działa `metoda()`; jeżeli `None`, to domknięcie zostanie dobrane odpowiednio do `zasady`;
    - `label='right'/'left'` - indeks którego krańca przedziału ma zostać nadany nowej obliczonej danej;
    - `convention` - wyłącznie dla indeksów w formacie `PeriodIndex`; zadaje od którego indeksu ma zacząć działać `zasada`; do wyboru `'start'` lub `'end'`;
    - `kind` - wybór typu nowego indeksu: `'timestamp'` zwróci indeks `DatatimeIndex`, `'period'` zwróci `PeriodIndex`;
    - `loffset` - ustawienie przesunięcia dla nowo tworzonych indeksów w formacie `timedelta` (np. gdy chcemy, aby nowe indeksy pokazywały środek przedziału, a nie początek lub koniec);
    - `base` - wybór momentu startu dla częstotliwości będących dzielnikami pełnego dnia (24 h);

In [None]:
s5=s1.resample('W-FRI').sum()
print(s5)

In [None]:
s6=s1.resample('W-SAT',closed='left',label='left').sum()
print(s6)

- `Series.at_time(czas)` - zwróci próbki pobrane o konkretnej godzinie `czas`;
- `Series.between_time(poczatek, koniec, inclusive='both')` - zwraca próbki pobrane w czasie miedzy `poczatek` a `koniec`; parametr `inclusive` określa, czy granice przedziału mają być brane włącznie, czy nie - do wyboru `'both'`,`'neither'`, `'left'`,`'right'`.

## DataFrame - funkcje dedykowane do szeregów czasowych

W przypadku ramek `DataFrame` każda kolumna ramki jest traktowana jak osobny szereg czasowy.

- `DataFrame.asfreq(freq, method=None, normalize=False, fill_value=None)` - jak dla `Series`; działa na kolumnach;
- `DataFrame.asof(indeks, subset=None)` - zwraca ostatnie niepuste elementy przed indeksem `indeks`, `subset` umożliwia wybór podzbioru kolumn, na których funkcja ma być wykonana;
- `DataFrame.shift(periods=1, freq=None, axis=0, fill_value=None)` - przesuwa indeksy wzdłuż wybranej osi `axis` o zadaną liczbę okresów `periods` wyliczonych automatycznie lub zadanych opcją `freq`;
- `DataFrame.first_valid_index()` - zwraca indeks pierwszego niepustego wiersza; jeżeli wszystkie wiersze są niepuste lub wszystkie są puste, zwróci `None`;
- `DataFrame.last_valid_index()` - zwraca indeks ostatniego niepustego wiersza; jeżeli wszystkie wiersze są niepuste lub wszystkie są puste, zwróci `None`;
- `DataFrame.resample(zasada, axis=0, closed=None, label=None, convention='start', kind=None, loffset=None, limit=None, base=0).metoda()` - tworzy z próbek nowy szereg o zadanej częstotliwości wzdłuż wybranej osi (wyłącznie dla osi o indeksach w formacie `DataTimeIndex` lub `PeriodIndex`);
- `DataFrame.to_period(freq=None, axis=0, copy=True)` - konwertuje indeks wzdłuż zadanej osi z `DatetimeIndex` na `PeriodIndex` o zadanej częstotliwości `freq`;
- `DataFrame.to_timestamp(freq=None, how='start', axis=0, copy=True)` - przekształaca indeks wdłuż wybranej osi `axis` na `DatatimeIndex`:

    - `freq` - żądana częstotliwość,
    - `how=‘start’/‘end’` - przy przekształcaniu z `PeriodIndeks` wybór, czy nowy indeks ma być początkiem, czy końcem starego przedziału czasowego,
    - `copy` - pozwala wyłączyć kopiowanie danych (przydatne przy dużych zbiorach danych).

# Wykresy w bibliotece `pandas`.

## Szeregi `Series`

Wykresy oparte na danych ze struktur pandas są tworzone za pomocą metod biblioteki `matplotlib`, więc wszystkie opcje formatowania są identyczne z tymi omówionymi w `matplotlib.pyplot`. Zazwyczaj inne opcje dla danego typu wykresu, które były dostępne w `pyplot`, również działają, nawet jeśli dokumentacja pandas ich nie wymienia.

Podstawową funkcją tworzenia wykresów jest

`Series.plot(kind=’line’, ax=None, figsize=None, use index=True, title=None, grid=None, legend=False,
style=None, logx=False, logy=False, loglog=False, xticks=None, yticks=None, xlim=None, ylim=None,
rot=None, fontsize=None, colormap=None, table=False, yerr=None, xerr=None, label=None,
secondary y=False)`.

Wybierając różne opcje `kind` otrzymujemy różne typy wykresów. Do wyboru:
- `’line’` - wykres liniowy (indeksy to x, wartości to y),
- `’bar’` - wykres słupkowy pionowy (indeksy to podpisy słupków, wartości to wysokości słupków),
- `’barh’` - wykres słupkowy poziomy,
- `’hist’` - histogram danych w szeregu,
- `’box’` - wykres pudełkowy danych w szeregu,
- `’kde’`, density - wykres estymatora gęstości danych w szeregu,
- `’area’` - wykres liniowy z obszarem pod wykresem (indeksy to x, wartości to y),
- `’pie’` - wykres kołowy (tylko dla dodatnich danych w szeregu); etykiety klinów to indeksy elementów szeregu, rozmiar zależy od wartości pod danym indeksem.

Pozostałe opcje wykresu służą do formatowania podstawowych opcji wykresu i pochodzą z biblioteki matplotlib. Nową funkcją jest `secondary_y` - jeśli `True`, oś OY będzie po prawej, a nie po lewej stronie.

Możemy również uzyskać poszczególne typy wykresów, wywołując oddzielne funkcje (w rzeczywistości wywołują `plot`
z odpowiednio wybraną opcją `kind`). Opcjonalne argumenty `*` są identyczne z tymi dla funkcji plot.
- `Series.plot.line(*)`
- `Series.plot.bar(*)`
- `Series.plot.barh(*)`
- `Series.plot.box(*)`
- `Series.plot.density(*,bw_method=None, ind=None)` - dodatkowe opcje: `bw_method` - wybór metody oceny (`’scott’`, `’silverman’`) oraz `ind` - możliwość ręcznego określenia tablicy (listy) punktów do oceny,
- `Series.plot.hist(*,bins=10)` - dodatkowa opcja `bins` określa liczbę słupków histogramu,
- `Series.plot.area(*)`
- `Series.plot.pie(*)`

Osobną funkcją jest `Series.hist(by=None, ax=None, grid=True, xlabelsize=None, xrot=None, ylabelsize=None, yrot=None, figsize=None, bins=10)`, która tworzy histogram poprzez bezpośrednie wywołanie `pyplot.hist`.

In [None]:
data = np.random.randint(1,20,100)
index = range(1,101)

s1 = pd.Series(data, index=index)
s1.plot()

In [None]:
data2 = np.random.randint(5,10,5)
index2 = ['a','b','c','d','e']

s2 = pd.Series(data2, index=index2)
s2.plot(kind='bar')

In [None]:
s2.plot(kind='pie')

In [None]:
s1.plot(kind='hist')

## DataFrame

Składnia poszczególnych funkcji dla struktury `DataFrame` nieznacznie różni się od składni dla struktury `Series`, ale końcowy efekt graficzny jest generowany przy użyciu tych samych funkcji `matplotlib` dla obu struktur, więc możliwe opcje formatowania są zawsze takie same, niezależnie od tego, którą strukturę szkicujemy.

Podstawową funkcją tworzenia wykresów z ramki danych jest

`DataFrame.plot(x=None, y=None, kind='line', ax=None, subplots=False, sharex=None, sharey=False, layout=None, figsize=None, use_index=True, title=None, grid=None, legend=True, style=None, logx=False, loglog=False, xticks=None, yticks=None, xlim=None, ylim=None, rot=None, fontsize=None, colormap=None, table=False, yerr=None, xerr=None, secondary_y=False, sort_columns=False)`

W domyślnej konfiguracji funkcja rysuje oddzielne wykresy danych w każdej kolumnie (współrzędne na OY) względem indeksu wiersza (współrzędne na OX).

Inne możliwe opcje (oprócz standardowych opcji wykresu znanych z `pyplot`):
- `x,y` - nazwy kolumn (lub ich indeksy); kolumna podana jako `x` będzie współrzędnymi punktów na OX, kolumna (lub kolumny) `y` będzie współrzędnymi na OY,
- `kind` - typ wykresu. Dostępne opcje:
    - `’line’` - domyślny wykres liniowy,
    - `’bar’` - wykres słupkowy, oddzielny dla każdej kolumny; indeksy wierszy to podpisy słupków, wartości w danej kolumnie to wysokości słupków,
    - `’barh’` - poziomy wykres słupkowy,
    - `’hist’` - histogramy dla każdej kolumny osobno,
    - `’box’` - wykresy pudełkowe dla każdej kolumny osobno,
    - `’kde’`, `density` - wykresy estymatora gęstości jądra dla każdej kolumny osobno,
    - `’area’` - jak domyślne wykresy liniowe, ale z obszarem pod wykresem,
    - `’pie’` - wykres kołowy (etykiety wycinków to indeksy wierszy, rozmiar zależy od wartości w kolumnie pod danym indeksem); wymaga wybrania jednej kolumny jako y (jeden wykres kołowy) lub ustawienia opcji `subplots=True` (tyle wykresów, ile kolumn),
    - `’scatter’` - wykres punktowy punktów o współrzędnych OX z wybranej kolumny `x` i współrzędnych OY z wybranej kolumny `y`,
    - `’hexbin’` - wykres binarny; wymaga określenia kolumn `x` i `y`.
- `subplots=True/False` - jeśli `True` otrzymamy wykres dla każdej kolumny na oddzielnych obrazach,
- `sharex=True/False` - jeśli `True` i `subplots=True` wszystkie wykresy będą miały takie same ustawienia osi OX,
- `sharey=True/False` - jeśli `True` i `subplots=True` wszystkie wykresy będą miały takie same ustawienia osi OY,
- `layout` - para (2-krotka) (wiersze, kolumny); układ wielu wykresów w przypadku `subplots=True`,
- `figsize` - para (szerokość, wysokość) w calach; rozmiar całego obrazu (przydatne w przypadku `subplots=True`),
- `use_index=True/False` - jeśli `True` indeksy wierszy będą znacznikami na osi x

- `title` - tytuł wykresu; w przypadku `subplots=True` możesz określić tytuł w formie listy tytułów dla podwykresów,
- `sort_columns=True/False` - jeśli `True` wykresy będą sortowane w kolejności sortowanych nazw kolumn.

Możemy również uzyskać poszczególne typy wykresów, wywołując oddzielne funkcje. Opcjonalne argumenty `*` są takie same jak dla funkcji plot.
- `DataFrame.plot.line(*)`
- `DataFrame.plot.bar(*)`
- `DataFrame.plot.barh(*)`
- `DataFrame.plot.hist(*,by=None, bins=10)` - `by` - kolumna używana do grupowania, `bins` - liczba słupków,
- `DataFrame.plot.box(*,by)`- `by` - kolumna używana do grupowania,
- `DataFrame.plot.kde(*,bw method=None, ind=None)` - dodatkowe opcje jak dla serii,
- `DataFrame.plot.area(*)`
- `DataFrame.plot.pie(*)`
- `DataFrame.plot.scatter(x, y, s=None, c=None,*)` - `s` point rozmiar, kolor punktu `c`,
- `DataFrame.plot.hexbin(x, y, C=None, reduce_C_function=None, gridsize=None,*)` - nazwa kolumny `C` zawierająca wartości definiujące rozmiar punktu; `reduce_C_function` domyślnie `np.mean` - wszystkie punkty o tym samym rozmiarze obliczone jako średnia (lub inna wartość funkcji) z kolumny `C`; `gridsize` liczba punktów względem osi OX lub para definiująca liczbę punktów względem OX i OY.

Alternatywne funkcje używające bezpośrednio `pyplot`:
- `DataFrame.boxplot(column=None, by=None, ax=None, fontsize=None, rot=0, grid=True, figsize=None, layout=None, return_type=None)`
- `DataFrame.hist(column=None, by=None, grid=True, xlabelsize=None, xrot=None, y labelsize=None, yrot=None, ax=None, sharex=False, sharey=False, figsize=None, layout=None, bins=10)`

In [None]:
data3a = np.random.normal(1,10,500)
data3b = np.random.normal(10,50,500)
index3=range(len(data3a))
s3a = pd.Series(data3a,index=index3)
s3b = pd.Series(data3b,index=index3)
dic = {'Sample 1':s3a,'Sample 2':s3b}

df1 = pd.DataFrame(dic)

df1.plot(xlabel='some data')

In [None]:
df1.plot(subplots=True)

In [None]:
df1.plot(subplots=True, sharey=True)

In [None]:
df1.plot(kind='box')

In [None]:
df1.plot(kind='box',subplots=True, sharey=True,legend=False)

In [None]:
df1.plot(kind='hist',subplots=True, sharey=True,legend=False,title=['Histogram 1','Histogram 2'],bins=50)

# Zadanie - prosta analiza danych

Plik `archiwum_tab_a_2019.csv` zawiera archiwalne kursy walut NBP z roku 2019.
1. Zaimportuj kursy euro (EUR), dolara amerykańskiego (USD), franka szwajcarskiego (CHF), funta szterlinga (GBP), jena (JPY) i rubla (RUB) do struktury danych (wskazówka: jeśli `utf-8` nie działa, wypróbuj kodowanie `cp1250`).
2. Przeanalizuj daty z pierwszej kolumny i ustaw je jako indeks wiersza.
3. Dla każdej waluty oblicz: maksymalny i minimalny kurs wraz z datą, średni kurs, wariancję i odchylenie standardowe.
7. Napisz funkcję, która automatycznie obliczy korelację między każdą z dwóch walut i przedstawi kursy wymiany dwóch walut o najwyższej korelacji na jednym wykresie.
8. Utwórz wykresy pudełkowe kursów każdej waluty. Który kurs był najbardziej stabilny?
10. Napisz funkcję, która przedstawi wykresy kursów walut wybranych przez użytkownika ze wszystkich dostępnych w pliku (w idealnym przypadku użytkownik powinien wprowadzić tylko symbole walut, tyle, ile chce, i uzyskać odpowiednio oznaczone wykresy).