# Pandas - struktury danych

## Szereg `Series`

Szereg (`Series`) jest jednowymiarową strukturą danych będącą po prostu indeksowanym wektorem (tablicą jednowymiarową). Szereg tworzymy konstruktorem `pandas.Series(dane,index=indeksy)`, gdzie `dane` to elementy tworzonej tablicy a `indeksy` to lista (tablica jednowymiarowa, wektor) indeksów przypisanych elementom. Przypisanie indeksu do konkretnego elementu jest stałe i nie zmieni się, dopóki explicite nie wymusimy zmiany indeksacji (o tym później). Możliwe typy elementów szeregu to:

- pojedyncza liczba - w tym przypadku podanie indeksów jest obowiązkowe. Utworzony wektor będzie się składał z tylu powtórzeń podanej liczby, ile zadamy indeksów.

In [1]:
import pandas as pd

s=pd.Series(7,index=['a','b','c','d'])
print(s)

a    7
b    7
c    7
d    7
dtype: int64


- jednowymiarowa tablica `ndarray` lub inny jednowymiarowy indeksowany typ tablicopodobny (np. lista) - podanie indeksów jest opcjonalne. W tym przypadku domyślnie przyjmowane jestm `index=[0,1,...,len(dane)-1]`. Jeżeli zadajemy `index` ręcznie, to jego długość musi być równa liczbie elementów w tablicy `dane`, ale niekoniecznie muszą być to liczby; co więcej, indeksy mogą się powtarzać (ale nie jest to zalecane). Typ danych w szeregu zostanie dobrany tak, aby wspólnie obejmował wszystkie typy poszczególnych elementów.

In [2]:
import numpy as np

data=np.random.random(5)

t=pd.Series(data)
print(t)

0    0.766370
1    0.744063
2    0.864259
3    0.790317
4    0.020227
dtype: float64


In [3]:
t1=pd.Series(data,index=['a','b','c','d','e'])
print(t1)

a    0.766370
b    0.744063
c    0.864259
d    0.790317
e    0.020227
dtype: float64


- słownik - podanie indeksów jest opcjonalne. Domyślnie `index` będzie listą kluczy słownika w kolejności danych w słowniku (albo w kolejności leksykograficznej kluczy danych w słowniku - starsze wersje Pythona). Możemy indeksy zadać ręcznie, ale jeżeli zaczniemy zadawać indeksy z poza listy kluczy słownika, to zostanie im przypisany `NaN` - brak danej.

In [4]:
d={'tarantula':'Kubus','kot':'Mruczek','pies':'Azor'}

sd=pd.Series(d)
print(sd)

tarantula      Kubus
kot          Mruczek
pies            Azor
dtype: object


In [5]:
sd1=pd.Series(d,index=['kot','pies','rybka','tarantula'])
print(sd1)

kot          Mruczek
pies            Azor
rybka            NaN
tarantula      Kubus
dtype: object


Pełna składnia konstruktora to `pandas.Series(data=None, index=None, dtype=None, name=None, copy=False)`, gdzie:

- `data` - dane, z których tworzymy szereg,
- `index` - lista indeksów,
- `dtype` - string, typ danych biblioteki `numpy` lub `ExtensionDtype`; wymuszenie konkretnego typu danych szeregu,
- `name` - nazwa naszego szeregu,
- `copy=True/False` - jeżeli `True`, dane `data` zostaną przekazane jako kopia, a nie przez referencję.

Typ `Series` dopuszcza równocześnie pewne metody macierzy jak i słownika. Przykładowo, jeżeli chcemy się odwołać do konkretnego elementu szeregu możemy to zrobić przez wywołanie elementu w sensie porządkowym: pierwszy, drugi, trzeci itp. (jak w macierzy) pamiętając, że pierwszy element to element 0 lub przez podanie konkretnego indeksu z listy `index` (jak w słowniku).

In [6]:
print(sd1[0])
print(sd1['kot'])

Mruczek
Mruczek


In [8]:
print(sd1[1:3])

pies     Azor
rybka     NaN
dtype: object


Działają również podstawowe działania znane nam z operacji na macierzach:

- `+,-` dodawanie/odejmowanie szeregu do/od szeregu jak i pojedynczej danej zgodnego typu do/od elementu (elementów) szeregu (dodawanie liczby, dodawanie stringa),
- `*, /` mnożenie/dzielenie szeregów miejsce w miejsce lub przez liczbę dla `dtype` liczbowych. 

Supportowane w najnowszej wersji Pythona metody dla typu `Series` (przykładowy szereg to `sd1`):

- `sd1.dtype` - typ danych w szeregu,
- `sd1.ftype` - informuje, czy dane są typu `dense`, czy `sparse`,
- `sd1.index` - zwraca `index` lub w przypadku `sd1.index[]` indeksy wybranych elementów,
- `sd1.hasnans` - zwraca `True`, jeżeli szereg zawiera co najmniej jeden brak danych `NaN`
- `sd1.iat[]` oraz `sd1.iloc[]` - wywoływanie wyłącznie po indeksie porządkowym (podanie indeksu z `index` nie zadziała),
- `sd1.loc[]` - wywoływanie wyłącznie po indeksie z `index`,
- `sd1.real` - w przypadku danych typu zespolonego zwraca listę części rzeczywistych,
- `sd1.imag` - w przypadku danych typu zespolonego zwraca listę samych części urojonych,
- `sd1.is_monotonic` - zwraca `True`, jeżeli szereg jest monotoniczny,
- `sd1.is_monotonic_decreasing` - zwraca `True`, jeżeli szereg jest malejący,
- `sd1.is_monotonic_increasing` - zwraca `True`, jeżeli szereg jest rosnący,
- `sd1.is_unique` - zwraca `True`, jeżeli szereg jma wszystkie wyrazy różne,
- `sd1.name` - zwróci nadaną szeregowi nazwę, można też użyć do nadania nazwy,
- `sd1.nbytes` - zwraca liczbę bajtów (B) zajętych przez szereg,
- `sd1.size` - zwraca liczbę elementów w szeregu (łącznie z elementami `NaN`),
- `sd1.values` - zwraca dane `data` z szeregu w postaci macierzy `ndarray`.

Metod działających na szeregach, które dublują się z metodami działającymi na ramce danych nie będziemy w tym miejscu omawiać szczegółowo.

## Ramka danych `DataFrame`

Ramka danych `DataFrame` jest dwuwymiarową strukturą danych przypominającą dwuwymiarową macierz, w której każda kolumna może być innego typu. Ramkę tworzymy konstruktorem `pandas.DataFrame(dane,index=indeks,columns=kolumny)`, gdzie `index` to lista indeksów wierszy a `columns` to lista indeksów kolumn. Dopuszczalne typy danych to:

- słownik szeregów lub słownik słowników - podanie indeksów jest nieobowiązkowe: klucze słownika ,,zewnętrznego'' będą indeksami kolumn `columns`, natomiast indeksy wierszy `index` będą sumą indeksów (kluczy) szeregów (słowników).

In [9]:
s1=pd.Series([1,2,3],index=['a','b','c'])
s2=pd.Series([2,2,1,1],index=['b','c','d','e'])

dic1={'szereg1':s1,'szereg2':s2}

df=pd.DataFrame(dic1)
print(df)

   szereg1  szereg2
a      1.0      NaN
b      2.0      2.0
c      3.0      2.0
d      NaN      1.0
e      NaN      1.0


Możemy samodzielnie nadać któryś z indeksów (lub obydwa): jeżeli podamy indeksy wierszy lub kolumn z poza istniejących indeksów (kluczy), to do ramki dołożone zostaną puste wiersze lub kolumny o zadanym przez nas indeksie, natomiast klucze (indeksy) nie wymienione przez nas zostaną pominięte.

In [10]:
df1=pd.DataFrame(dic1,index=['b','c','f'],columns=['szereg2','szereg3'])
print(df1)

   szereg2 szereg3
b      2.0     NaN
c      2.0     NaN
f      NaN     NaN


- słownik jednowymiarowych macierzy lub słownik list równych długości $n$ - podanie indeksu jest opcjonalne; lista {\tt columns} zostanie utworzona z kluczy słownika natomiast lista `index` będzie liczbami całkowitymi od 0 do $n-1$. Jeżeli podajemy indeksy ręcznie, to lista `index` musi mieć długość równą $n$. Przy `columns` mamy dowolność.

In [11]:
A=[1,2,3,4]
B=['a','b','c','d']

dic2={'list1':A,'list2':B}

df2=pd.DataFrame(dic2)
print(df2)

   list1 list2
0      1     a
1      2     b
2      3     c
3      4     d


In [12]:
df3=pd.DataFrame(dic2,columns=['list1','list3'],index=['i','ii','iii','iv'])
print(df3)

     list1 list3
i        1   NaN
ii       2   NaN
iii      3   NaN
iv       4   NaN


- lista słowników - podanie indeksu jest opcjonalne; lista `columns` będzie listą kluczy obydwu słowników a lista `index` będzie miała tyle elementów, ile mamy słowników w liście (kolejne liczby całkowite od 0). W przypadku bardziej złożonych słowników otrzymamy ramkę multiindeksowaną. Podobnie jak poprzednio możemy zadając `columns` ręcznie wybrać tylko niektóre pozycje słowników. Zadawana ręcznie lista `indeks` musi mieć tyle elementów, ile mamy słowników.

In [13]:
dic3={'kot':'Mruczek','pies':'Azor'}
dic4={'a':10,'b':20}

dane1=[dic3,dic4]

df4=pd.DataFrame(dane1)
print(df4)

       kot  pies     a     b
0  Mruczek  Azor   NaN   NaN
1      NaN   NaN  10.0  20.0


In [14]:
df5=pd.DataFrame(dane1,index=[1,2],columns=['b','kot'])
print(df5)

      b      kot
1   NaN  Mruczek
2  20.0      NaN


- tablica rekordów lub tablica strukturyzowana - analogicznie do słownika tablic (jak zostanie czas na koniec semestru wrócimy do tablic strukturyzowanych),
- pojedynczy szereg - lista `columns` ma długość 1, lista `index` jest równa liście `index` szeregu.
- słownik indeksowany tuplami - sposób na ręczne, kontrolowane utworzenie ramki multiindeksowanej:

In [15]:
dic5={('A','A'):1,('A','B'):2}
dic6={('A','A'):3,('A','B'):4}
dic7={('a','a'):dic5,('a','b'):dic6}

df6=pd.DataFrame(dic7)
print(df6)

     a   
     a  b
A A  1  3
  B  2  4


Pełna składnia konstruktora: `pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)`, gdzie:

- `data` - dane (patrz wyżej),
- `index` - indeksy wierszy,
- `dtype` - string, typ danych biblioteki `numpy` lub `ExtensionDtype`; wymuszenie konkretnego typu danych wspólnego dla wszystkich kolumn ramki,
- `copy=True/False` - jeżeli `True`, dane wejściowe zostaną przekazane przez kopię.


Podstawowe operacje na kolumnach ramek (przykładowa ramka to `df`):

- `df['nazwa']` - wywołanie konkretnej kolumny; `'nazwa'` musi być elementem listy `columns`,
- `df['nazwa']=....` - zmiana istniejącej kolumny lub utworzenie (dołożenie) nowej kolumny o indeksie `'nazwa'`; nowa kolumna musi mieć wymiar zgodny z już istniejącymi, można również podać jedną wartość, która wypełni całą kolumnę,
- `+,-,*,/` - działania na kolumnach (wierszach, pojedynczych elementach) o zgodnych typach danych realizowane miejsce w miejsce.


Supportowane w najnowszej wersji Pythona metody dla typu `DataFrame`:

- `df.T` - zamienia wiersze z kolumnami (transpozycja)
- `df.empty` - `True/False`, zwraca `True`, jeżeli ramka jest pusta,
- `df.at[indeks,kolumna]` - wywołanie pojedynczej danej z ramki; `indeks` musi byc z listy `index`, podobnie `kolumna` z listy `columns`,
- `df.iat[n,m]` - zwraca element w `n`-tym wierszu i `m`-tej kolumnie (wywołanie po indeksach porządkowych),
- `df.axes` - zwraca informację o osiach: indeksy i rodzaj danych,
- `df.dtypes` - typy danych w poszczególnych kolumnach,
- `df.ftypes` - informuje, czy dane w poszczególnych kolumnach są typu `dense`, czy `sparse`,
- `df.index` - zwraca `index`
- `df.columns` - zwraca `columns`
- `df.loc[indeks]` - wywoływanie wiersza po indeksie z `index`,
- `df.iloc[n]` - wywoływanie wiersza po liczbie porządkowej,
- `df.ndim` - zwraca liczbę wymiarów,
- `df.shape` - zwraca wymiar ramki danych (wiersze na kolumny),
- `df.size` - zwraca liczbę elementów w ramce (łącznie z elementami `NaN`),
- `df.values` - zwraca dane z ramki w postaci macierzy `ndarray`,
- `df.style` - zwraca `Styler object` używany do reprezentacji ramki w HTML.

## Zadanie 1.
Utwórz trzy szeregi: `s1` zawierający liczby całkowite od 1 do 20 i `s2` zawierający liczby od 5 do 15 indeksowane automatycznie oraz `a2` zawierający liczby od 5 do 15 indeksowany kolejnymi literami alfabetu.  Na szeregach `s1` i `s2` wykonaj podstawowe działania i wyniki zapisz jako nowe szeregi `s3`, `s4`, `s5`, `s6}` o nazwach `name` zgodnych z działaniami, których są wynikiem. Sprawdź za pomocą odpowiedniej metody, czy nowe szeregi zawierają braki danych `NaN`.


In [23]:
s1 = pd.Series(range(1,21))
s2 = pd.Series(range(5,15))
a2 = pd.Series(range(5,15),index=['a','b','c','d','e','f','g','h','i','j'])

s3 = s1 + s2
s3.name = 'dodawanie'

s4 = s1 - s2
s4.name = 'odejmowanie'

s5 = s1 * s2
s5.name = 'mnożenie'

s6 = s1 / s2
s6.name = 'dzielenie'

print(f"czy nans w s3 {s3.hasnans}, s4  {s4.hasnans}, s5 {s5.hasnans}, s6 {s6.hasnans}")



czy nans w s3 True, s4  True, s5 True, s6 True



## Zadanie 2.
Wypisz elementy szeregu `s1` o indeksach parzystych oraz elementy szeregu `a2}` indeksowane samogłoskami.


In [28]:
print(s1[::2])
print(a2[['a','e','i']])


0      1
2      3
4      5
6      7
8      9
10    11
12    13
14    15
16    17
18    19
dtype: int64
a     5
e     9
i    13
dtype: int64



## Zadanie 3.
Ułóż słownik `dict1` zawierający jako klucze co najmniej 5 gatunków zwierząt domowych a jako dane - ich imiona. Ze słownika `dict1` stwórz szereg `sd1` zawierający jeszcze dwa dodatkowe indeksy oznaczające gatunki zwierząt. Wypisz szereg `sd1` a następnie uzupełnij go o brakujące imiona zwierząt.


In [30]:
dict1={'pies':'Bruno','kot':'Mruczek','mysz':'Kajtek','dzik':'Knur','kon':'Kacper'}
sd1=pd.Series(dict1,index=['pies','kot','mysz','dzik','kon','chomik','żółw'])
print(sd1)
sd1['chomik']='Krzysztof'
sd1['żółw']='Marian'
print(sd1)

pies        Bruno
kot       Mruczek
mysz       Kajtek
dzik         Knur
kon        Kacper
chomik        NaN
żółw          NaN
dtype: object
pies          Bruno
kot         Mruczek
mysz         Kajtek
dzik           Knur
kon          Kacper
chomik    Krzysztof
żółw         Marian
dtype: object



## Zadanie 4.
Stwórz ramkę danych zawierającą szeregi `s1, s2, s3, s4` i `s5`. Zrzuć do macierzy pierwszy i trzeci wiersz. Dołóż do ramki kolumnę będącą iloczynem dwóch pierwszych kolumn oraz dodatkowy wiersz będący sumą trzech pierwszych wierszy.


In [112]:
df=pd.DataFrame(data=[s1,s2,s3,s4,s5]).T
macierz=df.iloc[[1,3]].values
df['iloczyn']=df[df.columns[0]]*df[df.columns[1]]

pd.concat([df,pd.DataFrame(df.iloc[[0,1,2]].sum(axis=0)).T])



Unnamed: 0,Unnamed 0,Unnamed 1,dodawanie,odejmowanie,mnożenie,iloczyn
0,1.0,5.0,6.0,-4.0,5.0,5.0
1,2.0,6.0,8.0,-4.0,12.0,12.0
2,3.0,7.0,10.0,-4.0,21.0,21.0
3,4.0,8.0,12.0,-4.0,32.0,32.0
4,5.0,9.0,14.0,-4.0,45.0,45.0
5,6.0,10.0,16.0,-4.0,60.0,60.0
6,7.0,11.0,18.0,-4.0,77.0,77.0
7,8.0,12.0,20.0,-4.0,96.0,96.0
8,9.0,13.0,22.0,-4.0,117.0,117.0
9,10.0,14.0,24.0,-4.0,140.0,140.0



## Zadanie 5.
Stwórz dowolną metodą ramkę
```
            F          M
A       Anna    Andrzej
K  Katarzyna  Krzysztof
M      Maria     Marcin
U    Urszula        NaN
```

Wypisz pierwszą kolumnę. Wypisz ostatni wiersz. W miejsce {\tt NaN} wpisz do ramki imię męskie na U. Dodaj do ramki kolejny wiersz z imionami na T.


In [82]:
data=[['Anna','Andrzej'],['Katarzyna','Krzysztof'],['Maria','Marcin'],['Urszula']]
df=pd.DataFrame(data,columns=['F','M'],index=['A','K','M','U'])
print(df)
df.at['U','M']='Ursus'
df


           F          M
A       Anna    Andrzej
K  Katarzyna  Krzysztof
M      Maria     Marcin
U    Urszula       None


Unnamed: 0,F,M
A,Anna,Andrzej
K,Katarzyna,Krzysztof
M,Maria,Marcin
U,Urszula,Ursus



## Zadanie 6.
Stwórz dowolną metodą ramkę
```
            plec    
              K   M
wiek 0-5     15  17
     10-15   14  14
     5-10    14  13
```
Sprawdź jej liczbę wymiarów i liczbę wierszy i kolumn (kształt). Wypisz indeksy wierszy i kolumn. Wypisz dwukrotnie pierwszy wiersz: raz za pomocą indeksów, drugi raz za pomocą liczb porządkowych. Zmień w ramce liczbę 13 na 15. Zrzuć pierwszą kolumnę do macierzy.

In [108]:
K={('wiek','0-5'):15,('wiek','10-15'):14,('wiek','5-10'):14}
M={('wiek','0-5'):17,('wiek','10-15'):14,('wiek','5-10'):13}
plec={('plec','K'):K,('plec','M'):M}
df=pd.DataFrame(plec)

print(f"wymiary {df.shape}, wierszy {df.shape[0]}, kolumn {df.shape[1]}")
print(f"indeksy: {df.index}")
print(f"kolumny: {df.columns}")
print(f"za pomocą indeksów \n {df.loc[[('wiek','0-5')]]}")
print(f"za pomocą liczb porządkowych \n {df.iloc[[0]]}")

df.replace(13,15,inplace=True)

macierz=df[('plec','K')].values

wymiary (3, 2), wierszy 3, kolumn 2
indeksy: MultiIndex([('wiek',   '0-5'),
            ('wiek', '10-15'),
            ('wiek',  '5-10')],
           )
kolumny: MultiIndex([('plec', 'K'),
            ('plec', 'M')],
           )
za pomocą indeksów 
          plec    
            K   M
wiek 0-5   15  17
za pomocą liczb porządkowych 
          plec    
            K   M
wiek 0-5   15  17
