# Pandas - podstawowe metody na strukturach danych

## Metody ogólne

- `pd.isna()` - zwraca strukturę z danymi `True/False`; `True`, jeżeli element to brak danych `NaN`
- `pd.notna()` - zwraca strukturę z danymi `True/False`; `False`, jeżeli element to brak danych `NaN`
- `pd.to_numeric(lista elementów)` - przekształca elementy listy na typ numeryczny (użyteczne, gdy z jakichś powodów w strukturze danych liczby są typu `string`)
- `pd.date_range(start=początek, end=koniec, periods=n, freq=częstotliwość)` - automatyczne tworzenie listy elementów `DataTime` od zadanej daty `początek` do daty `koniec` albo przez podział na podaną liczbę `n` równych okresów, albo co określoną częstotliwość wystąpień `częstotliwość`; `częstotliwość` musi być stringiem formatu `'nX'`, gdzie `X` to tzw. *frequency alias*: `H` - godziny, `D` - dni, `B` - dni robocze, ` M` - miesiące itp.

In [1]:
import numpy as np
import pandas as pd

lista = [np.nan,1,'2',3,4,'5',np.nan,6,7,np.nan,9]
s1 = pd.Series(pd.to_numeric(lista))
s1_nan = pd.isna(s1)

s1[s1_nan == True]=0

print(s1)

0     0.0
1     1.0
2     2.0
3     3.0
4     4.0
5     5.0
6     0.0
7     6.0
8     7.0
9     0.0
10    9.0
dtype: float64


In [2]:
l2=pd.date_range(start='3/12/2021',end='3/21/2021',freq='1D')

s2=pd.Series(np.random.randint(5,25,10),index=l2)
s3=pd.Series(np.random.randint(10,50,10),index=l2)

df1=pd.DataFrame({'klienci sklep 1':s2,'klienci sklep 2':s3})
print(df1)

            klienci sklep 1  klienci sklep 2
2021-03-12               10               47
2021-03-13               24               13
2021-03-14               16               27
2021-03-15               22               35
2021-03-16               18               11
2021-03-17               24               16
2021-03-18               17               24
2021-03-19               11               41
2021-03-20                7               41
2021-03-21               18               31


## Series - podstawowe metody

### Konwersja danych, usuwanie, reindeksacja itp.

- `Series.copy()` - kopiuje szereg do nowego szeregu,
- `Series.to_numpy()` - tworzy macierz `ndarray` z wyrazów szeregu,
- `Series.to_list()` - tworzy listę z wyrazów szeregu,
- `Series.append(szeregi)` - dołącza do szeregu nowe `szeregi`,
- `Series.replace(stary, nowy)` - zmienia w szeregu wartości `stary` na `nowy`,
- `Series.drop(indeks)` - usuwa element o zadanym indeksie,
- `Series.drop_duplicates()` - usuwa z szeregu podwójne wartości,
- `Series.isin(lista_wartości)` - zwraca `True` tam, gdzie w szeregu znajduje się wartość z listy,
- `Series.reindex([lista indeksów])` - zmiana indeksacji szeregu; wyrazy o indeksach nie znajdujących się na nowej liście zostaną usunięte,
- `Series.rename({słownik})` - zmienia nazwy starych indeksów (klucze słownika) na nowe (wartości słownika),
- `Series.truncate(before=indeks1, after=indeks2, copy=True/False)` - obcina wszystkie elementy szeregu przed `indeks1` i po `indeks2`,
- `Series.where(warunek, other=nowa)` - gdy `warunek` **nie jest** spełniony, zamieni wartość w szeregu na wartość `nowa`,
- `Series.mask(warunek, other=nowa)`- gdy `warunek` **jest** spełniony, zamieni wartość w szeregu na wartość `nowa`,
- `Series.add_prefix(prefiks)` - dodaje `prefiks` do indeksów,
- `Series.add_suffix(sufiks)` - dodaje `sufiks` do indeksów.

In [3]:
s1=pd.Series([1,2,2,2,2,2,2,2,3,4])
s2=pd.Series([5,6,6,6,6,6,7,8,9,10])

s3=s1.append(s2)
print(s3)

s3=s3.replace(6,1)
print(s3)

s3=s3.drop_duplicates()
print(s3)

s3=s3.where(s3%2==0,0)
print(s3)

0     1
1     2
2     2
3     2
4     2
5     2
6     2
7     2
8     3
9     4
0     5
1     6
2     6
3     6
4     6
5     6
6     7
7     8
8     9
9    10
dtype: int64
0     1
1     2
2     2
3     2
4     2
5     2
6     2
7     2
8     3
9     4
0     5
1     1
2     1
3     1
4     1
5     1
6     7
7     8
8     9
9    10
dtype: int64
0     1
1     2
8     3
9     4
0     5
6     7
7     8
8     9
9    10
dtype: int64
0     0
1     2
8     0
9     4
0     0
6     0
7     8
8     0
9    10
dtype: int64


  s3=s1.append(s2)


### Operacje na elementach

- `Series.get(indeks)` - zwraca element o zadanym indeksie,
- `Series.pop(indeks)` - zwraca element o zadanym indeksie i usuwa go z szeregu,
- `Series.add(obiekt)` - dodaje `obiekt` do każdego elementu szeregu, miejsce w miejsce,
- `Series.sub(obiekt)` - odejmuje `obiekt` od każdego elementu szeregu, miejsce w miejsce,
- `Series.mul(obiekt)` - mnoży każdy element przez `obiekt`, miejsce w miejsce,
- `Series.div(obiekt)` - dzieli każdy element przez `obiekt`, miejsce w miejsce,
- `Series.abs()` - zwraca szereg modułów wartości wyjściowego szeregu,
- `Series.round(n)` - zaokrągla wartości szeregu do zadanej liczby miejsc po przecinku,
- `Series.product()` - zwraca iloczyn wyrazów szeregu,
- `Series.sum()` - zwraca sumę wyrazów szeregu.

In [4]:
s=pd.Series([1,2,3,4,5])
s=s.add(1)
print(s)
print(s.sum())

0    2
1    3
2    4
3    5
4    6
dtype: int64
20


### Obsługa brakujących danych `NaN`

- `Series.isna()` - zwraca szereg z danymi `True/False`; `True`, jeżeli element to brak danych `NaN`,
- `Series.notna()`- zwraca szereg z danymi `True/False`; `False`, jeżeli element to brak danych `NaN`,
- `Series.dropna()` - usuwa z szeregu braki danych `NaN`,
- `Series.fillna(wartość lub method=metoda)` - uzupełnianie `NaN` o zadaną wartość lub poprzez wybraną metodę: `'ffill'` koliuje poprzednią wartość,`'bfill'` kopiuje następną wartość,
- `Series.interpolate(method=metoda)` - uzupełnia `NaN` o wartość powstałą przez interpolację pozostałych wartości zadaną metodą: `‘linear’` (interpolacja liniowa), `‘time’` (dla danych w formacie `DataTime`),`‘index’` (wstawia wartość indeksu), `‘polynomial’` (interpolacja wielomianowa) i wiele, wiele innych.

In [5]:
s=pd.Series([1,2,np.nan,4,5,6,np.nan,8,9])
s=s.interpolate(method='linear')
print(s)

0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
5    6.0
6    7.0
7    8.0
8    9.0
dtype: float64


### Sortowanie

- `Series.argsort()` - zwraca szereg, którego wartości to miejsce wyrazu o danym indeksie w posorowanym szeregu,
- `Series.reorder_levels(porządek)` - przestawia elementy w szeregu według nowej kolejności indeksów `porządek`,
- `Series.sort_values()` - sortowanie po wartościach; opcjonalny argument `ascending=True/False`,
- `Series.sort_index()` - sortowanie po indeksach; opcjonalny argument `ascending=True/False`.

In [6]:
s=pd.Series(np.random.randint(0,9,5),index=['b','c','e','a','d'])
print(s.sort_values())
print(s.sort_index())

d    2
c    4
e    6
a    6
b    8
dtype: int32
a    6
b    8
c    4
d    2
e    6
dtype: int32


## DataFrame - podstawowe metody

### Konwersja danych, usuwanie, reindeksacja itp.

- `DataFrame.copy()` - kopiuje ramkę do nowej ramki,
- `DataFrame.append(ramka)` - dołącza do starej ramki wiersze i kolumny ramki `ramka`,
- `DataFrame.insert(indeks, nazwa, [lista wartości])` - wstawia na indeks o numerze `indeks` kolumnę o nazwie `nazwa` i zadanej liście wartości.
- `DataFrame.replace(stary, nowy)` - zmienia w ramce wartości `stary` na `nowy`,
- `DataFrame.drop(labels=[indeksy], axis=0)` - usuwa wiersze (`axis=0`) lub kolumny (`axis=1`) o zadanych indeksach,
- `DataFrame.drop_duplicates()` - usuwa z ramki powtórzone wiersze,
- `DataFrame.isin(lista_wartości)` - zwraca `True` tam, gdzie w ramce znajduje się wartość z listy,
- `DataFrame.set_axis([lista indeksów],axis=0)` - nadaje zadanej osi indeksy z listy,
- `DataFrame.rename({słownik},axis=0)` - na wybranej osi zmienia nazwy starych indeksów (klucze słownika) na nowe (wartości słownika),
- `DataFrame.rename_axis(nazwa,axis=0)` - zmienia nazwę wybranej osi
- `DataFrame.truncate(before=indeks1, after=indeks2, axis=0, copy=True/False)` - obcina wszystkie wiersze (`axis=0`) lub kolumny (`axis=1`) przed `indeks1` i po `indeks2`,
- `DataFrame.where(warunek, other=nowa)` - gdy `warunek` **nie jest** spełniony, zamieni wartość słownika na wartość `nowa`,
- `DataFrame.mask(warunek, other=nowa)`- gdy `warunek` **jest** spełniony, zamieni wartość słownika na wartość `nowa`,
- `DataFrame.add_prefix(prefiks)` - dodaje `prefiks` do indeksów kolumn,
- `DataFrame.add_suffix(sufiks)` - dodaje `sufiks` do indeksów kolumn,
- `DataFrame.filter(items=None, like=None, regex=None, axis=None)` - filtrowanie indeksów wierszy (`axis=0`) lub kolumn (`axis=1`) ramki: po nazwach (`items`), wyrażeniach regularnych (`regex`) albo zawieraniu danego stringa w nazwie (`like`).

In [7]:
s1=pd.Series(np.random.randint(0,9,10))
s2=pd.Series(np.random.randint(0,9,10))
s3=pd.Series(np.random.randint(0,9,10))

df1=pd.DataFrame({'1':s1,'kol 2':s2,'3':s3})
print(df1)

df1=df1.drop(labels=[0,3],axis=0)
print(df1)

df1=df1.set_axis(range(8),axis=0)
print(df1)

df1=df1.rename({'1':'kol 1','3':'kol 3'},axis=1)
df1=df1.rename_axis('kolumny',axis=1)
df1=df1.rename_axis('wiersze')
print(df1)

   1  kol 2  3
0  6      1  8
1  5      1  3
2  5      5  4
3  2      2  4
4  6      1  1
5  7      1  5
6  2      4  8
7  0      8  1
8  4      7  7
9  5      1  1
   1  kol 2  3
1  5      1  3
2  5      5  4
4  6      1  1
5  7      1  5
6  2      4  8
7  0      8  1
8  4      7  7
9  5      1  1
   1  kol 2  3
0  5      1  3
1  5      5  4
2  6      1  1
3  7      1  5
4  2      4  8
5  0      8  1
6  4      7  7
7  5      1  1
kolumny  kol 1  kol 2  kol 3
wiersze                     
0            5      1      3
1            5      5      4
2            6      1      1
3            7      1      5
4            2      4      8
5            0      8      1
6            4      7      7
7            5      1      1


### Operacje na elementach

- `DataFrame.pop(indeks)` - zwraca kolumnę o zadanym indeksie i usuwa ją z ramki,
- `DataFrame.add(obiekt)` - dodaje `obiekt` do każdego elementu ramki, miejsce w miejsce,
- `DataFrame.sub(obiekt)` - odejmuje `obiekt` od każdego elementu ramki, miejsce w miejsce,
- `DataFrame.mul(obiekt)` - mnoży każdy element przez `obiekt`, miejsce w miejsce,
- `DataFrame.div(obiekt)` - dzieli każdy element przez `obiekt`, miejsce w miejsce,
- `DataFrame.abs()` - zwraca ramkę modułów wartości wyjściowej ramki,
- `DataFrame.round(n)` - zaokrągla wartości ramki do zadanej liczby miejsc po przecinku,
- `DataFrame.product(axis=0)` - zwraca iloczyny po wierszach (`axis=0`) lub kolumnach (`axis=1`),
- `DataFrame.sum()` - zwraca sumy po wierszach (`axis=0`) lub kolumnach (`axis=1`).

In [8]:
df1=df1.mul(2)
print(df1)

print(df1.product(axis=1))
print(df1.sum(axis=0))

kolumny  kol 1  kol 2  kol 3
wiersze                     
0           10      2      6
1           10     10      8
2           12      2      2
3           14      2     10
4            4      8     16
5            0     16      2
6            8     14     14
7           10      2      2
wiersze
0     120
1     800
2      48
3     280
4     512
5       0
6    1568
7      40
dtype: int32
kolumny
kol 1    68
kol 2    56
kol 3    60
dtype: int64


### Obsługa brakujących danych `NaN`

- `DataFrame.isna()` - zwraca ramkę z danymi `True/False`; `True`, jeżeli element to brak danych `NaN`,
- `DataFrame.notna()`- zwraca ramkę z danymi `True/False`; `False`, jeżeli element to brak danych `NaN`,
- `DataFrame.dropna(axis=0, how='any')` - usuwa z ramki wiersze (`axis=0`) lub kolumny (`axis=1`) zawierające: co najmniej jedną wartość `NaN` (`how='any'`) albo wszystkie wartości równe `NaN` (`how='all'`),
- `DataFrame.fillna(wartość lub method=metoda)` - uzupełnianie `NaN` o zadaną wartość lub poprzez wybraną metodę: `'ffill'` kopiuje poprzednią wartość,`'bfill'` kopiuje następną wartość,
- `DataFrame.interpolate(method=metoda)` - uzupełnia `NaN` o wartość powstałą przez interpolację pozostałych wartości zadaną metodą: `‘linear’` (interpolacja liniowa), `‘time’` (dla danych w formacie `DataTime`),`‘index’` (wstawia wartość indeksu), `‘polynomial’` (interpolacja wielomianowa) i wiele, wiele innych.

In [9]:
s1=pd.Series([1,9,6,2],index=['a','b','c','d'])
s2=pd.Series([5,7,4,8,3],index=['a','b','c','d','e'])

d1={'k1':s1,'k2':s2}

df=pd.DataFrame(d1,columns=['k1','k2','k3'],dtype='float')
print(df)

df=df.dropna(axis=1,how='all')
df=df.dropna(axis=0,how='any')

print(df)

    k1   k2  k3
a  1.0  5.0 NaN
b  9.0  7.0 NaN
c  6.0  4.0 NaN
d  2.0  8.0 NaN
e  NaN  3.0 NaN
    k1   k2
a  1.0  5.0
b  9.0  7.0
c  6.0  4.0
d  2.0  8.0


### Sortowanie

- `DataFrame.reorder_levels(porządek, axis=0)` - przestawia wiersze (kolumny) według nowej kolejności indeksów `porządek`,
- `DataFrame.sort_values(klucz, axis=0)` - sortowanie wartości względem wiersza (kolumny) `klucz`; opcjonalny argument `ascending=True/False`,
- `DataFrame.sort_index(axis=0)` - sortowanie po indeksach wierszy (kolumn); opcjonalny argument\\
`ascending=True/False`.

In [10]:
df=df.sort_values('k2',axis=0)
print(df)

df=df.sort_values('c',axis=1)
print(df)

    k1   k2
c  6.0  4.0
a  1.0  5.0
b  9.0  7.0
d  2.0  8.0
    k2   k1
c  4.0  6.0
a  5.0  1.0
b  7.0  9.0
d  8.0  2.0


## Zadanie 1.
Zaimportuj do ramki danych plik `liczby_PN.csv`. Usuń puste wiersze i puste kolumny. Przeindeksuj wiersze tak, aby indeksy ponownie były kolejnymi liczbami naturalnymi.

In [11]:
liczby_PN=pd.read_csv("liczby_PN.csv")
liczby_PN=liczby_PN.dropna(axis=1,how='all').dropna(axis=0,how='all')
liczby_PN.index=range(0,len(liczby_PN))
liczby_PN

Unnamed: 0,parzyste,nieparzyste
0,2.0,1.0
1,4.0,3.0
2,6.0,
3,8.0,7.0
4,10.0,9.0
5,,11.0
6,14.0,13.0
7,,15.0
8,18.0,17.0
9,20.0,19.0


## Zadanie 2.
Skopiuj otrzymaną w zadaniu 1 ramkę do trzech nowych ramek a następnie uzupełnij w nich braki danych `NaN` trzema różnymi metodami: interpolacji liniowej, interpolacji wielomianowej i wstawianie zadanej wartości.

In [12]:
liczby_PN1=liczby_PN.interpolate(method='linear')
liczby_PN2=liczby_PN.interpolate(method='linear')
liczby_PN3=liczby_PN.fillna(1)
print(liczby_PN1,"\n",liczby_PN2,"\n",liczby_PN3)

   parzyste  nieparzyste
0       2.0          1.0
1       4.0          3.0
2       6.0          5.0
3       8.0          7.0
4      10.0          9.0
5      12.0         11.0
6      14.0         13.0
7      16.0         15.0
8      18.0         17.0
9      20.0         19.0 
    parzyste  nieparzyste
0       2.0          1.0
1       4.0          3.0
2       6.0          5.0
3       8.0          7.0
4      10.0          9.0
5      12.0         11.0
6      14.0         13.0
7      16.0         15.0
8      18.0         17.0
9      20.0         19.0 
    parzyste  nieparzyste
0       2.0          1.0
1       4.0          3.0
2       6.0          1.0
3       8.0          7.0
4      10.0          9.0
5       1.0         11.0
6      14.0         13.0
7       1.0         15.0
8      18.0         17.0
9      20.0         19.0


## Zadanie 3.
Posortuj ramkę `sortowanie.csv` względem: kolumny `lp`, `kol1`, `kol2`.

In [13]:
sortowanie=pd.read_csv("sortowanie.csv")
sortowanie
print(sortowanie.sort_values(by=['lp']))
print(sortowanie.sort_values(by=['kol1']))
print(sortowanie.sort_values(by=['kol2']))

   lp  kol1  kol2
0   1     1     1
5   2     6     5
1   3     2     3
6   4     7     9
2   5     3     2
7   6     8    10
3   7     4     4
8   8     9     8
4   9     5     6
9  10    10     7
   lp  kol1  kol2
0   1     1     1
1   3     2     3
2   5     3     2
3   7     4     4
4   9     5     6
5   2     6     5
6   4     7     9
7   6     8    10
8   8     9     8
9  10    10     7
   lp  kol1  kol2
0   1     1     1
2   5     3     2
1   3     2     3
3   7     4     4
5   2     6     5
4   9     5     6
9  10    10     7
8   8     9     8
6   4     7     9
7   6     8    10


## Zadanie 4.
Zaimportuj z pliku `random_series.csv` dane do szeregu. Wartości szeregu zaokrągl do 2 miejsc po przecinku, następnie posortuj je rosnąco. Skopiuj szereg do nowego szeregu. Wartości zaokrągl do liczb całkowitych, następnie liczby podzielne przez 2 zastąp liczbą 2 a liczby podzielne przez 3 zastąp liczbą 3. Usuń z szeregu powtarzające się wartości.

In [14]:
random_series=pd.read_csv("random_series.csv",decimal=',',header=None).squeeze()
random_series=random_series.round(2).sort_values()
random_series2=random_series.copy()
random_series2=random_series2.round(0)
random_series2=random_series2.mask(random_series2%2==0,2).mask(random_series2%3==0,3).drop_duplicates()
random_series2

260     2.0
195     3.0
277   -19.0
202   -17.0
199   -13.0
276   -11.0
109    -7.0
167    -5.0
263    -1.0
58      1.0
259     5.0
251     7.0
185    11.0
61     13.0
73     17.0
182    19.0
180    23.0
Name: 0, dtype: float64

## Zadanie 5.
Zaimportuj ramki danych `df1.csv` i `df2.csv`. Wykonaj na nich następujące działaja:

 - do każdego elementu ramki `df1` dodaj 2,
 - oblicz iloczyny elementów w kolumnach ramki `df1`
 - każdy element ramki `df2` pomnóż przez -1,
 - oblicz sumy elementów w kolumnach ramki `df2`,
 - dodaj, odejmij, pomnóż i podziel przez siebie elementy obydwu ramek miejsce w miejsce,
 - połącz obie ramki w jedną.


In [15]:
df1=pd.read_csv("df1.csv",header=None)
df2=pd.read_csv("df2.csv",header=None)
print("+2 \n",df1+2,"\n")
print("df1 product\n",df1.product(axis=0),"\n")
print("df2*-1\n",df2.mul(-1),"\n")
print("df2 sum\n",df2.sum(axis=0),"\n")
print("df1+df2\n",df1.add(df2),"\n")
print("df1-df2\n",df1.sub(df2),"\n")
print("df1/df2\n",df1.div(df2),"\n")
print(df1.append(df2),"\n")

+2 
      0  1
0  3.0  4
1  4.0  5
2  5.0  7
3  NaN  4 

df1 product
 0     6.0
1    60.0
dtype: float64 

df2*-1
    0    1
0  1 -2.0
1 -3  NaN
2 -4 -1.0
3 -6  1.0 

df2 sum
 0    12.0
1     2.0
dtype: float64 

df1+df2
      0    1
0  0.0  4.0
1  5.0  NaN
2  7.0  6.0
3  NaN  1.0 

df1-df2
      0    1
0  2.0  0.0
1 -1.0  NaN
2 -1.0  4.0
3  NaN  3.0 

df1/df2
           0    1
0 -1.000000  1.0
1  0.666667  NaN
2  0.750000  5.0
3       NaN -2.0 

     0    1
0  1.0  2.0
1  2.0  3.0
2  3.0  5.0
3  NaN  2.0
0 -1.0  2.0
1  3.0  NaN
2  4.0  1.0
3  6.0 -1.0 



  print(df1.append(df2),"\n")
