# Pandas

Pandas (**P**ython **AN**alysis of **DA**ta) – biblioteka do przetwarzania i analizy zbiorów danych

Instalacja biblioteki - w wierszu poleceń:

```
   pip install pandas
```
lub w Jupyterze:

In [None]:
#%pip install pandas                                 

Załadowanie biblioteki w Pythonie:

In [None]:
import pandas as pd
import numpy as np               # też nadal ważna

Dwa typy struktur w Pandas:

- jednowymiarowa: **Series** - zmienna, lista wartości jednego typu
- dwuwymiarowa: **DataFrame** - tabela, lista zmiennych

## Zawartość pliku

1.	Serie – pandas.series
    -	utworzenie serii
    -	indeksowanie i slicing
    -	operacje na seriach
2.	Ramki danych – pandas.dataframe
    -	utworzenie ramki danych
    -	wczytanie ramki danych z pliku 
    -	zapis ramki danych w plik    
3.	Struktura danych
    -	podgląd fragmentu danych
    -	podstawowe informacje o danych
4.	Indeksowanie i slicing – Subsetting
    -	wybór kolumn przez nazwy
    -	wybór kolumn przez typ
    -	wybór podzbiorów funkcją loc
    -	wybór podzbiorów funkcją filter
5.	Operacje
    -	operacje matematyczne
    -	operacje stringowe
    -	operacje logiczne
    -	mapowanie
6.	Filtrowanie
    -	filtrowanie
    -	subsetting z filtrowaniem
7.	Modyfikacja
    -	modyfikacja wybranych wartości
    -	dodawanie / modyfikacja kolumn 
    -	przesuwanie kolumn
    -	usuwanie kolumn
    -	dodawanie wierszy
    -	usuwanie wierszy
8.	Łączenie ramek
    -	konkatenacja
    -	złączenia
9.	Utworzenie kopii ramki
10.	Przekształcenia ramki
    -	dane szerokie $\rightarrow$ dane długie
    -	dane długie $\rightarrow$ dane szerokie
    -	transpozycja
    -	sortowanie
11.	Modyfikacja etykiet
    -	usunięcie etykiet indeksów
    -	zmiana etykiet indeksów
    -	zmiana nazw kolumn
    -	zmiana nazw list etykiet

## 1. Serie - pandas.series

### Utworzenie serii

**Za pomocą listy/numpy.array**

In [None]:
zmienna1 = pd.Series([1, 2, 3])

print(zmienna1)

In [None]:
print(zmienna1.shape)

Pandas.series mają indeksowane elementy w przeciwieństwie do list lub numpy.array.

In [None]:
print(pd.Series([1, 2, 3], index = ['x', 'y', 'z']))

**Za pomocą słownika**

In [None]:
zmienna2 =  pd.Series({'a':'pies', 'b':'kot', 'c':'krowa'})
print(zmienna2)

### Indeksowanie i slicing

**Indeksowanie**

In [None]:
print(zmienna1[1])
print(zmienna2['b'])

**Slicing**

In [None]:
print(zmienna1[1:])

In [None]:
print(zmienna2[:'b'])                                 # włącznie z 'b'!

---

Pandas.series nie powinien składać się z elementów różnego typu - w pamięci przechowywane są oryginalne typy elementów, ale podczas operowania na całym pandas.series typ jest ujednolicany do najbardziej ogólnego:

In [None]:
lista = [1, 'a', 3]

print(lista)
print(pd.Series(lista))                               # zmiana int -> object (str)

### Operacje na seriach

Pandas.series posiadają podobny (ale nie identyczny) zbiór funkcjonalności do numpy.array:

In [None]:
zmienna = pd.Series([-1, 0, 1], dtype = 'object')     # zdefiniowanie typu elementów
print(zmienna)

In [None]:
zmienna1 = pd.Series([1, 2, 3])
zmienna2 = pd.Series([4, 5, 6])

print(zmienna1 + zmienna2)                            # operacje matematyczne
print(zmienna1 * 2)                                   # broadcasting
print(pd.concat([zmienna1, zmienna2]))                # konkatenacja
print(zmienna1[zmienna1 > 1])                         # operacje logiczne i filtrowanie
zmienna1[1] = 9; print(zmienna1)                      # modyfikacja
print(zmienna1.round())                               # funkcje matematyczne
print(zmienna1.sum())                                 # funkcje statystyczne

## 2. Ramki danych - pandas.dataframe

### Utworzenie ramki danych

**Za pomocą listy/numpy.array**

In [None]:
tabela = pd.DataFrame([[1, 2, 'pies'],
                       [4, 5, 'kot'],
                       [7, 8, 'krowa']])
tabela

In [None]:
tabela = pd.DataFrame([[1, 2, 'pies'],
                       [4, 5, 'kot'],
                       [7, 8, 'krowa']],
                      columns = ['a', 'b', 'c'],       # nazwy kolumn
                      index   = [1, 2, 3])             # indeksy wierszy
tabela

**Za pomocą słownika**

In [None]:
tabela = pd.DataFrame({'a': [1, 4, 7],
                       'b': [2, 5, 8],
                       'c': ['pies', 'kot', 'krowa']})
tabela

In [None]:
tabela = pd.DataFrame({'a': [1, 2, 3],                 # 'nazwa_zmiennej':lista_wartości
                       'b': [4, 5, 6],
                       'c': ['pies', 'kot', 'krowa']},
                      index = ['x', 'y', 'z'])         # indeksy wierszy
tabela

In [None]:
tabela.info()

Każda kolumna pandas.dataframe to pandas.series. Konsekwencja: powinna zawierać tylko jeden typ danych.

In [None]:
type(tabela['a'])

---

Utworzenie DataFrame za pomocą numpy.array jest właściwe, jeśli nasze dane są jednego typu, np. dane tylko ilościowe. \
W przeciwnym razie, typy danych mogą zmienić się na niepożądane.

In [None]:
tabela_lst = pd.DataFrame([[1, 2, 'pies'],
                           [4, 5, 'kot'],
                           [7, 8, 'krowa']])

tabela_nmp = pd.DataFrame(np.array([[1, 2, 'pies'],
                                    [4, 5, 'kot'],
                                    [7, 8, 'krowa']]))

tabela_lst.info()
tabela_nmp.info()

### Wczytanie ramki danych z pliku

Docelowo chcemy jako DataFrame wczytywać pliki o rozszerzeniach "xlsx", "csv", "txt", aby móc przetworzyć zebrane wcześniej dane. \
Jeśli nie chcemy podawać ścieżki bezwzględnej do pliku, ani ustawiać katalogu roboczego, to najlepiej mieć dane w tym samym folderze, co plik z kodem.

**Pliki csv i txt**

Instrukcja funkcji read_csv:

https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

In [None]:
pd.read_csv('data.csv')      
#pd.read_csv('/usr/share/AiWD/data.csv')       # na Dziobaku - ścieżka do współdzielonego folderu z danymi (bez konieczności ich pobierania)

In [None]:
pd.read_csv('data_ansi.csv',
            #encoding = 'ansi'                 # kodowanie pliku, np. 'utf-8' (domyślne), 'cp1250'
            ) 

In [None]:
pd.read_csv('data_semicolon.csv',
            #sep = ';'                         # separator komórek, np. ',' (domyślne), ' ', '\t' (tabulacja)
            ) 

In [None]:
pd.read_csv('data_specific.csv')               # domyślne ustawienia nie pozwalają na odczytanie pliku!

In [None]:
pd.read_csv('data_specific.csv',
            sep       = ';',
            decimal   = ',',                   # znak dziesiętny, np. '.' (domyślne)
            #header    = None,                 # nr wiersza z nazwami kolumn, np. 0,1,2, None (brak)
            #index_col = 0,                    # nr kolumny z indeksami wierszy
            #names     = ['w', 'x', 'y', 'z']  # nazwy kolumn (były już zdefiniowane->dopisanie nad; nie było->zastąpienie)
            )

**Pliki xlsx**

Instalacja pakietu `openpyxl`do wczytywania i zapisywania plików xlsx - w wierszu poleceń:
```
pip install openpyxl
```
lub w Jupyterze:

In [None]:
%pip install openpyxl                         

Instrukcja funkcji read_excel:

https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html

In [None]:
pd.read_excel('data.xlsx', 'tabela',           # dane i arkusz
              header = 0                       # dalsze argumenty, analogiczne do read_csv
              ) 

#pd.read_excel('/usr/share/AiWD/data.xlsx', 'tabela',          
#              header = 0                       
#              )                               # na Dziobaku - ścieżka do współdzielonego folderu z danymi (bez konieczności ich pobierania)

Instrukcja funkcji ExcelFile:

https://pandas.pydata.org/docs/reference/api/pandas.ExcelFile.html

In [None]:
plik_excel = pd.ExcelFile('data.xlsx')         # wczytanie danych z xlsx (całego pliku)
plik_excel.sheet_names                         # lista arkuszy danych pliku xlsx

In [None]:
dane = plik_excel.parse('pracownicy',          # wczytanie danych z xlsx (konkretnego arkusza), domyślnie pierwszy
                        index_col = 0          # dalsze argumenty, analogiczne do read_csv 
                        )                    
dane   

### Zapis ramki danych w pliku

In [None]:
dane.to_csv('data_saved.csv',       
            index = False                      # zapis bez indeksów wierszy
            )          

In [None]:
dane.to_excel('data_saved.xlsx',    
              index = False                    # zapis bez indeksów wierszy
              )

In [None]:
import pickle

pickle.dump(dane, open('data_saved', 'wb'))    # zapis obiektu danych w pliku binarnym

Sprawdzenie:

In [None]:
pd.read_csv('data_saved.csv') 

In [None]:
pd.read_excel('data_saved.xlsx') 

In [None]:
pickle.load(open('data_saved', 'rb'))

## 3. Struktura danych

### Podgląd fragmentu danych

In [None]:
print(dane.head())                            # 5 pierwszych wierszy
print()
print(dane.head(2))                           # k pierwszych wierszy
print()
print(dane.tail())                            # 5 ostatnich wierszy

In [None]:
print(dane.sample())                          # losowy wiersz
print()
print(dane.sample(4))                         # k losowych wierszy

### Podstawowe informacje o danych

In [None]:
dane.info()                                   # podsumowanie kluczowych informacji o danych

In [None]:
print(dane.index)                             # indeksy wierszy
print(dane.columns)                           # nazwy kolumn

In [None]:
print(dane.count())                           # liczba niepustych wartości w kolumnach
print(dane.dtypes)                            # typy zmiennych

In [None]:
print(dane.shape)                             # wymiary zbioru danych (liczba wierszy i kolumn)
print(len(dane))                              # liczba wierszy
print(len(dane.columns))                      # liczba kolumn

## 4. Indeksowanie i slicing - Subsetting

### Wybór kolumn poprzez ich nazwy

**Jedna kolumna**

In [None]:
print(dane['Imię'])                           # kolumna jako pandas.series
print(dane.Imię)

In [None]:
print(dane[['Imię']])                         # kolumna jako pandas.dataframe

In [None]:
print(type(dane['Imię']),   dane['Imię'].shape)
print(type(dane[['Imię']]), dane[['Imię']].shape)

Gdy nazwa kolumny jest dwuczłonowa dostęp do niej jest tylko na pierwszy ze sposobów:

In [None]:
print(dane['Data urodzenia']) 
#print(dane.Data urodzenia)                    # błąd składni (SyntaxError)

**Kilka kolumn**

In [None]:
dane[['Imię', 'Nazwisko']]

### Wybór kolumn poprzez ich typ

**Jeden typ**

In [None]:
dane.select_dtypes('object')

**Kilka typów**

In [None]:
 dane.select_dtypes(['object', 'datetime'])

### Wybór podzbiorów poprzez funkcję `loc`

Funkcja `loc` pozwala na indeksowanie wierszy i kolumn za pomocą ich nazw.

**Jeden wiersz**

In [None]:
dane.loc['AN01']

**Kilka wierszy**

In [None]:
dane.loc[['AN01', 'KM00']]

In [None]:
dane.loc['AN01':'KM00']

**Jedna komórka**

In [None]:
dane.loc['AN01', 'Imię']                       

**Dowolny podzbiór**

In [None]:
dane.loc[['AN01', 'KM00'], 'Imię']

In [None]:
dane.loc['AN01', ['Imię', 'Nazwisko']]  

In [None]:
dane.loc[['AN01', 'KM00'], ['Imię', 'Nazwisko']]

In [None]:
dane.loc[:'JM00', 'Zarobki':'Stanowisko']    

### Wybór podzbiorów poprzez funkcję `filter`

**Wybieranie kolumn**

In [None]:
dane.filter(['Imię', 'Nazwisko'])                # poprzez nazwy

In [None]:
dane.filter(like = 'ko')                         # poprzez obecność w nazwie podstringa

In [None]:
dane.filter(regex = 'sko$')                      # poprzez wyrażenie regularne (tu kończące się na "sko")

**Wybieranie wierszy**

In [None]:
dane.filter(['AN01', 'KM00'], axis = 'rows')     # poprzez nazwy

In [None]:
dane.filter(like = 'M0',      axis = 'rows')     # poprzez obecność w nazwie podstringa

In [None]:
dane.filter(regex = '^A',     axis = 'rows')     # poprzez wyrażenie regularne (tu zaczynające się na "A")

Wszystkie z powyższych opcji odwołujących się do nazw kolumn lub wierszy, mogą zostać wykorzystane do zmiany ich kolejności, poprzez podanie wszystkich kolumn lub wierszy w ustalonym porządku.

---

### Ćwiczenia

1. Wybierz kolumy 'Data urodzenia', 'Zarobki' i 'Premia' odwołując się:

* bezpośrednio do ich nazw

   * do ich nazw oraz sąsiadowania (użyj slicingu)

   * do ich typów

   * do tego, że są to jedyne kolumny z literą 'r'.

2. Wybierz kolumnę 'Stanowisko' dla osób o indeksach 'JM00', 'KM00' i 'MS90', odwołując się:
- do nazw indeksów

- do tego, że tylko tych indeksów nazwy kończą się na '0'.

---

## 5. Operacje w ramkach danych

Na pandas.dataframe można wykonywać podobny zbiór operacji jak na pandas.series, ale w większości przypadków bardziej praktyczne jest zastosowanie tych drugich - na kolumnach ramki danych.

### Operacje matematyczne

In [None]:
print(dane['Zarobki'] + dane['Premia'])                   # operacje matematyczne
print(dane['Zarobki'] * 2)                                # broadcasting
print(dane[['Zarobki', 'Premia']] * 2)                    # broadcasting na DataFrame

### Operacje stringowe

https://pandas.pydata.org/docs/reference/series.html#string-handling

In [None]:
print(dane['Nazwisko'] + '-' + dane['Stanowisko'])        # konkatenacja stringów
print(dane['Nazwisko'].str.lower())                       # małe litery
print(dane['Nazwisko'].str.upper())                       # wielkie litery
print(dane['Nazwisko'].str[0:3])                          # podstring 
print(dane['Nazwisko'].str.replace('ski', 'iak'))         # zamiana podstringa

### Operacje logiczne

**Z operatorami logicznymi**

In [None]:
print(dane['Zarobki'] == (dane['Premia'] + 3000))
print(dane['Zarobki'] != (dane['Premia'] + 3000))
print(dane['Zarobki'] < (dane['Premia'] + 3000))
print(dane['Zarobki'] < 3100)
print((dane['Zarobki'] > 3100) & (dane['Zarobki'] < 3800))

**Z funkcjami o wartościach boolowskich**

In [None]:
print(dane['Zarobki'].isin([3100, 3800]))                 # należenie do zbioru
print(dane['Imię'].isin(['Jan', 'Andrzej']))           
print(dane['Nazwisko'].str.contains('ski'))               # obecność podstringa
print(dane['Zarobki'].isna())                             # brak danych

### Mapowanie

*mapowanie danych* - przekształcanie poszczególnych wartości na inne wartości, zgodnie z podaną instrukcją

**Przekształcenia liczbowe**:

In [None]:
print(dane['Zarobki'] * 3)                                 # wcześniejszy sposób

def razy3(x):
    return x * 3

print(dane['Zarobki'].map(razy3))                          # argumentem map może być funkcja mapująca

print(dane['Zarobki'].map(lambda x: x * 3))                # funkcja "definiowana w miejscu", bez nazwy

print(dane[['Zarobki', 'Premia']].map(lambda x: x * 3))    # map na DataFrame

**Klasyfikacja**:

Na podstawie przedziałów:

In [None]:
print(dane['Zarobki'].map(lambda x: 'wysokie' if x > 3000 else 'niskie'))      # dychotomizacja zmiennej 
print(dane['Zarobki'].map(lambda x: 'wysokie' if x > 3300 else (
                                    'średnie' if x > 3000 else
                                    'niskie')))

Na podstawie zbiorów:

In [None]:
print(dane['Stanowisko'].map(lambda x: 'IT'  if x in ['programista', 'analityk'] else 'non-IT'))
print(dane['Stanowisko'].map(lambda x: 'IT'  if x in ['programista', 'analityk'] else (
                                       'MNG' if x == 'kierownik' else
                                       'BSN')))

Na podstawie poszczególnych wartości:

In [None]:
dane['Stanowisko'].map({'programista':'IT',          # mapowanie przy pomocy słownika - gdy wartości jest wiele
                        'analityk'   :'IT',
                        'kierownik'  :'MNG',
                        'sprzedawca' :'BSN'
                       })

**Kodowanie**:

In [None]:
dane['Stanowisko'].map({'programista':1,             
                        'analityk'   :2,
                        'kierownik'  :3,
                        'sprzedawca' :4
                        })

Kodowanie jest często wykorzystywane do analizy zmiennych porządkowych.

---

### Ćwiczenia

1. Oblicz, ile wynosiłyby zarobki pracowników, gdyby dać im podwójną premię.

2. Utwórz listę stringów zawierających pierwsze trzy litery imion i nazwisk, np. Anastazja Kowalska -> AnaKow.

3. Sklasyfikuj pracowników jako młodszych lub starszych na podstawie tego, czy urodzili się przed rokiem 2000 (dane['Data urodzenia'].dt.year przechowuje rok).

4. Zakoduj stanowiska na podstawie ich pierwszych liter pisanych z wielkiej litery, np. programista -> P.
- za pomocą funkcji na stringach

- za pomocą funkcji `map` (oraz słownika)

---

## 6. Filtrowanie

### Filtrowanie 

Jeden warunek:

In [None]:
print(dane['Zarobki'] < 3100)                                     # nie "dane[['Zarobki']]" !
print(dane[dane['Zarobki'] < 3100])
print(dane.query('Zarobki < 3100'))

In [None]:
print(dane['Stanowisko'] != "analityk")
print(dane[dane['Stanowisko'] != "analityk"])
print(dane.query('Stanowisko != "analityk"'))

Kombinacja kilku warunków:

In [None]:
print(dane[(dane['Zarobki'] < 3100) & (dane['Zarobki'] > 2900)])
print(dane.query('Zarobki < 3100 and Zarobki > 2900'))            # & - and, | - or, ~ - not

### Subsetting z użyciem filtrowania

In [None]:
print(dane[dane['Zarobki'] < 3100]['Stanowisko'])
print(dane['Stanowisko'][dane['Zarobki'] < 3100])

print(dane.loc[dane['Zarobki'] < 3100, 'Stanowisko'])  
print(dane.query('Zarobki < 3100').filter(['Stanowisko']))  

In [None]:
print(dane[dane['Zarobki'] < 3100][['Data urodzenia', 'Stanowisko']])
print(dane[['Data urodzenia', 'Stanowisko']][dane['Zarobki'] < 3100])

print(dane.loc[dane['Zarobki'] < 3100, ['Data urodzenia', 'Stanowisko']])
print(dane.query('Zarobki < 3100').filter(['Data urodzenia', 'Stanowisko']))  

## 7. Modyfikacja

### Modyfikacja wybranych wartości

**Jedna wartość**

In [None]:
print(dane.loc['MS90', 'Stanowisko'])

dane.loc['MS90', 'Stanowisko'] = 'kierownik'

print(dane.loc['MS90', 'Stanowisko'])

**Wiele wartości**

In [None]:
print(dane.loc[['JM00', 'JB95'], 'Premia'] )

dane.loc[['JM00', 'JB95'], 'Premia'] = [100, 200]   

print(dane.loc[['JM00', 'JB95'], 'Premia'])

In [None]:
print(dane.loc[dane['Stanowisko'] == 'sprzedawca', 'Premia'])

dane.loc[dane['Stanowisko'] == 'sprzedawca', 'Premia'] = 300          # ta sama wartość dla podzbioru

print(dane.loc[dane['Stanowisko'] == 'sprzedawca', 'Premia'])

In [None]:
print(dane.loc[dane['Premia'] == 200, 'Zarobki'])

dane.loc[dane['Premia'] == 200, 'Zarobki'] = dane.loc[dane['Premia'] == 200, 'Zarobki'].replace(3500, 3400)               # zmiana konkretnej/ych wartości na inne
dane.loc[dane['Premia'] == 200, 'Zarobki'] = dane.loc[dane['Premia'] == 200, 'Zarobki'].replace({3100:3300, 2800:2900})

print(dane.loc[dane['Premia'] == 200, 'Zarobki'])

In [None]:
print(dane[['Zarobki', 'Premia']])

dane.replace({'Zarobki':{3300:3100, 2900:2800},                       # zmiana konkretnej/ych wartości na inne w całej kolumnie/ach
              'Premia' :{300:250}},
             inplace = True)

print(dane[['Zarobki', 'Premia']])

`inplace = True` - działanie "w miejscu" - z uruchomieniem funkcji ramka w pamięci jest modyfikowana \
`inplace = False` - uruchomienie funkcji nie powoduje zmian w oryginalnej ramce, a tworzy zmodyfikowaną kopię ramki; \
zmiana w oryginalnej ramce wymaga wtedy przypisania wyniku do jej nazwy

---

### Ćwiczenia

1. Znajdź pracowników, którzy zarabiają co najmniej 3000, ale nie więcej niż 3500 i są programistami lub sprzedawcami.

2. Osoby o identyfikatorach AP98 i JB95 ustal kierownikami.

3. Programistom zwiększ premię o 100.

4. Nowakom, jeśli zarabiają 3400, zmień ich zarobki na 3700, a jeśli 3500, to na 3800.

5. Zmień wszędzie stanowisko "analityk" na "analityk danych" (nie modyfikuj danych w pamięci - wyświetl tylko zmodyfikowaną ramkę danych).

---

### Dodawanie / Modyfikacja kolumn

In [None]:
dane['A'] = np.random.randint(1, 10, 12)             
dane['B'] = 99                                              # jedna wartość dla całej kolumny
dane['C'] = dane['A'] + 100                                 # kolumna z przekształcenia innej
dane

In [None]:
dane = dane.assign(A2 = np.random.randint(1, 10, 12),                          
                   B2 = -99,
                   C2 = dane['A'] + 100,
                   D2 = lambda df: df['A2'] + 100           # jeśli zmienna, do której się odwołujemy, została "świeżo" zdefiniowana,
                   )                                        # potrzebujemy funkcji lambda, które "podstawia" aktualną ramkę danych
dane

Oba sposoby - odwołanie do kolumny i użycie funkcji `assign`, w przypadku istnienia kolumny o danej nazwie, nadpisują ją, dzięki czemu równie często służą do modyfikacji już istniejącej kolumny.

### Przesuwanie kolumn

In [None]:
dane.insert(column = 'Nazwisko',                            # nazwa
            value  = dane.pop('Nazwisko'),                  # lista wartości 
            loc    = 0)                                     # nowa pozycja - o indeksie 0
dane

In [None]:
dane.insert(column = 'Nazwisko',
            value  = dane.pop('Nazwisko'),
            loc    = dane.columns.get_loc('Imię') + 1)      # pozycja za kolumną Imię
dane

Powyższa funkcja może być użyta też do zdefiniowania nowej kolumny, gdy chcemy dodać ją w miejscu o określonym indeksie.

*Uwaga*! Funkcja `insert` działa "w miejscu" - uruchomienie automatycznie dodaje/modyfikuje kolumnę w zapisanej ramce.

### Usuwanie kolumn

In [None]:
dane.drop(columns = 'A',                                inplace = True)     # jednej kolumny
dane.drop(columns = ['B', 'C', 'A2', 'B2', 'C2', 'D2'], inplace = True)     # kilku kolumn

dane

### Dodawanie wierszy

In [None]:
dane.loc['BM02'] = ['Barnaba', 'Maślicki', pd.to_datetime('2002-10-05', format = '%Y-%m-%d'), 3000, 100, 'programista']          # jeden wiersz

dane = pd.concat([dane,                                                                              # wiele wierszy - pionowa konkatenacja ramek
                  pd.DataFrame([['Kajetan', 'Bury',    pd.to_datetime('1999-09-20', format = '%Y-%m-%d'), 2900, 200, 'sprzedawca'],
                                ['Renata',  'Tomicka', pd.to_datetime('1990-02-09', format = '%Y-%m-%d'), 3300, 200, 'analityk']],
                               index   = ['KB99', 'RT90'],
                               columns = dane.columns)],
                 axis = 'rows'                                                                       # oś łączenia - wiersze
                 )                                                   

dane

### Usuwanie wierszy

In [None]:
dane.drop('BM02',           inplace = True)       # jednego wiersza
dane.drop(['KB99', 'RT90'], inplace = True)       # kilku wierszy

dane

----

### Ćwiczenia

1. Dodaj dowolną kolumnę do danych.

2. Dodaj do danych kolumnę powstałą w oparciu o dodaną przed chwilą.

3. Usuń obie kolumny.

---

## 8. Łączenie ramek

### Konkatenacja

Przy dodawaniu wierszy podana została pozioma konkatenacja ramek. Ta sama funkcja, ale z argumentem `axis = 'columns'`, konkatenuje w poziomie, łacząc kolumny.

In [None]:
 pd.concat([dane,                                                     
            pd.DataFrame({'A':np.random.randint(1, 10, 12),
                          'B':-99},
                         index = dane.index)],
           axis = 'columns')    

Funkcja `concat` nie pozwala na przetwarzanie w tzw. potoku. W takiej sytuacji możemy skorzystać z funkcji `pipe` i podania w argumencie odpowiedniej funkcji.

In [None]:
dane.pipe(lambda df: pd.concat([df,
                               pd.DataFrame({'A2':np.random.randint(1, 10, 12),
                                             'B2':-99},
                                            index = dane.index)],
                               axis = 'columns'))

### Złączenia

Złączenia tabel polegają na połączeniu tabel na podstawie powiązanych kolumn. \
W złączeniach w przeciwieństwie do konkatenacji, nie wszystkie wiersze sobie odpowiadają.

In [None]:
dane_stanowiska = pd.DataFrame({'Stanowisko':['kierownik', 'programista', 'analityk', 'sprzedawca'],
                                'Dział':     ['MNG',       'IT',          'IT',       'BSN']})
dane_stanowiska

In [None]:
dane.merge(dane_stanowiska)

In [None]:
dane.merge(dane_stanowiska
           ).set_index(dane.index)    # z zachowaniem indeksu (poprzez przypisanie go na nowo)

Dla głębiej zainteresowanych:
- o złączeniach w Pythonie: https://kajodata.com/excel-sql-python-powerbi-tableau-baza-wiedzy/baza-wiedzy-python-darmowa-wiedza/jak-dziala-pandas-merge-w-python-przyklad-mmk/
- szczegóły funkcji `merge`: https://pandas.pydata.org/docs/reference/api/pandas.merge.html
- szczegóły funkcji `join`- funkcji do złączeń na podstawie indeksów: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.join.html

## 9. Utworzenie kopii ramki

Tak jak w przypadku numpy.array, aby utworzyć niezależną kopię danych, która nie będzie modyfikowana wraz ze swoim oryginałem, należy użyć funkcji `copy`.

In [None]:
dane2 = dane
dane3 = dane.loc[:, :]
dane4 = dane.copy()            # funkcja kopiująca
dane

In [None]:
dane['Firma'] = 'ABC' 

print(dane.columns)
print(dane2.columns)           # nie działa !
print(dane3.columns)           # działa (choć numpy.array[:,:] nie działa)
print(dane4.columns)           # działa 

## 10. Przekształcenia ramki

In [None]:
dane_wide = plik_excel.parse('przypadki')
dane_wide                                                     # format szeroki

*długi format danych* - wartości zmiennej są w jednej kolumnie; każdy obserwacja ma swój wiersz

*szeroki format danych* - wartości zmiennej są w kilku kolumnach; wiersze mają po kilka obserwacji

### Dane szerokie$ \rightarrow$ dane długie

In [None]:
dane_long = dane_wide.melt(value_vars = [1999, 2000, 2001],    # zmienne, które mają być scalone
                           var_name   = 'Rok',                 # nazwa scalonej zmiennej
                           value_name = 'Przypadki',           # nazwa zmiennej z wartościami scalanych zmiennych
                           id_vars    = ['Kraj'])              # zmienne, które pozostawiamy       
dane_long                                                      # format długi

### Dane długie $\rightarrow$ dane szerokie

In [None]:
dane_wide_again = dane_long.pivot(columns = 'Rok',             # zmienna rozdzielona na inne zmienne - jej wartości ich nazwami
                                  values  = 'Przypadki',       # zmienna z rozdzielanymi wartościami
                                  index   = 'Kraj')            # zmienna, która będzie indeksem
dane_wide_again                                                # znów format szeroki

### Transpozycja

*transpozycja tabeli* - zamiana wierszy i kolumn ze sobą

In [None]:
dane_wide_again.transpose()

### Sortowanie

In [None]:
print(dane_long.sort_values('Przypadki'))                      # po kolumnie
print(dane_long.sort_values('Przypadki', ascending = False,    # po kolumnie malejąco
                            #inplace = True
                            ))   

In [None]:
print(dane_long.sort_values(['Rok', 'Przypadki']))                            # po kolumnach
print(dane_long.sort_values(['Rok', 'Przypadki'], ascending = False))         # po kolumnach malejąco
print(dane_long.sort_values(['Rok', 'Przypadki'], ascending = [False, True])) # po kolumnach, odpowiednio malejąco i rosnąco
print(dane_long.sort_values(['Przypadki', 'Rok'], ascending = [True, False])) # po kolumnach, ale inna kolejność -> inny wynik

In [None]:
print(dane.head())
print(dane.head().sort_index())                                # po indeksach
print(dane.head().sort_index(ascending = False))               # po indeksach malejąco

## 11. Modyfikacja etykiet 

### Usunięcie etykiet indeksów

In [None]:
dane_wide_again.reset_index()                                  # z przeniesieniem ich do pierwszej kolumny

In [None]:
dane_wide_again.reset_index(drop = True,                       # z odrzuceniem ich
                            #inplace = True
                            )

### Zmiana etykiet indeksów

In [None]:
dane_wide_again.set_index(pd.Series([1, 2, 3]),                # podana lista
                          #inplace = True
                          )     

In [None]:
dane_wide_again.reset_index().set_index('Kraj')                # podana zmienna

### Zmiana nazw kolumn

In [None]:
dane_wide.rename(columns = {1999:'1999', 2000:'2001', 2001:'2001'},   # słownik wszystkich lub niektórych nazw zmiennych
                 #inplace = True
                 )  

In [None]:
dane_wide.rename(columns = lambda x: str(x))         # funkcja przekształcająca (efekt tutaj jak powyżej) [funkcja na każdym obiekcie, nie na pandas.series]

In [None]:
dane_long.rename(columns = lambda x: x.replace('a', ':)'))           

### Zmiana nazw list etykiet

In [None]:
dane_wide_again.rename_axis('Czas',    axis = 'columns', inplace = True)
dane_wide_again.rename_axis('Państwo', axis = 'index',   inplace = True)

print(dane_wide_again.index.name, dane_wide_again.columns.name)
dane_wide_again

---

### Ćwiczenia

1. Zmień nazwę kolumny "Zarobki" na "Pensja".

2. Zmień nazwy kolumn na pisane małą literą, a spacje zamień na "_".

3. Posortuj pracowników rosnąco po nazwisku i malejąco po dacie urodzenia.

---

# Najważniejsze funkcje



- read_csv
- info
- head
- df[cols]
- loc
- filter
- map
- query / df[condition]
- replace
- assign / df[col_name] = vals_list
- drop
- concat
- copy
- sort_values
- sort_index
- rename
- set_index
- reset_index

---

# Więcej funkcji

`pandas.DataFrame`: https://pandas.pydata.org/docs/reference/frame.html

`pandas.Series`:    https://pandas.pydata.org/docs/reference/series.html