In [32]:
import pandas as pd
import numpy as np

## Tworzenie data frame

Cztery główne sposoby utworzenia obiektu DataFrame. Dwie pierwsze metody dotyczą wyników operacji obliczenowych, dwie kolejne czytania z istniejących zbiorów danych

* ze słownika
* z macierzy/listy list
* import danych zewnętrznych
* nazwiązanie połączenia ze źródłem danych

### Ze słownika

* Klucze słownika domyślnie są zamieniane w nazwy kolumn
* wartości to obiekty iterowalne o określonej długości. Mogą to być też funkcje zwracające obiekty iterowalne
* W przypadku dataFrame tworzenia ze słownika nie możemy wskazać indexu, można go wskazać w osobnym kroku

> parametr `inplace` oznacza, że dataFrame jest modyfikowana  w miejscu (w praktyce nowa df nadpisuje starą). jego stosowanie nie jest zalecane

In [33]:
dict_to_frame = {"index":range(1,6),
            "text": ["a","b","c","d","e"],
            "number": np.array([23.4,11.5,22.8,91.7,0.01]),
            "date":["2020/03/21","2020/03/21","2020/03/25","2020/03/24","2020/03/22"]}

frame = pd.DataFrame(dict_to_frame)
frame.set_index('index',inplace=True)
frame

Unnamed: 0_level_0,text,number,date
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,a,23.4,2020/03/21
2,b,11.5,2020/03/21
3,c,22.8,2020/03/25
4,d,91.7,2020/03/24
5,e,0.01,2020/03/22


### Z listy

* Można zbudować dataFrame z listy list lub innych iterowalnych obiektów, na przykład numpy array
* Każdy element listy musi zawierać taką samą strukturę (record) danych jakie mają się znaleść w wierszach tabeli, 
* Jeżeli przekazujemy listę kolumn, dane należy transformować funkcją `zip` połączoną z operatorem rozpakowania krotki `(*)`
* nazwy kolumn muszą być przekazane jawnie
* ponownie index trzeba wskazać ręcznie po utworzeniu dataFrame

In [34]:
list_to_frame = [range(1,6),
["a","b","c","d","e"],
np.array([23.4,11.5,22.8,91.7,0.01]),
["2020/03/21","2020/03/21","2020/03/25","2020/03/24","2020/03/22"]]

frame = pd.DataFrame(zip(*list_to_frame),columns = ["index","text","number","date"])
frame.set_index('index',inplace=True)
frame

Unnamed: 0_level_0,text,number,date
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,a,23.4,2020/03/21
2,b,11.5,2020/03/21
3,c,22.8,2020/03/25
4,d,91.7,2020/03/24
5,e,0.01,2020/03/22


### Czytanie danych z zewnątrznych plików

opcja ma wiele możliwości 
* csv: https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html#pandas-read-csv
* excel: https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html
* dowolna tabela: https://pandas.pydata.org/docs/reference/api/pandas.read_table.html
* pozwala wskazać index `index_col`
* pozwala wybrać kolumny  `usecols`
* pozwala wskazać zasięg wierszy `skiprows` i `nrows`
* wskazać wartości `NA`
* i wiele innych

Dane wykorzystane w tym przykładzie będą również wykorzystywane w innych częściach ćwiczeń

In [35]:
frame = pd.read_csv("dane/pow.csv",index_col='fid')
frame

Unnamed: 0_level_0,powiat,woj,m,k,aprod,prod,pprod,malzenstwa,przyrost
fid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,złotoryjski,2,22059,22997,6451,31248,7357,4.6,-2.3
2,Legnica,2,48273,53719,13691,68317,19984,4.4,-2.3
3,jeleniogórski,2,31460,33711,8696,44540,11935,3.9,-4.4
4,górowski,2,17989,18402,5855,24457,6079,5.3,-0.7
5,oleśnicki,2,51929,54159,16488,71646,17954,4.7,0.3
...,...,...,...,...,...,...,...,...,...
376,goleniowski,32,40603,41667,13203,56086,12981,5.1,0.8
377,drawski,32,28642,29761,9051,39636,9716,4.2,-0.8
378,gryficki,32,30510,31162,9585,42246,9841,4.7,-0.6
379,kamieński,32,23583,24364,6752,32866,8329,4.5,-2.0


### ZADANIA:

* zaimportuj dane z 10 pierwszych wierszy
* zaimportuj dane z kolum: powiat, woj(ewództwo), malzenstwa, przyrost

### Import z baz danych
Jeżeli utworzymy połączenie z bazą danych możemy importować dane poprzez wykonanie dowolnego zapytania SQL
* musimy mieć zainstalowany sterownik oraz utworzyć połaczenie (sqlite3, psycopg2 do PostgreSQL)

In [36]:
import sqlite3
conn=sqlite3.connect("dane/pol.sqlite")
query = "SELECT * FROM pow INNER JOIN woj ON pow.woj=woj.WW;"
data = pd.read_sql_query(query,conn)
data

Unnamed: 0,fid,powiat,woj,m,k,aprod,prod,pprod,malzenstwa,przyrost,WW,NAZ
0,1,złotoryjski,2,22059,22997,6451,31248,7357,4.6,-2.3,2,DOLNOŚLĄSKIE
1,2,Legnica,2,48273,53719,13691,68317,19984,4.4,-2.3,2,DOLNOŚLĄSKIE
2,3,jeleniogórski,2,31460,33711,8696,44540,11935,3.9,-4.4,2,DOLNOŚLĄSKIE
3,4,górowski,2,17989,18402,5855,24457,6079,5.3,-0.7,2,DOLNOŚLĄSKIE
4,5,oleśnicki,2,51929,54159,16488,71646,17954,4.7,0.3,2,DOLNOŚLĄSKIE
...,...,...,...,...,...,...,...,...,...,...,...,...
375,376,goleniowski,32,40603,41667,13203,56086,12981,5.1,0.8,32,ZACHODNIOPOMORSKIE
376,377,drawski,32,28642,29761,9051,39636,9716,4.2,-0.8,32,ZACHODNIOPOMORSKIE
377,378,gryficki,32,30510,31162,9585,42246,9841,4.7,-0.6,32,ZACHODNIOPOMORSKIE
378,379,kamieński,32,23583,24364,6752,32866,8329,4.5,-2.0,32,ZACHODNIOPOMORSKIE


Jeżeli chcemy zobaczyć zawartość bazy danych a nie importować dane, możemy skorzystać z poleceń dla danego systemu
* w przypadku SQlite jest to `PRAGMA table_info()`
* w przypadku PostgreSQL jest to `SELECT * from the information_schema.columns`

In [37]:
cursor = conn.cursor()
cl = cursor.execute("PRAGMA table_info(pow)").fetchall() #1
cl 

[(0, 'fid', 'INTEGER', 0, None, 0),
 (1, 'powiat', 'VARCHAR(50)', 0, None, 0),
 (2, 'woj', 'INTEGER', 0, None, 0),
 (3, 'm', 'INTEGER', 0, None, 0),
 (4, 'k', 'INTEGER', 0, None, 0),
 (5, 'aprod', 'INTEGER', 0, None, 0),
 (6, 'prod', 'INTEGER', 0, None, 0),
 (7, 'pprod', 'INTEGER', 0, None, 0),
 (8, 'malzenstwa', 'REAL', 0, None, 0),
 (9, 'przyrost', 'REAL', 0, None, 0)]

### Zadania:

* zaimportować wiersze, gdzie k > m
* zaimportować dane wyłącznie z dolnośląskiego
* zaimportować średnie wartości k i m dla każdego województwa

### Serializacja danych

Pandas pozwala zapisać dowolną dataFrame do postaci binarnej `pickle`
* dataFrame Pandas zapisana do formatu `pickle` może nie być kompatybilna z modułem `pickle` z biblioteki standardowej

In [38]:
data.to_pickle("dane/pol.p")
data = pd.read_pickle("dane/pol.p")
data

Unnamed: 0,fid,powiat,woj,m,k,aprod,prod,pprod,malzenstwa,przyrost,WW,NAZ
0,1,złotoryjski,2,22059,22997,6451,31248,7357,4.6,-2.3,2,DOLNOŚLĄSKIE
1,2,Legnica,2,48273,53719,13691,68317,19984,4.4,-2.3,2,DOLNOŚLĄSKIE
2,3,jeleniogórski,2,31460,33711,8696,44540,11935,3.9,-4.4,2,DOLNOŚLĄSKIE
3,4,górowski,2,17989,18402,5855,24457,6079,5.3,-0.7,2,DOLNOŚLĄSKIE
4,5,oleśnicki,2,51929,54159,16488,71646,17954,4.7,0.3,2,DOLNOŚLĄSKIE
...,...,...,...,...,...,...,...,...,...,...,...,...
375,376,goleniowski,32,40603,41667,13203,56086,12981,5.1,0.8,32,ZACHODNIOPOMORSKIE
376,377,drawski,32,28642,29761,9051,39636,9716,4.2,-0.8,32,ZACHODNIOPOMORSKIE
377,378,gryficki,32,30510,31162,9585,42246,9841,4.7,-0.6,32,ZACHODNIOPOMORSKIE
378,379,kamieński,32,23583,24364,6752,32866,8329,4.5,-2.0,32,ZACHODNIOPOMORSKIE


In [39]:
data = pd.read_pickle("dane/pol.p")
data

Unnamed: 0,fid,powiat,woj,m,k,aprod,prod,pprod,malzenstwa,przyrost,WW,NAZ
0,1,złotoryjski,2,22059,22997,6451,31248,7357,4.6,-2.3,2,DOLNOŚLĄSKIE
1,2,Legnica,2,48273,53719,13691,68317,19984,4.4,-2.3,2,DOLNOŚLĄSKIE
2,3,jeleniogórski,2,31460,33711,8696,44540,11935,3.9,-4.4,2,DOLNOŚLĄSKIE
3,4,górowski,2,17989,18402,5855,24457,6079,5.3,-0.7,2,DOLNOŚLĄSKIE
4,5,oleśnicki,2,51929,54159,16488,71646,17954,4.7,0.3,2,DOLNOŚLĄSKIE
...,...,...,...,...,...,...,...,...,...,...,...,...
375,376,goleniowski,32,40603,41667,13203,56086,12981,5.1,0.8,32,ZACHODNIOPOMORSKIE
376,377,drawski,32,28642,29761,9051,39636,9716,4.2,-0.8,32,ZACHODNIOPOMORSKIE
377,378,gryficki,32,30510,31162,9585,42246,9841,4.7,-0.6,32,ZACHODNIOPOMORSKIE
378,379,kamieński,32,23583,24364,6752,32866,8329,4.5,-2.0,32,ZACHODNIOPOMORSKIE


## Dostęp do serii danych

Serie danych są rozwiązaniem typowym dla DataFrame bibioteki pandas i nie mają swojego odpowiednika w R. Seria to indeksowany wektor danych. Serię możemy pozyskać z DataFrame jako atrybut `.` lub poprzez nazwę (`[colname]`). Jedynie dostęp przez nazwę pozwala na użycie zmiennej

In [40]:
type(data.m)
colname = 'm'
type(data[colname])

pandas.core.series.Series

Jeżeli chcemy zwrócić pojedynczą kolumnę jako DataFrame - bo na przykład funkcja nie akceptuje `series`, to wtedy musimy użyć podwójnego nawiasu. Opdowiednikiem numpy dla series jest jednowymiarowa tablica (lub wektor w R) a dla DataFrame (nawet zawierająca jedną kolumnę) tablica dwuwymiarowa.

In [41]:
type(data[['m']])

pandas.core.frame.DataFrame

In [42]:
data.m.values.shape #1D
data[['m']].values.shape #2D

(380, 1)

## Index

Index to specjalna seria danych w dataFrame, która pozwala na identyfikację wierszy. Indeksem może być tzw obiekt haszowalny (_hashable_), czyli taki, któremu język programowania może przypisać jednoznaczny identyfikator. Te wymogi spełniają String, liczba całkowita, oraz tuple. Każdy z tych elementów może być indeksem. Indeks nie musi być unikalny. Można stosować też indeksy wielopoziomowe ale wykracza to poza zakres zajęć.

In [43]:
data.set_index("powiat",inplace=True)

In [44]:
data.index
data.columns

Index(['fid', 'woj', 'm', 'k', 'aprod', 'prod', 'pprod', 'malzenstwa',
       'przyrost', 'WW', 'NAZ'],
      dtype='object')

## Dostęp do danych w wierszach i kolumnach

Dostęp do danych w wierszach i kolumnach można pozyskać poprzez indeksowanie. Pandas oferuje dwa sposoby indeksowania: indeksere, `iloc` jest to indeksowanie pozycyjne (jak w numpy) oraz indekserem logicznym `.loc`. `loc` i `iloc` to nie są funkcje ale obiekty określane jako **indexer**. W zależności od użytego indeksera zwracana jest seria lub data Frame.

### użycie `.iloc`

In [45]:
data.iloc[:,1:3] #dataFrame
data.iloc[:,1] # seria
data.iloc[:,1:2] #DataFrame
data.iloc[[3,5,7,9],[2,6]] #DataFrame
data.iloc[0] # zwraca wiersz jako serię
data.iloc[0:1] # zwraca wiersz jako data Frame
data.iloc[0:5] # zwraca 5 wierszy jako data Frame

Unnamed: 0_level_0,fid,woj,m,k,aprod,prod,pprod,malzenstwa,przyrost,WW,NAZ
powiat,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
złotoryjski,1,2,22059,22997,6451,31248,7357,4.6,-2.3,2,DOLNOŚLĄSKIE
Legnica,2,2,48273,53719,13691,68317,19984,4.4,-2.3,2,DOLNOŚLĄSKIE
jeleniogórski,3,2,31460,33711,8696,44540,11935,3.9,-4.4,2,DOLNOŚLĄSKIE
górowski,4,2,17989,18402,5855,24457,6079,5.3,-0.7,2,DOLNOŚLĄSKIE
oleśnicki,5,2,51929,54159,16488,71646,17954,4.7,0.3,2,DOLNOŚLĄSKIE


In [46]:
data.iloc[[3,5,7,9],[2,6]] #DataFrame

Unnamed: 0_level_0,m,pprod
powiat,Unnamed: 1_level_1,Unnamed: 2_level_1
górowski,17989,6079
bolesławiecki,43962,15771
kłodzki,79465,33338
wałbrzyski,27855,11371


### użycie `.loc`

In [47]:
data.loc['oleśnicki'] # seria 
data.loc[['oleśnicki','Legnica']] # data frame
data.loc[data.index=='oleśnicki'] # data frame
data.loc[data.index=='oleśnicki',['k','m']] # data frame
data.loc[:,['k','m']] # jeżeli używamy loc musimy zachować pozycje
data[['k','m']].loc['oleśnicki'] # seria, dwie wartości


k    54159
m    51929
Name: oleśnicki, dtype: int64

### Dostęp do danych jako wynik operacji logicznej

Indekser loc przyjmuje również wyniki operacji logicznych w postaci serii True/False. Operacja logiczna to taka która zwraca wartość True/False. Mogą to być np. operacje porównania lub operacje sprawdzające czy łańcuch tekstu spełnia określony wymóg. Operacje te są są w swojej fukcjonalności odpowiednikami zapytań SQL. 

In [48]:
selector = data.NAZ.str.startswith("W")
data.loc[selector].head()


Unnamed: 0_level_0,fid,woj,m,k,aprod,prod,pprod,malzenstwa,przyrost,WW,NAZ
powiat,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
olecki,304,28,17392,17495,5767,23501,5619,4.3,1.5,28,WARMIŃSKO-MAZURSKIE
olsztyński,305,28,60623,61860,19995,85026,17462,4.4,1.4,28,WARMIŃSKO-MAZURSKIE
piski,306,28,28935,28884,9181,39466,9172,4.4,-0.6,28,WARMIŃSKO-MAZURSKIE
ostródzki,307,28,52610,54117,17207,72233,17287,4.7,-0.2,28,WARMIŃSKO-MAZURSKIE
szczycieński,308,28,35244,35783,11527,48622,10878,4.7,-0.3,28,WARMIŃSKO-MAZURSKIE



> **UWAGA: ** W przeciwieństwie do działań w języku progrsamowania True/False nie może być zastąpione warościami 0/nie 0, gdyż wartości będą interpretowane jako pozycje indeksu. Wymagana jawna konwersja na True/False

W tym wypadku spóbujemy wyselekcjonować dane zawierające w kolumnie m liczby nieparzyste

In [49]:
selector = data.m.mod(2).astype('bool')
data.loc[selector].head()

Unnamed: 0_level_0,fid,woj,m,k,aprod,prod,pprod,malzenstwa,przyrost,WW,NAZ
powiat,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
złotoryjski,1,2,22059,22997,6451,31248,7357,4.6,-2.3,2,DOLNOŚLĄSKIE
Legnica,2,2,48273,53719,13691,68317,19984,4.4,-2.3,2,DOLNOŚLĄSKIE
górowski,4,2,17989,18402,5855,24457,6079,5.3,-0.7,2,DOLNOŚLĄSKIE
oleśnicki,5,2,51929,54159,16488,71646,17954,4.7,0.3,2,DOLNOŚLĄSKIE
Jelenia Góra,7,2,38235,43750,9601,53424,18960,3.9,-4.5,2,DOLNOŚLĄSKIE


### Zadania:

* wybrać wiersze, gdzie liczba k < m 
* wybrać wiersze, gdzie k dzieli się przez 3
* wybrać miasta na prawach powiatu (zaczynają się z dużej litery)

## Łączenie dataFrame z innymi

Do łączenia data frame służy kilka poleceń z których najważniejsze to:

* `concat` - łączy DataFrames i serie wzdłuż wierszy lub kolumn. Ilość obiektów nie jest ograniczona
* `merge` - łączy dwie DataFrame na podstawie dowolnego klucza (dowlnej kolumny) zgodnie z zasadami SQL
* `join` - dołącza do pierwszej dataFrame drugą, zakłada niezgodność kluczy

Trudno jest wskazać unikalny i jednoznaczny zakres funkcjonalności każdego z tych poleceń. Merge i join mają podobny zakres funkcjonalności

In [50]:
f1 = pd.read_csv("dane/pow.csv",index_col='fid')
f2 = pd.read_csv("dane/woj.csv",index_col='WW')
frame = pd.merge(f1,f2, how="inner",left_on='woj', right_on='WW')
frame


Unnamed: 0,powiat,woj,m,k,aprod,prod,pprod,malzenstwa,przyrost,NAZ
0,złotoryjski,2,22059,22997,6451,31248,7357,4.6,-2.3,DOLNOŚLĄSKIE
1,Legnica,2,48273,53719,13691,68317,19984,4.4,-2.3,DOLNOŚLĄSKIE
2,jeleniogórski,2,31460,33711,8696,44540,11935,3.9,-4.4,DOLNOŚLĄSKIE
3,górowski,2,17989,18402,5855,24457,6079,5.3,-0.7,DOLNOŚLĄSKIE
4,oleśnicki,2,51929,54159,16488,71646,17954,4.7,0.3,DOLNOŚLĄSKIE
...,...,...,...,...,...,...,...,...,...,...
375,goleniowski,32,40603,41667,13203,56086,12981,5.1,0.8,ZACHODNIOPOMORSKIE
376,drawski,32,28642,29761,9051,39636,9716,4.2,-0.8,ZACHODNIOPOMORSKIE
377,gryficki,32,30510,31162,9585,42246,9841,4.7,-0.6,ZACHODNIOPOMORSKIE
378,kamieński,32,23583,24364,6752,32866,8329,4.5,-2.0,ZACHODNIOPOMORSKIE


In [51]:
frame = pd.read_csv("dane/pow.csv",index_col='fid').join(f2,on="woj")
frame

Unnamed: 0_level_0,powiat,woj,m,k,aprod,prod,pprod,malzenstwa,przyrost,NAZ
fid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1,złotoryjski,2,22059,22997,6451,31248,7357,4.6,-2.3,DOLNOŚLĄSKIE
2,Legnica,2,48273,53719,13691,68317,19984,4.4,-2.3,DOLNOŚLĄSKIE
3,jeleniogórski,2,31460,33711,8696,44540,11935,3.9,-4.4,DOLNOŚLĄSKIE
4,górowski,2,17989,18402,5855,24457,6079,5.3,-0.7,DOLNOŚLĄSKIE
5,oleśnicki,2,51929,54159,16488,71646,17954,4.7,0.3,DOLNOŚLĄSKIE
...,...,...,...,...,...,...,...,...,...,...
376,goleniowski,32,40603,41667,13203,56086,12981,5.1,0.8,ZACHODNIOPOMORSKIE
377,drawski,32,28642,29761,9051,39636,9716,4.2,-0.8,ZACHODNIOPOMORSKIE
378,gryficki,32,30510,31162,9585,42246,9841,4.7,-0.6,ZACHODNIOPOMORSKIE
379,kamieński,32,23583,24364,6752,32866,8329,4.5,-2.0,ZACHODNIOPOMORSKIE


Concat działa podobnie jak concatenate w numpy. W przypadku łączenia kolumnami należy wskazać `axis=1`, domyślnie `axis=0` (wierszami)

In [52]:
f1 = data.iloc[0:3]
f2 = data.iloc[30:33]
f3 = data.iloc[70:73]
f = pd.concat([f1,f2,f3])
f

Unnamed: 0_level_0,fid,woj,m,k,aprod,prod,pprod,malzenstwa,przyrost,WW,NAZ
powiat,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
złotoryjski,1,2,22059,22997,6451,31248,7357,4.6,-2.3,2,DOLNOŚLĄSKIE
Legnica,2,2,48273,53719,13691,68317,19984,4.4,-2.3,2,DOLNOŚLĄSKIE
jeleniogórski,3,2,31460,33711,8696,44540,11935,3.9,-4.4,2,DOLNOŚLĄSKIE
Grudziądz,31,4,46562,51114,14169,64455,19052,4.8,-2.3,4,KUJAWSKO-POMORSKIE
Toruń,32,4,94515,108932,27641,136227,39579,4.3,-0.3,4,KUJAWSKO-POMORSKIE
Włocławek,33,4,54257,60628,15293,76080,23512,4.5,-2.8,4,KUJAWSKO-POMORSKIE
pabianicki,71,10,56126,63546,16101,77942,25629,4.1,-3.6,10,ŁÓDZKIE
pajęczański,72,10,26117,26416,7840,34639,10054,4.4,-2.5,10,ŁÓDZKIE
piotrkowski,73,10,45223,46395,15001,59994,16623,4.0,-1.6,10,ŁÓDZKIE


In [53]:
f1 = data.iloc[:,0:3]
f2 = data.iloc[:,2:5]
f3 = data.iloc[:,2:4]
f = pd.concat([f1,f2,f3],axis=1)
f # kolumny powtarzają się b tak zostało wskazane

Unnamed: 0_level_0,fid,woj,m,m,k,aprod,m,k
powiat,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
złotoryjski,1,2,22059,22059,22997,6451,22059,22997
Legnica,2,2,48273,48273,53719,13691,48273,53719
jeleniogórski,3,2,31460,31460,33711,8696,31460,33711
górowski,4,2,17989,17989,18402,5855,17989,18402
oleśnicki,5,2,51929,51929,54159,16488,51929,54159
...,...,...,...,...,...,...,...,...
goleniowski,376,32,40603,40603,41667,13203,40603,41667
drawski,377,32,28642,28642,29761,9051,28642,29761
gryficki,378,32,30510,30510,31162,9585,30510,31162
kamieński,379,32,23583,23583,24364,6752,23583,24364


## Stosowanie funkcji na dataFrame

Pandas posiada bardzo dużo funkcji dziedziczonych po innych modułach `mumpy` i `scipy`. Funkcje można stosować po kolumnach (axis=0, domyślnie) lub wierszach (axis=1). Można też stosować funkcje do serii. 

In [54]:
data.mean(numeric_only=True) # zwraca serię


fid             190.500000
woj              17.000000
m             49025.092105
k             52279.273684
aprod         15187.963158
prod          67489.689474
pprod         18626.713158
malzenstwa        4.789474
przyrost         -0.567632
WW               17.000000
dtype: float64

In [55]:
data['NAZ'].str.lower()

powiat
złotoryjski            dolnośląskie
Legnica                dolnośląskie
jeleniogórski          dolnośląskie
górowski               dolnośląskie
oleśnicki              dolnośląskie
                        ...        
goleniowski      zachodniopomorskie
drawski          zachodniopomorskie
gryficki         zachodniopomorskie
kamieński        zachodniopomorskie
myśliborski      zachodniopomorskie
Name: NAZ, Length: 380, dtype: object

W przypadku funkcji, która nie jest wbudowana w pandas - można użyć metody `apply` z dowolną funkcją

In [56]:
data.select_dtypes(include='number').apply(np.argmax)


fid           379
woj           359
m             143
k             143
aprod         143
prod          143
pprod         143
malzenstwa     86
przyrost      246
WW            359
dtype: int64

## Grupowanie i ciągi operacji na dataFrame

DataFrame wspiera sekwencyjne wywoływanie metod, z których każda działa na wynikach działania poprzedniej. 

In [57]:
w = pd.read_csv("dane/woj.csv",index_col='WW')
p = pd.read_csv("dane/pow.csv",index_col='fid')
frame = pd.read_csv("dane/pow.csv",index_col='fid'). \
    join(w,on="woj"). \
    assign(ll = p.k+p.m) .\
    groupby("NAZ"). \
    agg({'ll': ['mean','std']}) 
frame



Unnamed: 0_level_0,ll,ll
Unnamed: 0_level_1,mean,std
NAZ,Unnamed: 1_level_2,Unnamed: 2_level_2
DOLNOŚLĄSKIE,96999.9,106655.328935
KUJAWSKO-POMORSKIE,90981.043478,71869.749467
LUBELSKIE,89839.583333,60723.393146
LUBUSKIE,72962.142857,28535.921219
MAZOWIECKIE,126591.428571,256899.755028
MAŁOPOLSKIE,152753.681818,146294.959189
OPOLSKIE,83701.333333,32991.940336
PODKARPACKIE,85171.76,40593.017743
PODLASKIE,70292.058824,63564.775425
POMORSKIE,114790.55,96937.464679


Kolumny dataFrame to tzw multiindex, w tym wypadku jest to lista krotek, zawierających pierwszy i drugi poziom indeksu

In [58]:
frame.columns

MultiIndex([('ll', 'mean'),
            ('ll',  'std')],
           )