
<center>
<h1>Szkolenie Python - podstawy analizy danych tabelarycznych</h1>
</center>

Biblioteka pandas - to jedna z najważniejszych bibliotek programistycznych Pythona analityka danych.
Pandas "Python Data Analysis Library" to biblioteka będąca najszerzej wykorzystywanym narzędziem w analizie danych w Pythonie.

Dlaczego jest taka popularna?

    Potrafi wczytać dane z plików (CSV, TSV czy SQL) i stworzyć z nich Pythonowy obiekt w formie tabeli
    
    Wprowadza funkcjonalności statystyczne na tabelach znane z oprogramowania jak Excel czy SPSS do Pythona (i jest szybsza)
    
    Jest odpowiednikiem SQL w Pythonie

Import:

In [1]:
import pandas as pd

<h2> Typy danych pandas </h2>

    Serie (Series)
    
    Ramki (DataFrame)
    
<h3> Serie </h3>

To jednowymiarowy obiekt podobny do wektora, listy lub kolumny w tabeli.

Tworzenie serii danych:

In [2]:
seria = pd.Series([34, "GEODEZJA", 'Człowiek z marmuru', True, 3.23]) #różne typy danych!
print(seria)

0                    34
1              GEODEZJA
2    Człowiek z marmuru
3                  True
4                  3.23
dtype: object


In [3]:
seria = pd.Series([34, "GEODEZJA", 'Człowiek z marmuru', True, 3.23], index = ['A', 2, 3, "magnez", 5.5])
#specyfikacja indeksu
print(seria)

A                         34
2                   GEODEZJA
3         Człowiek z marmuru
magnez                  True
5.5                     3.23
dtype: object


In [4]:
seria = pd.Series({"Film": "Człowiek z marmuru", 'Pi': 3.14}) #ze słownika
print(seria)

Film    Człowiek z marmuru
Pi                    3.14
dtype: object


Indeksacja poprzez indeks:

In [5]:
print(seria["Film"])

Człowiek z marmuru


Automatyczna indeksacja rozpoczyna się od 0 jak w Pythonie:

In [6]:
seria = pd.Series([34, "GEODEZJA", 'Człowiek z marmuru', True, 3.23])
print(seria[0])

34


Jak wbrać więcej niż jeden element?

In [7]:
seria = pd.Series([34, "GEODEZJA", 'Człowiek z marmuru', True, 3.23])
print(seria[0:2])

0          34
1    GEODEZJA
dtype: object


In [8]:
seria = pd.Series({"Film": "Człowiek z marmuru", 'Pi': 3.14})
print(seria[["Film",'Pi']])

Film    Człowiek z marmuru
Pi                    3.14
dtype: object


Podstawowe atrybuty serii:

In [9]:
seria = pd.Series({"Film": "Człowiek z marmuru", 'Pi': 3.14})

In [10]:
#transpozycja
seria.T

Film    Człowiek z marmuru
Pi                    3.14
dtype: object

In [11]:
#shape size
print(seria.shape)
print(seria.size)

(2,)
2


In [12]:
#index
print(seria.index)

Index(['Film', 'Pi'], dtype='object')


In [13]:
#wyciągnięcie listy
print(seria.values)

['Człowiek z marmuru' 3.14]


<h3> Maski </h3>

Stwórzmy sobie serię liczbową do pracy:

In [14]:
import numpy as np
seria = pd.Series(np.random.rand(10))
print(seria)

0    0.202495
1    0.244927
2    0.167476
3    0.300391
4    0.391911
5    0.809666
6    0.858646
7    0.750534
8    0.012344
9    0.374063
dtype: float64


Maska w pandas to seria składająca się z True/False, która określa należność danego wiersza do wybranej grupy, spełniającej określony wymóg. Na przykład tworząc warunek:

In [15]:
print(seria < .4)

0     True
1     True
2     True
3     True
4     True
5    False
6    False
7    False
8     True
9     True
dtype: bool


Otrzymujemy maskę wartości, ktore są mniejsze od 0.4

Aby zastosować maskę do wyboru tych wartości, używamy jej jak indeksu:

In [16]:
maska = seria < .4
print(seria[maska])

0    0.202495
1    0.244927
2    0.167476
3    0.300391
4    0.391911
8    0.012344
9    0.374063
dtype: float64


Lub w skrócie:

In [17]:
print(seria[seria < .4])

0    0.202495
1    0.244927
2    0.167476
3    0.300391
4    0.391911
8    0.012344
9    0.374063
dtype: float64


<h4> Operacje ze skalarami </h4>

In [18]:
seria = pd.Series(np.random.randint(0,10,10))
print(seria)

0    2
1    5
2    4
3    7
4    6
5    6
6    3
7    7
8    3
9    1
dtype: int32


In [19]:
seria * 10

0    20
1    50
2    40
3    70
4    60
5    60
6    30
7    70
8    30
9    10
dtype: int32

In [20]:
seria / 10

0    0.2
1    0.5
2    0.4
3    0.7
4    0.6
5    0.6
6    0.3
7    0.7
8    0.3
9    0.1
dtype: float64

In [21]:
seria + 10

0    12
1    15
2    14
3    17
4    16
5    16
6    13
7    17
8    13
9    11
dtype: int32

In [22]:
seria ** 2

0     4
1    25
2    16
3    49
4    36
5    36
6     9
7    49
8     9
9     1
dtype: int32

#### Ćwiczenie
Podnieś wszystkie wartości większe od 0.5 do kwadratu

<h1> DataFrame </h1>

DataFrame to typ danych - tabela, składająca się z wierszy i kolumn. Można ją sobie wyobrazić jako zestaw Serii, które mają wspólny indeks.

Konstruktor:

In [23]:
dane = {"raz": np.random.randint(0,10,10),
       "dwa": np.random.randint(10,20,10),
       "trzy": np.random.randint(100,110,10)}
los = pd.DataFrame(dane)
los

Unnamed: 0,raz,dwa,trzy
0,0,10,106
1,0,11,105
2,3,18,102
3,5,19,102
4,2,18,107
5,4,15,106
6,3,10,101
7,8,10,100
8,9,14,101
9,6,11,108


Usuwanie DataFrame (działa również z seriami)

In [24]:
del los

In [25]:
print(los)

NameError: name 'los' is not defined

Stwórzmy go jeszcze raz:

In [29]:
dane = {"raz": np.random.randint(0,10,10),
       "dwa": np.random.randint(10,20,10),
       "trzy": np.random.randint(100,110,10)}
los = pd.DataFrame(dane)
los

Unnamed: 0,raz,dwa,trzy
0,1,15,100
1,6,14,101
2,6,17,103
3,1,12,100
4,8,11,103
5,1,15,102
6,4,17,107
7,7,12,101
8,8,19,105
9,1,15,109


### Wybór danych, nawigowanie po tabeli

head - nagłówek:

In [30]:
los.head()

Unnamed: 0,raz,dwa,trzy
0,1,15,100
1,6,14,101
2,6,17,103
3,1,12,100
4,8,11,103


In [31]:
los.head(3)

Unnamed: 0,raz,dwa,trzy
0,1,15,100
1,6,14,101
2,6,17,103


tail - "ogon" tabeli:

In [32]:
los.tail()

Unnamed: 0,raz,dwa,trzy
5,1,15,102
6,4,17,107
7,7,12,101
8,8,19,105
9,1,15,109


In [33]:
los.tail(3)

Unnamed: 0,raz,dwa,trzy
7,7,12,101
8,8,19,105
9,1,15,109


Szybki dostęp do podstawowych statystyk:

In [34]:
los.describe()

Unnamed: 0,raz,dwa,trzy
count,10.0,10.0,10.0
mean,4.3,14.7,103.1
std,3.056868,2.540779,3.034981
min,1.0,11.0,100.0
25%,1.0,12.5,101.0
50%,5.0,15.0,102.5
75%,6.75,16.5,104.5
max,8.0,19.0,109.0


Typy danych w tabeli:

In [35]:
los.dtypes

raz     int32
dwa     int32
trzy    int32
dtype: object

Transpozycja danych również jest tu możliwa:

In [36]:
los.T

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
raz,1,6,6,1,8,1,4,7,8,1
dwa,15,14,17,12,11,15,17,12,19,15
trzy,100,101,103,100,103,102,107,101,105,109


Tworzenie kopii tabeli:

In [38]:
kopia = los
kopia

Unnamed: 0,raz,dwa,trzy
0,1,15,100
1,6,14,101
2,6,17,103
3,1,12,100
4,8,11,103
5,1,15,102
6,4,17,107
7,7,12,101
8,8,19,105
9,1,15,109


In [40]:
kopia**2 # ta operacja wykonywana jest lokalnie!

Unnamed: 0,raz,dwa,trzy
0,1,225,10000
1,36,196,10201
2,36,289,10609
3,1,144,10000
4,64,121,10609
5,1,225,10404
6,16,289,11449
7,49,144,10201
8,64,361,11025
9,1,225,11881


In [41]:
kopia

Unnamed: 0,raz,dwa,trzy
0,1,15,100
1,6,14,101
2,6,17,103
3,1,12,100
4,8,11,103
5,1,15,102
6,4,17,107
7,7,12,101
8,8,19,105
9,1,15,109


In [44]:
kopia = kopia ** 2 # tak zapisujemy operację

In [43]:
kopia

Unnamed: 0,raz,dwa,trzy
0,1,225,10000
1,36,196,10201
2,36,289,10609
3,1,144,10000
4,64,121,10609
5,1,225,10404
6,16,289,11449
7,49,144,10201
8,64,361,11025
9,1,225,11881


Operacja na kopii nie wpływa na oryginalną tabelę (jest zatem kopią a nie widokiem!)

In [48]:
los

Unnamed: 0,raz,dwa,trzy
0,1,15,100
1,6,14,101
2,6,17,103
3,1,12,100
4,8,11,103
5,1,15,102
6,4,17,107
7,7,12,101
8,8,19,105
9,1,15,109


#### Wczytywanie tabeli z pliku CSV 

Do tego użyć możemy funkcji pandasa read_csv()

In [57]:
z_csv = pd.read_csv('temperatures.csv',nrows = 100,dtype=float) # pierwsze dziesięć wierszy

In [58]:
z_csv

Unnamed: 0,#Source,Year,Month,Day,Mean
0,0.0,2016.0,12.0,6.0,0.7895
1,1.0,2016.0,12.0,6.0,0.8100
2,0.0,2016.0,11.0,6.0,0.7504
3,1.0,2016.0,11.0,6.0,0.9300
4,0.0,2016.0,10.0,6.0,0.7292
...,...,...,...,...,...
95,1.0,2013.0,1.0,6.0,0.6800
96,0.0,2012.0,12.0,6.0,0.4655
97,1.0,2012.0,12.0,6.0,0.5300
98,0.0,2012.0,11.0,6.0,0.7087


#### Ćwiczenie
Użyj metody describe by określić podstawowe statystyki CAŁEGO pliku temperatures.csv

#### Sortowanie danych

In [61]:
z_csv.sort_values(by = "Month", ascending = False) #sorotwanie po miesiącach
#nie wpływa na oryginalną tabelę!

Unnamed: 0,#Source,Year,Month,Day,Mean
0,0.0,2016.0,12.0,6.0,0.7895
24,0.0,2015.0,12.0,6.0,1.1219
97,1.0,2012.0,12.0,6.0,0.5300
96,0.0,2012.0,12.0,6.0,0.4655
73,1.0,2013.0,12.0,6.0,0.6700
...,...,...,...,...,...
94,0.0,2013.0,1.0,6.0,0.5873
95,1.0,2013.0,1.0,6.0,0.6800
22,0.0,2016.0,1.0,6.0,1.0569
47,1.0,2015.0,1.0,6.0,0.8100


Sortowanie po dwóch kolumnach na raz:

In [62]:
z_csv.sort_values(by = ["Month", "Mean"]) 

Unnamed: 0,#Source,Year,Month,Day,Mean
94,0.0,2013.0,1.0,6.0,0.5873
95,1.0,2013.0,1.0,6.0,0.6800
70,0.0,2014.0,1.0,6.0,0.6936
71,1.0,2014.0,1.0,6.0,0.7300
47,1.0,2015.0,1.0,6.0,0.8100
...,...,...,...,...,...
49,1.0,2014.0,12.0,6.0,0.7900
1,1.0,2016.0,12.0,6.0,0.8100
48,0.0,2014.0,12.0,6.0,0.8308
25,1.0,2015.0,12.0,6.0,1.1100


In [63]:
z_csv.sort_index(axis=0, ascending = False) #Sortowanie po wierszach

Unnamed: 0,#Source,Year,Month,Day,Mean
99,1.0,2012.0,11.0,6.0,0.7500
98,0.0,2012.0,11.0,6.0,0.7087
97,1.0,2012.0,12.0,6.0,0.5300
96,0.0,2012.0,12.0,6.0,0.4655
95,1.0,2013.0,1.0,6.0,0.6800
...,...,...,...,...,...
4,0.0,2016.0,10.0,6.0,0.7292
3,1.0,2016.0,11.0,6.0,0.9300
2,0.0,2016.0,11.0,6.0,0.7504
1,1.0,2016.0,12.0,6.0,0.8100


In [64]:
z_csv.sort_index(axis=1, ascending = False) #Sortowanie po kolumnach

Unnamed: 0,Year,Month,Mean,Day,#Source
0,2016.0,12.0,0.7895,6.0,0.0
1,2016.0,12.0,0.8100,6.0,1.0
2,2016.0,11.0,0.7504,6.0,0.0
3,2016.0,11.0,0.9300,6.0,1.0
4,2016.0,10.0,0.7292,6.0,0.0
...,...,...,...,...,...
95,2013.0,1.0,0.6800,6.0,1.0
96,2012.0,12.0,0.4655,6.0,0.0
97,2012.0,12.0,0.5300,6.0,1.0
98,2012.0,11.0,0.7087,6.0,0.0


<h3> Selekcja </h3>

Po nazwie kolumny:

In [65]:
z_csv["Year"]

0     2016.0
1     2016.0
2     2016.0
3     2016.0
4     2016.0
       ...  
95    2013.0
96    2012.0
97    2012.0
98    2012.0
99    2012.0
Name: Year, Length: 100, dtype: float64

In [66]:
type(z_csv)

pandas.core.frame.DataFrame

In [67]:
type(z_csv["Year"]) #to seria

pandas.core.series.Series

Po zakresie wierszy:

In [68]:
z_csv[0:3]

Unnamed: 0,#Source,Year,Month,Day,Mean
0,0.0,2016.0,12.0,6.0,0.7895
1,1.0,2016.0,12.0,6.0,0.81
2,0.0,2016.0,11.0,6.0,0.7504


In [69]:
z_csv["Year"][0:3]

0    2016.0
1    2016.0
2    2016.0
Name: Year, dtype: float64

In [70]:
z_csv[0:3]["Year"]

0    2016.0
1    2016.0
2    2016.0
Name: Year, dtype: float64

#### Metoda 'loc':

In [74]:
z_csv.loc[0] 

#Source       0.0000
Year       2016.0000
Month        12.0000
Day           6.0000
Mean          0.7895
Name: 0, dtype: float64

In [75]:
z_csv.loc[:, ["Year", "#Source"]]

Unnamed: 0,Year,#Source
0,2016.0,0.0
1,2016.0,1.0
2,2016.0,0.0
3,2016.0,1.0
4,2016.0,0.0
...,...,...
95,2013.0,1.0
96,2012.0,0.0
97,2012.0,1.0
98,2012.0,0.0


In [76]:
z_csv.loc[0:5,["Year",'Mean']]

Unnamed: 0,Year,Mean
0,2016.0,0.7895
1,2016.0,0.81
2,2016.0,0.7504
3,2016.0,0.93
4,2016.0,0.7292
5,2016.0,0.89


#### Metoda 'iloc':

In [77]:
z_csv.iloc[1]

#Source       1.00
Year       2016.00
Month        12.00
Day           6.00
Mean          0.81
Name: 1, dtype: float64

In [78]:
z_csv.iloc[0:3]

Unnamed: 0,#Source,Year,Month,Day,Mean
0,0.0,2016.0,12.0,6.0,0.7895
1,1.0,2016.0,12.0,6.0,0.81
2,0.0,2016.0,11.0,6.0,0.7504


In [79]:
z_csv.iloc[0:3,0:2]

Unnamed: 0,#Source,Year
0,0.0,2016.0
1,1.0,2016.0
2,0.0,2016.0


loc - po nazwach indeksu, iloc - po indeksach.

Zobaczmy w czym tkwi różnica:

In [81]:
z_csv.index = np.arange(101,201) #zmienimy indeksowanie
z_csv

Unnamed: 0,#Source,Year,Month,Day,Mean
101,0.0,2016.0,12.0,6.0,0.7895
102,1.0,2016.0,12.0,6.0,0.8100
103,0.0,2016.0,11.0,6.0,0.7504
104,1.0,2016.0,11.0,6.0,0.9300
105,0.0,2016.0,10.0,6.0,0.7292
...,...,...,...,...,...
196,1.0,2013.0,1.0,6.0,0.6800
197,0.0,2012.0,12.0,6.0,0.4655
198,1.0,2012.0,12.0,6.0,0.5300
199,0.0,2012.0,11.0,6.0,0.7087


In [82]:
z_csv.iloc[0:3]

Unnamed: 0,#Source,Year,Month,Day,Mean
101,0.0,2016.0,12.0,6.0,0.7895
102,1.0,2016.0,12.0,6.0,0.81
103,0.0,2016.0,11.0,6.0,0.7504


In [83]:
z_csv.loc[0:3]

Unnamed: 0,#Source,Year,Month,Day,Mean


### Złożona selekcja

I oraz lub

In [84]:
z_csv[(z_csv["Month"] < 10) & (z_csv["Mean"] > .5)] #i lub

Unnamed: 0,#Source,Year,Month,Day,Mean
107,0.0,2016.0,9.0,6.0,0.8767
108,1.0,2016.0,9.0,6.0,0.8700
109,0.0,2016.0,8.0,6.0,0.8998
110,1.0,2016.0,8.0,6.0,0.9800
111,0.0,2016.0,7.0,6.0,0.8687
...,...,...,...,...,...
192,1.0,2013.0,3.0,6.0,0.6600
193,0.0,2013.0,2.0,6.0,0.6357
194,1.0,2013.0,2.0,6.0,0.5500
195,0.0,2013.0,1.0,6.0,0.5873


In [85]:
z_csv[(z_csv["Month"] < 10) | (z_csv["Mean"] > .5)] #i lub

Unnamed: 0,#Source,Year,Month,Day,Mean
101,0.0,2016.0,12.0,6.0,0.7895
102,1.0,2016.0,12.0,6.0,0.8100
103,0.0,2016.0,11.0,6.0,0.7504
104,1.0,2016.0,11.0,6.0,0.9300
105,0.0,2016.0,10.0,6.0,0.7292
...,...,...,...,...,...
195,0.0,2013.0,1.0,6.0,0.5873
196,1.0,2013.0,1.0,6.0,0.6800
198,1.0,2012.0,12.0,6.0,0.5300
199,0.0,2012.0,11.0,6.0,0.7087


<h3> Zmiana wartości </h3>

In [87]:
z_csv["Year"] = [2011]*100

In [88]:
z_csv

Unnamed: 0,#Source,Year,Month,Day,Mean
101,0.0,2011,12.0,6.0,0.7895
102,1.0,2011,12.0,6.0,0.8100
103,0.0,2011,11.0,6.0,0.7504
104,1.0,2011,11.0,6.0,0.9300
105,0.0,2011,10.0,6.0,0.7292
...,...,...,...,...,...
196,1.0,2011,1.0,6.0,0.6800
197,0.0,2011,12.0,6.0,0.4655
198,1.0,2011,12.0,6.0,0.5300
199,0.0,2011,11.0,6.0,0.7087


#### Metoda .at oraz .iat

In [89]:
z_csv.at[0, "Year"] = 2016
z_csv

Unnamed: 0,#Source,Year,Month,Day,Mean
101,0.0,2011.0,12.0,6.0,0.7895
102,1.0,2011.0,12.0,6.0,0.8100
103,0.0,2011.0,11.0,6.0,0.7504
104,1.0,2011.0,11.0,6.0,0.9300
105,0.0,2011.0,10.0,6.0,0.7292
...,...,...,...,...,...
197,0.0,2011.0,12.0,6.0,0.4655
198,1.0,2011.0,12.0,6.0,0.5300
199,0.0,2011.0,11.0,6.0,0.7087
200,1.0,2011.0,11.0,6.0,0.7500


In [90]:
z_csv.iat[0, 2] = 2019
z_csv

Unnamed: 0,#Source,Year,Month,Day,Mean
101,0.0,2011.0,2019.0,6.0,0.7895
102,1.0,2011.0,12.0,6.0,0.8100
103,0.0,2011.0,11.0,6.0,0.7504
104,1.0,2011.0,11.0,6.0,0.9300
105,0.0,2011.0,10.0,6.0,0.7292
...,...,...,...,...,...
197,0.0,2011.0,12.0,6.0,0.4655
198,1.0,2011.0,12.0,6.0,0.5300
199,0.0,2011.0,11.0,6.0,0.7087
200,1.0,2011.0,11.0,6.0,0.7500


<h3> Brakujące dane </h3>

Co zrobić gdy mamy brakujące dane w tabeli?

Możemy je usunąć:

In [79]:
df2.dropna(how="any") #usuwanie

Unnamed: 0,#Source,Year,Month,Day,Mean,Nowa
19,0.0,2011.0,8.0,6.0,10,1.0
18,1.0,2011.0,9.0,6.0,10,2.0
17,0.0,2011.0,9.0,6.0,10,3.0
16,1.0,2011.0,10.0,6.0,10,4.0
14,1.0,2011.0,11.0,6.0,10,5.0
13,0.0,2011.0,11.0,6.0,10,6.0


Lub wypełnić:

In [80]:
df2.fillna(0)

Unnamed: 0,#Source,Year,Month,Day,Mean,Nowa
20,1.0,2011.0,2019.0,6.0,10,0.0
19,0.0,2011.0,8.0,6.0,10,1.0
18,1.0,2011.0,9.0,6.0,10,2.0
17,0.0,2011.0,9.0,6.0,10,3.0
16,1.0,2011.0,10.0,6.0,10,4.0
15,0.0,2011.0,10.0,6.0,10,0.0
14,1.0,2011.0,11.0,6.0,10,5.0
13,0.0,2011.0,11.0,6.0,10,6.0
12,1.0,2011.0,12.0,6.0,10,0.0
11,0.0,2011.0,12.0,6.0,10,0.0


Sprawdźmy, które są puste:

In [81]:
df2.isna()

Unnamed: 0,#Source,Year,Month,Day,Mean,Nowa
20,False,False,False,False,False,True
19,False,False,False,False,False,False
18,False,False,False,False,False,False
17,False,False,False,False,False,False
16,False,False,False,False,False,False
15,False,False,False,False,False,True
14,False,False,False,False,False,False
13,False,False,False,False,False,False
12,False,False,False,False,False,True
11,False,False,False,False,False,True


In [82]:
df2[df2["Nowa"].isna()]

Unnamed: 0,#Source,Year,Month,Day,Mean,Nowa
20,1.0,2011.0,2019.0,6.0,10,
15,0.0,2011.0,10.0,6.0,10,
12,1.0,2011.0,12.0,6.0,10,
11,0.0,2011.0,12.0,6.0,10,


<h3> Operacje - statystyki </h3>

Znamy już metodę describe, są też inne:

In [83]:
df2.describe()

Unnamed: 0,#Source,Year,Month,Day,Mean,Nowa
count,10.0,11.0,10.0,10.0,11.0,7.0
mean,0.5,2011.454545,211.1,6.0,10.0,4.571429
std,0.527046,1.507557,635.23267,0.0,0.0,3.309438
min,0.0,2011.0,8.0,6.0,10.0,1.0
25%,0.0,2011.0,9.25,6.0,10.0,2.5
50%,0.5,2011.0,10.5,6.0,10.0,4.0
75%,1.0,2011.0,11.75,6.0,10.0,5.5
max,1.0,2016.0,2019.0,6.0,10.0,11.0


In [84]:
df2.mean()

#Source       0.500000
Year       2011.454545
Month       211.100000
Day           6.000000
Mean         10.000000
Nowa          4.571429
dtype: float64

In [85]:
df2.std()

#Source      0.527046
Year         1.507557
Month      635.232670
Day          0.000000
Mean         0.000000
Nowa         3.309438
dtype: float64

In [86]:
df2.min()

#Source       0.0
Year       2011.0
Month         8.0
Day           6.0
Mean         10.0
Nowa          1.0
dtype: float64

In [87]:
df2.abs()

Unnamed: 0,#Source,Year,Month,Day,Mean,Nowa
20,1.0,2011.0,2019.0,6.0,10.0,
19,0.0,2011.0,8.0,6.0,10.0,1.0
18,1.0,2011.0,9.0,6.0,10.0,2.0
17,0.0,2011.0,9.0,6.0,10.0,3.0
16,1.0,2011.0,10.0,6.0,10.0,4.0
15,0.0,2011.0,10.0,6.0,10.0,
14,1.0,2011.0,11.0,6.0,10.0,5.0
13,0.0,2011.0,11.0,6.0,10.0,6.0
12,1.0,2011.0,12.0,6.0,10.0,
11,0.0,2011.0,12.0,6.0,10.0,


In [88]:
df2.skew()

#Source    0.000000
Year       3.316625
Month      3.162252
Day        0.000000
Mean       0.000000
Nowa       1.300628
dtype: float64

<h3>Grupowanie danych</h3>

Szczególnie przydatne, gdy chcemy policzyć statystyki:

Grupowanie przydaje się do:
    
    Podziału danych na podgrupy
    
    Stosowania innych funkcji do każdej grupy
    
    Łączenia danych w inne strukutry

In [95]:
z_csv = pd.read_csv('temperatures.csv',nrows = 100,dtype=float)

In [96]:
pogrupowane = z_csv.groupby("Year")
pogrupowane

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000014E457342B0>

In [97]:
for group in pogrupowane:
    print(group)

(2012.0,     #Source    Year  Month  Day    Mean
96      0.0  2012.0   12.0  6.0  0.4655
97      1.0  2012.0   12.0  6.0  0.5300
98      0.0  2012.0   11.0  6.0  0.7087
99      1.0  2012.0   11.0  6.0  0.7500)
(2013.0,     #Source    Year  Month  Day    Mean
72      0.0  2013.0   12.0  6.0  0.6981
73      1.0  2013.0   12.0  6.0  0.6700
74      0.0  2013.0   11.0  6.0  0.8293
75      1.0  2013.0   11.0  6.0  0.8100
76      0.0  2013.0   10.0  6.0  0.6787
77      1.0  2013.0   10.0  6.0  0.6900
78      0.0  2013.0    9.0  6.0  0.6857
79      1.0  2013.0    9.0  6.0  0.7800
80      0.0  2013.0    8.0  6.0  0.6605
81      1.0  2013.0    8.0  6.0  0.6600
82      0.0  2013.0    7.0  6.0  0.6662
83      1.0  2013.0    7.0  6.0  0.5900
84      0.0  2013.0    6.0  6.0  0.6838
85      1.0  2013.0    6.0  6.0  0.6500
86      0.0  2013.0    5.0  6.0  0.7141
87      1.0  2013.0    5.0  6.0  0.6100
88      0.0  2013.0    4.0  6.0  0.5610
89      1.0  2013.0    4.0  6.0  0.5200
90      0.0  2013.0  

Suwa wartości w grupach lat

In [98]:
z_csv.groupby("Year").sum()

Unnamed: 0_level_0,#Source,Month,Day,Mean
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2012.0,2.0,46.0,24.0,2.4542
2013.0,12.0,156.0,144.0,15.8843
2014.0,12.0,156.0,144.0,17.8098
2015.0,12.0,156.0,144.0,21.1778
2016.0,12.0,156.0,144.0,23.1455


<b> Podwójne grupowanie? </b>

In [99]:
z_csv.groupby(["Year","Month"]).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,#Source,Day,Mean
Year,Month,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2012.0,11.0,1.0,12.0,1.4587
2012.0,12.0,1.0,12.0,0.9955
2013.0,1.0,1.0,12.0,1.2673
2013.0,2.0,1.0,12.0,1.1857
2013.0,3.0,1.0,12.0,1.2739
2013.0,4.0,1.0,12.0,1.081
2013.0,5.0,1.0,12.0,1.3241
2013.0,6.0,1.0,12.0,1.3338
2013.0,7.0,1.0,12.0,1.2562
2013.0,8.0,1.0,12.0,1.3205


<h3> Łączenie danych </h3>

Możliwe jest również proste łączenie tabel, tak jak join w bazach danych:

In [100]:
#Tworzymy tabele
df = pd.DataFrame(np.random.randn(10, 2))
df2 = pd.DataFrame(np.random.randn(10,2))
df
df2

Unnamed: 0,0,1
0,-1.613214,1.26331
1,-0.863598,0.660192
2,0.871657,-1.043574
3,-0.41235,-0.017595
4,-1.679706,0.678534
5,1.138145,-1.463295
6,1.367897,1.227489
7,-0.852,0.764834
8,-0.762989,0.281225
9,-0.472839,-1.242582


In [105]:
pd.concat([df,df2],axis=1) #axis=1 - oznacza ze po wierszach

Unnamed: 0,0,1,0.1,1.1
0,-0.956853,-0.380237,-1.613214,1.26331
1,-0.147718,0.878803,-0.863598,0.660192
2,0.794091,1.325174,0.871657,-1.043574
3,-0.472029,0.316313,-0.41235,-0.017595
4,0.453674,1.204638,-1.679706,0.678534
5,0.954868,1.176707,1.138145,-1.463295
6,-0.989164,1.545552,1.367897,1.227489
7,-0.949171,-0.180326,-0.852,0.764834
8,-0.567433,0.135236,-0.762989,0.281225
9,-1.161847,0.624518,-0.472839,-1.242582


Join:

In [103]:
#Join
lewy = pd.DataFrame({"Klucz": [12,11,13,14], "Wartosc": ["A","B","C","D"]})
lewy

Unnamed: 0,Klucz,Wartosc
0,12,A
1,11,B
2,13,C
3,14,D


In [104]:
prawy = pd.DataFrame({"Klucz": [11,11,14,13], "Wartosc": ["X","Y","Z","Ż"]})
prawy

Unnamed: 0,Klucz,Wartosc
0,11,X
1,11,Y
2,14,Z
3,13,Ż


In [107]:
pd.merge(lewy, prawy, on = "Klucz", how="left") #how - jaki join

Unnamed: 0,Klucz,Wartosc_x,Wartosc_y
0,12,A,
1,11,B,X
2,11,B,Y
3,13,C,Ż
4,14,D,Z


Poprzez nadanie indeksu:

In [108]:
lewy.index = lewy["Klucz"]
lewy

Unnamed: 0_level_0,Klucz,Wartosc
Klucz,Unnamed: 1_level_1,Unnamed: 2_level_1
12,12,A
11,11,B
13,13,C
14,14,D


In [109]:
prawy.index = prawy["Klucz"]
prawy

Unnamed: 0_level_0,Klucz,Wartosc
Klucz,Unnamed: 1_level_1,Unnamed: 2_level_1
11,11,X
11,11,Y
14,14,Z
13,13,Ż


In [110]:
lewy.join(prawy, lsuffix="L")

Unnamed: 0_level_0,KluczL,WartoscL,Klucz,Wartosc
Klucz,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
11,11,B,11.0,X
11,11,B,11.0,Y
12,12,A,,
13,13,C,13.0,Ż
14,14,D,14.0,Z


Wyrównanie - bez łączenia:

In [111]:
align = lewy.align(prawy) #też na indeksie
align

(       Klucz Wartosc
 Klucz               
 11        11       B
 11        11       B
 12        12       A
 13        13       C
 14        14       D,
        Klucz Wartosc
 Klucz               
 11      11.0       X
 11      11.0       Y
 12       NaN     NaN
 13      13.0       Ż
 14      14.0       Z)

In [112]:
align[0]

Unnamed: 0_level_0,Klucz,Wartosc
Klucz,Unnamed: 1_level_1,Unnamed: 2_level_1
11,11,B
11,11,B
12,12,A
13,13,C
14,14,D


In [113]:
align[1]

Unnamed: 0_level_0,Klucz,Wartosc
Klucz,Unnamed: 1_level_1,Unnamed: 2_level_1
11,11.0,X
11,11.0,Y
12,,
13,13.0,Ż
14,14.0,Z
