







































































































































































## PRiAD 1

# Przetwarzanie danych w języku Python


# 1. Serie i ramki danych

Pakiety `NumPy` i `Pandas` są kluczowymi pakietami wykorzystywanymi w analizie danych. Pakiety `NumPy` oznacza **numerical Python** i posiada struktury pozwalające na składowanie danych zapewniający szybki dostęp do nich oraz zoptymalizowane pod kątem obliczeniowym podstawowe operacje matematyczne. Natomiast podstawową funkcją pakietu `Pandas` jest nadbudowa struktur `NumPy` dostarczająca użytkownikowi wygody w przechowywaniu danych i ich późniejszej eksploracji. W szczególności pakiet `Pandas` oferuje struktury danych **series** i **data frame**, służące do przechowywania i dostępu do odpowiednio serii i macierzy danych. Ramki danych to inna nazwa dwuwymiarowych macierzy danych, w których kolumny są atrybutami (cechami, zmiennymi), zaś wiersze to obiekty (instancje, przykłady uczące). Seria danych w terminologii pakietu `pandas` to macierz danych o dokładnie jednej kolumnie. 

Wykorzystanie tych pakietów wymaga ich importu w każdej nowej sesji:

In [1]:
import numpy as np
import pandas as pd

## 1.1 Seria danych

Typ danych **series** służy do pojedynczych przechowywania serii danych. Zmienną tego typu tworzymy z wykorzystaniem metody `series`, której argument zwiera informację o danych tworzących dany szereg. Informacja ta może być umieszczona w liście zawierającej kolejne wartości.

In [2]:
import pandas as pd
import numpy as np
s = pd.Series([1, 3, 5, np.nan, 6, 8])
print(type(s))
s

<class 'pandas.core.series.Series'>


0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

In [3]:
s2 = pd.Series(np.linspace(1, 100, 10))  
print(s2)  

0      1.0
1     12.0
2     23.0
3     34.0
4     45.0
5     56.0
6     67.0
7     78.0
8     89.0
9    100.0
dtype: float64


In [4]:
s3 = pd.Series(np.random.randn(20))  
print(s3)  

0    -0.818382
1     1.495351
2     0.087412
3     0.206558
4     1.843265
5     1.083990
6    -1.043582
7    -0.344091
8    -0.124592
9    -0.977672
10   -1.522919
11   -0.366178
12    1.498555
13   -0.302819
14    0.317245
15   -1.051480
16    1.430768
17    0.892246
18    0.998966
19   -0.943631
dtype: float64


Liczbę elementów serii otrzymujemy przy pomocy metody `count()`.

In [5]:
s3.count()

20

Pierwsze i ostatnie elementy serii danych można otrzymać używając metod, odpowiednio, `head()` oraz `tail()`. Opcjonalny argument definiuje liczbę pierwszych/ostatnich elementów. 

In [6]:
s3.head(10)

0   -0.818382
1    1.495351
2    0.087412
3    0.206558
4    1.843265
5    1.083990
6   -1.043582
7   -0.344091
8   -0.124592
9   -0.977672
dtype: float64

In [7]:
s3.tail(3)

17    0.892246
18    0.998966
19   -0.943631
dtype: float64

Metoda `sort_values` umożliwia sortowanie elementów serii danych. Zwróć uwage na sposób wywołania tej metody w poniższym przykładzie wraz z metodą `head()`. Jaki jest efekt takiego wywołania ?

In [8]:
s3.sort_values().tail(10)

2     0.087412
3     0.206558
14    0.317245
17    0.892246
18    0.998966
5     1.083990
16    1.430768
1     1.495351
12    1.498555
4     1.843265
dtype: float64

## 1.2 Ramka danych

Podstawową strukturą danych pakietu `pandas` jest macierz danych nazywana **ramką danych**. Metodą umożliwiającą tworzenie ramki danych jest metoda `DataFrame`, której argumenty decydują o formie tworzonej ramki. 

In [9]:
np.random.randn(6, 4)

array([[ 0.8184905 ,  1.02305897,  1.6724297 , -1.53483308],
       [ 0.84289695,  0.54675979,  0.5725751 , -1.24123533],
       [-2.2983794 ,  1.04734485, -0.34768841, -0.29626959],
       [-1.5757164 ,  1.63081517,  0.39913841, -1.28708606],
       [ 0.95290187,  0.05111969,  0.05738969, -1.39304195],
       [ 0.72083335,  0.4593635 , -1.16156848,  1.38328497]])












































































































































 
 
 
 
 
 
 
 
 
 
 
 
 
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  
  
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 




























W tak utworzonej ramce odwołania do poszczególnych jej elementów można realizować jedynie poprzez indeksy. Możliwe jest jednak dodatkowe opisanie wierszy (obiektów) oraz kolumn (atrybutów) dowolnymi etykietami. Nadanie etykiet atrybutom umożliwia argument `columns`. 

In [10]:
list('ABCD')

['A', 'B', 'C', 'D']

In [11]:
df = pd.DataFrame(np.random.randn(6, 4), columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
0,0.774528,1.507279,-0.04909,-0.276217
1,0.962015,1.132221,0.62785,0.335212
2,-0.426638,2.041506,-0.461158,-0.753483
3,-0.152039,-1.655335,0.9421,0.093274
4,0.131495,0.021804,-1.030725,-0.796758
5,0.567527,-1.147737,1.133347,-1.244133


Ramka `df` zawiera 6 obiektów (wiersze) opisanych 4 atrybutami (kolumny), etykietami obiektów są kolejne liczby całkowite, zaś etykietami atrybutów są kolejne wielkie litery.

Także wiersze (obiekty) mogą zostać nazwane poprzez nadanie im etykiet.

In [12]:
df1 = pd.DataFrame(np.random.randn(6, 4), columns=list('ABCD'), index = list('abcdef'))
df1

Unnamed: 0,A,B,C,D
a,1.718934,-0.055408,1.111934,-0.25917
b,0.299487,0.011339,-0.707294,1.159956
c,-0.187577,-0.370178,0.939311,0.944088
d,-0.68372,1.024191,0.830907,-0.969686
e,-2.347539,0.656625,-1.952218,0.633531
f,-0.492875,-0.27863,-0.813649,-0.133303


Macierz danych składa się z obiektów opisanych atrybutami. Kolejne atrybuty stanowią argumenty funkcji `DataFrame`.

In [13]:
df2 = pd.DataFrame({'A': 1.,
   ...:             'B': pd.Timestamp('20201102'),
   ...:             'C': pd.Series(1, index=list(range(4)), dtype='float32'),
   ...:             'D': np.array([3] * 4, dtype='int32'),
   ...:             'E': pd.Categorical(["test", "train", "test", "train"]),
   ...:             'F': 'foo'})
df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2020-11-02,1.0,3,test,foo
1,1.0,2020-11-02,1.0,3,train,foo
2,1.0,2020-11-02,1.0,3,test,foo
3,1.0,2020-11-02,1.0,3,train,foo


Ramka danych jest obiektem klasy `DataFrame`. Szereg metod tej klasy udostępnia zarówno dane jak i własności ramki. Metoda `info` zwraca podstawowe informacje o ramce danych. 

In [14]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       6 non-null      float64
 1   B       6 non-null      float64
 2   C       6 non-null      float64
 3   D       6 non-null      float64
dtypes: float64(4)
memory usage: 324.0 bytes


In [15]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
Index: 6 entries, a to f
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       6 non-null      float64
 1   B       6 non-null      float64
 2   C       6 non-null      float64
 3   D       6 non-null      float64
dtypes: float64(4)
memory usage: 240.0+ bytes


In [16]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, 0 to 3
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   A       4 non-null      float64       
 1   B       4 non-null      datetime64[ns]
 2   C       4 non-null      float32       
 3   D       4 non-null      int32         
 4   E       4 non-null      category      
 5   F       4 non-null      object        
dtypes: category(1), datetime64[ns](1), float32(1), float64(1), int32(1), object(1)
memory usage: 288.0+ bytes


Poza trywialnymi przypadkami, ramka danych zwykle składa się z dużej liczby obiektów. Metoda `head` wyświetla początkowe obiekty ramki. Stadardowo jest to 5 pierwszych obiektów.

In [17]:
df.head()

Unnamed: 0,A,B,C,D
0,0.774528,1.507279,-0.04909,-0.276217
1,0.962015,1.132221,0.62785,0.335212
2,-0.426638,2.041506,-0.461158,-0.753483
3,-0.152039,-1.655335,0.9421,0.093274
4,0.131495,0.021804,-1.030725,-0.796758


Analogicznie metoda `tail` wyświetla ostatnie obiekty macierzy. Argumentem zarówno tej jak i wcześniejszej metody jest liczba wyświetlanych obiektów.

In [18]:
df1.tail(6)

Unnamed: 0,A,B,C,D
a,1.718934,-0.055408,1.111934,-0.25917
b,0.299487,0.011339,-0.707294,1.159956
c,-0.187577,-0.370178,0.939311,0.944088
d,-0.68372,1.024191,0.830907,-0.969686
e,-2.347539,0.656625,-1.952218,0.633531
f,-0.492875,-0.27863,-0.813649,-0.133303


Ramka danych jest opisana nazwami atrybutów i indeksem obiektów. Metoda `index` zwraca indeksy obiektów, zaś metoda `count` liczbę obiektów dla każdego atrybutu lub atrybutów dla każdego obiektu

In [19]:
print("indeks" ,df.index)
ile_obiektow = df.count(0)
ile_atrybutow = df.count(1)
print("obiektów:\n", ile_obiektow, ", atrybutów:\n", ile_atrybutow)

indeks RangeIndex(start=0, stop=6, step=1)
obiektów:
 A    6
B    6
C    6
D    6
dtype: int64 , atrybutów:
 0    4
1    4
2    4
3    4
4    4
5    4
dtype: int64


Metoda `describe` wraca podstawowe statystyki opisowe (miary) atrybutów ramki danych: liczbę obiektów, wartość średnią, odchylenie standardowe, minimum, pierwszy kwartyl, medianę, trzeci kwartyl i maksimum. 

In [20]:
df

Unnamed: 0,A,B,C,D
0,0.774528,1.507279,-0.04909,-0.276217
1,0.962015,1.132221,0.62785,0.335212
2,-0.426638,2.041506,-0.461158,-0.753483
3,-0.152039,-1.655335,0.9421,0.093274
4,0.131495,0.021804,-1.030725,-0.796758
5,0.567527,-1.147737,1.133347,-1.244133


In [21]:
df.describe()

Unnamed: 0,A,B,C,D
count,6.0,6.0,6.0,6.0
mean,0.309481,0.316623,0.193721,-0.440351
std,0.546847,1.49519,0.850709,0.597383
min,-0.426638,-1.655335,-1.030725,-1.244133
25%,-0.081155,-0.855352,-0.358141,-0.785939
50%,0.349511,0.577012,0.28938,-0.51485
75%,0.722777,1.413514,0.863537,0.000901
max,0.962015,2.041506,1.133347,0.335212


Rezultat funkcji `decribe` jest także ramką danych. Oznacza to, że pojedyncze statystyki można pobrać odwołując się do odpowiednich elementów ramki danych.

In [22]:
dedf = df.describe()
print(type(df))
print(type(dedf))

<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.frame.DataFrame'>


Metoda `T` pozwala na wykonanie transpozycji ramki, w efekcie czego atrybuty stają się obiektami, zaś obiekty - artybutami (stosowac uważnie !).

In [23]:
df1.T

Unnamed: 0,a,b,c,d,e,f
A,1.718934,0.299487,-0.187577,-0.68372,-2.347539,-0.492875
B,-0.055408,0.011339,-0.370178,1.024191,0.656625,-0.27863
C,1.111934,-0.707294,0.939311,0.830907,-1.952218,-0.813649
D,-0.25917,1.159956,0.944088,-0.969686,0.633531,-0.133303


Metoda `sort_values` umożliwia sortowanie obiektów.

In [24]:
print(df)
df.sort_values(by='B')

          A         B         C         D
0  0.774528  1.507279 -0.049090 -0.276217
1  0.962015  1.132221  0.627850  0.335212
2 -0.426638  2.041506 -0.461158 -0.753483
3 -0.152039 -1.655335  0.942100  0.093274
4  0.131495  0.021804 -1.030725 -0.796758
5  0.567527 -1.147737  1.133347 -1.244133


Unnamed: 0,A,B,C,D
3,-0.152039,-1.655335,0.9421,0.093274
5,0.567527,-1.147737,1.133347,-1.244133
4,0.131495,0.021804,-1.030725,-0.796758
1,0.962015,1.132221,0.62785,0.335212
0,0.774528,1.507279,-0.04909,-0.276217
2,-0.426638,2.041506,-0.461158,-0.753483


## 1.3 Dostęp do danych

Istnieje kilka sposobów uzyskiwania dostępu do poszczególnych danych lub fragmentów ramki. Dostęp do poszczególnych atrybutów można uzyskać poprzez podanie ich nazwy, zaś do poszczególnych obiektów - przez podanie zakresu.

In [25]:
df['A']

0    0.774528
1    0.962015
2   -0.426638
3   -0.152039
4    0.131495
5    0.567527
Name: A, dtype: float64

In [26]:
df[0:3]

Unnamed: 0,A,B,C,D
0,0.774528,1.507279,-0.04909,-0.276217
1,0.962015,1.132221,0.62785,0.335212
2,-0.426638,2.041506,-0.461158,-0.753483


Bardziej precyzyjna selekcja fragmentu ramki danych, zawężająca zakres zarówno wierszy jak i kolumn wymaga użycia specjalnych metod `loc` oraz `iloc`. Metoda `loc` umożliwia odwołanie się poprzez etykiety, zaś `iloc` poprzez pozycję (numer wiersza/kolumny).

In [27]:
df.loc[:, ['A', 'B']]

Unnamed: 0,A,B
0,0.774528,1.507279
1,0.962015,1.132221
2,-0.426638,2.041506
3,-0.152039,-1.655335
4,0.131495,0.021804
5,0.567527,-1.147737


In [28]:
df.loc[0:2]

Unnamed: 0,A,B,C,D
0,0.774528,1.507279,-0.04909,-0.276217
1,0.962015,1.132221,0.62785,0.335212
2,-0.426638,2.041506,-0.461158,-0.753483


In [29]:
df.loc[2, ['A', 'B']]

A   -0.426638
B    2.041506
Name: 2, dtype: float64

Jeżeli ramka danych ma przypisane etykiety zarówno do wierszy jak i do kolumn (tak jak w przypadku `df1` powyższy sposób indeksowania wygeneruje błąd).

In [30]:
df1

Unnamed: 0,A,B,C,D
a,1.718934,-0.055408,1.111934,-0.25917
b,0.299487,0.011339,-0.707294,1.159956
c,-0.187577,-0.370178,0.939311,0.944088
d,-0.68372,1.024191,0.830907,-0.969686
e,-2.347539,0.656625,-1.952218,0.633531
f,-0.492875,-0.27863,-0.813649,-0.133303


In [31]:
df1.loc[['a','f'], ['A', 'B']]

Unnamed: 0,A,B
a,1.718934,-0.055408
f,-0.492875,-0.27863


W takim przypadku zarówno wiersze jak i kolumny powinny być w odwołaniu indeksowane przez etykiety.

In [32]:
print(df1)
df1.loc[['a','c','e'], ['A', 'B']]

          A         B         C         D
a  1.718934 -0.055408  1.111934 -0.259170
b  0.299487  0.011339 -0.707294  1.159956
c -0.187577 -0.370178  0.939311  0.944088
d -0.683720  1.024191  0.830907 -0.969686
e -2.347539  0.656625 -1.952218  0.633531
f -0.492875 -0.278630 -0.813649 -0.133303


Unnamed: 0,A,B
a,1.718934,-0.055408
c,-0.187577,-0.370178
e,-2.347539,0.656625


Indeksowanie poprzez numer wiersz/kolumny jest możliwy przy wykorzystaniu metody `iloc`.

In [33]:
df.iloc[3:5, 0:2]

Unnamed: 0,A,B
3,-0.152039,-1.655335
4,0.131495,0.021804


In [34]:
df1.iloc[[1, 2, 4], [0, 2]]

Unnamed: 0,A,C
b,0.299487,-0.707294
c,-0.187577,0.939311
e,-2.347539,-1.952218


In [35]:
df.iloc[1:3, :]

Unnamed: 0,A,B,C,D
1,0.962015,1.132221,0.62785,0.335212
2,-0.426638,2.041506,-0.461158,-0.753483


In [36]:
df.iloc[:, 1:3]

Unnamed: 0,B,C
0,1.507279,-0.04909
1,1.132221,0.62785
2,2.041506,-0.461158
3,-1.655335,0.9421
4,0.021804,-1.030725
5,-1.147737,1.133347


Metody `loc` oraz `iloc` tworzą nową ramkę danych.

In [37]:
dff = df.iloc[0:3,1:4]
print(dff,"\n")
print(df.info(),"\n")
print(dff.info())

          B         C         D
0  1.507279 -0.049090 -0.276217
1  1.132221  0.627850  0.335212
2  2.041506 -0.461158 -0.753483 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       6 non-null      float64
 1   B       6 non-null      float64
 2   C       6 non-null      float64
 3   D       6 non-null      float64
dtypes: float64(4)
memory usage: 324.0 bytes
None 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   B       3 non-null      float64
 1   C       3 non-null      float64
 2   D       3 non-null      float64
dtypes: float64(3)
memory usage: 204.0 bytes
None


Odwołania do elementu poprzez `loc` oraz `iloc` umożliwia także zmianę  wartości elementów ramki.

In [38]:
print(df,"\n")
df.iloc[1, 1] = 99
df.loc[5,'C'] = -99
df

          A         B         C         D
0  0.774528  1.507279 -0.049090 -0.276217
1  0.962015  1.132221  0.627850  0.335212
2 -0.426638  2.041506 -0.461158 -0.753483
3 -0.152039 -1.655335  0.942100  0.093274
4  0.131495  0.021804 -1.030725 -0.796758
5  0.567527 -1.147737  1.133347 -1.244133 



Unnamed: 0,A,B,C,D
0,0.774528,1.507279,-0.04909,-0.276217
1,0.962015,99.0,0.62785,0.335212
2,-0.426638,2.041506,-0.461158,-0.753483
3,-0.152039,-1.655335,0.9421,0.093274
4,0.131495,0.021804,-1.030725,-0.796758
5,0.567527,-1.147737,-99.0,-1.244133


Podobnie do przypadku macierzy pakietu `numpy`, także w przypadku ramki danych, zmienna reprezentująca ramkę danych jest w istocie wskaźnikiem do konkretnego obszaru pamięci. Dlatego przypisanie wartości zmiennej reprezentujej ramkę innej zmiennej jest w istocie przypisaniem wskaźnika. Obie zmienne wskazują na ten sam obszar pamięci. W poniższym przykładzie obie zmienne `df` i `dff` odnoszą się do **tej samej** ramki danych.

In [39]:
dff = df
dff.iloc[1,:] = [123, 234, 345, 456]
print(df) 
print(dff)
# zawartość jest identyczna

            A           B           C           D
0    0.774528    1.507279   -0.049090   -0.276217
1  123.000000  234.000000  345.000000  456.000000
2   -0.426638    2.041506   -0.461158   -0.753483
3   -0.152039   -1.655335    0.942100    0.093274
4    0.131495    0.021804   -1.030725   -0.796758
5    0.567527   -1.147737  -99.000000   -1.244133
            A           B           C           D
0    0.774528    1.507279   -0.049090   -0.276217
1  123.000000  234.000000  345.000000  456.000000
2   -0.426638    2.041506   -0.461158   -0.753483
3   -0.152039   -1.655335    0.942100    0.093274
4    0.131495    0.021804   -1.030725   -0.796758
5    0.567527   -1.147737  -99.000000   -1.244133


Stworzenie faktycznej kopii danych ramki i zapamiętanie ich w innej ramce wymaga użycia metody `copy`. W kolejnym przykładzie `df` oraz `dff` to **różne** ramki danych.

In [40]:
dff = df.copy()
dff.iloc[1,:] = [991, 992, 993, 994]
print(df)
print(dff)
# każda ramka ma inną zawartość

            A           B           C           D
0    0.774528    1.507279   -0.049090   -0.276217
1  123.000000  234.000000  345.000000  456.000000
2   -0.426638    2.041506   -0.461158   -0.753483
3   -0.152039   -1.655335    0.942100    0.093274
4    0.131495    0.021804   -1.030725   -0.796758
5    0.567527   -1.147737  -99.000000   -1.244133
            A           B           C           D
0    0.774528    1.507279   -0.049090   -0.276217
1  991.000000  992.000000  993.000000  994.000000
2   -0.426638    2.041506   -0.461158   -0.753483
3   -0.152039   -1.655335    0.942100    0.093274
4    0.131495    0.021804   -1.030725   -0.796758
5    0.567527   -1.147737  -99.000000   -1.244133


Selekcja elementów ramki danych może także następować poprzez indeksowanie logiczne. W poniższym przykładzie zwracane są jedynie te obiekty ramki, dla których wartość atrybutu `A` jest większa od 0.

In [41]:
df

Unnamed: 0,A,B,C,D
0,0.774528,1.507279,-0.04909,-0.276217
1,123.0,234.0,345.0,456.0
2,-0.426638,2.041506,-0.461158,-0.753483
3,-0.152039,-1.655335,0.9421,0.093274
4,0.131495,0.021804,-1.030725,-0.796758
5,0.567527,-1.147737,-99.0,-1.244133


Warunki mogą być złożone (atrybuty `A` i `C` większe od 0):

In [42]:
df[(df.B > 0) & (df.C > 0)]

Unnamed: 0,A,B,C,D
1,123.0,234.0,345.0,456.0


Warunki filtrowania można także nakładać na atrybuty kategoryczne. Utwórzymy nową ramkę danych kopiując poprzednią i dodając piąty atrybut. W przeciwieństwie do czterech wcześniejszych, nowy atrybut jest kategoryczny.

In [43]:
df2 = df.copy()
df2['E'] = ['jeden', 'jeden', 'dwa', 'jeden', 'trzy', 'dwa']
df2

Unnamed: 0,A,B,C,D,E
0,0.774528,1.507279,-0.04909,-0.276217,jeden
1,123.0,234.0,345.0,456.0,jeden
2,-0.426638,2.041506,-0.461158,-0.753483,dwa
3,-0.152039,-1.655335,0.9421,0.093274,jeden
4,0.131495,0.021804,-1.030725,-0.796758,trzy
5,0.567527,-1.147737,-99.0,-1.244133,dwa


In [44]:
df2.value_counts()

A            B            C            D            E    
-0.426638     2.041506    -0.461158    -0.753483    dwa      1
-0.152039    -1.655335     0.942100     0.093274    jeden    1
 0.131495     0.021804    -1.030725    -0.796758    trzy     1
 0.567527    -1.147737    -99.000000   -1.244133    dwa      1
 0.774528     1.507279    -0.049090    -0.276217    jeden    1
 123.000000   234.000000   345.000000   456.000000  jeden    1
Name: count, dtype: int64

In [45]:
df2[df2.E == 'jeden']

Unnamed: 0,A,B,C,D,E
0,0.774528,1.507279,-0.04909,-0.276217,jeden
1,123.0,234.0,345.0,456.0,jeden
3,-0.152039,-1.655335,0.9421,0.093274,jeden


Selekcja może następować także przez określenie zbioru jego dopuszczalnych wartości. 

In [46]:
df2[df2['E'].isin(['jeden', 'dwa'])]

Unnamed: 0,A,B,C,D,E
0,0.774528,1.507279,-0.04909,-0.276217,jeden
1,123.0,234.0,345.0,456.0,jeden
2,-0.426638,2.041506,-0.461158,-0.753483,dwa
3,-0.152039,-1.655335,0.9421,0.093274,jeden
5,0.567527,-1.147737,-99.0,-1.244133,dwa


# 2 Import i przekształcanie danych

## 2.1 Zewnętrzne źródła danych

Pakiet `pandas` oferuje szereg metod umożliwiających wczytywanie ramek danych z różnego rodzaju źródeł. Mogą być nimi np. pliki `csv`.

In [47]:
d = pd.read_csv('dane1.csv')
d.head()

Unnamed: 0,atrybut1,atrybut2,klasa
0,86,43,klasa 3
1,79,50,klasa 3
2,73,49,klasa 3
3,69,49,klasa 3
4,74,43,klasa 3


Informacja o zbiorze

In [48]:
d.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 80 entries, 0 to 79
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   atrybut1  80 non-null     int64 
 1   atrybut2  80 non-null     int64 
 2   klasa     80 non-null     object
dtypes: int64(2), object(1)
memory usage: 2.0+ KB


Podstawowe miary dla całego zbioru.

In [49]:
d.describe()

Unnamed: 0,atrybut1,atrybut2
count,80.0,80.0
mean,49.0125,41.275
std,26.009976,23.377461
min,4.0,7.0
25%,29.75,22.0
50%,47.5,34.5
75%,73.0,64.25
max,87.0,86.0


I dla pojedynczej klasy.

In [50]:
d[d.klasa == 'klasa 1'].describe()

Unnamed: 0,atrybut1,atrybut2
count,24.0,24.0
mean,38.458333,73.25
std,6.419936,7.531095
min,29.0,62.0
25%,32.75,68.0
50%,39.5,72.0
75%,44.0,78.25
max,48.0,86.0


Wyselekcjonowane w taki sposób danych można wykonywać dowolne funkcje. Przykładowo używając funkcji `mean` pakietu `numpy` można wyznaczyć średnią wartość atrybutu 1 w klasie 2.

In [51]:
dd = d[d.klasa == 'klasa 2']
np.mean(dd.iloc[:,0:1])

13.368421052631579

Ramka danych może zostac zapisana na dysku w formacie zarówno `.csv`. W tym celu należy użyć metody `to_csv`.

In [52]:
df.to_csv('przyklad.csv')
print(df.head())
nowa = pd.read_csv('przyklad.csv')
nowa.head()

            A           B           C           D
0    0.774528    1.507279   -0.049090   -0.276217
1  123.000000  234.000000  345.000000  456.000000
2   -0.426638    2.041506   -0.461158   -0.753483
3   -0.152039   -1.655335    0.942100    0.093274
4    0.131495    0.021804   -1.030725   -0.796758


Unnamed: 0.1,Unnamed: 0,A,B,C,D
0,0,0.774528,1.507279,-0.04909,-0.276217
1,1,123.0,234.0,345.0,456.0
2,2,-0.426638,2.041506,-0.461158,-0.753483
3,3,-0.152039,-1.655335,0.9421,0.093274
4,4,0.131495,0.021804,-1.030725,-0.796758


> **Zadanie** Jednym z najchętniej wykorzystywanych w dydaktyce analizy danych zbiorów danych jest zbiór [Fisher's iris](https://en.wikipedia.org/wiki/Iris_flower_data_set). Zbiór tej jest znajduje się w pliku `iris.csv`. 
* wczytaj go z dysku do ramki danych
* określ jej parametry: liczbę obiektów, atrybutów, kategorii
* wyznacz średnie wartości atrybutów w kategoriach

In [53]:
zad1 = pd.read_csv('iris.csv')
num_rows = zad1.shape[0]
num_columns = zad1.shape[1]
num_categories = zad1.nunique(0)
num_categories_decisive = zad1[zad1.columns[-1]].nunique()

print("Liczba obiektów:", num_rows)
print("Liczba atrybutów:", num_columns)
print("Liczba kategori:", num_categories)
print("Liczba kategori w atrybucie decyzyjnym:", num_categories_decisive)

average_values = zad1.groupby(zad1.columns[-1]).mean()

print(average_values)

Liczba obiektów: 150
Liczba atrybutów: 6
Liczba kategori: Unnamed: 0      150
sepal_length     35
sepal_width      23
petal_length     43
petal_width      22
species           3
dtype: int64
Liczba kategori w atrybucie decyzyjnym: 3
            Unnamed: 0  sepal_length  sepal_width  petal_length  petal_width
species                                                                     
setosa            24.5         5.006        3.428         1.462        0.246
versicolor        74.5         5.936        2.770         4.260        1.326
virginica        124.5         6.588        2.974         5.552        2.026


Standardowe zbiory danych można znaleźć w niektórych pakietach języka Python np. w pakiecie `seaborn` (który zostanie wykorzystany w ćwiczeniu poświęconym wizualizacji) oraz `scikit-learn` (ćwiczenia poświęcone uczeniu). Pakiety zostaną omówione przy kolejnych okazjach. Poniższe przykłady pokazują jedynie sposób importu zbioru danych `iris` w obu tych pakietach.

In [54]:
from seaborn import load_dataset
iris = load_dataset("iris")
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [55]:
from sklearn import datasets
iris = datasets.load_iris()
iris.target.shape
print(iris.data[0:5,:])
print(iris.target[0:5])

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]]
[0 0 0 0 0]


Format danych zbioru `iris` w powyższym przykładzie to struktura zawierające macierz i wektro pakietu `numpy`. Format danych dostępnych w pakiecie `scikit-learn` nie jest zgodny z formatem pakietu `pandas`. Stosując poznane już narzędzia można jednak łatwo utworzyć stosowną strukturę danych.

In [56]:
iris2 = pd.DataFrame(iris.data, columns = ["sepal_length","sepal_width","petal_length","petal_width"])
iris2['species'] = iris.target
iris2.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


Innym popularnym źródłem danych są arkusze kalkulacyjne. Funkcja `read_excel` umożliwia wczytanie arkusza MS Excel.

In [57]:
d = pd.read_excel('anscombe.xlsx')
print(d.info())
d.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13 entries, 0 to 12
Data columns (total 10 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Unnamed: 0  0 non-null      float64
 1   Unnamed: 1  12 non-null     object 
 2   Unnamed: 2  12 non-null     object 
 3   Unnamed: 3  12 non-null     object 
 4   Unnamed: 4  12 non-null     object 
 5   Unnamed: 5  12 non-null     object 
 6   Unnamed: 6  12 non-null     object 
 7   Unnamed: 7  12 non-null     object 
 8   Unnamed: 8  12 non-null     object 
 9   Unnamed: 9  12 non-null     object 
dtypes: float64(1), object(9)
memory usage: 1.1+ KB
None


Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9
0,,,,,,,,,,
1,,Obs.,x1,y1,x2,y2,x3,y3,x4,y4
2,,1,10,8.04,10,9.14,10,7.46,8,6.58
3,,2,8,6.95,8,8.14,8,6.77,8,5.76
4,,3,13,7.58,13,8.74,13,12.74,8,7.71


Przy pomocy dodatkowych argumentów możliwe jest precyzyjne określenie zakresu danych wczytywanych do ramki.

In [58]:
d = pd.read_excel('anscombe.xlsx',header = 2,usecols = range(1,10), index_col = 0)
print(d.info())
d

<class 'pandas.core.frame.DataFrame'>
Index: 11 entries, 1 to 11
Data columns (total 8 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   x1      11 non-null     int64  
 1   y1      11 non-null     float64
 2   x2      11 non-null     int64  
 3   y2      11 non-null     float64
 4   x3      11 non-null     int64  
 5   y3      11 non-null     float64
 6   x4      11 non-null     int64  
 7   y4      11 non-null     float64
dtypes: float64(4), int64(4)
memory usage: 792.0 bytes
None


Unnamed: 0_level_0,x1,y1,x2,y2,x3,y3,x4,y4
Obs.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,10,8.04,10,9.14,10,7.46,8,6.58
2,8,6.95,8,8.14,8,6.77,8,5.76
3,13,7.58,13,8.74,13,12.74,8,7.71
4,9,8.81,9,8.77,9,7.11,8,8.84
5,11,8.33,11,9.26,11,7.81,8,8.47
6,14,9.96,14,8.1,14,8.84,8,7.04
7,6,7.24,6,6.13,6,6.08,8,5.25
8,4,4.26,4,3.1,4,5.39,19,12.5
9,12,10.84,12,9.13,12,8.15,8,5.56
10,7,4.82,7,7.26,7,6.42,8,7.91


> **Zadanie** Wczytaj plik `waluty1.xls`, zawierający kursy trzech walut w pewnym okresie czasu do ramki danych, Zapisz dane w nowej ramce danych, a następnie:
* określ jego paramtery: liczbę obiektów, atrybutów
* określ dla każdej waluty zmiennośc kursu w całym okresie okresie, tj. znajdzie kurs najniższy i najwyższy wskaż daty wystąpienia tych kursów (mogą przydać się funkcje `np.argmin`/`np.argmax` lub `np.idxmin`/`np.idxmax`) oraz policzy różnicę kursową.



In [59]:
file_path = 'waluty1.xlsx'

zad2 = pd.read_excel(file_path)
num_rows = zad2.shape[0]
num_columns = zad2.shape[1]

print("Liczba obiektów:", num_rows)
print("Liczba atrybutów:", num_columns)

min_index = zad2['CHF'].idxmin()
max_index = zad2['CHF'].idxmax()
column_name = 'CHF'
column_index = zad2.columns.get_loc(column_name)
print("Frank: \nMinimalna Wartość: ", zad2.iloc[min_index,column_index]," Data: ",
zad2.iloc[min_index,2],"-",zad2.iloc[min_index,1],"-",zad2.iloc[min_index,0], sep='')
print("Maksymalna Wartość: ", zad2.iloc[max_index,column_index]," Data: ",
zad2.iloc[max_index,2],"-",zad2.iloc[max_index,1],"-",zad2.iloc[max_index,0], sep='')
print("Różnica kursowa: ", zad2.iloc[max_index,column_index]-zad2.iloc[max_index,column_index])

min_index = zad2['USD'].idxmin()
max_index = zad2['USD'].idxmax()
column_name = 'USD'
column_index = zad2.columns.get_loc(column_name)
print("Dolar: \nMinimalna Wartość: ", zad2.iloc[min_index,column_index]," Data: ",
zad2.iloc[min_index,2],"-",zad2.iloc[min_index,1],"-",zad2.iloc[min_index,0], sep='')
print("Maksymalna Wartość: ", zad2.iloc[max_index,column_index]," Data: ",
zad2.iloc[max_index,2],"-",zad2.iloc[max_index,1],"-",zad2.iloc[max_index,0], sep='')
print("Różnica kursowa: ", zad2.iloc[max_index,column_index]-zad2.iloc[min_index,column_index])

min_index = zad2['EUR'].idxmin()
max_index = zad2['EUR'].idxmax()
column_name = 'EUR'
column_index = zad2.columns.get_loc(column_name)
print("Euro: \nMinimalna Wartość: ", zad2.iloc[min_index,column_index]," Data: ",
zad2.iloc[min_index,2],"-",zad2.iloc[min_index,1],"-",zad2.iloc[min_index,0], sep='')
print("Maksymalna Wartość: ", zad2.iloc[max_index,column_index]," Data: ",
zad2.iloc[max_index,2],"-",zad2.iloc[max_index,1],"-",zad2.iloc[max_index,0], sep='')
print("Różnica kursowa: ", zad2.iloc[max_index,column_index]-zad2.iloc[min_index,column_index])

min_index = zad2['JPY'].idxmin()
max_index = zad2['JPY'].idxmax()
column_name = 'JPY'
column_index = zad2.columns.get_loc(column_name)
print("Jen: \nMinimalna Wartość: ", zad2.iloc[min_index,column_index]," Data: ",
zad2.iloc[min_index,2],"-",zad2.iloc[min_index,1],"-",zad2.iloc[min_index,0], sep='')
print("Maksymalna Wartość: ", zad2.iloc[max_index,column_index]," Data: ",
zad2.iloc[max_index,2],"-",zad2.iloc[max_index,1],"-",zad2.iloc[max_index,0], sep='')
print("Różnica kursowa: ", zad2.iloc[max_index,column_index]-zad2.iloc[min_index,column_index])

Liczba obiektów: 1200
Liczba atrybutów: 7
Frank: 
Minimalna Wartość: 1.9596 Data: 31-7-2008
Maksymalna Wartość: 3.3167 Data: 18-2-2009
Różnica kursowa:  0.0
Dolar: 
Minimalna Wartość: 2.022 Data: 21-7-2008
Maksymalna Wartość: 3.8978 Data: 18-2-2009
Różnica kursowa:  1.8758000000000004
Euro: 
Minimalna Wartość: 3.2026 Data: 31-7-2008
Maksymalna Wartość: 4.8999 Data: 18-2-2009
Różnica kursowa:  1.6972999999999998
Jen: 
Minimalna Wartość: 1.8937 Data: 28-7-2008
Maksymalna Wartość: 4.2083 Data: 18-2-2009
Różnica kursowa:  2.3146000000000004


Odczyt danych możliwy jest także z pliku `html` znajdującego się pod wskazanym adresem. Poniższy przykład pokazuje pobieranie danych o [państwach świata](http://www.worldometers.info/geography/alphabetical-list-of-countries/).

In [60]:
import pandas as pd
d = pd.read_html('http://www.worldometers.info/geography/alphabetical-list-of-countries/')
d[0]

Unnamed: 0,#,Country,Population (2023),Land Area (Km²),Density (P/Km²)
0,1,Afghanistan,42239854,652860,65
1,2,Albania,2832439,27400,103
2,3,Algeria,45606480,2381740,19
3,4,Andorra,80088,470,170
4,5,Angola,36684202,1246700,29
...,...,...,...,...,...
190,191,Venezuela,28838499,882050,33
191,192,Vietnam,98858950,310070,319
192,193,Yemen,34449825,527970,65
193,194,Zambia,20569737,743390,28


Powyższy przykład pokazuje import danych z prostej tablicy `html`. W przypadku bardziej złożonych danych prawidłowe sformatowanie danych wymaga analizy kodu html oraz odpowiedniego ustawienia argumentów wywołania metody `read_html`. 

## 2.2 Łączenie ramek

Ramki danych mogą być na różne sposoby ze sobą łączone. 

In [61]:
df = pd.DataFrame(np.random.randn(10, 4))
df

Unnamed: 0,0,1,2,3
0,-1.948017,-1.650046,1.363029,0.377467
1,3.063948,0.915267,-1.080437,1.402814
2,-1.085421,-0.780688,-0.254649,0.760756
3,0.636659,0.126032,-0.448813,1.018124
4,0.015473,2.338651,1.047647,-0.571256
5,0.022346,1.616859,0.287102,0.235081
6,0.325867,-0.237983,0.752406,0.412413
7,-2.093569,0.733753,-1.29646,0.73394
8,-0.546738,0.578649,2.069187,0.562169
9,-0.17229,1.211387,0.888383,0.509995


Dzielimy na trzy części

In [62]:
pieces = [df[7:], df[3:7], df[:3]]
pieces

[          0         1         2         3
 7 -2.093569  0.733753 -1.296460  0.733940
 8 -0.546738  0.578649  2.069187  0.562169
 9 -0.172290  1.211387  0.888383  0.509995,
           0         1         2         3
 3  0.636659  0.126032 -0.448813  1.018124
 4  0.015473  2.338651  1.047647 -0.571256
 5  0.022346  1.616859  0.287102  0.235081
 6  0.325867 -0.237983  0.752406  0.412413,
           0         1         2         3
 0 -1.948017 -1.650046  1.363029  0.377467
 1  3.063948  0.915267 -1.080437  1.402814
 2 -1.085421 -0.780688 -0.254649  0.760756]

Metoda `concat` pozwala na sklejenie kilku ramek danych o takich samych artybutach w jedną.

In [63]:
pd.concat(pieces)

Unnamed: 0,0,1,2,3
7,-2.093569,0.733753,-1.29646,0.73394
8,-0.546738,0.578649,2.069187,0.562169
9,-0.17229,1.211387,0.888383,0.509995
3,0.636659,0.126032,-0.448813,1.018124
4,0.015473,2.338651,1.047647,-0.571256
5,0.022346,1.616859,0.287102,0.235081
6,0.325867,-0.237983,0.752406,0.412413
0,-1.948017,-1.650046,1.363029,0.377467
1,3.063948,0.915267,-1.080437,1.402814
2,-1.085421,-0.780688,-0.254649,0.760756


Metoda `merge` pozwala na łączenie ramek w sposób zbliżonych do metod znanych z baz danych.

In [64]:
left = pd.DataFrame({'key': ['foo', 'foo'], 'lval': [1, 2]})
right = pd.DataFrame({'key': ['foo', 'foo'], 'rval': [4, 5]})
print(left)
print("\n")
print(right)
pd.merge(left, right, on='key')

   key  lval
0  foo     1
1  foo     2


   key  rval
0  foo     4
1  foo     5


Unnamed: 0,key,lval,rval
0,foo,1,4
1,foo,1,5
2,foo,2,4
3,foo,2,5


In [65]:
left = pd.DataFrame({'key': ['foo', 'bar'], 'lval': [1, 2]})
right = pd.DataFrame({'key': ['foo', 'bar'], 'rval': [4, 5]})
print(left)
print("\n")
print(right)
pd.merge(left, right, on='key')

   key  lval
0  foo     1
1  bar     2


   key  rval
0  foo     4
1  bar     5


Unnamed: 0,key,lval,rval
0,foo,1,4
1,bar,2,5


Metoda `append` pozwala na dodanie nowych obiektów do ramki danych.

In [66]:
df = pd.DataFrame(np.random.randn(8, 4), columns=['A', 'B', 'C', 'D'])
print(df)
print("\n")
s = pd.DataFrame(np.random.randn(1, 4), columns=['A', 'B', 'C', 'D'])
print(s)
df = pd.concat([df, pd.DataFrame(s)], ignore_index=True)
print(df)
print("\n")
df = pd.concat([df, pd.DataFrame(s)])
print(df)

          A         B         C         D
0  0.426757  1.216640 -2.402483  1.351271
1  0.691072  0.253178 -1.061529  0.623168
2 -1.433031  0.275721 -0.105819  1.784931
3  1.428591  0.254374  0.260681  0.454250
4 -0.372658 -0.265405 -1.293842 -1.741895
5  1.549804  1.736024 -0.016499 -1.196614
6 -0.796270 -1.019308 -0.518785 -1.949522
7  0.969574 -0.698019 -0.687265 -0.096654


          A         B         C         D
0  2.278586 -2.356588  2.818564  0.198783
          A         B         C         D
0  0.426757  1.216640 -2.402483  1.351271
1  0.691072  0.253178 -1.061529  0.623168
2 -1.433031  0.275721 -0.105819  1.784931
3  1.428591  0.254374  0.260681  0.454250
4 -0.372658 -0.265405 -1.293842 -1.741895
5  1.549804  1.736024 -0.016499 -1.196614
6 -0.796270 -1.019308 -0.518785 -1.949522
7  0.969574 -0.698019 -0.687265 -0.096654
8  2.278586 -2.356588  2.818564  0.198783


          A         B         C         D
0  0.426757  1.216640 -2.402483  1.351271
1  0.691072  0.253178 -1.06152

In [67]:
df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
   ....:            'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
   ....:            'C': np.random.randn(8),
   ....:            'D': np.random.randn(8)})
df

Unnamed: 0,A,B,C,D
0,foo,one,-0.753875,-0.389721
1,bar,one,-0.744663,-0.983013
2,foo,two,1.0313,0.766443
3,bar,three,0.908852,0.140776
4,foo,two,0.513556,0.951825
5,bar,two,1.058661,-0.870979
6,foo,one,-0.733481,0.866312
7,foo,three,2.392221,-0.808391


Metoda `groupby` pozwala na grupowanie obiektów o takich samych wartościach wybranych atrybutów jednocześnie ustalając wartości pozostałych atrybutów zgodnie z ustalona regułą (np. jako sumę).  

In [68]:
df.groupby('A').sum()

Unnamed: 0_level_0,B,C,D
A,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,onethreetwo,1.222851,-1.713216
foo,onetwotwoonethree,2.44972,1.386468


In [69]:
df.groupby(['A', 'B']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,-0.744663,-0.983013
bar,three,0.908852,0.140776
bar,two,1.058661,-0.870979
foo,one,-1.487357,0.47659
foo,three,2.392221,-0.808391
foo,two,1.544856,1.718268


#  3. Szeregi czasowe

## 3.1 Specyfika szeregów czasowych

Specyficznym rodzajem serii lub ramki danych sa szeregi czasowe. Charakteryzują się one indeksem wskazującym na kolejne chwile czasowe, w których następowały pomiary wartości atrybutów (cech). Chwile te najczęściej są definiowane w regularnych interwałach czasowych odnoszących się do różnych jednostek czasu (sekund, minut, godzin, dni, miesięcy, lat).

Zakres chwil czasowych uzyskujemy stosując metodę `date_range`, której argumentami są dane o szeregu czasowym, np. moment początkowy i liczba interwałów czasowych.

In [70]:
kolejne_dni = pd.date_range('20200101', periods=10)

kolejne_dni

DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04',
               '2020-01-05', '2020-01-06', '2020-01-07', '2020-01-08',
               '2020-01-09', '2020-01-10'],
              dtype='datetime64[ns]', freq='D')

Przy pomocy argumentu `freq` można określić rodzaj skoku czasowego między kolejnymi próbkami (możliwe są różne jednostki czasu). W poniższym przykładzie zakres dat wygenerowany zgodnie z założeniami staje się indeksem serii danych losowych.

In [71]:
ind = pd.date_range('1/12/2019 12:30', periods=100, freq='min')
szereg_czasowy = pd.Series(np.random.randint(0, 500, len(ind)), index=ind)
print(szereg_czasowy.head())
print(szereg_czasowy.tail())

2019-01-12 12:30:00    386
2019-01-12 12:31:00    445
2019-01-12 12:32:00    421
2019-01-12 12:33:00    421
2019-01-12 12:34:00     29
Freq: T, dtype: int32
2019-01-12 14:05:00    419
2019-01-12 14:06:00    349
2019-01-12 14:07:00    173
2019-01-12 14:08:00    319
2019-01-12 14:09:00    225
Freq: T, dtype: int32


In [72]:
ind = pd.date_range('1/12/2019 12:30', periods=65, freq='D')
szereg_czasowy = pd.Series(np.random.randint(0, 500, len(ind)), index=ind)
print(szereg_czasowy.head())
print(szereg_czasowy.tail())

2019-01-12 12:30:00    145
2019-01-13 12:30:00    418
2019-01-14 12:30:00    287
2019-01-15 12:30:00    163
2019-01-16 12:30:00    106
Freq: D, dtype: int32
2019-03-13 12:30:00    235
2019-03-14 12:30:00    294
2019-03-15 12:30:00     97
2019-03-16 12:30:00    120
2019-03-17 12:30:00    276
Freq: D, dtype: int32


Metody `index.min` oraz `index.max` wracają najniższą i najwyższą wartość indeksu.

In [73]:
szereg_czasowy.index.max() - szereg_czasowy.index.min()

Timedelta('64 days 00:00:00')

Dzięki odpowiednim metodom możliwy jest dostęp do poszczególnych składników dany - roku, miesiąca i dnia, a nawet dnia tygodnia.

In [74]:
print(szereg_czasowy.index.year)
print(szereg_czasowy.index.month)
print(szereg_czasowy.index.day)
print(szereg_czasowy.index.day_name())

Index([2019, 2019, 2019, 2019, 2019, 2019, 2019, 2019, 2019, 2019, 2019, 2019,
       2019, 2019, 2019, 2019, 2019, 2019, 2019, 2019, 2019, 2019, 2019, 2019,
       2019, 2019, 2019, 2019, 2019, 2019, 2019, 2019, 2019, 2019, 2019, 2019,
       2019, 2019, 2019, 2019, 2019, 2019, 2019, 2019, 2019, 2019, 2019, 2019,
       2019, 2019, 2019, 2019, 2019, 2019, 2019, 2019, 2019, 2019, 2019, 2019,
       2019, 2019, 2019, 2019, 2019],
      dtype='int32')
Index([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3],
      dtype='int32')
Index([12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29,
       30, 31,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28,  1,  2,  3,  4,  5,  6,
        7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17],
      dtype='int32'

Szereg czasowy może być indeksem serii lub  ramki danych. W takim przypadku kolejne obiekty (wiersze) ramki odnoszą się do pomiarów wykonywanych w kolejnych chwilach czasowych. W poniższym przykładzie wczytywana jest tabela notowań indeksu giełdowego WIG30. Z uwagi na fakt, iż w oryginalnym pliku danych Excel-a pierwsza kolumna ze wskazanego zakresu jest kolumną dat, jest ona automatycznie konwertowana na indeks - szereg czasowy.

In [75]:
k = pd.read_excel('kursy.xlsx', sheet_name = "WIG30", header = 2,usecols = range(0,6), index_col = 0)
print(type(k))
print(k.info())


<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 6773 entries, 1991-04-16 to 2020-03-05
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Otwarcie    6773 non-null   float64
 1   Najwyzszy   6773 non-null   float64
 2   Najnizszy   6773 non-null   float64
 3   Zamkniecie  6773 non-null   float64
 4   Wolumen     6771 non-null   float64
dtypes: float64(5)
memory usage: 317.5 KB
None


In [76]:
print(type(k.index))
print(k.index)

<class 'pandas.core.indexes.datetimes.DatetimeIndex'>
DatetimeIndex(['1991-04-16', '1991-04-23', '1991-04-30', '1991-05-14',
               '1991-05-21', '1991-05-28', '1991-06-04', '1991-06-11',
               '1991-06-18', '1991-06-25',
               ...
               '2020-02-21', '2020-02-24', '2020-02-25', '2020-02-26',
               '2020-02-27', '2020-02-28', '2020-03-02', '2020-03-03',
               '2020-03-04', '2020-03-05'],
              dtype='datetime64[ns]', name='Data', length=6773, freq=None)


## 3.2 Manipulowanie szeregiem czasowym

Na bazie istniejących danych możliwe jest tworzenie nowych, powstających przez ekstrakcję wybranych fragmentów danych oryginalnych. W poniższym przykładzie tworzymy nową serię danych, w której jako jedyna kolumna danych pojawi się poziom indeksu na zamknięciu danego dnia.

In [77]:
wig30seria = pd.Series(k['Zamkniecie'], name = 'EUR30')
wig30seria.index = k.index
print(wig30seria.head())
print(wig30seria.tail())

Data
1991-04-16    98.65
1991-04-23    94.41
1991-04-30    92.24
1991-05-14    91.65
1991-05-21    94.21
Name: EUR30, dtype: float64
Data
2020-02-28    2050.16
2020-03-02    2089.22
2020-03-03    2180.15
2020-03-04    2149.60
2020-03-05    2112.25
Name: EUR30, dtype: float64


Ekstrakcja danych dot. daty z indeksu do kolumn ramki danych. 

In [78]:
wig30 = pd.DataFrame({'wartosc': k['Zamkniecie'], 'rok': k.index.year, 'miesiac': k.index.month, 'dzien': k.index.day, 'dzien_tyg': k.index.day_name()})
wig30.index = k.index
print(wig30.head())
wig30.tail()

            wartosc   rok  miesiac  dzien dzien_tyg
Data                                               
1991-04-16    98.65  1991        4     16   Tuesday
1991-04-23    94.41  1991        4     23   Tuesday
1991-04-30    92.24  1991        4     30   Tuesday
1991-05-14    91.65  1991        5     14   Tuesday
1991-05-21    94.21  1991        5     21   Tuesday


Unnamed: 0_level_0,wartosc,rok,miesiac,dzien,dzien_tyg
Data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2020-02-28,2050.16,2020,2,28,Friday
2020-03-02,2089.22,2020,3,2,Monday
2020-03-03,2180.15,2020,3,3,Tuesday
2020-03-04,2149.6,2020,3,4,Wednesday
2020-03-05,2112.25,2020,3,5,Thursday


Szeregi czasowe mogą być skalowane poprzez zmianę częstotliwości próbkowania czasu. Przykładowo, możliwe jest wygenerowanie szeregu czasowego, w którym zamiast próbkowania dziennego, wystąpi próbkowanie miesięczne - w tym przypadku ostatni dzień miesiąca. Wartość przypisana temu elementowi będzie równa średniej arytmetycznej dla danego miesiąca.

> **Zadanie** Wyznacz następujące wartości:
* łączną liczbę notowań (lub inaczej: dni, w które giełda pracowała) w kolejnych latach
* liczbę notowań w ciągu całego okresu w poszczególne dni tygodnia
* średnią wartość indeksu w poszczególnych latach 
* wzrost poziomu indeksu w poszczególnych latach

In [81]:
#zad 3
yearly_counts = wig30.groupby('rok').size()
yearly_counts = yearly_counts.reset_index(name='Liczba notowań w latach')
print(yearly_counts)

day_counts = wig30.groupby('dzien_tyg').size()
day_counts = day_counts.reset_index(name='Liczba notowań w danym dniu tygodnia')
print(day_counts)

yearly_avg = wig30.groupby('rok')['wartosc'].mean()
yearly_avg = yearly_avg.reset_index(name='Średnia w roku')
print(yearly_avg)

wig30['Annual Growth'] = wig30.groupby('rok')['wartosc'].diff()
annual_growth = wig30.groupby('rok')['wartosc'].agg(['first', 'last'])
annual_growth['Annual Growth'] = annual_growth['last'] - annual_growth['first']
print(annual_growth)

#po zad
print(wig30seria.head())
wig30mies = wig30seria.resample(rule = 'M').mean()
wig30mies.head()

     rok  Liczba notowań w latach
0   1991                       36
1   1992                      100
2   1993                      152
3   1994                      188
4   1995                      249
5   1996                      250
6   1997                      249
7   1998                      250
8   1999                      249
9   2000                      250
10  2001                      250
11  2002                      249
12  2003                      251
13  2004                      255
14  2005                      251
15  2006                      251
16  2007                      249
17  2008                      251
18  2009                      252
19  2010                      253
20  2011                      251
21  2012                      249
22  2013                      247
23  2014                      249
24  2015                      251
25  2016                      251
26  2017                      250
27  2018                      247
28  2019      

Data
1991-04-30    95.100000
1991-05-31    93.063333
1991-06-30    88.937500
1991-07-31    83.322000
1991-08-31    74.655000
Freq: M, Name: EUR30, dtype: float64

> **Zadanie** Zorientuj się jakie inne parametry mogą być użyte w powyższym przykładzie i jaki będzie efekt ich zastosowania.

Metoda shift pozwala na przesunięcie danych w skali czasu o zadaną liczbę próbek.

In [None]:
print(wig30mies.head())
print(wig30mies.shift(2).head())
print(wig30mies.shift(-2).head())

# 4. Dane rastrowe - pakiet `scikit-image`

Istnieje kilka pakietów umożliwiających wykonywanie operacji na obrazach cyfrowych. Jednym z najważniejszych jest pakiet `scikit-image` (`scimage`). Pakiet ten będzie wykorzystywany podczas zajęć. Innym znanym pakietem jest OpenCV (`cv2`), który umożliwia dostęp z poziomu Pythona do jednej z największych bibliotek przetwarzania obrazów, biblioteki [openCV](https://opencv.org/). 

Jak każdy pakiet, także i `scimage` wymaga wczytania w całości lub jedynie wybranych, przyadatnych w konkretnym zastosowaniu funkcji. W poniższych przykładach funkcje będą doładowywane sukcesywnie stosownie dopotrzeb. Dodatkowo wykorzystywana będzie część pakietu `matplotlib` jako niezbędna do wyświetlania obrazów. Pakiet ten służy do wizualizacji danych i zostanie omówiony bardziej wyczerpująco w ćwiczeniu poświęconym wizualizacji. 

In [None]:
import numpy as np
from matplotlib import pyplot as plt
%matplotlib inline

## 4.1 Wczytywanie i wyświetlanie obrazów

Wczytywanie obrazu do macierzy - macierzowej struktury danych pakietu `numpy` - jest wykonywane z użyciem metody `imread`. W przypadku gdy otwrcie pliku i ściągnięcie z niego danych się powiedzie, funkcja zwraca macierz. Dla obrazu kolorwego jest to macierz trójwymiarowa - wymiar to trzy warstwy odpowiadające poszczególnym składowym koloru. Jeden ze sposobów wyświetlenia obrazu (najwygodniejszym w przypadku korzystania z Jupyter Notebook) polega na wykorzystaniu komendy `imshow` z pakietu `matplotlib`.

In [None]:
from skimage import io
obraz = io.imread('baboon.jpg')
# parametry macierzy obrazu - obraz kolorowy
print(obraz.shape, type(obraz))
plt.imshow(obraz)
# obraz2 = cv2.imread('baboon.jpg',0)
# parametry macierzy obra zu - obraz w skali szarości
# print(obraz2.shape, type(obraz2))

Wykorzystując funkcję `imread` możliwy jest także import obrazu z sieci, przez podanie jego adresu url. 

In [None]:
from skimage import io
url = "http://www.ee.pw.edu.pl/wp-content/uploads/2016/11/WE-znak.png"
obraz_www = io.imread(url)
print(obraz.shape, type(obraz_www))
plt.imshow(obraz_www) 

Dostęp do pikseli obrazu.

In [None]:
px = 100
py = 100
piks1 = obraz[px,py]
piks1g = obraz[px,py,1]
piks2 = obraz[px,py]
print("obraz(",px,",",py,")=",piks1)
print("obraz(",px,",",py,",1)=",piks1g)
print("obraz(",px,",",py,")=",piks2)

Zmiana wartości pikseli

In [None]:
# pojedyncza składowa
print("przed: ",obraz[px,py])
obraz[px,py,2]=1
print("po zmianie jednej składowej: ",obraz[px,py])
# cały piksel
obraz[px,py]= [10,20,30]
print("po zmianie całego piksela: ",obraz[px,py])

Wycinanie fragmentu obrazu (ROI = Region Of Interests) wymaga odwołania poprzez zakres współrzędnych.

In [None]:
oko = obraz[40:80,140:210]
plt.imshow(oko)

## 4.2 Przestrzenie kolorów

Obraz kolorowy składa się z trzech składowych. W modelu RGB składowe te określają intensywność trzech barw podstawowych czerwonej, zielonej i niebieskiej. Aby otrzymać poszczególne składowe, obraz kolorowy należy zdekomponować na trzy obrazy w skali szarości. Możliwa jest także operacja odwrotna - z trzech obrazów składowych koloru tworzony jest jeden obraz kolorowy.

---
---
Historia zmian:
* wersja pierwotna r.akad 18/19: 24.03.2019 (MI)
* wersja r.akad 19/20: 18.03.2020 (MI)
* wersja r.akad 19/20: 21.03.2020 (GS)
* wersja r.akad 20/21: 22.10.2020 (MI)


In [None]:
obraz = io.imread('baboon.jpg')
plt.figure(figsize=(12,12), dpi= 80)
ax = plt.subplot(3,4,1)   
ax.set_title("RGB")
plt.imshow(obraz)
ax = plt.subplot(3,4,2)
ax.set_title("Red")
plt.imshow(obraz[:,:,0],cmap='gray')
ax = plt.subplot(3,4,3)
ax.set_title("Green")
plt.imshow(obraz[:,:,1],cmap='gray')
ax = plt.subplot(3,4,4)
ax.set_title("Blue")
plt.imshow(obraz[:,:,2],cmap='gray')
# wyznaczamy składowe CMY
cmy_c = 255 - obraz[:,:,0]
cmy_m = 255 - obraz[:,:,1]
cmy_y = 255 - obraz[:,:,2] 
ax = plt.subplot(3,4,6)
ax.set_title("Cyan (CMY)")
plt.imshow(cmy_c,cmap='gray')
ax = plt.subplot(3,4,7)
ax.set_title("Magenta (CMY)")
plt.imshow(cmy_m,cmap='gray')
ax = plt.subplot(3,4,8)
ax.set_title("Yellow (CMY)")
plt.imshow(cmy_y,cmap='gray')
# wyznaczamy składowe CMYK
cmyk_k = np.minimum(cmy_c,np.minimum(cmy_m,cmy_y))
cmyk_c = cmy_c - cmyk_k
cmyk_m = cmy_m - cmyk_k
cmyk_y = cmy_y - cmyk_k
ax = plt.subplot(3,4,9)
ax.set_title("blacK (CMYK)")
plt.imshow(cmyk_k,cmap='gray')
ax = plt.subplot(3,4,10)
ax.set_title("Cyan (CMYK)")
plt.imshow(cmyk_c,cmap='gray')
ax = plt.subplot(3,4,11)
ax.set_title("Magenta (CMYK)")
plt.imshow(cmyk_m,cmap='gray')
ax = plt.subplot(3,4,12)
ax.set_title("Yellow (CMYK)")
plt.imshow(cmyk_y,cmap='gray')

Inny sposób wyświetlania - jako pojedyncza macierz, sklejona z trzech. Obraz kolorowy może być reprentowany a także przetwarzany w innych przestrzeniach kolorów. Poniższe przykłady przedstawiają separację barwną (rozbicie na składowe koloru) na trzy składowe przestrzeni RGB, YUV oraz HSV. Przykład pokazuje przy okazji inny sposób wyświetlania składowych obrazów kolorowych.

In [None]:
cmy_c = 255 - obraz[:,:,0]
cmy_m = 255 - obraz[:,:,1]
cmy_k = 255 - obraz[:,:,2] 

cmyk_k = 255 - np.maximum(obraz[:,:,0],obraz[:,:,1],obraz[:,:,1])
cmyk_c = cmy_c - cmyk_k
cmyk_m = cmy_m - cmyk_k
cmyk_k = cmy_k - cmyk_k

In [None]:
from skimage.color import rgb2hsv,rgb2yuv
plt.figure(figsize=(10,5),dpi = 80)
plt.imshow(np.hstack((obraz[:,:,0],obraz[:,:,1],obraz[:,:,2])),cmap='gray')
plt.title('przestrzeń RGB')
obraz_yuv = rgb2yuv(obraz)
plt.figure(figsize=(10,5),dpi = 80)
plt.imshow(np.hstack((obraz_yuv[:,:,0],obraz_yuv[:,:,1],obraz_yuv[:,:,2])),cmap='gray')
plt.title('przestrzeń YUV')
obraz_hsv = rgb2hsv(obraz)
plt.figure(figsize=(10,5),dpi = 80)
plt.imshow(np.hstack((obraz_hsv[:,:,0],obraz_hsv[:,:,1],obraz_hsv[:,:,2])),cmap='gray')
plt.title('przestrzeń HSV')

> **Zadanie** Wykonaj separacje barwne dla różnych przestrzeni docelowych dla dowolnego innego obrazu kolorowego, zwróć uwagę jak, w poszczególnych przestrzeniach, wyglądają obszar o określonych kolorach.

## Dla dociekliwych

* [Pakiet Pandas w 10 minut](https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html)
* [Inny tutorial Pandasa](https://data36.com/pandas-tutorial-1-basics-reading-data-files-dataframes-data-selection/) 
* [I jeszcze jeden](https://www.datacamp.com/community/tutorials/pandas-tutorial-dataframe-python)
* [Serie danych](https://www.geeksforgeeks.org/python-pandas-series/)
* [Serie danych 2](https://www.machinelearningplus.com/time-series/time-series-analysis-python/)
* [Szeregi czasowe](https://www.dataquest.io/blog/tutorial-time-series-analysis-with-pandas/)
* [Szeregi czasowe 2](https://jakevdp.github.io/PythonDataScienceHandbook/03.11-working-with-time-series.html)
* [Python+OpenCV](https://docs.opencv.org/3.0-beta/doc/py_tutorials/py_tutorials.html)