# 2.3. Ramki danych i podstawowe operacje na nich

Ramka danych (ang. *dataframe*) to podstawowa struktura danych w ML - m.in. pandas bazuje na ich koncepcie. Można na nie patrzeć tak jak na tabelę, gdzie każda kolumna oznacza cechę, a wiersz odpowiada jedną obserwację. Liczba cech określana jest często jako wymiarowość danych, a liczba obserwacji to rozmiar zbioru danych.

In [1]:
import pandas as pd

In [2]:
iris_df = pd.read_csv(
    "https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv"
)
iris_df.sample(n=5)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
20,5.4,3.4,1.7,0.2,setosa
47,4.6,3.2,1.4,0.2,setosa
16,5.4,3.9,1.3,0.4,setosa
9,4.9,3.1,1.5,0.1,setosa
86,6.7,3.1,4.7,1.5,versicolor


W pandas, zarówno wiersz, jak i kolumna są reprezentowane jako obiekty typu `Series`.

In [4]:
iris_df["sepal_length"]

0      5.1
1      4.9
2      4.7
3      4.6
4      5.0
      ... 
145    6.7
146    6.3
147    6.5
148    6.2
149    5.9
Name: sepal_length, Length: 150, dtype: float64

In [7]:
iris_df.loc[0]

sepal_length       5.1
sepal_width        3.5
petal_length       1.4
petal_width        0.2
species         setosa
Name: 0, dtype: object

Jeśli masz jakiekolwiek doświadczenie w pracy z SQL bądź nawet Excelem, to ta struktura danych powinna być dla Ciebie dość intuicyjna. Pandas dostarcza nawet operacje będące odpowiednikami poszczególnych elementów zapytań SQL.

## Indeksowanie danych

Dodatkowo, w pandas istnieje również indeks ramki danych, który pozwala na wygodne odczytywanie poszczególnych wierszy i jest to swego rodzaju odpowiednik dla klucza głównego w tabeli relacyjnej bazy danych. Domyślnie, ustawiany jest on na kolejne liczby naturalne, ale może być także dowolną wartością, a nawet wieloma wartościami (tzw. multiindeks).

In [8]:
iris_df.set_index("sepal_width")

Unnamed: 0_level_0,sepal_length,petal_length,petal_width,species
sepal_width,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
3.5,5.1,1.4,0.2,setosa
3.0,4.9,1.4,0.2,setosa
3.2,4.7,1.3,0.2,setosa
3.1,4.6,1.5,0.2,setosa
3.6,5.0,1.4,0.2,setosa
...,...,...,...,...
3.0,6.7,5.2,2.3,virginica
2.5,6.3,5.0,1.9,virginica
3.0,6.5,5.2,2.0,virginica
3.4,6.2,5.4,2.3,virginica


In [11]:
mi_iris_df = iris_df.set_index(["sepal_width", "sepal_length"])
mi_iris_df.sample(n=3)

Unnamed: 0_level_0,Unnamed: 1_level_0,petal_length,petal_width,species
sepal_width,sepal_length,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2.7,5.2,3.9,1.4,versicolor
2.7,5.8,3.9,1.2,versicolor
3.1,6.7,4.4,1.4,versicolor


In [14]:
mi_iris_df.loc[(2.7, 5.2)]

  """Entry point for launching an IPython kernel.


Unnamed: 0_level_0,Unnamed: 1_level_0,petal_length,petal_width,species
sepal_width,sepal_length,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2.7,5.2,3.9,1.4,versicolor


In [18]:
iris_df.set_index("species") \
    .loc["setosa"] \
    .sample(n=3)

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,4.6,3.1,1.5,0.2
setosa,4.6,3.6,1.0,0.2
setosa,4.9,3.1,1.5,0.2


## Operacje na kolumnach i wierszach

Kolekcja operacji możliwych do wykonania zarówno na wierszach, jak i kolumnach, jest dość rozbudowana. Na pewno często będziemy chcieli skorzystać z możliwości dodania kolumny, a czasem będzie nam dodatkowo zależeć, aby ta kolumna była dodana w odpowiednim miejscu.

In [36]:
iris_df.insert(loc=2, column="new_column", value="7")
iris_df

Unnamed: 0,sepal_length,sepal_width,new_column,petal_length,petal_width,species
0,5.1,3.5,7,1.4,0.2,setosa
1,4.9,3.0,7,1.4,0.2,setosa
2,4.7,3.2,7,1.3,0.2,setosa
3,4.6,3.1,7,1.5,0.2,setosa
4,5.0,3.6,7,1.4,0.2,setosa
...,...,...,...,...,...,...
145,6.7,3.0,7,5.2,2.3,virginica
146,6.3,2.5,7,5.0,1.9,virginica
147,6.5,3.0,7,5.2,2.0,virginica
148,6.2,3.4,7,5.4,2.3,virginica


Nowe kolumny niekoniecznie muszą być uzupełniane za pomocą skalara. Możemy także stworzyć je ręcznie, bądź też obliczyć ich wartości na podstawie posiadanych już cech.

In [37]:
iris_df.insert(loc=6, column="avg_sepal_petal_length", 
               value=(iris_df["sepal_length"] + iris_df["petal_length"]) / 2)
iris_df

Unnamed: 0,sepal_length,sepal_width,new_column,petal_length,petal_width,species,avg_sepal_petal_length
0,5.1,3.5,7,1.4,0.2,setosa,3.25
1,4.9,3.0,7,1.4,0.2,setosa,3.15
2,4.7,3.2,7,1.3,0.2,setosa,3.00
3,4.6,3.1,7,1.5,0.2,setosa,3.05
4,5.0,3.6,7,1.4,0.2,setosa,3.20
...,...,...,...,...,...,...,...
145,6.7,3.0,7,5.2,2.3,virginica,5.95
146,6.3,2.5,7,5.0,1.9,virginica,5.65
147,6.5,3.0,7,5.2,2.0,virginica,5.85
148,6.2,3.4,7,5.4,2.3,virginica,5.80


In [42]:
iris_df.drop(["new_column", "avg_sepal_petal_length"], 
             axis="columns", inplace=True)
iris_df

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


Zamiast cech, możemy także usuwać poszczególne obserwacje ze zbioru.

In [43]:
iris_df.drop([0, 2], axis="rows", inplace=True)
iris_df

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
1,4.9,3.0,1.4,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
5,5.4,3.9,1.7,0.4,setosa
6,4.6,3.4,1.4,0.3,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


Łączenie ze sobą różnych ramek danych jest dość kosztowną operacją, jeśli chodzi o wykorzystanie pamięci. W związku z tym staramy się jej raczej unikać w przypadku dużych zbiorów danych, ale istnieje możliwość, aby tego dokonać.

In [60]:
pd.concat([
    iris_df,
    iris_df
]).shape

(296, 5)

In [62]:
iris_df.append(iris_df).shape

(296, 5)

## Filtrowanie elementów ramki

Dość częstą operacją jest zazwyczaj filtrowanie elementów ramki spełniających zadane kryteria. Możemy chcieć chociażby przejrzeć wszystkie elementy, które mają pewne specyficze wartości atrybutów.

In [47]:
iris_df.loc[iris_df["species"] == "virginica"] \
    .sample(n=3)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
128,6.4,2.8,5.6,2.1,virginica
116,6.5,3.0,5.5,1.8,virginica
127,6.1,3.0,4.9,1.8,virginica


Warunki możemy ze sobą oczywiście dowolnie łączyć, tak jak to robimy w większości języków programowania.

In [55]:
iris_df.loc[
    (iris_df["species"] == "virginica") & 
    ((iris_df["petal_length"] > 6.0) | (iris_df["petal_length"] < 5.0))
].sample(n=3)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
107,7.3,2.9,6.3,1.8,virginica
127,6.1,3.0,4.9,1.8,virginica
109,7.2,3.6,6.1,2.5,virginica


Istnieje też składnia, która może być bardziej intuicyjna jeśli znasz SQL.

In [59]:
iris_df.query("species == 'virginica'") \
    .sample(n=3)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
107,7.3,2.9,6.3,1.8,virginica
104,6.5,3.0,5.8,2.2,virginica
130,7.4,2.8,6.1,1.9,virginica


## Grupowanie danych

Bardzo przydatną funkcją w przypadku języka SQL jest możliwość grupowania danych i liczenia ich statystyk. Pandas oczywiście dostarcza niezbędnych metod, aby dokonać dokładnie tego samego.

In [73]:
iris_df.groupby("species") \
    .mean()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,5.010417,3.43125,1.466667,0.247917
versicolor,5.936,2.77,4.26,1.326
virginica,6.588,2.974,5.552,2.026


Dość przydatną metodą jest także przejrzenie ogólnych statystyk otrzymanych danych, zanim jeszcze zaczniemy nad nimi pracować.

In [74]:
iris_df.describe()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,148.0,148.0,148.0,148.0
mean,5.856081,3.053378,3.790541,1.212838
std,0.825959,0.437123,1.754618,0.75838
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.4,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


## Wsparcie dla dat

Pandas umożliwia korzystanie nie tylko z danych numerycznych, ale także tekstowych oraz co ważne dat. Przetwarzanie szeregów czasowych, gdzie indeksem jest właśnie czas w pewnych ustalonych odstępach, to osobna gałąź modelowania. Służą one często do reprezentacji zmiany wartości jakiegoś parametru, np. temperatury. 

In [20]:
import numpy as np

In [21]:
pd.date_range("2020-05-04", periods=5, freq="D")

DatetimeIndex(['2020-05-04', '2020-05-05', '2020-05-06', '2020-05-07',
               '2020-05-08'],
              dtype='datetime64[ns]', freq='D')

In [24]:
a_df = pd.DataFrame({
    "random_value": np.random.randint(1, 100, size=5),
    "day": pd.date_range("2020-05-04", periods=5, freq="D")
})
a_df

Unnamed: 0,random_value,day
0,3,2020-05-04
1,21,2020-05-05
2,9,2020-05-06
3,61,2020-05-07
4,37,2020-05-08


In [33]:
a_df["day"].dt.dayofweek

0    0
1    1
2    2
3    3
4    4
Name: day, dtype: int64

In [26]:
by_day_df = a_df.set_index("day")
by_day_df

Unnamed: 0_level_0,random_value
day,Unnamed: 1_level_1
2020-05-04,3
2020-05-05,21
2020-05-06,9
2020-05-07,61
2020-05-08,37


In [30]:
by_day_df.asfreq("12H", method="bfill") # ffill kopiowałoby poprzednią wartość

Unnamed: 0_level_0,random_value
day,Unnamed: 1_level_1
2020-05-04 00:00:00,3
2020-05-04 12:00:00,21
2020-05-05 00:00:00,21
2020-05-05 12:00:00,9
2020-05-06 00:00:00,9
2020-05-06 12:00:00,61
2020-05-07 00:00:00,61
2020-05-07 12:00:00,37
2020-05-08 00:00:00,37


## Uruchamianie obliczeń dla całych kolumn

Pandas dostarcza wiele metod, które pozwalają na dokonanie pewnej operacji na całych seriach danych (wierszach bądź kolumnach). Są to standardowe operacje, jakie wykorzystuje się w przypadku projektów Data Science, jednakże nie jesteśmy ograniczeni tylko do nich i spokojnie możemy rozbudować te funkcjonalności o swoje własne metody.

In [66]:
a_df = pd.DataFrame({
    "a": [1, 2],
    "b": [3, 4],
})
a_df

Unnamed: 0,a,b
0,1,3
1,2,4


In [67]:
a_df ** 2

Unnamed: 0,a,b
0,1,9
1,4,16


In [68]:
-a_df

Unnamed: 0,a,b
0,-1,-3
1,-2,-4


W przypadku, gdy potrzebujemy wykonać bardziej skomplikowaną operację na wszystkich elementach ramki danych, możemy skorzystać z napisanej przez siebie funkcji.

In [78]:
def own_function(value):
    if value > 2:
        return value
    return value + 1


a_df.applymap(own_function)

Unnamed: 0,a,b
0,2,3
1,3,4


Przydatne może również okazać się uruchomienie tej samej funkcji na kolejnych seriach danych, tj. na pojedynczych kolumnach bądź na wierszach. Podstawowe funkcje statystyczne takie jak średnia, odchylenie standardowe czy mediana są już wbudowane, jednak jeśli będziemy chcieli stworzyć podobne funkcjonalności, to jest to również możliwe.

In [83]:
a_df.apply(lambda series: max(2, series.min()))

a    2
b    3
dtype: int64