# Metody analizy danych. Lab 4. Wprowadzenie do biblioteki pandas

## 1. Struktury danych w bibliotece pandas

Podstawową strukturą danych w bibliotece pandas jest ramka danych, obiekt typu `DataFrame` oraz seria danych, `Series`, która stanowi pojedynczą kolumnę ramki danych. Pod tymi strukturami kryją się tablice numpy, które poznaliśmy już na zajęciach wcześniejszych. Każda kolumna w ramce danych jest określona typem danych, który jest w niej przechowywany, z uwzględnieniem sytuacji, w której możliwe jest również przechowywanie wartości brakujących (typ `Nan` - not a number).

### 1.1 Inicjalizacja ramek oraz serii danych

In [4]:
!pip install pandas

Collecting pandas
  Using cached pandas-2.2.3-cp313-cp313-win_amd64.whl.metadata (19 kB)
Collecting pytz>=2020.1 (from pandas)
  Using cached pytz-2025.1-py2.py3-none-any.whl.metadata (22 kB)
Collecting tzdata>=2022.7 (from pandas)
  Using cached tzdata-2025.1-py2.py3-none-any.whl.metadata (1.4 kB)
Using cached pandas-2.2.3-cp313-cp313-win_amd64.whl (11.5 MB)
Using cached pytz-2025.1-py2.py3-none-any.whl (507 kB)
Using cached tzdata-2025.1-py2.py3-none-any.whl (346 kB)
Installing collected packages: pytz, tzdata, pandas
Successfully installed pandas-2.2.3 pytz-2025.1 tzdata-2025.1


In [23]:
import pandas as pd
import numpy as np

Seria danych w pandas to struktura, która oprócz danych w postaci wektora zawiera również indeks, który może być dowolnego typu, pod warunkiem, że jest typem hashowalnym w Pythonie. Poniżej kilka przykładów inicjalizacji serii danych.

In [11]:
# wyświetlenie docstringa dla klasy pandas.Series
print(pd.Series.__doc__)


One-dimensional ndarray with axis labels (including time series).

Labels need not be unique but must be a hashable type. The object
supports both integer- and label-based indexing and provides a host of
methods for performing operations involving the index. Statistical
methods from ndarray have been overridden to automatically exclude
missing data (currently represented as NaN).

Operations between Series (+, -, /, \*, \*\*) align values based on their
associated index values-- they need not be the same length. The result
index will be the sorted union of the two indexes.

Parameters
----------
data : array-like, Iterable, dict, or scalar value
    Contains data stored in Series. If data is a dict, argument order is
    maintained.
index : array-like or Index (1d)
    Values must be hashable and have the same length as `data`.
    Non-unique index values are allowed. Will default to
    RangeIndex (0, 1, 2, ..., n) if not provided. If data is dict-like
    and index is None, then the

**Przykład 1**

In [12]:
# możemy zainicjalizowac pustą serię
series_1 = pd.Series()
series_1

Series([], dtype: object)

In [13]:
# główne statystyki opisowe, dostępne również dla ramki danych
series_1.describe()

count       0
unique      0
top       NaN
freq      NaN
dtype: object

**Przykład 2**

In [14]:
dane = list(range(1,6))
series_2 = pd.Series(dane)
series_2

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [16]:
# teraz widać więcej
series_2.describe()

count    5.000000
mean     3.000000
std      1.581139
min      1.000000
25%      2.000000
50%      3.000000
75%      4.000000
max      5.000000
dtype: float64

**Przykład 3**

In [20]:
# seria ze słownika
data = {key: val for key,val in zip('abcd',[1,2,3,4])}
print(f"Słownik: {data}")
series_3 = pd.Series(data)
series_3

Słownik: {'a': 1, 'b': 2, 'c': 3, 'd': 4}


a    1
b    2
c    3
d    4
dtype: int64

In [21]:
series_3.index

Index(['a', 'b', 'c', 'd'], dtype='object')

**Przykład 4**

In [25]:
# możliwa jest ponowna konwersja do listy
# metody tolist() oraz to_list()
series_3.tolist()

[1, 2, 3, 4]

In [26]:
series_3.index.tolist()

['a', 'b', 'c', 'd']

**Przykład 5**

In [27]:
# patrząc na docstring dla Series widzimy, że operacje arytmetyczne na seriach danych również są możliwe
# pod warunkiem zachowania odpowiednich reguł (długość wektora danych serii)
series_3 + series_3

a    2
b    4
c    6
d    8
dtype: int64

In [28]:
series_3 ** 2

a     1
b     4
c     9
d    16
dtype: int64

In [29]:
series_3

a    1
b    2
c    3
d    4
dtype: int64

**Przykład 6**

In [31]:
# możemy również wykorzystać pewne własności biblioteki numpy związane ze zwracaniem kopii i widoków tablic
# poniżej przykład pokazujący jak stworzyć serię danych, która jest widokiem na tablicę numpy
arr = np.arange(1, 6)
print(arr)
series_4 = pd.Series(arr, copy=False)
series_4

[1 2 3 4 5]


0    1
1    2
2    3
3    4
4    5
dtype: int64

In [35]:
# własność values zwraca dane serii jako tablica numpy
# porównujemy bazę obu tablic - jeżeli ta sama, to wskazują one na ten sam obszar pamięci
series_4.values.base == arr.base

True

In [36]:
# to powoduje, że możemy współdzielić tę pamięć ze wszystkimi dogodnościami
# i konsekwencjami również (mniejsza ilość zaalokowanej pamięci ale brak rozdzielenia danych w
# przypadku modyfikacji poprzez którykolwiek z widoków)

# modyfikacja powoduje oczywiście zmianę wartości dla każdego widoku na tę zmienną
arr[0] = 99
print(arr)
print(series_4)

[99  2  3  4  5]
0    99
1     2
2     3
3     4
4     5
dtype: int64


**Przykład 7**

In [40]:
# serii można nadać nazwę, chociaż nie jest to szczególnie przydatne
series_4.name = "wiek"
series_4

0    99
1     2
2     3
3     4
4     5
Name: wiek, dtype: int64

**Przykład 8**

In [47]:
# generujemy szereg czasowy dzięki funkcji date_range(początek, ilość okresów, interwał)
timeseries = pd.date_range('2025-03-20 12:00:00', periods=6, freq='h')
timeseries

DatetimeIndex(['2025-03-20 12:00:00', '2025-03-20 13:00:00',
               '2025-03-20 14:00:00', '2025-03-20 15:00:00',
               '2025-03-20 16:00:00', '2025-03-20 17:00:00'],
              dtype='datetime64[ns]', freq='h')

In [48]:
# pandas series posiada również specjalny typ indeksu dla danych typu szereg czasowy
# tutaj sfabrykujemy takie dane, ale mogą one być wczytane z plików
data = [f'event {n}' for n in range(1, 7)]
timeseries = pd.Series(data, index=timeseries)
timeseries

2025-03-20 12:00:00    event 1
2025-03-20 13:00:00    event 2
2025-03-20 14:00:00    event 3
2025-03-20 15:00:00    event 4
2025-03-20 16:00:00    event 5
2025-03-20 17:00:00    event 6
Freq: h, dtype: object

In [49]:
timeseries.index

DatetimeIndex(['2025-03-20 12:00:00', '2025-03-20 13:00:00',
               '2025-03-20 14:00:00', '2025-03-20 15:00:00',
               '2025-03-20 16:00:00', '2025-03-20 17:00:00'],
              dtype='datetime64[ns]', freq='h')

**Inicjalizacja ramek danych pandas**

Podobnie jak w przypadku serii danych mamy możliwość konwersji innych struktur danych na ramkę danych, z zachowaniem pewnych warunków. Zacznijmy od listy.

**Przykład 9**

In [51]:
df_1 = pd.DataFrame([f'rekord {n}' for n in range(1, 6)])
df_1

Unnamed: 0,0
0,rekord 1
1,rekord 2
2,rekord 3
3,rekord 4
4,rekord 5


In [52]:
df_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       5 non-null      object
dtypes: object(1)
memory usage: 172.0+ bytes


In [53]:
df_1.describe()

Unnamed: 0,0
count,5
unique,5
top,rekord 1
freq,1


In [58]:
print(df_1.ndim, df_1.dtypes, df_1.shape, sep='\n')

2
0    object
dtype: object
(5, 1)


In [59]:
df_1.index

RangeIndex(start=0, stop=5, step=1)

In [60]:
# kolekcja kolumn
df_1.columns

RangeIndex(start=0, stop=1, step=1)

In [62]:
df_1.columns = ['kolumna 1']
df_1

Unnamed: 0,kolumna 1
0,rekord 1
1,rekord 2
2,rekord 3
3,rekord 4
4,rekord 5


**Przykład 10**

In [64]:
# dostęp do danych wewnątrz serii i ramek możliwy jest na wiele sposobów
# tu odwołujemy się do pojedynczej kolumny, co jak widać jest domyślną osią wyszukiwania tej wartości (etykiety kolumny)
df_1['kolumna 1']

0    rekord 1
1    rekord 2
2    rekord 3
3    rekord 4
4    rekord 5
Name: kolumna 1, dtype: object

In [65]:
# ta pojedyncza kolumna to jest seria danych
type(df_1['kolumna 1'])

pandas.core.series.Series

**Przykład 11**

In [70]:
# istnieje przeciążony konstruktor DataFrame, który między innymi pozwala na konwersję zagnieżdżonej listy
# (tu dwupoziomowej) do ramki danych bez żadnych dodatkowych przekształceń
nested_list = [[1,2,3,4] for _ in range(4)]
df_2 = pd.DataFrame(nested_list, columns=list('ABCD'))
df_2

Unnamed: 0,A,B,C,D
0,1,2,3,4
1,1,2,3,4
2,1,2,3,4
3,1,2,3,4


In [73]:
# describe działa dla wszystkich kolumn o typie numerycznym
df_2.describe()

Unnamed: 0,A,B,C,D
count,4.0,4.0,4.0,4.0
mean,1.0,2.0,3.0,4.0
std,0.0,0.0,0.0,0.0
min,1.0,2.0,3.0,4.0
25%,1.0,2.0,3.0,4.0
50%,1.0,2.0,3.0,4.0
75%,1.0,2.0,3.0,4.0
max,1.0,2.0,3.0,4.0


**Przykład 12**

In [75]:
df_2['D'] = df_2['D'].astype(str)
df_2.describe()

Unnamed: 0,A,B,C
count,4.0,4.0,4.0
mean,1.0,2.0,3.0
std,0.0,0.0,0.0
min,1.0,2.0,3.0
25%,1.0,2.0,3.0
50%,1.0,2.0,3.0
75%,1.0,2.0,3.0
max,1.0,2.0,3.0


**Przykład 13**

In [84]:
# inicjalizacja ramki ze słownika - tu minimalny przykład aby zobrazować potrzebną postać słownika
# klucze słownika
data_dict = {'label': 'computer', 'price': 1999.0}
df_3 = pd.DataFrame(data_dict, index=list(range(1)))
df_3

Unnamed: 0,label,price
0,computer,1999.0


**Przykład 14**

In [88]:
# to zapewne nie jest efekt, którego oczekiwaliśmy
df_4 = pd.DataFrame(data_dict, index=list(range(len(data_dict))))
df_4

Unnamed: 0,label,price
0,computer,1999.0
1,computer,1999.0


**Przykład 15**

In [91]:
# teraz lepiej - klucz: lista wartości
data_dict = {'label': ['computer', 'monitor', 'mouse'], 'price': [1999.0, 299.0, 30]}
df_5 = pd.DataFrame(data_dict)
df_5

Unnamed: 0,label,price
0,computer,1999.0
1,monitor,299.0
2,mouse,30.0


**Wczytywanie danych do ramki z plików**

Listę dostępnych funkcji odczytu i zapisu danych z i do ramek pandas można znaleźć w dokumentacji pod adresem: https://pandas.pydata.org/docs/reference/io.html

Poniżej zostaną zaprezentowane przykłady z wybranymi opcjami.

In [94]:
# wczytanie danych do ramki z pliku
# wyświetlamy pierwsze 5 linii z pliku (może nie zadziałać w zależności od konfiguracji systemu operacyjnego)
! head -5 iris.data

sepal length in cm,sepal width in cm,petal length in cm,petal width in cm,class
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa


**Przykład 16**

In [100]:
# wczytujemy dane do pliku wykorzystując funkcję read_csv, z domyślnymi parametrami (separator, kodowanie, obsługa błędów, nagłówek i inne)
df_6 = pd.read_csv('iris.data')
df_6

Unnamed: 0,sepal length in cm,sepal width in cm,petal length in cm,petal width in cm,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


In [96]:
df_6.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   sepal length in cm  150 non-null    float64
 1   sepal width in cm   150 non-null    float64
 2   petal length in cm  150 non-null    float64
 3   petal width in cm   150 non-null    float64
 4   class               150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


**Przykład 17**

In [99]:
df_7 = pd.read_table('iris.data', sep=',')
df_7

Unnamed: 0,sepal length in cm,sepal width in cm,petal length in cm,petal width in cm,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


**Przykład 18**

In [103]:
# jeżeli plik nie posiada wiersza nagłówkowego to możemy taką opcję wskazać czy jego wczytywaniu
# najpierw jednak zapiszmy dane do pliku csv wykorzystując funkcję to_csv

# ścieżka do pliku, separator, czy zapisać nagłówek, czy zapisać index (jeżeli został utworzony
# w trakcie ładowania danych do ramki to zazwyczaj nie chcemy go zapisywać), kodowanie znaków
df_7.to_csv('iris.csv', sep=';', header=True, index=False, encoding='utf-8')

In [104]:
! head -5 iris.csv

sepal length in cm;sepal width in cm;petal length in cm;petal width in cm;class
5.1;3.5;1.4;0.2;Iris-setosa
4.9;3.0;1.4;0.2;Iris-setosa
4.7;3.2;1.3;0.2;Iris-setosa
4.6;3.1;1.5;0.2;Iris-setosa


### Zadania

**Zadanie 1**

Stwórz serię danych, której dane to wartości całkowite od 1 do 100, a indeks jest postaci od ean_001 do ean_100.

**Zadanie 2**

Stwórz tablicę numpy o dwóch wymiarach w rozmiarze 10x10, której wartości są zapisane wg. poniższego schematu:
```python
[
    [1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
    [2, 4, 8, 16, 32, 64, 128, 256, 512, 1024],
    [3, 9, 27 ... ],
    ...
    [10, 100, 1000, ... ]
]
```
W pierwszej kolumnie znajduje się liczba, która następnie jest w kolejnych kolumnach podnoszona do kwadratu. Zdefiniuj tę tablicę wedle swojego uznania, ale nie jest dopuszczalne wpisanie tych danych "ręcznie".

Stwórz z tych danych ramkę pandas. Kolumny nazwij wg. schematu ['base', 'pow_2', 'pow_3', ..., 'pow_10']

**Zadanie 3**

Sprawdź czy tablica numpy z zadania poprzedniego oraz ramka pandas współdzielą ze sobą dane. Jeżeli nie to stwórz kolejną ramkę, która będzie te dane z tablicą współdzieliła (możesz wykorzystać sposób sprawdzenia tego z labów poprzednich).

**Zadanie 4**

Sprawdź jaki jest przydzielony typ danych w ramce z zadania poprzedniego. Czy można go downcastować do typu, który zapewni zachowanie oryginalnych danych, ale zmniejszy ilość niezbędnej pamięci do ich przechowania? Odpowiedź uzasadnij odnpowienim przykładem w kodzie.

**Zadanie 5**

Wczytaj dane z pliku `iris.data` za pomocą funkcji `read_csv` do zmiennej `iris` jak w przykładzie.

**Zadanie 6**

Zamień nazwy kolumn w ramce `iris` tak, aby w miejsce spacji wstawić znak `_`. Wyświetl pierwsze 10 wierszy tej ramki.

**Zadanie 7**

Sprawdź metodą `memory_usage()` (z parametrem deep=True oraz bez niego) ile danych zajmuje ramka. Wybierz jeden z typów danych numerycznych rodzaju float o mniejszej precyzji i zapisz ramkę w nowej zmiennej `iris_smaller`, której kolumny numeryczne będą rzutowane na ten nowy typ float. Ponownie sprawdź ile pamięci zostało dla ramki zaalokowane.

**Zadanie 8**

Zapisz ramkę do schowka (funkcja `to_clipboard()`), a następnie wklej schowek do edytora tekstowego oraz dowolnego arkusza kalkulacyjnego. Sprawdź format tych danych. 

Teraz skopiuj do schowka część z tych wklejonych danych i zapisz do nowej ramki metodą `from_clipboard()`.
Wyświetl pierwsze 5 wierszy tej ramki.

Rozwiązanie zadania to jedynie wywołanie powyższej funkcji, reszta dla informacji i wiedzy studenta.

**Zadanie 9**

Zapisz ramkę do formatów `parquet`, `json` oraz `pickle` (możliwe, że konieczne będzie doinstalowanie nowych pakietów) korzystając z odpowiednich funkcji opisanych w dokumentacji (link w materiałach).