In [4]:
# Helper function
import traceback

def pprint(*args):
    stack = traceback.extract_stack(limit=2)
    current = stack[-1]
    prev = stack[-2]
    f_name = current.name
    line = prev.line
    if line.startswith(f"{f_name}("):
        line = line[len(f"{f_name}("):]
    if line.endswith(")"):
        line = line[:-1]
    print(line)
    print(",".join([repr(arg) for arg in args]))
    print()

# Wprowadzenie do Numpy, Pandas, Matplotlib, Seaborn

## NumPy

NumPy jest biblioteką do pracy z macierzami danych (głównie liczbowych). Pozwala na optymalizację pracy z skalarami, wektorami, macierzami oraz tensorami poprzez rozbudowany zestaw operatorów matematycznych/logicznych/statystycznych wymaganych do ich przetwarzania.

### Czym jest skalar, wektor, macierz, tensor?
* Skalar to liczba, która może przyjmować wartości ujemne lub dodatnie.
* Wektor to tablica jednowymiarowa zawierająca N wartości liczbowych (N).
* Macierz to tablica liczb w postaci dwuwymiarowej (MxN).
* Tensor to uogólniająca struktura danych pozwalająca na przechowywanie danych o dowolnej liczbie wymiarów, zaczynając od 0-wymiarów czyli skalara, przez wektor, macierz po N-wymiarową tablicę liczb.

## Użycie

In [5]:
import numpy as np

### Tworzenie macierzy

In [6]:
# Z listy
pprint(np.array([[1, 2, 3], [4, 5, 6]]))

np.array([[1, 2, 3], [4, 5, 6]])
array([[1, 2, 3],
       [4, 5, 6]])



In [7]:
# Na podstawie kształtu
pprint(np.zeros((2, 3)))
pprint(np.ones((2, 3)))
pprint(np.eye(3))
pprint(np.zeros_like(np.eye(4)))
pprint(np.ones_like(np.eye(2)))

np.zeros((2, 3))
array([[0., 0., 0.],
       [0., 0., 0.]])

np.ones((2, 3))
array([[1., 1., 1.],
       [1., 1., 1.]])

np.eye(3)
array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

np.zeros_like(np.eye(4))
array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

np.ones_like(np.eye(2))
array([[1., 1.],
       [1., 1.]])



In [3]:
# Na podstawie zakresu
pprint(np.arange(0, 10, 2))
pprint(np.linspace(0, 10, 6))

NameError: name 'pprint' is not defined

In [2]:
# Wykorzystując losowe dane
pprint(np.random.normal(size=(3, 3)))
pprint(np.random.uniform(size=(3, 3)))
pprint(np.random.binomial(1, 0.2, size=(3, 3)))

NameError: name 'pprint' is not defined

### Zapisywanie i odczytywanie danych

In [12]:
# Pojedynczy tensor bez kompresji
np.save("ones.npy", np.ones((1, 1)), allow_pickle=False)
print(np.load("ones.npy"))

# Kilka tensorów bez kompresji (ZIP file)
np.savez('zeros_and_ones.npz', np.zeros((1, 1)), ones=np.ones((1, 1)))
print(np.load('zeros_and_ones.npz'))
print(np.load('zeros_and_ones.npz')["arr_0"])
print(np.load('zeros_and_ones.npz')["ones"])

# Kilka tensorów z kompresją (ZIP file)
np.savez_compressed('zeros_and_ones_compressed.npz', np.zeros((1, 1)), ones=np.ones((1, 1)))
print(np.load('zeros_and_ones_compressed.npz'))
print(np.load('zeros_and_ones_compressed.npz')["arr_0"])
print(np.load('zeros_and_ones_compressed.npz')["ones"])


[[1.]]
NpzFile 'zeros_and_ones.npz' with keys: ones, arr_0
[[0.]]
[[1.]]
NpzFile 'zeros_and_ones_compressed.npz' with keys: ones, arr_0
[[0.]]
[[1.]]


In [13]:
import os
pprint(os.stat("ones.npy").st_size)
pprint(os.stat("zeros_and_ones.npz").st_size)
pprint(os.stat("zeros_and_ones_compressed.npz").st_size)

os.stat("ones.npy").st_size
136

os.stat("zeros_and_ones.npz").st_size
520

os.stat("zeros_and_ones_compressed.npz").st_size
396



### Operacje na tensorach

In [None]:
# Wymiary tensora
pprint(np.ones((3, 3)).shape)

In [None]:
# Typ danych tensora
pprint(np.ones((3, 3)).dtype)

# Zmiana typu danych
pprint(np.ones((3, 3)).astype(np.float16))

In [None]:
# Operacje ze skalarami
matrix = np.eye(3)
scalar = 3
pprint(matrix + scalar)

In [None]:
# Operacje z wektorami
matrix = np.eye(3)
vector = np.arange(0, 3) * 4
pprint(matrix + vector)
pprint(matrix * vector)

In [None]:
# Operacje z tensorami
matrix_a = np.ones((2, 4))
matrix_b = np.ones((2, 4)) * 3
pprint(matrix_a + matrix_b)
print("np.multiply(matrix_a, matrix_b)")
pprint(matrix_a * matrix_b)

# Transponowanie macierzy
pprint(matrix_b.T, matrix_b.shape, matrix_b.T.shape)


# Mnożenie macierzy
print("np.dot(matrix_a, matrix_b.T)")
pprint(matrix_a @ matrix_b.T)

In [None]:
# Spłaszczanie tensora
pprint(np.eye(3).ravel())

# Składanie tensora
pprint(np.reshape(np.arange(9), (1, 1, 3, 3)))

In [None]:
#  Dostęp do elementu
a = np.reshape(np.arange(9), (3, 3))
pprint(a)
pprint(a[1, 2])
pprint(a[2])
pprint(a[2, :])
pprint(a[:, 2])

In [None]:
# Zmiana elementu
a = np.reshape(np.arange(9), (3, 3))
pprint(a)

a[1,1] = 70
pprint(a)

sub_a = a[1:3, :]
sub_a[1, 2] = 40
pprint(sub_a)
pprint(a)

### Operacje matematyczne

In [None]:
# Funkcje trygonometryczne
pprint(np.sin(np.pi * np.arange(0, 5, 1/2)))
pprint(np.cos(np.pi * np.arange(0, 5, 1/2)))

# Eksponenta
pprint(np.exp(np.arange(0, 5, 1/2)))


### Funkcje statystyczne

In [None]:
pprint(np.mean(np.arange(10)))
pprint(np.max(np.arange(10)))
pprint(np.min(np.arange(10)))

In [None]:
# Wykorzystanie axis
a = np.random.normal(size=(3, 3))
pprint(a)
pprint(np.max(a, axis=0))
pprint(np.max(a, axis=1))
pprint(np.max(np.reshape(a, (1, 3, 3)), axis=0))

### Łączenie tensorów

In [None]:
# hstack - konkatynacja w poziomie
# vstack - konkatynacja w pionie
# stack - konkatynacja w nowym wymiarze

a = np.zeros((2, 4))
b = np.ones((2, 4))
c = np.random.normal(size=(2))
d = np.random.normal(size=(4))

pprint(a)
pprint(b)
pprint(c)
pprint(d)

# Łączenie dwóch macierzy
pprint(np.hstack([a, b]))
pprint(np.vstack([a, b]))
pprint(np.stack([a, b]), np.stack([a, b]).shape)

# Łączenie macierzy i wektora
pprint(c[:, None].shape)
pprint(np.hstack([a, c[:, None]]))
pprint(np.vstack([a, d[None, :]]))

# Generyczny operator konkatynacji
pprint(np.concatenate([a, b]))
pprint(np.concatenate([a, b], axis=1))
pprint(np.concatenate([a, c[:, None]], axis=1))
pprint(np.concatenate([a, d[None, :]], axis=0))

# Matplotlib
Biblioteka do rysowania wykresów.

In [1]:
import matplotlib.pyplot as plt

Matplotlib is building the font cache; this may take a moment.


In [None]:
# Prosty przykład wyrysowania przebiegu funkcji sinus
plt.plot(np.sin(np.linspace(0, 10, 20)))

In [None]:
# Kilka serii danych na jednym wykresie
plt.plot(np.sin(np.linspace(0, 10, 20)))
plt.plot(np.cos(np.linspace(0, 10, 20)))

In [None]:
# Dodanie opisów osi
fig, ax = plt.subplots() 
ax.plot(np.sin(np.linspace(0, 10, 20)))
ax.set_xlabel('Oś X')
ax.set_ylabel('OS Y')
ax.set_title('Funkcja sin')


In [None]:
# Zapisanie wykresu
fig, ax = plt.subplots() 
ax.plot(np.sin(np.linspace(0, 10, 20)))
ax.plot(np.cos(np.linspace(0, 10, 20)))
ax.set_xlabel('Oś X')
ax.set_ylabel('OS Y')
ax.set_title('Funkcje sin i cos')
fig.savefig("figure.png")

In [None]:
# Siatka wykresów
fig, ax = plt.subplots(2,2) 
sin = np.sin(np.linspace(0, 10, 20))
cos = np.cos(np.linspace(0, 10, 20))
ax[0, 0].plot(sin)
ax[0, 1].plot(sin)
ax[0, 1].plot(cos)
ax[1, 0].plot(cos)
ax[1, 0].plot(sin)
ax[1, 1].plot(cos)

In [None]:
# Wykres z prawidłową skalą osi x
plt.plot(np.linspace(0, 10, 20), np.sin(np.linspace(0, 10, 20)))

In [None]:
# Scatter plot
plt.plot(np.linspace(0, 10, 20), np.sin(np.linspace(0, 10, 20)), "o")

In [None]:
# Histogram
plt.hist(np.sin(np.linspace(0, 10, 20)))

In [None]:
# Płaszczyzna
xindices, yindices = np.meshgrid(np.arange(40), np.arange(40))
plane = np.sin(xindices) + yindices
plt.imshow(plane)

In [None]:
# Colormapa
xindices, yindices = np.meshgrid(np.arange(400), np.arange(400))
plane = np.sin(xindices / 40) + yindices / 40
plt.imshow(plane, cmap="Reds")
plt.imsave("reds.png", plane, cmap="Reds")

In [None]:
import cv2 as cv

In [None]:
img = cv.imread("test_image.jpg")
pprint(img.shape)
plt.imshow(img)

In [None]:
# OpenCV otwiera obrazy w formacie BGR
img_correct = cv.cvtColor(img, cv.COLOR_BGR2RGB)
plt.imshow(img_correct)

In [None]:
plt.imshow(img_correct[:, :, 0], cmap="grey")

In [None]:
plt.imshow(np.max(img_correct, axis=2), cmap='grey')

In [None]:
plt.imshow(np.mean(img_correct, axis=2), cmap='grey')

In [None]:
fig, ax = plt.subplots(2, 2)
ax[0, 0].imshow(img_correct[:, :, 0], cmap='grey')
ax[0, 1].imshow(img_correct[:, :, 1], cmap='grey')
ax[1, 0].imshow(img_correct[:, :, 2], cmap='grey')
ax[1, 1].imshow(img_correct)

## Pandas
Biblioteka do pracy z danymi tabelarycznymi.

In [None]:
import pandas as pd

In [None]:
# Tworzenie DataFrame z listy
pd.DataFrame([
    [2019, "Ala", "kota"],
    [2023, "Tola", "psa"]
], columns=["yob", "name", "animal"])

In [None]:
# Tworzenie DataFrame z dicta
pd.DataFrame([
    dict(yob=2019, name="Ala", animal="kota"),
    dict(yob=2023, name="Tola", animal="psa"),
])

In [None]:
# Otwieranie danych z CSV
movies = pd.read_csv("imdb_movie_dataset.csv")
movies

In [None]:
# Otwieranie danych z URL
people = pd.read_csv("https://drive.google.com/uc?id=1AWPf-pJodJKeHsARQK_RHiNsE8fjPCVK&export=download")
people

In [None]:
# Podstawowa analiza danych
pprint(movies.columns)
pprint(movies["Rating"].value_counts())

In [None]:
movies.info()

In [None]:
movies.describe()

In [None]:
# Histogramy wartości
pprint(movies["Rating"].value_counts().head(10).plot(kind="bar"))

In [None]:
# Dynamiczne dodawanie kolumn
movies["Runtime (Hours)"] = movies["Runtime (Minutes)"] / 60
movies["Dir_upper"] = movies["Director"].apply(lambda x: x.upper())
pprint(movies["Runtime (Hours)"])
pprint(movies["Dir_upper"])

In [None]:
# Konwertowanie daty
people["dob"] = pd.to_datetime(people["Date of birth"])
people["year"] = people["dob"].dt.year
people

In [None]:
grouped_movies = movies.groupby(["Year"])["Rank"].count()
grouped_movies

In [None]:
# Przeniesienie kolumny grupującej z indeksu do kolumn
grouped_movies.reset_index()

In [None]:
# Pokaż grupę
movies.groupby(["Year"]).get_group((2006,))

In [None]:
# Iteracja po danych
for i, row in list(movies.iterrows())[:1]:
    pprint(i, row["Year"])
    pprint(row)


In [None]:
# Dostęp po indexie
movies.loc[movies["Rank"] == 1]

In [None]:
grouped_movies.loc[2013:2019]

In [None]:
# Dostęp po lokalizacji
movies.iloc[0]

In [None]:
grouped_movies.iloc[0:5]

In [None]:
# Widoki danych
movies[["Year", "Revenue (Millions)"]]

In [None]:
# Filtrowanie danych
movies[movies["Revenue (Millions)"] > 100]

In [None]:
movies[(movies["Revenue (Millions)"] > 100) & (movies["Year"] > 2015)]

In [None]:
# Łączenie dwóch tabel
movies_2 = pd.concat([movies, movies])
movies_2

In [None]:
movies_2.duplicated()

In [None]:
movies_2_non_duplicated = movies_2.drop_duplicates()
movies_2_non_duplicated

In [None]:
merged = pd.merge(movies, movies, how="inner", left_on="Director", right_on="Director")
merged[merged["Title_x"]!=merged["Title_y"]][["Director", "Title_x", "Title_y"]]

### Seaborn
Biblioteka do rysowania wykresów zintegrowana z pandasem

In [None]:
import seaborn as sns

In [None]:
# Barplot
sns.barplot(grouped_movies)

In [None]:
# Lineplot
revenue_per_year = movies.groupby(["Year"])["Revenue (Millions)"]
sns.lineplot(revenue_per_year.max())
sns.lineplot(revenue_per_year.mean())
sns.lineplot(revenue_per_year.min())

In [None]:
# Scatterplot
movies["First_Genre"] = movies["Genre"].str.split(',').str[0]
revenue_per_year_genre = movies.groupby(["Year", "First_Genre"]).agg({"Rank":"count"})
sns.scatterplot(revenue_per_year_genre.reset_index(), x='Year', y="Rank", hue='First_Genre')

In [None]:
# Histplot
sns.histplot(movies, x="Year", hue="First_Genre", multiple="stack")

In [None]:
# kernel density estimation plot
sns.kdeplot(movies, x="Year", hue="First_Genre")

In [None]:
# Violin plot
sns.violinplot(movies[movies["Year"] == 2016], x="Year", y="Revenue (Millions)", hue="First_Genre")

In [None]:
# Boxplot
sns.boxplot(movies[movies["Year"] == 2016], x="Year", y="Revenue (Millions)", hue="First_Genre")

In [None]:
sns.violinplot(movies[movies["Year"] == 2016], x="Year", y="Revenue (Millions)", color=".9", inner=None)
sns.swarmplot(movies[movies["Year"] == 2016], x="Year", y="Revenue (Millions)", hue="First_Genre", size=3)

In [None]:
# Ustaw styl seaborn
sns.set_theme()
sns.scatterplot(revenue_per_year_genre.reset_index(), x='Year', y="Rank", hue='First_Genre')

In [None]:
# Ustaw styl whitegrid
sns.set_style("whitegrid")
sns.scatterplot(revenue_per_year_genre.reset_index(), x='Year', y="Rank", hue='First_Genre')

## Polars
Biblioteka rywalizująca z pandas, napisana w rust, pozwalająca na bardzo wydajną prace z danymi

In [None]:
import polars as pl

In [None]:
# Tworzenie DataFrame z listy
pl.DataFrame([
    [2019, "Ala", "kota"],
    [2023, "Tola", "psa"]
], schema=["yob", "name", "animal"], orient="row")

In [None]:
# Tworzenie DataFrame z dicta
pl.DataFrame([
    dict(yob=2019, name="Ala", animal="kota"),
    dict(yob=2023, name="Tola", animal="psa"),
])

In [None]:
# Otwieranie danych z CSV
movies = pl.read_csv("imdb_movie_dataset.csv")
movies

In [None]:
# Otwieranie danych z URL
people = pl.read_csv("https://drive.google.com/uc?id=1AWPf-pJodJKeHsARQK_RHiNsE8fjPCVK&export=download")
people

In [None]:
# Podstawowa analiza danych
pprint(movies.columns)
pprint(movies["Rating"].value_counts())

In [None]:
pprint(movies.null_count())
pprint(movies.schema)

In [None]:
movies.describe()

In [None]:
# Dynamiczne dodawanie kolumn
movies = movies.with_columns(
    (pl.col("Runtime (Minutes)") / 60).alias("Runtime (Hours)"),
    pl.col("Director").map_elements(lambda x: x.upper(), return_dtype=str).alias("Dir_upper")
)
pprint(movies.select(pl.col("Runtime (Hours)")))
pprint(movies.select(pl.col("Dir_upper")))

In [None]:
# Konwertowanie daty
people = people.with_columns(
    pl.col("Date of birth").str.to_datetime().alias("dob"),
)
people = people.with_columns(
    pl.col("dob").dt.year().alias("year"),
)
people

In [None]:
grouped_movies = movies.group_by([pl.col("Year")]).agg(pl.col("Rank").count())
grouped_movies

In [None]:
# Pokaż grupę
movies.group_by([pl.col("Year")]).first()

In [None]:
# Iteracja po danych
for row in list(movies.iter_rows(named=True))[:1]:
    pprint(row["Year"])
    pprint(row)


In [None]:
# Dostęp po indexie
movies.filter(pl.col("Rank") == 1)

In [None]:
grouped_movies.filter((pl.col("Year") <= 2019) & (pl.col("Year") >= 2013))

In [None]:
# Dostęp po lokalizacji
movies[0]

In [None]:
grouped_movies[0:5]

In [None]:
# Widoki danych
movies.select([pl.col("Year"), pl.col("Revenue (Millions)")])

In [None]:
# Filtrowanie danych
movies.filter(pl.col("Revenue (Millions)") > 100)

In [None]:
movies.filter((pl.col("Revenue (Millions)") > 100) & (pl.col("Year") > 2015))

In [None]:
# Łączenie dwóch tabel
movies_2 = pl.concat([movies, movies])
movies_2

In [None]:
movies_2.is_duplicated()

In [None]:
movies_2_non_duplicated = movies_2.unique()
movies_2_non_duplicated

In [None]:
merged = movies.join(movies, how="inner", left_on="Director", right_on="Director")
merged.filter(pl.col("Title")!=pl.col("Title_right")).select([pl.col("Director"), pl.col("Title"), pl.col("Title_right")])