<h1>Konstrukce dataframů/řad(Series) z nativních datových typů Pythonu a práce s formátem dat v dataframu</h1>

In [1]:
import os
import plotly.express as px
import plotly.graph_objects as go
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

<h5>Objekty typu dataframe knihovny pandas lze vytvářet z nativních iterable-type (seznam, slovník) datových objektů pythonu</h5>

In [None]:
# metoda konstruktoru pd.DataFrame
# dataframe ze seznamu

counts = [45,6,90,232,1,5,23,13,87,51,135]
df = pd.DataFrame(counts)
df

In [None]:
# podobný postup pro objekt typu Series (pouze 1 dimenze)

sr = pd.Series(counts)
sr

In [None]:
# Series lze přejmenovat a indexovat vlastními hodnotami stejné délky jako data

indices = ["a","b","c","d","e","f","g","h","i","j","k"]
sr = pd.Series(counts,index=indices, name="My Counts")
sr

<h5>Dataframy mohou být vytvářeny s konkrétními datovými typy (string, float, integer)</h5>

In [None]:
# vytvoříme dataframe s desetinnými čísly

decimal_counts = [0.25,1.5,2.3,8.0,51.789,5.9,4.3]
df = pd.DataFrame(decimal_counts)
df

In [None]:
# například i jako stringy

df = pd.DataFrame(decimal_counts, dtype=str)
df


In [None]:
df[0][0], type(df[0][0])


In [None]:
# dtype lze explicitně nastavovat i pro objekt typu Series

sr = pd.Series(decimal_counts, name="My Counts", dtype=float)
sr


In [None]:
# vedle standardní datových typů Pythonu lze využít i datové typy modulu numpy

df = pd.DataFrame(decimal_counts, dtype=np.float32)
df

Více informací k datovým typům modulu numpy <https://numpy.org/doc/stable/user/basics.types.html>

In [None]:
# 2d seznam jako dataframe, seznam counts z předchozí buňky
# všimněte si, že Pandas chápe dva seznamy jako jednotlivé sloupce spíše než řádky

classes = [1,2,5,3,6,4,7,8,9,10,0]
counts_classes = [counts,classes]
df = pd.DataFrame(counts_classes)
df

In [None]:
# pro sémanticky správný výsledek musíme tedy vytvořit seznam dvojic prvků z obou předchozích seznamů metodou zip()

df = pd.DataFrame(zip(counts,classes))
df

In [None]:
# sloupce můžeme pojmenovat pomocí parametru columns

df = pd.DataFrame(zip(counts, classes), columns=["count", "class"])
df

In [None]:
# i zde je možné vlastními hodnotami indexovat (použijeme seznam classes z předchozích buněk)

df = pd.DataFrame(counts,index=classes, columns=["counts"])
df

<h5>Výše uvedené způsoby fungují i s objekty typu set (množina) a tuple (n-tice). Konvence pro zachování sémantiky (2d seznamy) platí stejně.</h5>

In [None]:
# přetypování counts na množinu metodou set()

df = pd.DataFrame(set(counts),columns=["counts"])
df

In [None]:
# přetypování na tuple

df = pd.DataFrame(tuple(zip(counts, classes)))
df

<h5>Zdaleka nejčastěji se však dataframy tvoří z Python slovníků (dictionary)</h5>

In [None]:
# dataframe ze slovníku

schedule = {"Person":["Jan","Vaclav","Otakar","Krystof","Jindrich","Martin"],
            "Day of week":["Monday","Tuesday","Wednesday","Thursday","Friday","Sunday"]} 

df = pd.DataFrame(schedule)
df

In [None]:
# k předchozímu dataframu přidáme ještě sloupec (výsledná data si lze představit jako např. který z učitelů bude na katedře v daný den)

departments = ["Economy","History","Mathematics","Psychology","Cybernetics","Computer science"]
schedule["Department"] = departments # pro ukázku nám nevadí odkaz na stejný objekt v paměti
df = pd.DataFrame(schedule)
df

In [None]:
# i zde funguje parametr columns, avšak ve významu které z klíčů slovníku budou ve výsledném dataframu tvořit sloupce (výchozí chování volí všechny)

df = pd.DataFrame(schedule, columns=["Person","Department"])
df

In [None]:
# podobně jako předchozích ukázek můžeme indexovat vlastními hodnotami, např. sloupcem Day of week

df = pd.DataFrame(schedule, index=schedule["Day of week"], columns=["Person", "Department"])
df

In [None]:
# indexováním pak získáme hodnotu

df["Person"]["Monday"]

<h5>Pandas dataframe lze vytvořit i datového typu Numpy array (numpy pole), který je preferovaný pro práci s velkými numerickými daty</5>

In [None]:
# jednorozměrný numpy array
my_vector = np.array([1,6,8,7,2,7,5,3,8,9])

df = pd.DataFrame(my_vector, columns=["Coordinates"])
df

In [None]:
# jednorozměrný numpy array s vlastním indexem také typu numpy array
my_vector = np.array([1, 6, 8, 7, 2, 7, 5, 3, 8, 9])
indices = np.array([89,90,91,92,93,94,95,96,97,98])

df = pd.DataFrame(my_vector, index=indices,columns=["Coordinates"])
df


In [None]:
# dvourozměrný numpy array
matrix_of_vectors = np.array([[1, 6, 8, 7, 2, 7, 5, 3, 8, 9], [1, 0, 3, 0, 0, 7, 16, 3, 22, 9], [5, 6, 2, -1, 2, 7, -9, 3, 0, 0]])
df = pd.DataFrame(matrix_of_vectors)
df

In [None]:
# analogická práce s názvy sloupců a indexy

columns = [f"B{x+1}" for x in range(10)]
indices = ["x","y","z"]
df = pd.DataFrame(matrix_of_vectors, index=indices, columns=columns)
df

In [None]:
# alternativní metoda from_dict() má výhodu v možnosti nastavení orientace dat 

df = pd.DataFrame.from_dict(schedule,orient="index")
df