<h1>Konstrukce dataframů/řad(Series) z nativních datových typů Pythonu a práce s formátem dat v dataframu</h1>

In [1]:
import os
import plotly.express as px
import plotly.graph_objects as go
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

<h5>Objekty typu dataframe knihovny pandas lze vytvářet z nativních iterable-type (seznam, slovník) datových objektů pythonu</h5>

In [2]:
# metoda konstruktoru pd.DataFrame
# dataframe ze seznamu

counts = [45,6,90,232,1,5,23,13,87,51,135]
df = pd.DataFrame(counts)
df

Unnamed: 0,0
0,45
1,6
2,90
3,232
4,1
5,5
6,23
7,13
8,87
9,51


In [3]:
# podobný postup pro objekt typu Series (pouze 1 dimenze)

sr = pd.Series(counts)
sr

0      45
1       6
2      90
3     232
4       1
5       5
6      23
7      13
8      87
9      51
10    135
dtype: int64

In [4]:
# Series lze přejmenovat a indexovat vlastními hodnotami stejné délky jako data

indices = ["a","b","c","d","e","f","g","h","i","j","k"]
sr = pd.Series(counts,index=indices, name="My Counts")
sr

a     45
b      6
c     90
d    232
e      1
f      5
g     23
h     13
i     87
j     51
k    135
Name: My Counts, dtype: int64

<h5>Dataframy mohou být vytvářeny s konkrétními datovými typy (string, float, integer)</h5>

In [5]:
# vytvoříme dataframe s desetinnými čísly

decimal_counts = [0.25,1.5,2.3,8.0,51.789,5.9,4.3]
df = pd.DataFrame(decimal_counts)
df

Unnamed: 0,0
0,0.25
1,1.5
2,2.3
3,8.0
4,51.789
5,5.9
6,4.3


In [6]:
# například i jako stringy

df = pd.DataFrame(decimal_counts, dtype=str)
df


Unnamed: 0,0
0,0.25
1,1.5
2,2.3
3,8.0
4,51.789
5,5.9
6,4.3


In [7]:
df[0][0], type(df[0][0])


('0.25', str)

In [8]:
# dtype lze explicitně nastavovat i pro objekt typu Series

sr = pd.Series(decimal_counts, name="My Counts", dtype=float)
sr


0     0.250
1     1.500
2     2.300
3     8.000
4    51.789
5     5.900
6     4.300
Name: My Counts, dtype: float64

In [9]:
# vedle standardní datových typů Pythonu lze využít i datové typy modulu numpy

df = pd.DataFrame(decimal_counts, dtype=np.float32)
df

Unnamed: 0,0
0,0.25
1,1.5
2,2.3
3,8.0
4,51.789001
5,5.9
6,4.3


Více informací k datovým typům modulu numpy <https://numpy.org/doc/stable/user/basics.types.html>

In [10]:
# 2d seznam jako dataframe, seznam counts z předchozí buňky
# všimněte si, že Pandas chápe dva seznamy jako jednotlivé sloupce spíše než řádky

classes = [1,2,5,3,6,4,7,8,9,10,0]
counts_classes = [counts,classes]
df = pd.DataFrame(counts_classes)
df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10
0,45,6,90,232,1,5,23,13,87,51,135
1,1,2,5,3,6,4,7,8,9,10,0


In [11]:
# pro sémanticky správný výsledek musíme tedy vytvořit seznam dvojic prvků z obou předchozích seznamů metodou zip()

df = pd.DataFrame(zip(counts,classes))
df

Unnamed: 0,0,1
0,45,1
1,6,2
2,90,5
3,232,3
4,1,6
5,5,4
6,23,7
7,13,8
8,87,9
9,51,10


In [12]:
# sloupce můžeme pojmenovat pomocí parametru columns

df = pd.DataFrame(zip(counts, classes), columns=["count", "class"])
df

Unnamed: 0,count,class
0,45,1
1,6,2
2,90,5
3,232,3
4,1,6
5,5,4
6,23,7
7,13,8
8,87,9
9,51,10


In [13]:
# i zde je možné vlastními hodnotami indexovat (použijeme seznam classes z předchozích buněk)

df = pd.DataFrame(counts,index=classes, columns=["counts"])
df

Unnamed: 0,counts
1,45
2,6
5,90
3,232
6,1
4,5
7,23
8,13
9,87
10,51


<h5>Výše uvedené způsoby fungují i s objekty typu set (množina) a tuple (n-tice). Konvence pro zachování sémantiky (2d seznamy) platí stejně.</h5>

In [14]:
# přetypování counts na množinu metodou set()

df = pd.DataFrame(set(counts),columns=["counts"])
df

Unnamed: 0,counts
0,1
1,5
2,6
3,135
4,232
5,45
6,13
7,51
8,87
9,23


In [15]:
# přetypování na tuple

df = pd.DataFrame(tuple(zip(counts, classes)))
df

Unnamed: 0,0,1
0,45,1
1,6,2
2,90,5
3,232,3
4,1,6
5,5,4
6,23,7
7,13,8
8,87,9
9,51,10


<h5>Zdaleka nejčastěji se však dataframy tvoří z Python slovníků (dictionary)</h5>

In [16]:
# dataframe ze slovníku

schedule = {"Person":["Jan","Vaclav","Otakar","Krystof","Jindrich","Martin"],
            "Day of week":["Monday","Tuesday","Wednesday","Thursday","Friday","Sunday"]} 

df = pd.DataFrame(schedule)
df

Unnamed: 0,Person,Day of week
0,Jan,Monday
1,Vaclav,Tuesday
2,Otakar,Wednesday
3,Krystof,Thursday
4,Jindrich,Friday
5,Martin,Sunday


In [17]:
# k předchozímu dataframu přidáme ještě sloupec (výsledná data si lze představit jako např. který z učitelů bude na katedře v daný den)

departments = ["Economy","History","Mathematics","Psychology","Cybernetics","Computer science"]
schedule["Department"] = departments # pro ukázku nám nevadí odkaz na stejný objekt v paměti
df = pd.DataFrame(schedule)
df

Unnamed: 0,Person,Day of week,Department
0,Jan,Monday,Economy
1,Vaclav,Tuesday,History
2,Otakar,Wednesday,Mathematics
3,Krystof,Thursday,Psychology
4,Jindrich,Friday,Cybernetics
5,Martin,Sunday,Computer science


In [18]:
# i zde funguje parametr columns, avšak ve významu které z klíčů slovníku budou ve výsledném dataframu tvořit sloupce (výchozí chování volí všechny)

df = pd.DataFrame(schedule, columns=["Person","Department"])
df

Unnamed: 0,Person,Department
0,Jan,Economy
1,Vaclav,History
2,Otakar,Mathematics
3,Krystof,Psychology
4,Jindrich,Cybernetics
5,Martin,Computer science


In [19]:
# podobně jako předchozích ukázek můžeme indexovat vlastními hodnotami, např. sloupcem Day of week

df = pd.DataFrame(schedule, index=schedule["Day of week"], columns=["Person", "Department"])
df

Unnamed: 0,Person,Department
Monday,Jan,Economy
Tuesday,Vaclav,History
Wednesday,Otakar,Mathematics
Thursday,Krystof,Psychology
Friday,Jindrich,Cybernetics
Sunday,Martin,Computer science


In [20]:
# indexováním pak získáme hodnotu

df["Person"]["Monday"]

'Jan'

<h5>Pandas dataframe lze vytvořit i datového typu Numpy array (numpy pole), který je preferovaný pro práci s velkými numerickými daty</5>

In [23]:
# jednorozměrný numpy array
my_vector = np.array([1,6,8,7,2,7,5,3,8,9])

df = pd.DataFrame(my_vector, columns=["Coordinates"])
df

Unnamed: 0,Coordinates
0,1
1,6
2,8
3,7
4,2
5,7
6,5
7,3
8,8
9,9


In [24]:
# jednorozměrný numpy array s vlastním indexem také typu numpy array
my_vector = np.array([1, 6, 8, 7, 2, 7, 5, 3, 8, 9])
indices = np.array([89,90,91,92,93,94,95,96,97,98])

df = pd.DataFrame(my_vector, index=indices,columns=["Coordinates"])
df


Unnamed: 0,Coordinates
89,1
90,6
91,8
92,7
93,2
94,7
95,5
96,3
97,8
98,9


In [35]:
# dvourozměrný numpy array
matrix_of_vectors = np.array([[1, 6, 8, 7, 2, 7, 5, 3, 8, 9], [1, 0, 3, 0, 0, 7, 16, 3, 22, 9], [5, 6, 2, -1, 2, 7, -9, 3, 0, 0]])
df = pd.DataFrame(matrix_of_vectors)
df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,1,6,8,7,2,7,5,3,8,9
1,1,0,3,0,0,7,16,3,22,9
2,5,6,2,-1,2,7,-9,3,0,0


In [37]:
# analogická práce s názvy sloupců a indexy

columns = [f"B{x+1}" for x in range(10)]
indices = ["x","y","z"]
df = pd.DataFrame(matrix_of_vectors, index=indices, columns=columns)
df

Unnamed: 0,B1,B2,B3,B4,B5,B6,B7,B8,B9,B10
x,1,6,8,7,2,7,5,3,8,9
y,1,0,3,0,0,7,16,3,22,9
z,5,6,2,-1,2,7,-9,3,0,0


In [21]:
# alternativní metoda from_dict() má výhodu v možnosti nastavení orientace dat 

df = pd.DataFrame.from_dict(schedule,orient="index")
df

Unnamed: 0,0,1,2,3,4,5
Person,Jan,Vaclav,Otakar,Krystof,Jindrich,Martin
Day of week,Monday,Tuesday,Wednesday,Thursday,Friday,Sunday
Department,Economy,History,Mathematics,Psychology,Cybernetics,Computer science
