# 1. Knihovna Pandas

Knihovna pro práci s daty. Načítání dat z různých zdrojů (csv, xlsx, sql databáze ...)

Průzkum dat a jejich úprava (ETL)

Numpy knihovna slouží pro práci s  vícerozměrnými daty. Pandas ji používá na pozadí.

Instalace pomocí pip

**pip install pandas**

In [7]:
# načteni dat z CSV
salary = pd.read_csv ("..\\dataset\\salary_dataset.csv")

In [6]:
import pandas as pd

## 1.1 Načítání dat z CSV

In [8]:
# načteni dat z CSV
salary = pd.read_csv ("..\\dataset\\salary_dataset.csv")

In [9]:
# zobrazení dat
salary

Unnamed: 0,YearsExperience,Salary
0,1.1,1979
1,1.3,2498
2,1.5,1857
3,2.0,2295
4,2.2,2020
5,2.9,3288
6,3.0,3554
7,3.2,3122
8,3.2,3879
9,3.7,3330


## 1.2 Načtení dat z excelu
Je třeba instaloval openpyxl

**pip install openpyxl**

In [13]:
customers = pd.read_excel ("..\\dataset\\mall_customers.xlsx")

ImportError: Missing optional dependency 'openpyxl'.  Use pip or conda to install openpyxl.

In [14]:
# načteni dat z CSV
salary = pd.read_csv ("..\\dataset\\salary_dataset.csv")

In [15]:
# zobrazení začátku souboru
customers

NameError: name 'customers' is not defined

## 1.3 Načtení dat z SQLite3 databáze pomocí SQL dotazu

In [16]:
import sqlite3
cur = sqlite3.connect ("..\\dataset\\database.db")
points = pd.read_sql_query ("SELECT * FROM points", cur)
points

Unnamed: 0,NAME,CATEGORY,POINTS,ID,DATE
0,Novák,1,10.0,1,2020-01-10
1,Dvořák,1,15.0,2,2020-10-05
2,Tučný,1,7.0,3,2021-05-31
3,Prokop,2,9.0,4,2021-06-28
4,Kovář,2,1.0,5,2023-07-08
5,Brož,2,25.0,6,2021-06-15
6,Dlouhý,3,6.0,7,2023-08-10
7,Blažek,3,,8,2023-12-31


## 1.4 Změna formátu dat a export

In [17]:
points.to_json()

'{"NAME":{"0":"Nov\\u00e1k","1":"Dvo\\u0159\\u00e1k","2":"Tu\\u010dn\\u00fd","3":"Prokop","4":"Kov\\u00e1\\u0159","5":"Bro\\u017e","6":"Dlouh\\u00fd","7":"Bla\\u017eek"},"CATEGORY":{"0":1,"1":1,"2":1,"3":2,"4":2,"5":2,"6":3,"7":3},"POINTS":{"0":10.0,"1":15.0,"2":7.0,"3":9.0,"4":1.0,"5":25.0,"6":6.0,"7":null},"ID":{"0":1,"1":2,"2":3,"3":4,"4":5,"5":6,"6":7,"7":8},"DATE":{"0":"2020-01-10","1":"2020-10-05","2":"2021-05-31","3":"2021-06-28","4":"2023-07-08","5":"2021-06-15","6":"2023-08-10","7":"2023-12-31"}}'

In [18]:
points.to_csv("..\\dataset\\database.csv")

In [19]:
# pip install lxml
points.to_xml()

ImportError: lxml not found, please install or use the etree parser.

## 1.5 Struktura načtených dat
Pandas to načtení vrací datový typ DataFrame. Jedná se o ekvivalent tabulky a skládá se z několika částí
- Series - sloupec v dataframe
- columns - seznam sloupců typu Index. Jména sloupců lze editovat
- index - řádky tabulky

### 1.5.1 DataFrame

In [20]:
type(points)

pandas.core.frame.DataFrame

In [21]:
# struktura datasetu
points.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   NAME      8 non-null      object 
 1   CATEGORY  8 non-null      int64  
 2   POINTS    7 non-null      float64
 3   ID        8 non-null      int64  
 4   DATE      8 non-null      object 
dtypes: float64(1), int64(2), object(2)
memory usage: 448.0+ bytes


### 1.5.2 Series
Hodnoty jsou uloženy pomocí knihovny numpy. Tu budeme používat později.

In [22]:
points["NAME"]

0     Novák
1    Dvořák
2     Tučný
3    Prokop
4     Kovář
5      Brož
6    Dlouhý
7    Blažek
Name: NAME, dtype: object

In [23]:
type(points["NAME"])

pandas.core.series.Series

### 1.5.3 Columns

In [24]:
points.columns

Index(['NAME', 'CATEGORY', 'POINTS', 'ID', 'DATE'], dtype='object')

In [25]:
type(points.columns)

pandas.core.indexes.base.Index

In [26]:
# přejmenování probíhá pomocí úpravy záznamu v dictionary
# inplace = False, sloupec se přejmenuje v rámci výstupu
# inplace = True, přejmenování v rámci instalace
points.rename(columns={"CATEGORY":"Kategorie"})

Unnamed: 0,NAME,Kategorie,POINTS,ID,DATE
0,Novák,1,10.0,1,2020-01-10
1,Dvořák,1,15.0,2,2020-10-05
2,Tučný,1,7.0,3,2021-05-31
3,Prokop,2,9.0,4,2021-06-28
4,Kovář,2,1.0,5,2023-07-08
5,Brož,2,25.0,6,2021-06-15
6,Dlouhý,3,6.0,7,2023-08-10
7,Blažek,3,,8,2023-12-31


In [27]:
points.columns

Index(['NAME', 'CATEGORY', 'POINTS', 'ID', 'DATE'], dtype='object')

In [28]:
points.rename(columns={"CATEGORY":"Kategorie"}, inplace=True)

In [29]:
points.columns

Index(['NAME', 'Kategorie', 'POINTS', 'ID', 'DATE'], dtype='object')

### 1.5.4 Index

In [30]:
points.index

RangeIndex(start=0, stop=8, step=1)

In [31]:
# data jsou indexována podle interního indexu od 0
points

Unnamed: 0,NAME,Kategorie,POINTS,ID,DATE
0,Novák,1,10.0,1,2020-01-10
1,Dvořák,1,15.0,2,2020-10-05
2,Tučný,1,7.0,3,2021-05-31
3,Prokop,2,9.0,4,2021-06-28
4,Kovář,2,1.0,5,2023-07-08
5,Brož,2,25.0,6,2021-06-15
6,Dlouhý,3,6.0,7,2023-08-10
7,Blažek,3,,8,2023-12-31


In [32]:
# použití sloupce jako indexu
points.set_index("ID", inplace=True)

In [33]:
# data jsou indexovaná podle sloupce ID od 1. 
points

Unnamed: 0_level_0,NAME,Kategorie,POINTS,DATE
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,Novák,1,10.0,2020-01-10
2,Dvořák,1,15.0,2020-10-05
3,Tučný,1,7.0,2021-05-31
4,Prokop,2,9.0,2021-06-28
5,Kovář,2,1.0,2023-07-08
6,Brož,2,25.0,2021-06-15
7,Dlouhý,3,6.0,2023-08-10
8,Blažek,3,,2023-12-31


In [34]:
points.index

Index([1, 2, 3, 4, 5, 6, 7, 8], dtype='int64', name='ID')

In [35]:
# Někdy je třeba třeba použít jako index sloupec s datumem. Pak lze vybírat data podle zadaného časového rozpětí (rok, kvartál)
points.set_index("DATE", inplace=True)

In [36]:
points

Unnamed: 0_level_0,NAME,Kategorie,POINTS
DATE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2020-01-10,Novák,1,10.0
2020-10-05,Dvořák,1,15.0
2021-05-31,Tučný,1,7.0
2021-06-28,Prokop,2,9.0
2023-07-08,Kovář,2,1.0
2021-06-15,Brož,2,25.0
2023-08-10,Dlouhý,3,6.0
2023-12-31,Blažek,3,


In [37]:
# Datumy se nastavily jako Index.
points.index

Index(['2020-01-10', '2020-10-05', '2021-05-31', '2021-06-28', '2023-07-08',
       '2021-06-15', '2023-08-10', '2023-12-31'],
      dtype='object', name='DATE')

In [38]:
# Pro časové funkce je třeba nastavit je jako DatetimeIndex
points.index = pd.to_datetime(points.index)

In [39]:
points.index

DatetimeIndex(['2020-01-10', '2020-10-05', '2021-05-31', '2021-06-28',
               '2023-07-08', '2021-06-15', '2023-08-10', '2023-12-31'],
              dtype='datetime64[ns]', name='DATE', freq=None)

In [40]:
# sort_index(), výběr podle setříděného seznamu
points.sort_index().loc["2020-01-01" : "2020-12-31"]

Unnamed: 0_level_0,NAME,Kategorie,POINTS
DATE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2020-01-10,Novák,1,10.0
2020-10-05,Dvořák,1,15.0


## 1.6 Vzorky dat

In [41]:
# První dva záznamy
points.head(5)

Unnamed: 0_level_0,NAME,Kategorie,POINTS
DATE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2020-01-10,Novák,1,10.0
2020-10-05,Dvořák,1,15.0
2021-05-31,Tučný,1,7.0
2021-06-28,Prokop,2,9.0
2023-07-08,Kovář,2,1.0


In [43]:
# Poslední dva záznamy
points.tail(3)

Unnamed: 0_level_0,NAME,Kategorie,POINTS
DATE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2021-06-15,Brož,2,25.0
2023-08-10,Dlouhý,3,6.0
2023-12-31,Blažek,3,


In [44]:
# Náhodné záznamy
points.sample(5)

Unnamed: 0_level_0,NAME,Kategorie,POINTS
DATE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2021-05-31,Tučný,1,7.0
2023-08-10,Dlouhý,3,6.0
2023-12-31,Blažek,3,
2021-06-28,Prokop,2,9.0
2021-06-15,Brož,2,25.0


## 1.7 Přístup k datům

### 1.7.1 Iterace přes sloupce

In [45]:
for key,values in points.items():
    print (key, values)

NAME DATE
2020-01-10     Novák
2020-10-05    Dvořák
2021-05-31     Tučný
2021-06-28    Prokop
2023-07-08     Kovář
2021-06-15      Brož
2023-08-10    Dlouhý
2023-12-31    Blažek
Name: NAME, dtype: object
Kategorie DATE
2020-01-10    1
2020-10-05    1
2021-05-31    1
2021-06-28    2
2023-07-08    2
2021-06-15    2
2023-08-10    3
2023-12-31    3
Name: Kategorie, dtype: int64
POINTS DATE
2020-01-10    10.0
2020-10-05    15.0
2021-05-31     7.0
2021-06-28     9.0
2023-07-08     1.0
2021-06-15    25.0
2023-08-10     6.0
2023-12-31     NaN
Name: POINTS, dtype: float64


In [46]:
points.items()

<generator object DataFrame.items at 0x000001EEE0AD8430>

### 1.7.2 Podle sloupců

In [47]:
# více sloupců
points[["NAME", "POINTS"]]

Unnamed: 0_level_0,NAME,POINTS
DATE,Unnamed: 1_level_1,Unnamed: 2_level_1
2020-01-10,Novák,10.0
2020-10-05,Dvořák,15.0
2021-05-31,Tučný,7.0
2021-06-28,Prokop,9.0
2023-07-08,Kovář,1.0
2021-06-15,Brož,25.0
2023-08-10,Dlouhý,6.0
2023-12-31,Blažek,


### 1.7.3 Výběr řádku podle indexu nebo číselního indexu

In [48]:
points.loc['2020-01-10']

NAME         Novák
Kategorie        1
POINTS        10.0
Name: 2020-01-10 00:00:00, dtype: object

In [49]:
points.loc['2021']

Unnamed: 0_level_0,NAME,Kategorie,POINTS
DATE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2021-05-31,Tučný,1,7.0
2021-06-28,Prokop,2,9.0
2021-06-15,Brož,2,25.0


In [50]:
points.iloc[1]

NAME         Dvořák
Kategorie         1
POINTS         15.0
Name: 2020-10-05 00:00:00, dtype: object

In [51]:
points.iloc[-1]

NAME         Blažek
Kategorie         3
POINTS          NaN
Name: 2023-12-31 00:00:00, dtype: object

In [52]:
points.iloc[2:4]

Unnamed: 0_level_0,NAME,Kategorie,POINTS
DATE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2021-05-31,Tučný,1,7.0
2021-06-28,Prokop,2,9.0


In [53]:
# každý 3.
points.iloc[::3]

Unnamed: 0_level_0,NAME,Kategorie,POINTS
DATE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2020-01-10,Novák,1,10.0
2021-06-28,Prokop,2,9.0
2023-08-10,Dlouhý,3,6.0


### 1.7.4 Kombinace sloupců a řádků

In [54]:
points.loc["2021", "POINTS"]

DATE
2021-05-31     7.0
2021-06-28     9.0
2021-06-15    25.0
Name: POINTS, dtype: float64

In [None]:
sum(points.loc["2021", "POINTS"])

### 1.7.5 Výběr podle podmínky

In [55]:
points["Kategorie"] == 2

DATE
2020-01-10    False
2020-10-05    False
2021-05-31    False
2021-06-28     True
2023-07-08     True
2021-06-15     True
2023-08-10    False
2023-12-31    False
Name: Kategorie, dtype: bool

In [56]:
points[points["Kategorie"] == 2]

Unnamed: 0_level_0,NAME,Kategorie,POINTS
DATE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2021-06-28,Prokop,2,9.0
2023-07-08,Kovář,2,1.0
2021-06-15,Brož,2,25.0


In [57]:
# | nebo
points[(points["Kategorie"] == 2) | (points["POINTS"] > 8)]

Unnamed: 0_level_0,NAME,Kategorie,POINTS
DATE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2020-01-10,Novák,1,10.0
2020-10-05,Dvořák,1,15.0
2021-06-28,Prokop,2,9.0
2023-07-08,Kovář,2,1.0
2021-06-15,Brož,2,25.0


In [58]:
# & and
points[(points["Kategorie"] == 2) & (points["POINTS"] > 8)]

Unnamed: 0_level_0,NAME,Kategorie,POINTS
DATE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2021-06-28,Prokop,2,9.0
2021-06-15,Brož,2,25.0


## 1.8 Použití funkce na data

In [59]:
import numpy as np
def znamka(points):
    if np.isnan(points) : return np.nan
    elif 0 < points < 8 : return "D"
    elif 8 <= points <= 12 : return "C"
    elif 12 <= points <= 16 : return "B"
    else : return "A"

In [60]:
points

Unnamed: 0_level_0,NAME,Kategorie,POINTS
DATE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2020-01-10,Novák,1,10.0
2020-10-05,Dvořák,1,15.0
2021-05-31,Tučný,1,7.0
2021-06-28,Prokop,2,9.0
2023-07-08,Kovář,2,1.0
2021-06-15,Brož,2,25.0
2023-08-10,Dlouhý,3,6.0
2023-12-31,Blažek,3,


In [61]:
points["znamka"]=points["POINTS"].apply(znamka)

In [62]:
points

Unnamed: 0_level_0,NAME,Kategorie,POINTS,znamka
DATE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2020-01-10,Novák,1,10.0,C
2020-10-05,Dvořák,1,15.0,B
2021-05-31,Tučný,1,7.0,D
2021-06-28,Prokop,2,9.0,C
2023-07-08,Kovář,2,1.0,D
2021-06-15,Brož,2,25.0,A
2023-08-10,Dlouhý,3,6.0,D
2023-12-31,Blažek,3,,


## 1.9 Základní statistika

In [63]:
points.describe()

Unnamed: 0,Kategorie,POINTS
count,8.0,7.0
mean,1.875,10.428571
std,0.834523,7.699722
min,1.0,1.0
25%,1.0,6.5
50%,2.0,9.0
75%,2.25,12.5
max,3.0,25.0


In [64]:
points["POINTS"].mean()

np.float64(10.428571428571429)

## 1.10 NaN hodnoty

In [65]:
# smazání záznamů z datasetu
points2=points.dropna(inplace=False)
points2

Unnamed: 0_level_0,NAME,Kategorie,POINTS,znamka
DATE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2020-01-10,Novák,1,10.0,C
2020-10-05,Dvořák,1,15.0,B
2021-05-31,Tučný,1,7.0,D
2021-06-28,Prokop,2,9.0,C
2023-07-08,Kovář,2,1.0,D
2021-06-15,Brož,2,25.0,A
2023-08-10,Dlouhý,3,6.0,D


In [66]:
# nahrazení chybějících hodnot například průměrem
# je otázka, zda je to vhodné
points["POINTS"].fillna(points["POINTS"].mean(), inplace=True)

In [67]:
points

Unnamed: 0_level_0,NAME,Kategorie,POINTS,znamka
DATE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2020-01-10,Novák,1,10.0,C
2020-10-05,Dvořák,1,15.0,B
2021-05-31,Tučný,1,7.0,D
2021-06-28,Prokop,2,9.0,C
2023-07-08,Kovář,2,1.0,D
2021-06-15,Brož,2,25.0,A
2023-08-10,Dlouhý,3,6.0,D
2023-12-31,Blažek,3,10.428571,


In [68]:
points["znamka"]=points["POINTS"].apply(znamka)

In [69]:
points

Unnamed: 0_level_0,NAME,Kategorie,POINTS,znamka
DATE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2020-01-10,Novák,1,10.0,C
2020-10-05,Dvořák,1,15.0,B
2021-05-31,Tučný,1,7.0,D
2021-06-28,Prokop,2,9.0,C
2023-07-08,Kovář,2,1.0,D
2021-06-15,Brož,2,25.0,A
2023-08-10,Dlouhý,3,6.0,D
2023-12-31,Blažek,3,10.428571,C
