# 1. Knihovna Pandas

Knihovna pro práci s daty. Načítání dat z různých zdrojů (csv, xlsx, sql databáze ...)

Průzkum dat a jejich úprava (ETL)

Numpy knihovna slouží pro práci s  vícerozměrnými daty. Pandas ji používá na pozadí.

Instalace pomocí pip

**pip install pandas**

In [1]:
import pandas as pd

## 1.1 Načítání dat z CSV

In [2]:
# načteni dat z CSV
salary = pd.read_csv ("..\dataset\salary_dataset.csv")

In [None]:
# zobrazení dat
salary

## 1.2 Načtení dat z excelu
Je třeba instaloval openpyxl

**pip install openpyxl**

In [4]:
customers = pd.read_excel ("..\dataset\mall_customers.xlsx")

In [None]:
# zobrazení začátku souboru
customers

## 1. 3 Načtení dat z SQLite3 databáze pomocí SQL dotazu
Je třeba použít knihovnu sqlite3

**pip install sqlite3**

In [None]:
import sqlite3
cur = sqlite3.connect ("..\dataset\database.db")
points = pd.read_sql_query ("SELECT * FROM points", cur)
points

## 1.4 Změna formátu dat a export

In [None]:
points.to_json()

In [8]:
points.to_csv("..\dataset\database.csv")

In [None]:
# pip install lxml
points.to_xml()

## 1.5 Struktura načtených dat
Pandas to načtení vrací datový typ DataFrame. Jedná se o ekvivalent tabulky a skládá se z několika částí
- Series - sloupec v dataframe
- columns - seznam sloupců typu Index. Jména sloupců lze editovat
- index - řádky tabulky

### 1.5.1 DataFrame

In [None]:
type(points)

In [None]:
# struktura datasetu
points.info()

### 1.5.2 Series
Hodnoty jsou uloženy pomocí knihovny numpy. Tu budeme používat později.

In [None]:
points["NAME"]

In [None]:
type(points["NAME"])

### 1.5.3 Columns

In [None]:
points.columns

In [None]:
type(points.columns)

In [None]:
# přejmenování probíhá pomocí úpravy záznamu v dictionary
# inplace = False, sloupec se přejmenuje v rámci výstupu
# inplace = True, přejmenování v rámci instalace
points.rename(columns={"CATEGORY":"Kategorie"})

In [None]:
points.columns

In [19]:
points.rename(columns={"CATEGORY":"Kategorie"}, inplace=True)

In [None]:
points.columns

### 1.5.4 Index

In [None]:
points.index

In [None]:
# data jsou indexována podle interního indexu od 0
points

In [23]:
# použití sloupce jako indexu
points.set_index("ID", inplace=True)

In [None]:
# data jsou indexovaná podle sloupce ID od 1. 
points

In [None]:
points.index

In [26]:
# Někdy je třeba třeba použít jako index sloupec s datumem. Pak lze vybírat data podle zadaného časového rozpětí (rok, kvartál)
points.set_index("DATE", inplace=True)

In [None]:
points

In [None]:
# Datumy se nastavily jako Index.
points.index

In [29]:
# Pro časové funkce je třeba nastavit je jako DatetimeIndex
points.index = pd.to_datetime(points.index)

In [None]:
points.index

In [None]:
# sort_index(), výběr podle setříděného seznamu
points.sort_index().loc["2020-01-01" : "2020-12-31"]

## 1.6 Vzorky dat

In [None]:
# První dva záznamy
points.head(2)

In [None]:
# Poslední dva záznamy
points.tail(3)

In [None]:
# Náhodné záznamy
points.sample(5)

## 1.7 Přístup k datům

### 1.7.1 Iterace přes sloupce

In [None]:
for key,values in points.items():
    print (key, len(values))

### 1.7.2 Podle sloupců

In [None]:
# více sloupců
points[["NAME", "POINTS"]]

### 1.7.3 Výběr řádku podle indexu nebo číselního indexu

In [None]:
points.loc['2020-01-10']

In [None]:
points.loc['2021']

In [None]:
points.iloc[1]

In [None]:
points.iloc[-1]

In [None]:
points.iloc[2:4]

In [None]:
# každý 3.
points.iloc[::3]

### 1.7.4 Kombinace sloupců a řádků

In [None]:
points.loc["2021", "POINTS"]

In [None]:
sum(points.loc["2021", "POINTS"])

### 1.7.5 Výběr podle podmínky

In [None]:
points["Kategorie"] == 2

In [None]:
points[points["Kategorie"] == 2]

In [None]:
# | nebo
points[(points["Kategorie"] == 2) | (points["POINTS"] > 8)]

In [None]:
# & and
points[(points["Kategorie"] == 2) & (points["POINTS"] > 8)]

## 1.8 Použití funkce na data

In [52]:
import numpy as np
def znamka(points):
    if np.isnan(points) : return np.NAN
    elif 0 < points < 8 : return "D"
    elif 8 <= points <= 12 : return "C"
    elif 12 <= points <= 16 : return "B"
    else : return "A"

In [None]:
points

In [None]:
points["znamka"]=points["POINTS"].apply(znamka)

In [None]:
points

## 1.9 Základní statistika

In [None]:
points.describe()

In [None]:
points["POINTS"].mean()

## 1.10 NaN hodnoty

In [None]:
# smazání záznamů z datasetu
points2=points.dropna(inplace=False)
points2

In [58]:
# nahrazení chybějících hodnot například průměrem
# je otázka, zda je to vhodné
points["POINTS"].fillna(points["POINTS"].mean(), inplace=True)

In [None]:
points

In [60]:
points["znamka"]=points["POINTS"].apply(znamka)

In [None]:
points