# Python Data, 2024

---

* [Časové řady](#Časové-řady),
    - [úvodní motivace](#Úvod),
    - [základní objekty](#Základní-objekty),
    - [indexování časovými údaji](#Indexování-s-časem),
    - [funkce to_datetime](#Funkce-TO_DATETIME),
    - [funkce date_range](#Funkce-DATE_RANGE),
    - [frekvence](#Frekvence),
    - [resampling](#Resampling),
    - [zpřesňování](#Zpřesňování),
* [Skutečné hodnoty](#Skutečné-datové-sety),
    - [chybějící údaje](#Kolik-mi-chybí-údajů),
    - [encoding](#Encoding),
    - [nekonzistentní data](#Nekonzistentní-data).


<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.odqbr-09dxxBQjF7x7NyBAHaII%26pid%3DApi&f=1&ipt=5b4a03c1dd38b52108237102ebb350595a5d6ea6a50572f5897ca89fbf5b5445&ipo=images" width="160" style="margin-left:auto; margin-right:auto"/>

<br>

## Časové řady

---

Část *frameworku* byla vyvinuta za účelem **finančního modelování**.

Proto je více než dobře vybavena sadou nástrojů, které umí pracovat **s daty, časem a časovými objekty**.

<br>

Uplatnění:
* **Analýza a predikce**: Časové řady umožňují analyzovat vývoj hodnot v čase a předpovídat budoucí trendy nebo sezónní změny. To je klíčové v oblastech jako finance, ekonomika, prodej, počasí a mnoho dalších.

* **Efektivní manipulace s časem**: Pandas poskytuje nástroje pro efektivní práci s časovými řadami, což zjednodušuje úkoly, jako je agregace, interpolace nebo časové posuny. Díky integrovaným funkcím můžete snadno pracovat s daty různých časových frekvencí a konvertovat mezi nimi.

* **Časově závislé analýzy**: Časové řady umožňují provádět časově závislé analýzy, jako je detekce změn v trendech, identifikace sezónních vlivů nebo identifikace časových závislostí mezi proměnnými.

* **Flexibilní indexace**: Pandas podporuje flexibilní indexaci časových řad, což usnadňuje filtrování, řazení a výběr dat na základě časových značek nebo rozsahů.

* **Kompatibilita s dalšími knihovnami**: Pandas je kompatibilní s mnoha dalšími knihovnami pro analýzu časových řad, jako je statsmodels nebo scikit-learn. To usnadňuje integraci a rozšíření vašich analýz s pokročilejšími metodami a algoritmy.
    
<br>

Jde například o údaje typu:
* *timestampy*, údaj odkazující na konkrétní **časový okamžik** (např. `26. července 2024 v 14:36 hod.`),
* *časové intervaly*, tedy období odkazují na délku času **mezi konkrétním začátkem a koncem** (např. intervaly ze dne na den),
* *time delta* objekty, tedy přesné délky času (např. 22,22 sekundy).

#### Data a čas v Pythonu

---

Standardní výbavou Pythonu jsou knihovny `datetime`:

In [32]:
from datetime import datetime

In [33]:
datetime(year=2023, month=4, day=5)

datetime.datetime(2023, 4, 5, 0, 0)

<br>

Nebo knihovna `dateutil` pro parsování datových typů z různých stringových zadání:

In [34]:
from dateutil import parser

In [38]:
date = parser.parse("26th of november, 2024")

In [39]:
date

datetime.datetime(2024, 11, 26, 0, 0)

Kde pomocí metody `strftime` můžeš vypsat den:

In [40]:
date.strftime("%A")

'Tuesday'

#### Data a čas v numpy

---

Některé nedostatky uvnitř knihoven `datetime` a `dateutil` vedli ke vzniku sady nástrojů.

Tyto doplňky vznikly pod hlavičkou knihovny `numpy`.

In [43]:
import numpy as np
from numpy import array, arange

In [44]:
date = array('2023-04-05', dtype=np.datetime64)

In [45]:
date

array('2023-04-05', dtype='datetime64[D]')

<br>

Pokud potřebuješ pole následujících 7 dní:

In [46]:
date + arange(7)

array(['2023-04-05', '2023-04-06', '2023-04-07', '2023-04-08',
       '2023-04-09', '2023-04-10', '2023-04-11'], dtype='datetime64[D]')

<br>

Vzhledem k jednotnému datovu typu v poli pro **numpy** `datetime64` může tento typ operace
provádět mnohem rychleji, než přímo v Pythonu `datetime` objekty, zejména když objekty nabývají na velikosti.

#### Data a čas v pandách

---

Jde o kombinace objektů z obou předchozích podkapitol.

Ty dávají dohromady to nejlepší prostředky pro zacházení s časem.

In [47]:
from pandas import to_datetime

In [48]:
date = to_datetime("5th of April, 2023")

In [49]:
date

Timestamp('2023-04-05 00:00:00')

In [50]:
date.strftime("%A")

'Wednesday'

<br>

## Časové řady

---

V podstatě jde o hlavní nástroj, který tato knihovna dovede nabídnout.

#### Indexování časem
---
`DatetimeIndex` obsahuje časové značky (*timestamp*), které jsou uloženy ve formátu `datetime64` s nanosekundovou přesností.

Tento objekt umožňuje efektivní práci s časovými řadami a poskytuje mnoho funkcí pro manipulaci s daty a časy.

Výhody práce s `DatetimeIndex` objektem:
* Časové zóny,
* frekvence,
* časově závislé selekce,
* atributy časových značek,
* operace s časem.

In [51]:
from pandas import DatetimeIndex, Series, to_datetime

In [52]:
datumy = ["2023-04-05", "2022-04-05", "2021-04-05", "2020-04-05"]

In [53]:
indexy = DatetimeIndex(datumy)

In [54]:
hodnoty = [to_datetime(den).strftime("%A") for den in datumy]

In [55]:
hodnoty

['Wednesday', 'Tuesday', 'Monday', 'Sunday']

In [58]:
hodnoty_sl = Series(hodnoty, index=indexy)

In [59]:
hodnoty_sl

2023-04-05    Wednesday
2022-04-05      Tuesday
2021-04-05       Monday
2020-04-05       Sunday
dtype: object

In [13]:
type(indexy)

pandas.core.indexes.datetimes.DatetimeIndex

In [62]:
hodnoty_sl[:'2021-04-05']

2021-04-05    Monday
2020-04-05    Sunday
dtype: object

<br>

## Základní objekty

---

Mezi základní objekty pro práci s časem patří:
* `Timestamp` typ (související struktura Indexu `DatetimeIndex`,
* `Period` typ (.. `PeriodIndex`),
* `Timedelta` typ (.. `TimedeltaIndex`).

#### Timestamp & DatetimeIndex

---

Nejčastější datové typy, které lze vyvolat přímo, ovšem běžnější je pracovat s funkcí `to_datetime`.

Funkce `to_datetime` umí parsovat různé stringové formáty.

<br>

### Práce s jedním datumem

---

In [63]:
datum = to_datetime("05/04/2023")  # DD/MM/RRRR

<br>

Opatrně na specifický formát datumu:

In [64]:
datum                              # MM/DD/RRRR

Timestamp('2023-05-04 00:00:00')

In [19]:
type(datum)

pandas._libs.tslibs.timestamps.Timestamp

In [69]:
datum.month_name()  #  --> April

'May'

Pokud do funkce `to_datetime` vložíš jedinou hodnotu, vrací objekty typu `Timestamp`.

<br>

### Specifický formát

---

Pokud se *parser* ztratí nebo tvoje zadání neodpovídá jeho vyhotovení:

In [22]:
to_datetime("12-11-2010 00:00", format="%d-%m-%Y %H:%M")

Timestamp('2010-11-12 00:00:00')

In [71]:
naformatovany_datum = to_datetime("05/04/2023", format='%d/%m/%Y')

In [73]:
naformatovany_datum.month_name()

'April'

<br>

### Práce s několika datumy

---

In [78]:
datumy = to_datetime([
    datetime(2023, 4, 5), "5th of April 2023", "2023-Apr-5", "05-04-2023", "20230405"
])

In [75]:
datumy

DatetimeIndex(['2023-04-05', '2023-04-05', '2023-04-05', '2023-05-04',
               '2023-04-05'],
              dtype='datetime64[ns]', freq=None)

In [76]:
type(datumy)

pandas.core.indexes.datetimes.DatetimeIndex

Zatímco pole hodnot s datumy, které funkce `to_datetime` zpracuje vrací objekt typu `DatetimeIndex`.

<br>

Objekt `DatetimeIndex` potom můžeš konvertovat na `PeriodIndex` pomocí *metody* `to_period`:

In [80]:
# datumy.to_period?

<br>

Tato metoda je užitečná, pokud chcete převést časové řady **na určité časové období**.

Když budeš třeba potřebovat převést hodnoty **z denních dat na měsíční data**.

<br>

### Denní data

---

In [81]:
datumy.to_period("D")

PeriodIndex(['2023-04-05', '2023-04-05', '2023-04-05', '2023-05-04',
             '2023-04-05'],
            dtype='period[D]')

<br>

### Měsíční data

---

In [85]:
from pandas import DataFrame

In [82]:
datumy.to_period(freq="M")

PeriodIndex(['2023-04', '2023-04', '2023-04', '2023-05', '2023-04'], dtype='period[M]')

In [88]:
data = {'date': pd.date_range(start='2022-01-01', periods=10, freq='M'),
        'sales': [100, 102, 105, 107, 110, 112, 115, 117, 120, 122]}

In [89]:
data_df = DataFrame(data)

In [90]:
data_df

Unnamed: 0,date,sales
0,2022-01-31,100
1,2022-02-28,102
2,2022-03-31,105
3,2022-04-30,107
4,2022-05-31,110
5,2022-06-30,112
6,2022-07-31,115
7,2022-08-31,117
8,2022-09-30,120
9,2022-10-31,122


In [91]:
data_df.set_index('date', inplace=True)

In [92]:
data_df

Unnamed: 0_level_0,sales
date,Unnamed: 1_level_1
2022-01-31,100
2022-02-28,102
2022-03-31,105
2022-04-30,107
2022-05-31,110
2022-06-30,112
2022-07-31,115
2022-08-31,117
2022-09-30,120
2022-10-31,122


In [97]:
period_df = data_df.to_period(freq='M')

In [98]:
period_df

Unnamed: 0_level_0,sales
date,Unnamed: 1_level_1
2022-01,100
2022-02,102
2022-03,105
2022-04,107
2022-05,110
2022-06,112
2022-07,115
2022-08,117
2022-09,120
2022-10,122


<br>

### TimedeltaIndex

---

Jde o rozdíl v jednotkách času.

Nejčastěji se s tímto objektem setkáš, pokud potřebuješ získat **rozdíl mezi dvěma datumy**.

In [99]:
specialni_datumy = to_datetime([
    datetime(2022, 4, 5), "5th of April 2021", "2020-Apr-5", "05-04-2019", "20180405"]
)

In [100]:
specialni_datumy

DatetimeIndex(['2022-04-05', '2021-04-05', '2020-04-05', '2019-05-04',
               '2018-04-05'],
              dtype='datetime64[ns]', freq=None)

In [102]:
datumy - specialni_datumy

TimedeltaIndex(['365 days', '730 days', '1095 days', '1461 days', '1826 days'], dtype='timedelta64[ns]', freq=None)

<br>

Rozdíl mezi datumy můžeš počítat i pro jednotlivé `Timestamp` hodnoty:

In [103]:
datumy[0]

Timestamp('2023-04-05 00:00:00')

In [104]:
specialni_datumy[0]

Timestamp('2022-04-05 00:00:00')

In [105]:
datumy[0] - specialni_datumy[0]

Timedelta('365 days 00:00:00')

<br>

**🧠 CVIČENÍ 🧠, procvič si funkci `to_datetime`**

In [108]:
data = {  # Převeď datumy na formát RRRR-MM-DD
    "Name": ["Event A", "Event B", "Event C"],
    "Date": ["21-11-2024", "05-12-2024", "15-01-2025"],
}

In [109]:
nova_data_df = DataFrame(data)

In [110]:
nova_data_df

Unnamed: 0,Name,Date
0,Event A,21-11-2024
1,Event B,05-12-2024
2,Event C,15-01-2025


In [111]:
nova_data_df['New Date'] = to_datetime(nova_data_df['Date'])  # "format" chybí

  nova_data_df['New Date'] = to_datetime(nova_data_df['Date'])  # "format" chybí


In [112]:
nova_data_df['New Date'] = to_datetime(nova_data_df['Date'], format='%d-%m-%Y')

In [113]:
nova_data_df

Unnamed: 0,Name,Date,New Date
0,Event A,21-11-2024,2024-11-21
1,Event B,05-12-2024,2024-12-05
2,Event C,15-01-2025,2025-01-15


<details>
    <summary>▶️ Řešení</summary>
    
```python
import pandas as pd

data = {
    "Name": ["Event A", "Event B", "Event C"],
    "Date": ["21-11-2024", "05-12-2024", "15-01-2025"],
}


df = pd.DataFrame(data)


def convert_dates(df):
    df["Date"] = pd.to_datetime(df["Date"], format="%d-%m-%Y")
    return df

converted_df = convert_dates(df)
print(converted_df)
print(converted_df.dtypes)
```
</details>

<br>

## Funkce `date_range`

---

Aby bylo zadání řady (sekvence) dat pohodlnější, vyzkoušej funkci `date_range`.

Obdobně potom pracují související funkce:
* `date_range`, timestampy,
* `period_range`, periody,
* `timedelta_range`, pro delty.

In [114]:
from pandas import date_range

<br>

### Počet period

---

In [115]:
datumy_ind = date_range("01-01-1992", periods=8)

In [116]:
datumy_ind

DatetimeIndex(['1992-01-01', '1992-01-02', '1992-01-03', '1992-01-04',
               '1992-01-05', '1992-01-06', '1992-01-07', '1992-01-08'],
              dtype='datetime64[ns]', freq='D')

<br>

## Frekvence

---

In [117]:
datumy_mesicne_ind = date_range("01-01-1992", periods=12, freq="M")

In [118]:
datumy_mesicne_ind

DatetimeIndex(['1992-01-31', '1992-02-29', '1992-03-31', '1992-04-30',
               '1992-05-31', '1992-06-30', '1992-07-31', '1992-08-31',
               '1992-09-30', '1992-10-31', '1992-11-30', '1992-12-31'],
              dtype='datetime64[ns]', freq='M')

<br>

### Hodinové periody

---

In [119]:
from pandas import timedelta_range

In [122]:
hodinove_ind = timedelta_range(0, periods=12, freq='H')

In [123]:
hodinove_ind

TimedeltaIndex(['0 days 00:00:00', '0 days 01:00:00', '0 days 02:00:00',
                '0 days 03:00:00', '0 days 04:00:00', '0 days 05:00:00',
                '0 days 06:00:00', '0 days 07:00:00', '0 days 08:00:00',
                '0 days 09:00:00', '0 days 10:00:00', '0 days 11:00:00'],
               dtype='timedelta64[ns]', freq='H')

In [125]:
# timedelta_range?

<br>

### Tabulka frekvencí

---

Časovou paletou frekvencí, kterou framework `pandas` nabízí je tato tabulka:

| String | Popisek |
| :-: | :- |
| `D` | kalendářní den |
| `W` | týden |
| `M` | konec měsíce |
| `Q` | konec čtvrtletí |
| `A` | konec roku |
| `H` | hodiny |
| `T` | minuty |
| `S` | vteřiny |
| `B` | pracovní den |
| `BM` | konec pracovního měsíce |
| `BQ` | konec pracovního čtvrtletí |

#### Netradiční frekvence

---

In [129]:
timedelta_range(start='1H', periods=5, freq="1H15T")

TimedeltaIndex(['0 days 01:00:00', '0 days 02:15:00', '0 days 03:30:00',
                '0 days 04:45:00', '0 days 06:00:00'],
               dtype='timedelta64[ns]', freq='75T')

### Resampling

---

*Resampling* nebo také *převzorkování* je proces, který upravuje frekvenci časové řady.

*Resampling* se obvykle používá **pro snížení frekvence** (z hodinových dat na denní data).

*Resampling* zahrnuje *agregaci* dat.

V `pandas` se k tomu používá metoda `resample`, která má jako parametr novou frekvenci, na kterou chcete data převést:

In [None]:
import pandas as pd

In [None]:
data = {
    'date': pd.date_range(start='2022-01-01', periods=60, freq='D'),
    'sales': range(60)
}

In [None]:
df = pd.DataFrame(data)

In [None]:
df.set_index('date', inplace=True)

In [None]:
monthly_data = df.resample('M').sum()

In [None]:
print(monthly_data)

<br>

### Zpřesňování

---

Zahrnuje **zvýšení frekvence časových řad**.

Přičemž se nově vytvořené hodnoty obvykle interpolují nebo doplňují nějakou konstantou.

V pandas se k zpřesňování používá metoda `asfreq`, která má jako parametr novou frekvenci, na kterou chcete data převést.

In [None]:
data = {
    'date': pd.date_range(start='2022-01-01', end='2022-03-01', freq='MS'),
    'sales': [100, 120, 150]
}

In [None]:
df = pd.DataFrame(data)

In [None]:
df.head()

In [None]:
df.set_index('date', inplace=True)

In [None]:
daily_data = df.asfreq('D', method='ffill')

In [None]:
daily_data.head(20)

Metoda `asfreq` bere jako parametr novou frekvenci, na kterou chceme data převést.

V případě výše jde o frekvenci `D`, což znamená **denní data**.

Protože při zpřesňování se **vytvoří chybějící hodnoty** (v důsledku zvýšení frekvence), je potřeba zvolit metodu pro jejich doplnění.

Výš jde o metodu `forward fill` (parametr `method='ffill'`), která kopíruje předchozí hodnotu pro výplň chybějících hodnot.

Další možností je použít metodu `'back fill'` (parametr `method='bfill'`), která kopíruje následující hodnotu pro výplň chybějících hodnot.

<br>

**🧠 CVIČENÍ 🧠, procvič si časové řady**

Analyzuj prodeje produktu ve fiktivní společnosti během jednoho roku a zjisti následující:
1. Celkový prodej za každý měsíc.
2. Průměrný prodej za každý den v týdnu.
3. Denní prodej za poslední týden.

In [None]:
import pandas as pd
import numpy as np

denni_datumy = pd.date_range(start='2022-01-01', end='2022-12-31', freq='D')
prodeje = np.random.randint(10, 100, size=(len(date_rng),))

data = {
    'datumy': denni_datumy,
    'prodeje': prodeje
}

df_prodeje = pd.DataFrame(data)
df_prodeje.set_index('datumy', inplace=True)

In [None]:
df_prodeje

<details>
    <summary>▶️ Řešení</summary>
    
    ```python
    monthly_sales = df.resample('M').sum()
    print("Celkový prodej za každý měsíc:")
    print(monthly_sales)

    df_prodeje['weekday'] = df_prodeje.index.weekday
    average_weekday_sales = df_prodeje.groupby('weekday')['prodeje'].mean()
    print("\nPrůměrný prodej za každý den v týdnu:")
    print(average_weekday_sales)

    last_week_sales = df.loc['2022-12-25':, 'sales']
    print("\nDenní prodej za poslední týden:")
    print(last_week_sales)
    ```
</details>

Část *frameworku* byla vyvinuta za účelem **finančního modelování**.

Proto je více než dobře vybavena sadou nástrojů, které umí pracovat **s daty, časem a časovými objekty**.

<br>

Uplatnění:
* **Analýza a predikce**: umožňuje analyzovat vývoj hodnot v čase a předpovídat budoucí trendy nebo sezónní změny,
* **Efektivní manipulace s časem**: zjednodušuje úkoly, jako je agregace, interpolace nebo časové posuny,
* **Flexibilní indexace**: podporuje flexibilní indexaci časových řad, což usnadňuje filtrování, řazení a výběr dat,
* **Kompatibilita s dalšími knihovnami**: je kompatibilní s mnoha dalšími knihovnami pro analýzu časových řad, jako je `statsmodels` nebo `scikit-learn`.

<br>

#### Pomocí standardního Pythonu

---

Standardní výbavou Pythonu jsou knihovny `datetime`:

In [None]:
from datetime import datetime

In [None]:
# help(datetime)

In [None]:
datetime(year=2023, month=4, day=5)

In [None]:
type(datetime(year=2023, month=4, day=5))

<br>

Nebo knihovna `dateutil` pro *parsování* datových typů z různých **stringových zadání**:

In [None]:
from dateutil import parser

In [None]:
type(parser)

<br>

Funkce `parse` zpracuje (*parsuje*) velké množství různých formátů času ve `str`:

In [None]:
date = parser.parse("5th of april, 2023")

In [None]:
type(parser.parse)

In [None]:
date.year

In [None]:
date.month

In [None]:
date.day

<br>

Kde pomocí metody `strftime` můžeš vypsat den:

In [None]:
date.strftime("%A")

In [None]:
date.strftime("%d/%m/%y")

<br>

#### Pomocí NUMPY

---

Některé nedostatky uvnitř knihoven `datetime` a `dateutil` vedli ke vzniku sady nástrojů.

Tyto doplňky vznikly pod hlavičkou knihovny `numpy`.

In [None]:
import numpy
from numpy import array, arange

In [None]:
date = array('2023-04-05', dtype=numpy.datetime64)

In [None]:
date

<br>

Pokud potřebuješ pole **následujících 7 dní**:

In [None]:
date + arange(7)

<br>

Vzhledem k jednotnému datovu typu v poli pro **numpy** `datetime64` může tento typ operace
provádět mnohem rychleji.

Přímo v Pythonu pomocí `datetime` objektu potom roste handicap, když objekty nabývají na velikosti.

<br>

#### Pomocí PANDAS

---

Jde o kombinace objektů z obou předchozích podkapitol.

Ty dávají dohromady to nejlepší prostředky pro zacházení s časem.

In [None]:
from pandas import to_datetime

In [None]:
date = to_datetime("5th of April, 2023")

In [None]:
date

In [None]:
type(date)

In [None]:
date.strftime("%A")

<br>

### Základní objekty

---

V podstatě jde o hlavní nástroj, který tato knihovna dovede nabídnout.

Tedy práce **s univerzálními datovými typy** pro čas.

Mezi základní objekty pro práci s časem patří:
* `Timestamp`, typ (související struktura Indexu `DatetimeIndex`),
* `Period`, typ (.. `PeriodIndex`),
* `Timedelta`, typ (.. `TimedeltaIndex`).

<br>

#### Timestamp

---

Základní datový typ do časových řad.

Přiřazuje pandasí hodnoty k skutečnému konkrétním časovému okamžiku.

In [None]:
from pandas import Timestamp

In [None]:
# Timestamp?

In [None]:
Timestamp("2023-05-04")  # str, tuple, datetime.datetime

In [None]:
Timestamp(2023, 5, 4)

In [None]:
type(Timestamp(2023, 5, 4))

<br>

#### Period

---

V mnoha případech je však přirozenější spojit proměnné, jako je **počáteční čas** s následným **časovým rozpětím**.

`Period` představuje časový interval nebo období, které má začátek a *frekvenci*.

In [None]:
from pandas import Period

In [None]:
Period("2023-04", freq="D")

In [None]:
type(Period("2023-04", freq="D"))

Hlavním rozdílem pro `Timestamp` a `Period` je v rámci jejich zapracování.

`Timestamp` pracuje s konkrétním časovým okamžikem.

`Period` naopak s časovým intervalem.

<br>

#### Timedelta

---

Představuje rozdíl mezi dvěma datumy nebo časy.

In [None]:
datum_1 = Timestamp(2023,4,12, 12, 30)

In [None]:
datum_2 = Timestamp(2023,4,10, 12, 0)

In [None]:
datum_1 - datum_2

In [None]:
type(datum_1 - datum_2)

In [None]:
from pandas import Timedelta

In [None]:
# Timedelta?

<br>

### Indexování s časem

---

Pomocí objektů času můžeš vytvořit samotné **Indexy**.

`DatetimeIndex` obsahuje časové značky (*timestamp*), které jsou uloženy ve formátu `datetime64` s nanosekundovou přesností.

Tento objekt umožňuje efektivní práci s časovými řadami a poskytuje mnoho funkcí pro manipulaci s daty a časy:

In [None]:
from pandas import DatetimeIndex, Series

<br>

Pomocný objekt typu `list`:

In [None]:
datumy = ["2023-04-05", "2022-04-05", "2021-04-05", "2020-04-05"]

In [None]:
indexy = DatetimeIndex(datumy)

In [None]:
type(indexy)

In [None]:
jmena_dnu = [to_datetime(den).strftime("%A") for den in datumy]

In [None]:
jmena_dnu

In [None]:
hodnoty_sl = Series(jmena_dnu, index=indexy)

In [None]:
hodnoty_sl

In [None]:
type(hodnoty_sl)

In [None]:
type(indexy)

In [None]:
hodnoty_sl["2020": "2022"]

In [None]:
hodnoty_sl["2020-04-05": "2022-04-05"]

<br>

#### TimedeltaIndex

---

Jde o rozdíl v jednotkách času.

Nejčastěji se s tímto objektem setkáš, pokud potřebuješ získat **rozdíl mezi dvěma datumy**.

In [None]:
datumy

In [None]:
datumy_ = to_datetime(datumy)

In [None]:
datumy_

In [None]:
specialni_datumy = to_datetime([
    datetime(2022, 4, 5), "5th of April 2021", "2020-Apr-5", "05-04-2019"]
)

In [None]:
datumy_ - specialni_datumy

<br>

## Funkce TO_DATETIME

---

Nejčastější datové typy, které lze zapsat přímo, ovšem běžnější je pracovat s funkcí `to_datetime`.

Funkce `to_datetime` umí parsovat různé stringové formáty.

In [None]:
from pandas import to_datetime

<br>

#### Práce s jedním datumem

---

In [None]:
datum = to_datetime("05/04/2023")  # str, tuple, datetime.datetime

In [None]:
datum

In [None]:
type(datum)

Pokud do funkce `to_datetime` vložíš jedinou hodnotu, vrací objekty typu `Timestamp`.

<br>

#### Specifický formát

---

Pokud se parser ve funkci `to_datetime` ztratí nebo tvoje zadání neodpovídá jeho vyhotovení, můžeš zadat formát explicitně:

In [None]:
vystup = to_datetime("12-11-2010 01:05")

In [None]:
vystup.day

<br>

V ukázce výš ale hodnota `11` představuje měsíc, nikoliv den.

In [None]:
vystup = to_datetime("12-11-2010 01:05", format="%d-%m-%Y %H:%M")

In [None]:
vystup.day

In [None]:
vystup.month

In [None]:
vystup.year

In [None]:
vystup.hour

<br>

#### Časové zóny

---

Objekt `Timestamp` umožňuje hodnoty časových zón zadávat pomocí metody `tz_localize`:

In [None]:
datum

In [None]:
datum.tz

In [None]:
tz_datum = datum.tz_localize("Europe/Prague")

In [None]:
tz_datum.tz

In [None]:
nove_tz_datum = tz_datum.tz_convert("US/Pacific")

In [None]:
nove_tz_datum = tz_datum.tz_convert("Europe/London")

In [None]:
nove_tz_datum

<br>

#### Práce s několika datumy

---

Stejně jak umí funkce *parsovat* jednu hodnotu, umí zpracovat pole časových stringů:

In [None]:
datumy = to_datetime(
    [datetime(2023, 4, 5), "5th of April 2023", "2023-Apr-5", "04-05-2023", "20230405"]
)

In [None]:
datumy

In [None]:
type(datumy)

Zatímco pole hodnot s datumy, které funkce `to_datetime` zpracuje, vrací objekt typu `DatetimeIndex`.

<br>

Objekt `DatetimeIndex` potom můžeš konvertovat na `PeriodIndex` pomocí *metody* `to_period`:

In [None]:
datumy.to_period?

<br>

Tato metoda je užitečná, pokud chcete převést časové řady **na určité časové období**.

Když budeš třeba potřebovat převést hodnoty **z denních dat na měsíční data**.

#### Denní data

In [None]:
datumy.to_period("D")

#### Měsíční data

In [None]:
datumy.to_period("M")

<br>

### Funkce DATE_RANGE

---

In [None]:
from pandas import date_range, DataFrame

In [None]:
date_range(start='2023-01-01', periods=10, freq='D')

In [None]:
date_range(start='2023-01-01', periods=10, freq='M')

In [None]:
data = {
    'date': date_range(start='2022-01-01', periods=10, freq='D'),
    'sales': [100, 102, 105, 107, 110, 112, 115, 117, 120, 122]
}

In [None]:
data

In [None]:
df_data = DataFrame(data)

In [None]:
df_data.head(3)

In [None]:
df_data.set_index('date', inplace=True)

In [None]:
df_data.head(3)

In [None]:
df_period_y = df_data.to_period(freq='M')

In [None]:
df_period_y

<br>

#### Počet period

---

Nachystá objekt, který vypracuje tolik period, které definuješ pomocí parametru `periods`:

In [None]:
date_range(start='2000-01-01', periods=10, freq='Y')

In [None]:
# date_range?

In [None]:
datumy_ind = date_range(start="01-01-1992", periods=8)  # defaultně denní frekvence

In [None]:
datumy_ind

<br>

#### Frekvence

---

In [None]:
datumy_mesicne_ind = date_range("01-01-1992", periods=8, freq="M")

In [None]:
datumy_mesicne_ind

<br>

### Frekvence

Časovou paletou frekvencí, kterou framework `pandas` nabízí je tato tabulka:

| String | Popisek |
| :-: | :- |
| `D` | kalendářní den |
| `W` | týden |
| `M` | konec měsíce |
| `Q` | konec čtvrtletí |
| `A` | konec roku |
| `H` | hodiny |
| `T` | minuty |
| `S` | vteřiny |
| `B` | pracovní den |
| `BM` | konec pracovníḧo měsíce |
| `BQ` | konec pracovního čtvrtletí |

<br>

#### Hodinové periody

---

In [None]:
from pandas import timedelta_range

In [None]:
hodinove_ind = timedelta_range(0, periods=12, freq="H")

In [None]:
hodinove_ind

#### Netradiční frekvence

---

In [None]:
timedelta_range(0, periods=10, freq="1H15T")

<br>

### Resampling, snížení frekvence

---

*Resampling* nebo také *převzorkování* je proces, který upravuje frekvenci časové řady.

*Resampling* se obvykle používá **pro snížení frekvence** (z hodinových dat na denní data).

*Resampling* zahrnuje *agregaci* dat.

V `pandas` se k tomu používá metoda `resample`, která má jako parametr novou frekvenci, na kterou chcete data převést:

In [None]:
data = {
    'date': date_range(start='2022-01-01', periods=60, freq='D'),
    'sales': range(60)
}

In [None]:
data

In [None]:
df_data = DataFrame(data)

In [None]:
df_data

In [None]:
df_data.set_index('date', inplace=True)

In [None]:
df_data.head()

In [None]:
seskupena_data = df_data.resample('Y').sum()

In [None]:
seskupena_data

<br>

### Zpřesňování řady

---

Zahrnuje **zvýšení frekvence časových řad**.

Přičemž se nově vytvořené hodnoty obvykle interpolují nebo doplňují nějakou konstantou.

V pandas se k zpřesňování používá metoda `asfreq`, která má jako parametr novou frekvenci, na kterou chcete data převést.

In [None]:
data = {
    'date': date_range(start='2022-01-01', end='2022-03-01', freq='MS'),  # M - konec měsíce
    'sales': [100, 120, 150]
}

In [None]:
df_data = DataFrame(data)

In [None]:
df_data.head()

In [None]:
df_data.set_index('date', inplace=True)

In [None]:
df_data.head()

In [None]:
denni_data = df_data.asfreq('D', method='bfill')

In [None]:
denni_data.head()

Metoda `asfreq` bere jako parametr novou frekvenci, na kterou chceme data převést.

V případě výše jde o frekvenci `D`, což znamená **denní data**.

Protože při zpřesňování se **vytvoří chybějící hodnoty** (v důsledku zvýšení frekvence), je potřeba zvolit metodu pro jejich doplnění.

Výš jde o metodu `forward fill` (parametr `method='ffill'`), která kopíruje předchozí hodnotu pro výplň chybějících hodnot.

Další možností je použít metodu `'back fill'` (parametr `method='bfill'`), která kopíruje následující hodnotu pro výplň chybějících hodnot.

<br>

##### **🧠 CVIČENÍ 🧠, procvič si časové řady**

Analyzuj prodeje produktu ve fiktivní společnosti během jednoho roku a zjisti následující:
1. Celkový prodej za každý měsíc.
2. Průměrný prodej za každý den v týdnu.
3. Denní prodej za poslední týden.

In [None]:
import pandas as pd
import numpy as np

denni_datumy = pd.date_range(start='2022-01-01', end='2022-12-31', freq='D')
prodeje = np.random.randint(10, 100, size=(len(denni_datumy),))

data = {
    'datumy': denni_datumy,
    'prodeje': prodeje
}

df_prodeje = pd.DataFrame(data)
df_prodeje.set_index('datumy', inplace=True)

<details>
    <summary>▶️ Řešení</summary>
    
```python
mesicni_prodej = df_prodeje.resample('M').sum()

df_prodeje['weekday'] = df_prodeje.index.weekday
denni_prumer = df_prodeje.groupby('weekday')['prodeje'].mean()

prodej_posledni_vikend = df_prodeje.loc['2022-12-25':, 'prodeje']

#Úkol 1
mesicni_prodej = df_prodeje.resample( 'M' ).sum( )
mesicni_prodej['mesic'] = mesicni_prodej.index.month_name( )
mesicni_prodej = mesicni_prodej.set_index( 'mesic' )
# display( mesicni_prodej )

#Úkol 2
df_prodeje['den'] = df_prodeje.index.day_name( )
prumerne_prodeje = df_prodeje.groupby( by="den" ).mean( )
prumerne_prodeje = prumerne_prodeje

#Úkol 3
zacatek_posledniho_tydne = df_prodeje.index.max( ) - Timedelta( days = 7 )
posledni_tyden = df_prodeje[df_prodeje.index > zacatek_posledniho_tydne]
```
</details>

<br>

## Skutečné datové sety

---

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.JJu86kKRph1LHt5M7agODQHaHa%26pid%3DApi&f=1&ipt=5cfb9e9f7b451b3a4f7a3ebdc4eb99177d477f20f8145cd818cc4966143f8b2b&ipo=images" width="160" style="margin-left:auto; margin-right:auto"/>

Čištění dat je proces, který patří k samotné práci s daty.

Spolu s některými souvisejícími úkony, patří mezi ty více frustrující.

Nesmyslné datové typy, zkomolené časové údaje, nefungující transformace.

In [None]:
from pandas import DataFrame

In [None]:
df_uzivatele = DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'Age': [None, 20, None, 22, 23],
    'Height_cm': [160, 170, 175, None, 165],
    'Weight_kg': [50, 65, 70, 80, 55]
})

In [None]:
df_uzivatele.head(3)

Ihned po načtení je nejlepší data prozkoumat.

Nejenom datové typy ale také mít povědomí **o chybějících hodnotách**:

In [None]:
df_uzivatele.info()

<br>

Pomocí metody `info` si uděláš aspoň povrchní přehled o hodnotách, datových typech a chybějících hodnotách.

<br>

### Kolik mi chybí údajů

---

Vždycky přistupuj k datům s mírnou skepsí.

Otázkou potom není, *JESTLI* mi chybí data, ale *KOLIK* dat mi chybí **a kde**.

In [None]:
chybejici_hodnoty = df_uzivatele.isnull()  # isna()

In [None]:
chybejici_hodnoty

<br>

Pomocí metody `isnull` nahradíš všechny chybějící hodnoty v tabulce/sloupcích pomocí `True`.

Pokud nechybí, nahradí s `False`.

In [None]:
type(chybejici_hodnoty)

Takový výstup ale není zcela reprezentativní.

Proto je potřeba, sečíst všechny `True` hodnoty po sloupcích:

In [None]:
chybejici_hodnoty = df_uzivatele.isnull().sum()

In [None]:
chybejici_hodnoty

<br>

Opět v jednotkách to nemusí zcela prozrazovat chybovost.

Nejlepším indikátorem ale bývají **procenta z celkového množství hodnot ve sloupci**:

In [None]:
celkem_zaznamu = df_uzivatele.shape[0]  # 0 ... Indexy, 1 ... sloupce

In [None]:
celkem_chybi = chybejici_hodnoty

In [None]:
celkem_chybi

In [None]:
v_procentech = round(celkem_chybi / celkem_zaznamu * 100, 1)

In [None]:
v_procentech

<br>

případně celkové množství záznamů ve všech sloupcích:

In [None]:
vsechny_bunky = df_uzivatele.shape[0] * df_uzivatele.shape[1]  # 5 * 4

In [None]:
vsechny_chybejici_hodnoty = chybejici_hodnoty.sum()            # 4

In [None]:
celkem_v_procentech = round(vsechny_chybejici_hodnoty / vsechny_bunky * 100, 1)

In [None]:
celkem_v_procentech

<br>

V této ukázce tedy chybí 20 % dat a to není málo!

<br>

### Co s chybějícími hodnotami

---

Je důležité vědět, proč máš takové množství chybějících hodnot.

Chybí ti data, protože neexistují, nebo protože nejsou součástí záznamů v datasetu.

V takových krocích je obvykle nutné, pochopit podstatu údajů (dokumentace, specifikace,..).

Nejjednodušší způsoby, jak s chybějícími daty naložit (ale ne efektivní!!):
1. Zahodit chybějící hodnoty,
2. doplnit chybějící hodnoty.

#### Zahodit chybějící hodnoty

In [None]:
# df_uzivatele.dropna?

In [None]:
df_uzivatele

In [None]:
df_uzivatele.dropna()  # axis=0

<br>

V tento okamžik si zahodíš všechny záznamy, které **postrádaly nějakou hodnotu**.

Někdy je jednodušší zahodit sloupeček, který má chybějící hodnotu:

In [None]:
df_uzivatele.dropna(axis=1)

#### Doplnit automaticky hodnoty

In [None]:
# df_uzivatele.fillna?

In [None]:
df_uzivatele

In [None]:
df_uzivatele.fillna(0)  # replace: "Nan" --> 0

<br>

Pomocí funkce `fillna` můžeš vyplnit místo chybějících hodnot předdefinovanou vlastní hodnotu.

Nebo pomocí argumentu pro `method` pracovat s elegantnějším zadáním.

Nahradit chybějící hodnoty hodnotou, která následuje bezprostředně za ní ve stejném sloupci (To má velký smysl u souborů dat, kde mají pozorování nějaké logické pořadí.)

In [None]:
df_uzivatele

In [None]:
df_uzivatele.fillna(method='bfill', axis=0)

In [None]:
df_uzivatele.fillna(method='ffill', axis=0).fillna(19)

## Encoding

---

Problémy s kódováním jsou běžné.

Jde o proces, který mapuje **bajtové stringy** (`0110101011`) na **uživatelsky čitelný text** (`"ahoj!"`).

Tento problém nastane, pokud se snažíš načíst zdroj v jiné kódovací sadě, než byl soubor zapsaný.

<br>

Protože je těchto sad hodně, občas skončíš s *escapovanými znaky*, nebo s neznámými kliky-háky:

In [None]:
æ–‡å

<br>

Případně pokud nelze domapovat znaky:

��

<br>

V **Pythonu 2** nebylo lehké *encoding* zajistit.

V **Pythonu 3** je celý proces o dost jednodušší.

Standardem pro práci bývá obyčejně UTF-8. Na to ale zrovna v našich končinách nemůžeš spoléhat.

In [None]:
veta = "Matouš zaplatil 100 $"

In [None]:
# veta?

<br>

Údaj, který vidíš výš je datový typ `str`.

In [None]:
prevedena_veta = veta.encode("utf-8", errors="replace")

In [None]:
prevedena_veta

In [None]:
prevedena_veta?

<br>

Dál je možné, převést `str` na `bytes`. Tedy sekvenci čísel.

Jak ale teď tato sekvence vypadá:

In [None]:
prevedena_veta

<br>

Celou větu můžeš zpátky kódovat pomocí funkce `decode` z `bytes` na `str`:

In [None]:
print(prevedena_veta.decode("utf-8"))

<br>

Pokud ale zvolíš jinou sadu, nemusíš dostat stejné hodnoty:

In [None]:
print(prevedena_veta.decode("windows-1250"))

In [None]:
print(prevedena_veta.decode("ascii"))

<br>

Toto a další neúspěšné postupy je samozřejmě špatně a ty se tomu chceš určitě vyhnout.

In [None]:
from pandas import read_csv

In [None]:
# chybna_sada = read_csv("neznamy_vzorek.csv")

<br>

Ne vždy je možné, defaultně pracovat se znakovou sadou **UTF-8**.

Ve výstupu je vidět, že jde o směs několika sad a ty musíš vyzkoušet, jaká bude fungovat.

In [None]:
import sys

In [None]:
sys.getdefaultencoding()

In [None]:
!pip install chardet

In [None]:
from chardet.universaldetector import UniversalDetector

In [None]:
detector = UniversalDetector()

In [None]:
for line in open("neznamy_vzorek.csv", 'rb'):
    detector.feed(line)
    if detector.done:
        break

detector.close()
print(detector.result)

<br>

Pomocí knihovny `chardet` / `charset_normalizer` identifikuješ, o jaké znakové sady jde:

Nyní máš lepší představu o tom, jakou znakovou sadu soubor používá.

Opatrně na délku `str`, který detekuješ.

Pokud je příliš krátký, může to ovlivnit výsledek.

Naopak pokud je příliš dlouhý, může trvat jeho načtení.

In [None]:
spravna_sada = read_csv("neznamy_vzorek.csv", encoding="Windows-1252")

In [None]:
spravna_sada.head()

In [None]:
spravna_sada.info()

<br>

Tentokrát soubor otevřeš pouze s varováním.

Pro příště je určitě výhodou vytvořit kopii takového souboru, kterou uložíš v ideálním kódování:

In [None]:
spravna_sada.to_csv("kopie_sada_utf8.csv", encoding="utf-8")

In [None]:
# pokus = read_<zdroj>("vzorek_2.csv")

In [None]:
# vzorek = to_<zdroj>(...)

<br>

## Nekonzistentní data

---

Pokud ti data nechybí, ještě neznamená, že musí být nutně v pořádku:

In [1]:
from pandas import DataFrame

In [16]:
chybny_dataset = {
    "id": [111, 112, 113, 114, 115, 116, 117],
    "jmeno": ["Matous", "Marek", "Petr", "Filip", "Jan", "Lukas", "David"],
    "vek": [22, 29, 31, 55, 43, 61, 55],
    "zeme": ["Ceska republika", "Slovensko", "Nemecko", "Ceskarepublika", "Ceska Republika", "Rakousko", "Ceska Reapublika"]
}

In [40]:
df_zamestnanci = DataFrame(chybny_dataset)

In [41]:
df_zamestnanci

Unnamed: 0,id,jmeno,vek,zeme
0,111,Matous,22,Ceska republika
1,112,Marek,29,Slovensko
2,113,Petr,31,Nemecko
3,114,Filip,55,Ceskarepublika
4,115,Jan,43,Ceska Republika
5,116,Lukas,61,Rakousko
6,117,David,55,Ceska Reapublika


Různé zdroje, správci můžou způsobit nejednotný zápis a dopustit se *nekonzistence*.

In [12]:
df_zamestnanci["zeme"].unique()

array(['Ceska republika', 'Slovensko', 'Nemecko', 'Ceskarepublika',
       'Ceska Republika', 'Rakousko'], dtype=object)

<br>

To můžou být jak malá velká písmena, tak různé znaky, chybějící mezery apod.

Odstranit je není náročné.

Náročné může být opět rozpoznání, takové komplikace.

In [20]:
df_zamestnanci["zeme"].str.lower().unique()

array(['ceska republika', 'slovensko', 'nemecko', 'ceskarepublika',
       'rakousko', 'ceska reapublika'], dtype=object)

<br>

Některé chyby, ale můžou způsobit paseku. Třeba chybějící mezery.

Tady je nejlepší, pomoci si vhodným nástrojem `fuzzywuzzy`.

In [None]:
!pip install fuzzywuzzy

In [21]:
import fuzzywuzzy
from fuzzywuzzy import process



Pro menší datasety s chybějícími mezerami aj., může tato knihovna pracovat prakticky sama.

Účel této knihovny je rozpoznat podobné řetězce, jaké

In [26]:
shodne = fuzzywuzzy.process.extract(
    "Ceska republika",
    df_zamestnanci["zeme"],
    limit=6,
    scorer=fuzzywuzzy.fuzz.token_sort_ratio
)

In [24]:
df_zamestnanci["zeme"]

0     Ceska republika
1           Slovensko
2             Nemecko
3      Ceskarepublika
4     Ceska Republika
5            Rakousko
6    Ceska Reapublika
Name: zeme, dtype: object

In [28]:
df_zamestnanci["zeme"].unique()

array(['Ceska republika', 'Slovensko', 'Nemecko', 'Ceskarepublika',
       'Ceska Republika', 'Rakousko', 'Ceska Reapublika'], dtype=object)

In [27]:
shodne

[('Ceska republika', 100, 0),
 ('Ceska Republika', 100, 4),
 ('Ceskarepublika', 97, 3),
 ('Ceska Reapublika', 97, 6),
 ('Slovensko', 25, 1),
 ('Nemecko', 18, 2)]

Nyní můžeš vidět shodné `str` se zvoleným zadáním, jak to vidí `fuzzywuzzy`.

Pro nahrazení je optimální nachystat vhodnou uživatelskou funkci:

In [27]:
shodne

[('Ceska republika', 100, 0),
 ('Ceska Republika', 100, 4),
 ('Ceskarepublika', 97, 3),
 ('Ceska Reapublika', 97, 6),
 ('Slovensko', 25, 1),
 ('Nemecko', 18, 2)]

In [29]:
nejblizsi_shoda = [shoda[0] for shoda in shodne if shoda[1] >= 90]

In [30]:
nejblizsi_shoda

['Ceska republika', 'Ceska Republika', 'Ceskarepublika', 'Ceska Reapublika']

In [31]:
shodujici_udaje = df_zamestnanci["zeme"].isin(nejblizsi_shoda)  # membership testing

In [32]:
shodujici_udaje

0     True
1    False
2    False
3     True
4     True
5    False
6     True
Name: zeme, dtype: bool

In [33]:
df_zamestnanci

Unnamed: 0,id,jmeno,vek,zeme
0,111,Matous,22,Ceska republika
1,112,Marek,29,Slovensko
2,113,Petr,31,Nemecko
3,114,Filip,55,Ceskarepublika
4,115,Jan,43,Ceska Republika
5,116,Lukas,61,Rakousko
6,117,David,55,Ceska Reapublika


In [39]:
df_zamestnanci

Unnamed: 0,id,jmeno,vek,zeme
0,111,Matous,22,Ceska republika
1,112,Marek,29,Slovensko
2,113,Petr,31,Nemecko
3,114,Filip,55,Ceska republika
4,115,Jan,43,Ceska republika
5,116,Lukas,61,Rakousko
6,117,David,55,Ceska republika


In [42]:
df_zamestnanci.loc[shodujici_udaje,"zeme"]

0     Ceska republika
3      Ceskarepublika
4     Ceska Republika
6    Ceska Reapublika
Name: zeme, dtype: object

In [43]:
vysledek = df_zamestnanci.loc[shodujici_udaje, "zeme"] = "Ceska republika"

In [45]:
df_zamestnanci

Unnamed: 0,id,jmeno,vek,zeme
0,111,Matous,22,Ceska republika
1,112,Marek,29,Slovensko
2,113,Petr,31,Nemecko
3,114,Filip,55,Ceska republika
4,115,Jan,43,Ceska republika
5,116,Lukas,61,Rakousko
6,117,David,55,Ceska republika


In [None]:
def nahrad_shody_stringem(dframe, jmeno_sloupce, vzor, min_shoda=90):
    
    vsechny_stringy = dframe[sloupec].unique()
    
    shody = fuzzywuzzy.process.extract(vzor, vsechny_stringy, limit=5,
                                       scorer=fuzzywuzzy.fuzz.token_sort_ratio)
    
    nejblizsi_shoda = [shoda [0] for shoda in shody if shoda[1] >= min_shoda]
    
    shodujici_zaznam = dframe[sloupec].isin(nejblizsi_shoda)
    dframe.loc[shodujici_zaznam, sloupec] = vzor

In [None]:
nahrad_shody_stringem(dframe=df_zamestnanci, jmeno_sloupce="zeme", vzor="Ceska republika")

In [None]:
df_zamestnanci

<br>

#### **🧠 CVIČENÍ 🧠, procvič si práci s chybným datasetem**

Analyzuj prodeje produktu ve fiktivní společnosti během jednoho roku a zjisti následující:
1. Nahraj soubor do `DataFrame`, jméno souboru `cviceni_3.csv` (správný encoding, správné rozdělení),
2. projdi sloupce, zkontroluj, kde je problém s daty,
3. vypiš všechny záznamy, které mají ve sloupci `mesto` hodnotu `Praha`.

In [None]:
from pandas import read_csv

In [None]:
# ze souboru DFrame (chardet / charset_normalizer)

In [None]:
cviceni_3_df = read_csv("cviceni_3.csv")  # ??? Doplnit delší zdr. soubor (fce Download)

In [None]:
# analýza dat v DFrame

In [None]:
# v 'mesto' --> vzor: 'Praha': 'praaahaaa', 'praha', ..

In [None]:
import pandas as pd
import re
import fuzzywuzzy
from fuzzywuzzy import process

In [None]:
data = pd.read_csv(
    'C:\\Users\\je97214\\Desktop\\cviceni_3.csv',
    encoding = 'cp1250',
    sep = ';'
)

In [None]:
def nahrad_shody_stringem(dframe, sloupec, vzor, min_shoda=60):
    vsechny_stringy = dframe[sloupec].unique()
    shody = fuzzywuzzy.process.extract(vzor, vsechny_stringy, limit=5, scorer=fuzzywuzzy.fuzz.token_sort_ratio)
    nejblizsi_shoda = [shoda [0] for shoda in shody if shoda[1] >= min_shoda]
    shodujici_zaznam = dframe[sloupec].isin(nejblizsi_shoda)
    dframe.loc[shodujici_zaznam, sloupec] = vzor

In [None]:
print( 'Problémy s daty:' )
display( data[~data['narozeni'].str.contains('\\d{1,2}/\\d{1,2}/\\d{4}', regex= True, na=False)] )
display( data['mesto'].unique( ) )

In [None]:
#oprava narození
data['narozeni'] = data['narozeni'].astype( 'datetime64' )
#oprava města
nahrad_shody_stringem(dframe=data, sloupec="mesto", vzor="Praha")
print( 'Výsledek:' )
data.query( "mesto == 'Praha'" )

<details>
    <summary>▶️ Řešení</summary>
    
    ```python
    df_ukazka = read_csv("cviceni_3.csv", encoding="Windows-1250", delimiter=";")

    def nahrad_shody_stringem(df, vzor, vyber, min_shoda=85):
        shody = fuzzywuzzy.process.extract(vzor, vyber, limit=20,
                                           scorer=fuzzywuzzy.fuzz.token_sort_ratio)

        nejblizsi_shoda = [shoda[0] for shoda in shody if shoda[1] >= min_shoda]

        shodujici_zaznam = vyber.isin(nejblizsi_shoda)
        df.loc[shodujici_zaznam, "mesto"] = vzor
        
    nahrad_shody_stringem(df_ukazka, "Praha", df_ukazka["mesto"])
    vystup = df_ukazka[df_ukazka["mesto"] == "Praha"]
    ```
</details>

---