# Python Data, 2024

---

* [Časové řady](#Časové-řady),
    - [úvodní motivace](#Úvod),
    - [základní objekty](#Základní-objekty),
    - [indexování časovými údaji](#Indexování-s-časem),
    - [funkce to_datetime](#Funkce-TO_DATETIME),
    - [funkce date_range](#Funkce-DATE_RANGE),
    - [resampling](#Resampling),
    - [zpřesňování](#Zpřesňování),
* [Skutečné hodnoty](#Skutečné-datové-sety),
    - [chybějící údaje](#Kolik-mi-chybí-údajů),
    - [encoding](#Encoding),
    - [nekonzistentní data](#Nekonzistentní-data).


<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.odqbr-09dxxBQjF7x7NyBAHaII%26pid%3DApi&f=1&ipt=5b4a03c1dd38b52108237102ebb350595a5d6ea6a50572f5897ca89fbf5b5445&ipo=images" width="160" style="margin-left:auto; margin-right:auto"/>

<br>

## Časové řady

---

Část *frameworku* byla vyvinuta za účelem **finančního modelování**.

Proto je více než dobře vybavena sadou nástrojů, které umí pracovat **s daty, časem a časovými objekty**.

<br>

Uplatnění:
* **Analýza a predikce**: Časové řady umožňují analyzovat vývoj hodnot v čase a předpovídat budoucí trendy nebo sezónní změny. To je klíčové v oblastech jako finance, ekonomika, prodej, počasí a mnoho dalších.

* **Efektivní manipulace s časem**: Pandas poskytuje nástroje pro efektivní práci s časovými řadami, což zjednodušuje úkoly, jako je agregace, interpolace nebo časové posuny. Díky integrovaným funkcím můžete snadno pracovat s daty různých časových frekvencí a konvertovat mezi nimi.

* **Časově závislé analýzy**: Časové řady umožňují provádět časově závislé analýzy, jako je detekce změn v trendech, identifikace sezónních vlivů nebo identifikace časových závislostí mezi proměnnými.

* **Flexibilní indexace**: Pandas podporuje flexibilní indexaci časových řad, což usnadňuje filtrování, řazení a výběr dat na základě časových značek nebo rozsahů.

* **Kompatibilita s dalšími knihovnami**: Pandas je kompatibilní s mnoha dalšími knihovnami pro analýzu časových řad, jako je statsmodels nebo scikit-learn. To usnadňuje integraci a rozšíření vašich analýz s pokročilejšími metodami a algoritmy.
    
<br>

Jde například o údaje typu:
* *timestampy*, údaj odkazující na konkrétní **časový okamžik** (např. `26. července 2024 v 14:36 hod.`),
* *časové intervaly*, tedy období odkazují na délku času **mezi konkrétním začátkem a koncem** (např. intervaly ze dne na den),
* *time delta* objekty, tedy přesné délky času (např. 22,22 sekundy).

#### Data a čas v Pythonu

---

Standardní výbavou Pythonu jsou knihovny `datetime`:

In [1]:
from datetime import datetime

In [2]:
datetime(year=2023, month=4, day=5)

datetime.datetime(2023, 4, 5, 0, 0)

<br>

Nebo knihovna `dateutil` pro parsování datových typů z různých stringových zadání:

In [3]:
from dateutil import parser

In [4]:
date = parser.parse("26th of november, 2024")

In [6]:
date

datetime.datetime(2024, 11, 26, 0, 0)

Kde pomocí metody `strftime` můžeš vypsat den:

In [7]:
date.strftime("%A")

'Tuesday'

#### Data a čas v numpy

---

Některé nedostatky uvnitř knihoven `datetime` a `dateutil` vedli ke vzniku sady nástrojů.

Tyto doplňky vznikly pod hlavičkou knihovny `numpy`.

In [10]:
import numpy as np
from numpy import array, arange

In [11]:
date = array('2023-04-05', dtype=np.datetime64)

In [12]:
date

array('2023-04-05', dtype='datetime64[D]')

<br>

Pokud potřebuješ pole následujících 7 dní:

In [13]:
date + arange(7)

array(['2023-04-05', '2023-04-06', '2023-04-07', '2023-04-08',
       '2023-04-09', '2023-04-10', '2023-04-11'], dtype='datetime64[D]')

<br>

Vzhledem k jednotnému datovu typu v poli pro **numpy** `datetime64` může tento typ operace
provádět mnohem rychleji, než přímo v Pythonu `datetime` objekty, zejména když objekty nabývají na velikosti.

#### Data a čas v pandách

---

Jde o kombinace objektů z obou předchozích podkapitol.

Ty dávají dohromady to nejlepší prostředky pro zacházení s časem.

In [65]:
import pandas as pd

In [None]:
date = pd.to_datetime("5th of April, 2023")

In [16]:
date

Timestamp('2023-04-05 00:00:00')

In [17]:
date.strftime("%A")

'Wednesday'

<br>

## Časové řady

---

V podstatě jde o hlavní nástroj, který tato knihovna dovede nabídnout.

#### Indexování časem
---
`DatetimeIndex` obsahuje časové značky (*timestamp*), které jsou uloženy ve formátu `datetime64` s nanosekundovou přesností.

Tento objekt umožňuje efektivní práci s časovými řadami a poskytuje mnoho funkcí pro manipulaci s daty a časy.

Výhody práce s `DatetimeIndex` objektem:
* Časové zóny,
* frekvence,
* časově závislé selekce,
* atributy časových značek,
* operace s časem.

In [19]:
datumy = ["2023-04-05", "2022-04-05", "2021-04-05", "2020-04-05"]

In [None]:
indexy = pd.DatetimeIndex(datumy)

In [None]:
hodnoty = [pd.to_datetime(den).strftime("%A") for den in datumy]

In [22]:
hodnoty

['Wednesday', 'Tuesday', 'Monday', 'Sunday']

In [None]:
hodnoty_sl = pd.Series(hodnoty, index=indexy)

In [28]:
hodnoty_sl

2023-04-05    Wednesday
2022-04-05      Tuesday
2021-04-05       Monday
2020-04-05       Sunday
dtype: object

In [25]:
type(indexy)

pandas.core.indexes.datetimes.DatetimeIndex

In [29]:
# hodnoty_sl['2023-04-05':'2021-04-05']   -> KeyError

In [32]:
hodnoty_sl.sort_index()['2021-04-05':'2023-04-05']

2021-04-05       Monday
2022-04-05      Tuesday
2023-04-05    Wednesday
dtype: object

<br>

## Základní objekty

---

Mezi základní objekty pro práci s časem patří:
* `Timestamp` typ (související struktura Indexu `DatetimeIndex`,
* `Period` typ (.. `PeriodIndex`),
* `Timedelta` typ (.. `TimedeltaIndex`).

#### Timestamp & DatetimeIndex

---

Nejčastější datové typy, které lze vyvolat přímo, ovšem běžnější je pracovat s funkcí `to_datetime`.

Funkce `to_datetime` umí parsovat různé stringové formáty.

<br>

### Práce s jedním datumem

---

In [None]:
datum = pd.to_datetime("05/04/2023")  # MM/DD/RRRR

<br>

Opatrně na specifický formát datumu:

In [43]:
datum                              # MM/DD/RRRR

Timestamp('2023-05-04 00:00:00')

In [44]:
type(datum)

pandas._libs.tslibs.timestamps.Timestamp

In [None]:
datum.month_name()  #  --> May

'May'

In [None]:
datum = pd.to_datetime("05/04/2023", dayfirst=True)  # DD/MM/RRRR

In [None]:
datum.month_name()  #  --> April

'April'

Pokud do funkce `to_datetime` vložíš jedinou hodnotu, vrací objekty typu `Timestamp`.

<br>

### Specifický formát

---

Pokud se *parser* ztratí nebo tvoje zadání neodpovídá jeho vyhotovení:

In [None]:
pd.to_datetime("12-11-2010 00:00", format="%d-%m-%Y %H:%M")

Timestamp('2010-11-12 00:00:00')

In [None]:
naformatovany_datum = pd.to_datetime("05/04/2023", format='%d/%m/%Y')

In [50]:
naformatovany_datum.month_name()

'April'

<br>

### Práce s několika datumy

---

In [None]:
datumy = pd.to_datetime([
    datetime(2023, 4, 5), "5th of April 2023", "2023-Apr-5", "05-04-2023", "20230405"
])

In [52]:
datumy

DatetimeIndex(['2023-04-05', '2023-04-05', '2023-04-05', '2023-05-04',
               '2023-04-05'],
              dtype='datetime64[ns]', freq=None)

In [53]:
type(datumy)

pandas.core.indexes.datetimes.DatetimeIndex

Zatímco pole hodnot s datumy, které funkce `to_datetime` zpracuje vrací objekt typu `DatetimeIndex`.

<br>

Objekt `DatetimeIndex` potom můžeš konvertovat na `PeriodIndex` pomocí *metody* `to_period`:

In [58]:
datumy.to_period?

[31mSignature:[39m datumy.to_period(*args, **kwargs)
[31mDocstring:[39m
Cast to PeriodArray/PeriodIndex at a particular frequency.

Converts DatetimeArray/Index to PeriodArray/PeriodIndex.

Parameters
----------
freq : str or Period, optional
    One of pandas' :ref:`period aliases <timeseries.period_aliases>`
    or an Period object. Will be inferred by default.

Returns
-------
PeriodArray/PeriodIndex

Raises
------
ValueError
    When converting a DatetimeArray/Index with non-regular values,
    so that a frequency cannot be inferred.

See Also
--------
PeriodIndex: Immutable ndarray holding ordinal values.
DatetimeIndex.to_pydatetime: Return DatetimeIndex as object.

Examples
--------
>>> df = pd.DataFrame({"y": [1, 2, 3]},
...                   index=pd.to_datetime(["2000-03-31 00:00:00",
...                                         "2000-05-31 00:00:00",
...                                         "2000-08-31 00:00:00"]))
>>> df.index.to_period("M")
PeriodIndex(['2000-03', '20

In [64]:
datumy.to_period(freq="h")

PeriodIndex(['2023-04-05 00:00', '2023-04-05 00:00', '2023-04-05 00:00',
             '2023-05-04 00:00', '2023-04-05 00:00'],
            dtype='period[h]')

<br>

Tato metoda je užitečná, pokud chcete převést časové řady **na určité časové období**.

Když budeš třeba potřebovat převést hodnoty **z denních dat na měsíční data**.

<br>

### Denní data

---

In [67]:
datumy.to_period("D")

PeriodIndex(['2023-04-05', '2023-04-05', '2023-04-05', '2023-05-04',
             '2023-04-05'],
            dtype='period[D]')

<br>

### Měsíční data

---

In [69]:
datumy.to_period(freq="M")

PeriodIndex(['2023-04', '2023-04', '2023-04', '2023-05', '2023-04'], dtype='period[M]')

In [82]:
data = {'date': pd.date_range(start='2022-01-01', periods=10, freq='ME'),
        'sales': [100, 102, 105, 107, 110, 112, 115, 117, 120, 122]}

In [83]:
data_df = pd.DataFrame(data)

In [84]:
data_df

Unnamed: 0,date,sales
0,2022-01-31,100
1,2022-02-28,102
2,2022-03-31,105
3,2022-04-30,107
4,2022-05-31,110
5,2022-06-30,112
6,2022-07-31,115
7,2022-08-31,117
8,2022-09-30,120
9,2022-10-31,122


In [85]:
data_df.set_index('date', inplace=True)

In [86]:
data_df

Unnamed: 0_level_0,sales
date,Unnamed: 1_level_1
2022-01-31,100
2022-02-28,102
2022-03-31,105
2022-04-30,107
2022-05-31,110
2022-06-30,112
2022-07-31,115
2022-08-31,117
2022-09-30,120
2022-10-31,122


In [87]:
period_df = data_df.to_period(freq='M')

In [88]:
period_df

Unnamed: 0_level_0,sales
date,Unnamed: 1_level_1
2022-01,100
2022-02,102
2022-03,105
2022-04,107
2022-05,110
2022-06,112
2022-07,115
2022-08,117
2022-09,120
2022-10,122


<br>

### TimedeltaIndex

---

Jde o rozdíl v jednotkách času.

Nejčastěji se s tímto objektem setkáš, pokud potřebuješ získat **rozdíl mezi dvěma datumy**.

In [93]:
specialni_datumy = pd.to_datetime([
    datetime(2022, 4, 5), "5th of April 2021", "2020-Apr-5", "05-04-2019", "20180405"]
)

In [94]:
specialni_datumy

DatetimeIndex(['2022-04-05', '2021-04-05', '2020-04-05', '2019-05-04',
               '2018-04-05'],
              dtype='datetime64[ns]', freq=None)

In [95]:
datumy - specialni_datumy

TimedeltaIndex(['365 days', '730 days', '1095 days', '1461 days', '1826 days'], dtype='timedelta64[ns]', freq=None)

<br>

Rozdíl mezi datumy můžeš počítat i pro jednotlivé `Timestamp` hodnoty:

In [96]:
datumy[0]

Timestamp('2023-04-05 00:00:00')

In [97]:
specialni_datumy[0]

Timestamp('2022-04-05 00:00:00')

In [98]:
datumy[0] - specialni_datumy[0]

Timedelta('365 days 00:00:00')

<br>

**🧠 CVIČENÍ 🧠, procvič si funkci `to_datetime`**

In [99]:
data = {  # Převeď datumy na formát RRRR-MM-DD
    "Name": ["Event A", "Event B", "Event C"],
    "Date": ["21-11-2024", "05-12-2024", "15-01-2025"],
}

In [100]:
nova_data_df = pd.DataFrame(data)

In [102]:
nova_data_df

Unnamed: 0,Name,Date
0,Event A,21-11-2024
1,Event B,05-12-2024
2,Event C,15-01-2025


In [105]:
nova_data_df['New Date'] = pd.to_datetime(nova_data_df['Date'], dayfirst=True)  # "format" chybí

In [106]:
nova_data_df

Unnamed: 0,Name,Date,New Date
0,Event A,21-11-2024,2024-11-21
1,Event B,05-12-2024,2024-12-05
2,Event C,15-01-2025,2025-01-15


In [107]:
nova_data_df['New Date'] = pd.to_datetime(nova_data_df['Date'], format='%d-%m-%Y')

In [108]:
nova_data_df

Unnamed: 0,Name,Date,New Date
0,Event A,21-11-2024,2024-11-21
1,Event B,05-12-2024,2024-12-05
2,Event C,15-01-2025,2025-01-15


<details>
    <summary>▶️ Řešení</summary>
    
```python
import pandas as pd

data = {
    "Name": ["Event A", "Event B", "Event C"],
    "Date": ["21-11-2024", "05-12-2024", "15-01-2025"],
}


df = pd.DataFrame(data)


def convert_dates(df):
    df["Date"] = pd.to_datetime(df["Date"], format="%d-%m-%Y")
    return df

converted_df = convert_dates(df)
print(converted_df)
print(converted_df.dtypes)
```
</details>

<br>

## Funkce `date_range`

---

Aby bylo zadání řady (sekvence) dat pohodlnější, vyzkoušej funkci `date_range`.

Obdobně potom pracují související funkce:
* `date_range`, timestampy,
* `period_range`, periody,
* `timedelta_range`, pro delty.

<br>

### Počet period

---

In [109]:
datumy_ind = pd.date_range("01-01-1992", periods=8)

In [110]:
datumy_ind

DatetimeIndex(['1992-01-01', '1992-01-02', '1992-01-03', '1992-01-04',
               '1992-01-05', '1992-01-06', '1992-01-07', '1992-01-08'],
              dtype='datetime64[ns]', freq='D')

<br>

## Frekvence

---

In [113]:
datumy_mesicne_ind = pd.date_range("01-01-1992", periods=12, freq="ME")

In [114]:
datumy_mesicne_ind

DatetimeIndex(['1992-01-31', '1992-02-29', '1992-03-31', '1992-04-30',
               '1992-05-31', '1992-06-30', '1992-07-31', '1992-08-31',
               '1992-09-30', '1992-10-31', '1992-11-30', '1992-12-31'],
              dtype='datetime64[ns]', freq='ME')

<br>

### Hodinové periody

---

In [115]:
from pandas import timedelta_range

In [119]:
hodinove_ind = timedelta_range(0, periods=12, freq='h')

In [120]:
hodinove_ind

TimedeltaIndex(['0 days 00:00:00', '0 days 01:00:00', '0 days 02:00:00',
                '0 days 03:00:00', '0 days 04:00:00', '0 days 05:00:00',
                '0 days 06:00:00', '0 days 07:00:00', '0 days 08:00:00',
                '0 days 09:00:00', '0 days 10:00:00', '0 days 11:00:00'],
               dtype='timedelta64[ns]', freq='h')

In [121]:
# timedelta_range?

<br>

### Tabulka frekvencí

---

Časovou paletou frekvencí, kterou framework `pandas` nabízí je tato tabulka:

| String | Popisek |
| :-: | :- |
| `D` | kalendářní den |
| `W` | týden |
| `ME` | konec měsíce |
| `QE` | konec čtvrtletí |
| `YE` | konec roku |
| `h` | hodiny |
| `min` | minuty |
| `s` | vteřiny |
| `B` | pracovní den |
| `BME` | konec pracovního měsíce |
| `BQE` | konec pracovního čtvrtletí |

#### Netradiční frekvence

---

In [124]:
pd.timedelta_range(start='1h', periods=5, freq="1h15min")

TimedeltaIndex(['0 days 01:00:00', '0 days 02:15:00', '0 days 03:30:00',
                '0 days 04:45:00', '0 days 06:00:00'],
               dtype='timedelta64[ns]', freq='75min')

<br>

### Resampling

---

*Resampling* nebo také *převzorkování* je proces, který upravuje frekvenci časové řady.

*Resampling* se obvykle používá **pro snížení frekvence** (z hodinových dat na denní data).

*Resampling* zahrnuje **agregaci dat**.

V `pandas` se k tomu používá metoda `resample`, která má jako parametr novou frekvenci, na kterou chcete data převést:

In [125]:
import pandas as pd
import numpy as np
# from pandas import DataFrame, date_range

In [126]:
data = {
    'date': pd.date_range(start='2022-01-01', periods=60, freq='D'),
    'sales': np.random.randint(10, 100, size=60)
}

In [127]:
data_df = pd.DataFrame(data)

In [128]:
data_df.head()

Unnamed: 0,date,sales
0,2022-01-01,66
1,2022-01-02,75
2,2022-01-03,14
3,2022-01-04,71
4,2022-01-05,50


Dostupné sloupce:

In [129]:
data_df.columns

Index(['date', 'sales'], dtype='object')

Dostupné indexy:

In [130]:
data_df.index

RangeIndex(start=0, stop=60, step=1)

In [131]:
data_df.set_index('date', inplace=True)

In [132]:
data_df.head()

Unnamed: 0_level_0,sales
date,Unnamed: 1_level_1
2022-01-01,66
2022-01-02,75
2022-01-03,14
2022-01-04,71
2022-01-05,50


<br>

Pomocí metody `resample` současně hodnoty agregujeme a snížíme frekvenci:

In [134]:
mesicni_data = data_df.resample('ME').sum()

In [135]:
mesicni_data

Unnamed: 0_level_0,sales
date,Unnamed: 1_level_1
2022-01-31,1609
2022-02-28,1339
2022-03-31,82


In [136]:
data_df.tail()

Unnamed: 0_level_0,sales
date,Unnamed: 1_level_1
2022-02-25,32
2022-02-26,57
2022-02-27,94
2022-02-28,19
2022-03-01,82


<br>

Upravit původní vzorek dat na zamýšlenou frekvenci, tedy `W`:

In [137]:
tydenni_data = data_df.resample('W').sum()

In [138]:
tydenni_data

Unnamed: 0_level_0,sales
date,Unnamed: 1_level_1
2022-01-02,141
2022-01-09,243
2022-01-16,285
2022-01-23,512
2022-01-30,367
2022-02-06,409
2022-02-13,276
2022-02-20,274
2022-02-27,422
2022-03-06,101


In [139]:
nahodny_den = pd.to_datetime('2022-02-01')

In [140]:
nahodny_den.weekofyear

5

<br>

### Zpřesňování

---

Zahrnuje **zvýšení frekvence časových řad**.

Přičemž se nově vytvořené hodnoty obvykle interpolují nebo doplňují nějakou konstantou.

V pandas se k zpřesňování používá metoda `asfreq`, která má jako parametr **novou frekvenci**, na kterou chcete data převést.

In [141]:
data = {
    'date': pd.date_range(start='2022-01-01', end='2022-03-01', freq='D'),
    'sales': np.random.randint(10, 150, size=60)  # Opatrně na délky sekvencí
}

In [142]:
dalsi_data_df = pd.DataFrame(data)

In [143]:
dalsi_data_df.head()

Unnamed: 0,date,sales
0,2022-01-01,147
1,2022-01-02,52
2,2022-01-03,132
3,2022-01-04,83
4,2022-01-05,15


In [144]:
dalsi_data_df.set_index('date', inplace=True)

In [146]:
denni_data = dalsi_data_df.asfreq('h')

<br>

Pokud nezadáš hodnotu pro výplňovací parametr, uvidíš prázdné hodnoty `NaN`:

In [147]:
denni_data.head(10)

Unnamed: 0_level_0,sales
date,Unnamed: 1_level_1
2022-01-01 00:00:00,147.0
2022-01-01 01:00:00,
2022-01-01 02:00:00,
2022-01-01 03:00:00,
2022-01-01 04:00:00,
2022-01-01 05:00:00,
2022-01-01 06:00:00,
2022-01-01 07:00:00,
2022-01-01 08:00:00,
2022-01-01 09:00:00,


Metoda `asfreq` bere jako parametr novou frekvenci, na kterou chceme data převést.

V případě výše jde o frekvenci `H`, což znamená **hodinová data**.

Protože při zpřesňování se **vytvoří chybějící hodnoty** (v důsledku zvýšení frekvence), je potřeba zvolit metodu pro jejich doplnění.

In [150]:
denni_data = dalsi_data_df.asfreq('h', method='ffill')

In [151]:
denni_data.head()

Unnamed: 0_level_0,sales
date,Unnamed: 1_level_1
2022-01-01 00:00:00,147
2022-01-01 01:00:00,147
2022-01-01 02:00:00,147
2022-01-01 03:00:00,147
2022-01-01 04:00:00,147


Výš jde o metodu `forward fill` (parametr `method='ffill'`), která kopíruje předchozí hodnotu pro výplň chybějících hodnot.

Další možností je použít metodu `'back fill'` (parametr `method='bfill'`), která kopíruje následující hodnotu pro výplň chybějících hodnot.

In [154]:
denni_data = dalsi_data_df.asfreq('h', method='bfill')

In [155]:
denni_data.head()

Unnamed: 0_level_0,sales
date,Unnamed: 1_level_1
2022-01-01 00:00:00,147
2022-01-01 01:00:00,52
2022-01-01 02:00:00,52
2022-01-01 03:00:00,52
2022-01-01 04:00:00,52


In [157]:
mesicni_data_asfreq = dalsi_data_df.asfreq('ME')

In [158]:
mesicni_data

Unnamed: 0_level_0,sales
date,Unnamed: 1_level_1
2022-01-31,1609
2022-02-28,1339
2022-03-31,82


In [167]:
mesicni_data_resample = dalsi_data_df.resample('ME').sum()

In [168]:
mesicni_data_resample

Unnamed: 0_level_0,sales
date,Unnamed: 1_level_1
2022-01-31,2189
2022-02-28,2569
2022-03-31,28


In [None]:
# dalsi_data_df.asfreq?

<br>

**🧠 CVIČENÍ 🧠, procvič si časové řady**

Analyzuj prodeje produktu ve fiktivní společnosti během jednoho roku a zjisti následující:
1. Celkový prodej za každý měsíc.
2. Průměrný prodej za každý den v týdnu.
3. Denní prodej za poslední týden.

In [169]:
import pandas as pd
import numpy as np

denni_datumy = pd.date_range(start='2022-01-01',
                             end='2022-12-31',
                             freq='D')
prodeje = np.random.randint(10, 100, size=(len(denni_datumy),))

data = {'datumy': denni_datumy, 'prodeje': prodeje}

df_prodeje = pd.DataFrame(data)
df_prodeje.set_index('datumy', inplace=True)

In [170]:
df_prodeje.head()

Unnamed: 0_level_0,prodeje
datumy,Unnamed: 1_level_1
2022-01-01,18
2022-01-02,47
2022-01-03,62
2022-01-04,34
2022-01-05,10


<details>
    <summary>▶️ Řešení</summary>
    
    ```python
    monthly_sales = df.resample('M').sum()
    print("Celkový prodej za každý měsíc:")
    print(monthly_sales)

    df_prodeje['weekday'] = df_prodeje.index.weekday
    average_weekday_sales = df_prodeje.groupby('weekday')['prodeje'].mean()
    print("\nPrůměrný prodej za každý den v týdnu:")
    print(average_weekday_sales)

    last_week_sales = df.loc['2022-12-25':, 'sales']
    print("\nDenní prodej za poslední týden:")
    print(last_week_sales)
    ```
</details>


<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.JJu86kKRph1LHt5M7agODQHaHa%26pid%3DApi&f=1&ipt=5cfb9e9f7b451b3a4f7a3ebdc4eb99177d477f20f8145cd818cc4966143f8b2b&ipo=images" width="160" style="margin-left:auto; margin-right:auto"/>

## Skutečné datové sety

---

Čištění dat je proces, který patří k samotné práci s daty.

Spolu s některými souvisejícími úkony, patří mezi ty více frustrující.

Nesmyslné datové typy, zkomolené časové údaje, nefungující transformace.

In [173]:
uzivatele_df = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'Age': [None, 20, None, 22, 23],
    'Height_cm': [160, 170, 175, None, 165],
    'Weight_kg': [50, 65, 70, 80, 55]
})

In [174]:
uzivatele_df

Unnamed: 0,Name,Age,Height_cm,Weight_kg
0,Alice,,160.0,50
1,Bob,20.0,170.0,65
2,Charlie,,175.0,70
3,David,22.0,,80
4,Eve,23.0,165.0,55


Ihned po načtení je nejlepší data prozkoumat.

Nejenom datové typy ale také mít povědomí **o chybějících hodnotách**:

In [175]:
uzivatele_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Name       5 non-null      object 
 1   Age        3 non-null      float64
 2   Height_cm  4 non-null      float64
 3   Weight_kg  5 non-null      int64  
dtypes: float64(2), int64(1), object(1)
memory usage: 292.0+ bytes


<br>

Pomocí metody `info` si uděláš aspoň povrchní přehled o hodnotách, datových typech a chybějících hodnotách.

<br>

### Kolik mi chybí údajů

---

Vždycky přistupuj k datům s mírnou skepsí.

Otázkou potom není, *JESTLI* mi chybí data, ale *KOLIK* dat mi chybí **a kde**.

In [176]:
chybejici_hodnoty = uzivatele_df.isnull()  # isna()

In [177]:
chybejici_hodnoty

Unnamed: 0,Name,Age,Height_cm,Weight_kg
0,False,True,False,False
1,False,False,False,False
2,False,True,False,False
3,False,False,True,False
4,False,False,False,False


<br>

Pomocí metody `isnull` nahradíš všechny chybějící hodnoty v tabulce/sloupcích pomocí `True`.

Pokud nechybí, nahradí s `False`.

In [178]:
type(chybejici_hodnoty)

pandas.core.frame.DataFrame

Takový výstup ale není zcela reprezentativní.

<br>

Proto je potřeba, sečíst všechny `True` hodnoty po sloupcích:

In [179]:
soucet_chybejich_hodnot = uzivatele_df.isnull().sum()

In [180]:
soucet_chybejich_hodnot

Name         0
Age          2
Height_cm    1
Weight_kg    0
dtype: int64

<br>

Opět v jednotkách to nemusí zcela **prozrazovat chybovost**.

Nejlepším indikátorem ale bývají **procenta z celkového množství hodnot ve sloupci**:

In [181]:
uzivatele_df.shape[0]

5

In [182]:
celkem_zaznamu = uzivatele_df.shape[0]  # 0 ... Indexy, 1 ... sloupce

In [183]:
celkem_chybi = soucet_chybejich_hodnot

In [184]:
v_procentech = round(celkem_chybi / celkem_zaznamu * 100, 1)

In [17]:
v_procentech

Name          0.0
Age          40.0
Height_cm    20.0
Weight_kg     0.0
dtype: float64

<br>

Případně celkové množství záznamů ve všech sloupcích:

In [185]:
vsechny_bunky = uzivatele_df.shape[0] * uzivatele_df.shape[1]  # 5 * 4

In [186]:
vsechny_bunky

20

In [187]:
vsechny_chybejici_hodnoty = chybejici_hodnoty.sum()            # 3

In [188]:
vsechny_chybejici_hodnoty

Name         0
Age          2
Height_cm    1
Weight_kg    0
dtype: int64

In [189]:
soucet_chybejich_hodnot.sum()

np.int64(3)

In [190]:
celkem_v_procentech = round(soucet_chybejich_hodnot.sum() / vsechny_bunky * 100, 1)

In [191]:
celkem_v_procentech

np.float64(15.0)

<br>

V této ukázce tedy chybí 15 % dat a to není málo!

<br>

### Co s chybějícími hodnotami

---

Je důležité vědět, proč máš takové množství chybějících hodnot.

Chybí ti data, protože neexistují, nebo protože nejsou součástí záznamů v datasetu.

V takových krocích je obvykle nutné, pochopit podstatu údajů (dokumentace, specifikace,..).

Nejjednodušší způsoby, jak s chybějícími daty naložit (ale ne efektivní!!):
1. Zahodit chybějící hodnoty,
2. doplnit chybějící hodnoty.

#### Zahodit chybějící hodnoty
---

In [None]:
# df_uzivatele.dropna?

In [192]:
uzivatele_df

Unnamed: 0,Name,Age,Height_cm,Weight_kg
0,Alice,,160.0,50
1,Bob,20.0,170.0,65
2,Charlie,,175.0,70
3,David,22.0,,80
4,Eve,23.0,165.0,55


In [193]:
uzivatele_df.dropna()  # axis=0

Unnamed: 0,Name,Age,Height_cm,Weight_kg
1,Bob,20.0,170.0,65
4,Eve,23.0,165.0,55


<br>

V tento okamžik si zahodíš všechny záznamy, které **postrádaly nějakou hodnotu**.

Někdy je jednodušší zahodit sloupeček, který má chybějící hodnotu:

In [194]:
uzivatele_df.dropna(axis=1)

Unnamed: 0,Name,Weight_kg
0,Alice,50
1,Bob,65
2,Charlie,70
3,David,80
4,Eve,55


#### Doplnit automaticky hodnoty

---

In [195]:
# df_uzivatele.fillna?

In [196]:
uzivatele_df

Unnamed: 0,Name,Age,Height_cm,Weight_kg
0,Alice,,160.0,50
1,Bob,20.0,170.0,65
2,Charlie,,175.0,70
3,David,22.0,,80
4,Eve,23.0,165.0,55


In [197]:
uzivatele_df.fillna(0)  # replace: "Nan" --> 0

Unnamed: 0,Name,Age,Height_cm,Weight_kg
0,Alice,0.0,160.0,50
1,Bob,20.0,170.0,65
2,Charlie,0.0,175.0,70
3,David,22.0,0.0,80
4,Eve,23.0,165.0,55


<br>

Pomocí funkce `fillna` můžeš vyplnit místo chybějících hodnot předdefinovanou vlastní hodnotu.

Nebo pomocí argumentu pro `method` pracovat s elegantnějším zadáním.

Nahradit chybějící hodnoty hodnotou, která následuje bezprostředně za ní ve stejném sloupci (To má velký smysl u souborů dat, kde mají pozorování nějaké logické pořadí.)

In [204]:
uzivatele_df.bfill(axis=0)

Unnamed: 0,Name,Age,Height_cm,Weight_kg
0,Alice,20.0,160.0,50
1,Bob,20.0,170.0,65
2,Charlie,22.0,175.0,70
3,David,22.0,165.0,80
4,Eve,23.0,165.0,55


In [205]:
uzivatele_df

Unnamed: 0,Name,Age,Height_cm,Weight_kg
0,Alice,,160.0,50
1,Bob,20.0,170.0,65
2,Charlie,,175.0,70
3,David,22.0,,80
4,Eve,23.0,165.0,55


In [206]:
uzivatele_df.ffill(axis=0)

Unnamed: 0,Name,Age,Height_cm,Weight_kg
0,Alice,,160.0,50
1,Bob,20.0,170.0,65
2,Charlie,20.0,175.0,70
3,David,22.0,175.0,80
4,Eve,23.0,165.0,55


<br>

Při volbě metody `ffill` může dělat problémy chybějící hodnota v prvním Indexu.

In [207]:
uzivatele_df.ffill(axis=0).fillna(19)

Unnamed: 0,Name,Age,Height_cm,Weight_kg
0,Alice,19.0,160.0,50
1,Bob,20.0,170.0,65
2,Charlie,20.0,175.0,70
3,David,22.0,175.0,80
4,Eve,23.0,165.0,55


Pro doplnění **nedoplněných hodnot** ve spolupráci s metodou `fillna` můžeš tuto metoda spustit opakovaně.

<img src="https://imgs.search.brave.com/lUUqjUIBtDUFPXtoZsXuQckIeZDaKPxCsaKdK1kJuFw/rs:fit:500:0:0:0/g:ce/aHR0cHM6Ly90NC5m/dGNkbi5uZXQvanBn/LzA5LzM4LzAxLzE1/LzM2MF9GXzkzODAx/MTU4MF9leVZ5Um9z/Z20wakNsVzhMRm1l/R0dpeDNJQ0tXdmhV/WS5qcGc" width="160" style="margin-left:auto; margin-right:auto"/>



### Encoding, znakové sady

---

Problémy s *kódováním* jsou běžné.

Jde o proces, který mapuje **bajtové stringy** (`0110101011`) na **uživatelsky čitelný text** (`"ahoj!"`).

Tento problém nastane, pokud se snažíš načíst zdroj v jiné kódovací sadě, než byl soubor zapsaný.

Protože je těchto sad hodně, občas skončíš s *escapovanými znaky*, nebo s neznámými kliky-háky:

In [209]:
"æ–‡å"

'æ–‡å'

<br>

Případně pokud nelze domapovat znaky:

��

<br>

V **Pythonu 2** nebylo lehké *encoding* zajistit.

V **Pythonu 3** je celý proces o dost jednodušší.

Standardem pro práci bývá obyčejně UTF-8. Na to ale zrovna v našich končinách nemůžeš spoléhat.

In [213]:
veta = "Matouš zaplatil 100 $"

In [214]:
# veta?

<br>

Údaj, který vidíš výš je datový typ `str`.

In [215]:
prevedena_veta = veta.encode("utf-8", errors="replace")

In [216]:
prevedena_veta

b'Matou\xc5\xa1 zaplatil 100 $'

In [217]:
# prevedena_veta?

<br>

Dál je možné, převést `str` na `bytes`. Tedy sekvenci čísel.

Jak ale teď tato sekvence vypadá:

In [218]:
prevedena_veta

b'Matou\xc5\xa1 zaplatil 100 $'

<br>

Celou větu můžeš zpátky kódovat pomocí funkce `decode` z `bytes` na `str`:

In [219]:
print(prevedena_veta.decode("utf-8"))

Matouš zaplatil 100 $


<br>

Pokud ale zvolíš jinou sadu, nemusíš dostat stejné hodnoty:

In [220]:
print(prevedena_veta.decode("windows-1250"))

MatouĹˇ zaplatil 100 $


In [221]:
print(prevedena_veta.decode("ascii"))

UnicodeDecodeError: 'ascii' codec can't decode byte 0xc5 in position 5: ordinal not in range(128)

<br>

Toto a další neúspěšné postupy je samozřejmě špatně a ty se tomu chceš určitě vyhnout.

In [224]:
chybna_sada = pd.read_csv("../onsite/cviceni_3.csv")

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe1 in position 65: invalid continuation byte

<br>

Ne vždy je možné, defaultně pracovat se znakovou sadou **UTF-8**.

Ve výstupu je vidět, že jde o směs několika sad a ty musíš vyzkoušet, jaká bude fungovat.

<br>

Pomocí knihovny `sys` zkontroluješ, jakou znakovou sadu interně používáš:

In [225]:
import sys

In [226]:
sys.getdefaultencoding()

'utf-8'

<br>

Ještě potřebuješ nástroj, který umí ověřit znakovou lokálního souboru:

In [228]:
# !pip install chardet

In [229]:
from chardet.universaldetector import UniversalDetector

In [230]:
detector = UniversalDetector()

<br>

Pomocí stringu knihovně předám lokální soubor, který je řádek po řádku kontrolován:

In [231]:
for line in open("../onsite/cviceni_3.csv", 'rb'):
    detector.feed(line)
    if detector.done:
        break

detector.close()
print(detector.result)

{'encoding': 'Windows-1252', 'confidence': 0.6943073341094295, 'language': ''}


<br>

Pomocí knihovny `chardet` / `charset_normalizer` identifikuješ, o jaké znakové sady jde:

Nyní máš lepší představu o tom, jakou znakovou sadu soubor používá.

Opatrně na délku `str`, který detekuješ.

Pokud je příliš krátký, může to ovlivnit výsledek.

Naopak pokud je příliš dlouhý, může trvat jeho načtení.

In [232]:
spravna_sada = pd.read_csv("../onsite/cviceni_3.csv", encoding="Windows-1252")

In [233]:
spravna_sada.head()

Unnamed: 0,id;jmeno;prijmeni;vek;mesto;uzivatel;narozeni
0,1345;Jitka;Prokopová;46;praha;N;4/8/2021
1,1346;Jan;Hornych;18;Praha;N;21/4/1995
2,1347;Lumír;Navrátil;46;Olomouc;N;4/5/1987
3,1348;Pavel;Koutný;35;praha;Y;16/2/1995
4,1349;Ivan;Èížek;35;Liberec;N;5/5/2008


In [234]:
spravna_sada = pd.read_csv("../onsite/cviceni_3.csv", encoding="Windows-1252", sep=';')

In [235]:
spravna_sada.head()

Unnamed: 0,id,jmeno,prijmeni,vek,mesto,uzivatel,narozeni
0,1345,Jitka,Prokopová,46,praha,N,4/8/2021
1,1346,Jan,Hornych,18,Praha,N,21/4/1995
2,1347,Lumír,Navrátil,46,Olomouc,N,4/5/1987
3,1348,Pavel,Koutný,35,praha,Y,16/2/1995
4,1349,Ivan,Èížek,35,Liberec,N,5/5/2008


In [62]:
spravna_sada.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   id        100 non-null    int64 
 1   jmeno     100 non-null    object
 2   prijmeni  100 non-null    object
 3   vek       100 non-null    int64 
 4   mesto     100 non-null    object
 5   uzivatel  100 non-null    object
 6   narozeni  100 non-null    object
dtypes: int64(2), object(5)
memory usage: 5.6+ KB


<br>

Tentokrát soubor otevřeš pouze s varováním.

Pro příště je určitě výhodou vytvořit kopii takového souboru, kterou uložíš v ideálním kódování:

In [236]:
spravna_sada.to_csv("../onsite/cviceni_3_sada_utf8.csv", encoding="utf-8")

<img src="https://imgs.search.brave.com/EXc5_PuzQ1oh9QtKkq86VbHLTjcQKbX7sH3-di9Lrxc/rs:fit:500:0:0:0/g:ce/aHR0cHM6Ly9jZG4y/Lmljb25maW5kZXIu/Y29tL2RhdGEvaWNv/bnMvdGhpbmdzLTEz/LzgwL21hdGNoaW5n/LWNvbXBhcmUtbWF0/Y2hpbmctY29sbGF0/ZS02NC5wbmc" width="160" style="margin-left:auto; margin-right:auto"/>



<br>

### Nekonzistentní data

---

Pokud ti data nechybí, ještě neznamená, že musí být nutně v pořádku:

In [237]:
chybny_dataset = {
    "id": [111, 112, 113, 114, 115, 116, 117],
    "jmeno": ["Matous", "Marek", "Petr", "Filip", "Jan", "Lukas", "David"],
    "vek": [22, 29, 31, 55, 43, 61, 55],
    "zeme": ["Ceska republika", "Slovensko", "Nemecko", "Ceskarepublika", "Ceska Republika", "Rakousko", "Ceska Reapublika"]
}

In [238]:
zamestnanci_df = pd.DataFrame(chybny_dataset)

In [239]:
zamestnanci_df

Unnamed: 0,id,jmeno,vek,zeme
0,111,Matous,22,Ceska republika
1,112,Marek,29,Slovensko
2,113,Petr,31,Nemecko
3,114,Filip,55,Ceskarepublika
4,115,Jan,43,Ceska Republika
5,116,Lukas,61,Rakousko
6,117,David,55,Ceska Reapublika


Různé zdroje, správci můžou způsobit nejednotný zápis a dopustit se *nekonzistence*.

In [240]:
zamestnanci_df["jmeno"].unique()

array(['Matous', 'Marek', 'Petr', 'Filip', 'Jan', 'Lukas', 'David'],
      dtype=object)

In [241]:
zamestnanci_df["zeme"].unique()

array(['Ceska republika', 'Slovensko', 'Nemecko', 'Ceskarepublika',
       'Ceska Republika', 'Rakousko', 'Ceska Reapublika'], dtype=object)

<br>

To můžou být jak malá velká písmena, tak různé znaky, chybějící mezery apod.

Odstranit je není náročné.

Náročné může být opět rozpoznání, takové komplikace.

In [242]:
zamestnanci_df["zeme"].str.lower().unique()

array(['ceska republika', 'slovensko', 'nemecko', 'ceskarepublika',
       'rakousko', 'ceska reapublika'], dtype=object)

<br>

Některé chyby, ale můžou způsobit paseku. Třeba chybějící mezery.

Tady je nejlepší, pomoci si vhodným nástrojem `fuzzywuzzy`.

In [244]:
!pip install fuzzywuzzy

Collecting fuzzywuzzy
  Downloading fuzzywuzzy-0.18.0-py2.py3-none-any.whl.metadata (4.9 kB)
Downloading fuzzywuzzy-0.18.0-py2.py3-none-any.whl (18 kB)
Installing collected packages: fuzzywuzzy
Successfully installed fuzzywuzzy-0.18.0

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.2[0m[39;49m -> [0m[32;49m25.0.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [245]:
import fuzzywuzzy
from fuzzywuzzy import process



<br>

Pro menší datasety s chybějícími mezerami aj., může tato knihovna pracovat prakticky sama.

Účel této knihovny je rozpoznat podobné řetězce, jaké

In [246]:
shodne = fuzzywuzzy.process.extract(
    "Ceska republika",  # 'ceska repoblika'
    zamestnanci_df["zeme"],
    limit=6,
    scorer=fuzzywuzzy.fuzz.token_sort_ratio
)

<br>

Dostávám dvourozměrné pole, které obsahuje jednotlivé výstupy.

Mezi výstupy řadíme:
1. Porovnávaný string,
2. pravděpodobnost, se kterou odpovídá zadanému stringu.

In [247]:
shodne

[('Ceska republika', 100, 0),
 ('Ceska Republika', 100, 4),
 ('Ceskarepublika', 97, 3),
 ('Ceska Reapublika', 97, 6),
 ('Slovensko', 25, 1),
 ('Nemecko', 18, 2)]

In [248]:
zamestnanci_df["zeme"].unique()

array(['Ceska republika', 'Slovensko', 'Nemecko', 'Ceskarepublika',
       'Ceska Republika', 'Rakousko', 'Ceska Reapublika'], dtype=object)

Nyní můžeš vidět shodné `str` se zvoleným zadáním, jak to vidí `fuzzywuzzy`.

Pro nahrazení je optimální nachystat vhodnou uživatelskou funkci:

In [249]:
nejblizsi_shoda = [shoda[0] for shoda in shodne if shoda[1] >= 90]

<br>

Izoluji jen ty shody, které se z zádáním shodují více než na 90%:

In [250]:
nejblizsi_shoda

['Ceska republika', 'Ceska Republika', 'Ceskarepublika', 'Ceska Reapublika']

In [251]:
shodujici_udaje = zamestnanci_df["zeme"].isin(nejblizsi_shoda)  # ~membership testing

In [252]:
shodujici_udaje

0     True
1    False
2    False
3     True
4     True
5    False
6     True
Name: zeme, dtype: bool

In [253]:
zamestnanci_df

Unnamed: 0,id,jmeno,vek,zeme
0,111,Matous,22,Ceska republika
1,112,Marek,29,Slovensko
2,113,Petr,31,Nemecko
3,114,Filip,55,Ceskarepublika
4,115,Jan,43,Ceska Republika
5,116,Lukas,61,Rakousko
6,117,David,55,Ceska Reapublika


In [254]:
zamestnanci_df.loc[1]  # Index

id             112
jmeno        Marek
vek             29
zeme     Slovensko
Name: 1, dtype: object

In [255]:
zamestnanci_df.loc[1, 'zeme']

'Slovensko'

In [256]:
zamestnanci_df.loc[[0, 3, 4, 6], "zeme"]

0     Ceska republika
3      Ceskarepublika
4     Ceska Republika
6    Ceska Reapublika
Name: zeme, dtype: object

In [257]:
zamestnanci_df.loc[shodujici_udaje, "zeme"]

0     Ceska republika
3      Ceskarepublika
4     Ceska Republika
6    Ceska Reapublika
Name: zeme, dtype: object

In [258]:
zamestnanci_df.loc[shodujici_udaje, "zeme"] = "Ceska republika"

In [259]:
zamestnanci_df

Unnamed: 0,id,jmeno,vek,zeme
0,111,Matous,22,Ceska republika
1,112,Marek,29,Slovensko
2,113,Petr,31,Nemecko
3,114,Filip,55,Ceska republika
4,115,Jan,43,Ceska republika
5,116,Lukas,61,Rakousko
6,117,David,55,Ceska republika


In [260]:
def nahrad_shody_stringem(dframe, jmeno_sloupce, vzor, min_shoda=90):
    vsechny_stringy = dframe[jmeno_sloupce].unique()
    
    shody = fuzzywuzzy.process.extract(vzor, vsechny_stringy, limit=5,
                                       scorer=fuzzywuzzy.fuzz.token_sort_ratio)
    
    nejblizsi_shoda = [shoda [0] for shoda in shody if shoda[1] >= min_shoda]
    
    shodujici_zaznam = dframe[jmeno_sloupce].isin(nejblizsi_shoda)
    dframe.loc[shodujici_zaznam, jmeno_sloupce] = vzor

In [261]:
nahrad_shody_stringem(dframe=zamestnanci_df, jmeno_sloupce="zeme", vzor="Ceska republika")

In [262]:
zamestnanci_df

Unnamed: 0,id,jmeno,vek,zeme
0,111,Matous,22,Ceska republika
1,112,Marek,29,Slovensko
2,113,Petr,31,Nemecko
3,114,Filip,55,Ceska republika
4,115,Jan,43,Ceska republika
5,116,Lukas,61,Rakousko
6,117,David,55,Ceska republika


<br>

#### **🧠 CVIČENÍ 🧠, procvič si práci s chybným datasetem, 1**

In [263]:
import pandas as pd
from fuzzywuzzy import process

data_df = pd.DataFrame({
    "city": ["Praag", "Londn", "New York", "Tokio", "Sidney", "London", "Praha", "Nwe York", "Sydney", "Tky"]
})

correct_cities = ["Prague", "London", "New York", "Tokyo", "Sydney"]

In [264]:
data_df

Unnamed: 0,city
0,Praag
1,Londn
2,New York
3,Tokio
4,Sidney
5,London
6,Praha
7,Nwe York
8,Sydney
9,Tky


<details>
    <summary>▶️ Řešení</summary>
    
```python
import pandas as pd

data = pd.DataFrame({
    "city": ["Praag", "Londn", "New York", "Tokio", "Sidney", "London", "Praha", "Nwe York", "Sydney", "Tky"]
})

correct_cities = ["Prague", "London", "New York", "Tokyo", "Sydney"]

def fix_city_name_all(city, correct_cities, threshold=65):
    matches = process.extract(city, correct_cities, limit=3)
    best_match = matches[0]
    return best_match[0] if best_match[1] > threshold else city

data["corrected_city"] = [
    fix_city_name_all(city, correct_cities) for city in data["city"]
]

print(data)
```
</details>

<br>

#### **🧠 CVIČENÍ 🧠, procvič si práci s chybným datasetem, 2**

Analyzuj prodeje produktu ve fiktivní společnosti během jednoho roku a zjisti následující:
1. Nahraj soubor do `DataFrame`, jméno souboru `cviceni_3.csv` (správný encoding, správné rozdělení),
2. projdi sloupce, zkontroluj, kde je problém s daty,
3. vypiš všechny záznamy, které mají ve sloupci `mesto` hodnotu `Praha`.

In [266]:
cviceni_3_df = pd.read_csv("../onsite/cviceni_3.csv", encoding="Windows-1252", sep=';')

In [268]:
cviceni_3_df.head()

Unnamed: 0,id,jmeno,prijmeni,vek,mesto,uzivatel,narozeni
0,1345,Jitka,Prokopová,46,praha,N,4/8/2021
1,1346,Jan,Hornych,18,Praha,N,21/4/1995
2,1347,Lumír,Navrátil,46,Olomouc,N,4/5/1987
3,1348,Pavel,Koutný,35,praha,Y,16/2/1995
4,1349,Ivan,Èížek,35,Liberec,N,5/5/2008


In [None]:
import pandas as pd
import fuzzywuzzy
from fuzzywuzzy import process

<details>
    <summary>▶️ Řešení</summary>
    
```python
df_ukazka = read_csv("cviceni_3.csv", encoding="Windows-1250", delimiter=";")

def nahrad_shody_stringem(df, vzor, vyber, min_shoda=85):
    shody = fuzzywuzzy.process.extract(vzor, vyber, limit=20,
                                       scorer=fuzzywuzzy.fuzz.token_sort_ratio)

    nejblizsi_shoda = [shoda[0] for shoda in shody if shoda[1] >= min_shoda]

    shodujici_zaznam = vyber.isin(nejblizsi_shoda)
    df.loc[shodujici_zaznam, "mesto"] = vzor
    
nahrad_shody_stringem(df_ukazka, "Praha", df_ukazka["mesto"])
vystup = df_ukazka[df_ukazka["mesto"] == "Praha"]


# Alternativní řešení
data = pd.read_csv(
    encoding = 'cp1250',
    sep = ';'
)

def nahrad_shody_stringem(dframe, sloupec, vzor, min_shoda=60):
    vsechny_stringy = dframe[sloupec].unique()
    shody = fuzzywuzzy.process.extract(vzor, vsechny_stringy, limit=5, scorer=fuzzywuzzy.fuzz.token_sort_ratio)
    nejblizsi_shoda = [shoda [0] for shoda in shody if shoda[1] >= min_shoda]
    shodujici_zaznam = dframe[sloupec].isin(nejblizsi_shoda)
    dframe.loc[shodujici_zaznam, sloupec] = vzor

print( 'Problémy s daty:' )
display( data[~data['narozeni'].str.contains('\\d{1,2}/\\d{1,2}/\\d{4}', regex= True, na=False)] )
display( data['mesto'].unique( ) )

#oprava narození
data['narozeni'] = data['narozeni'].astype( 'datetime64' )
#oprava města
nahrad_shody_stringem(dframe=data, sloupec="mesto", vzor="Praha")
print( 'Výsledek:' )
data.query( "mesto == 'Praha'" )
```
</details>

---