# Datum a čas

In [152]:
import pandas as pd

Uvažujme data o monitorování příjmu nějakého (např. televizního) signálu. 

Máme data o tom, kdy došlo ke ztrátě signálu (začátek výpadku) a kdy byl signál obnoven (konec výpadku). 

In [165]:
signal_monitoring = pd.read_csv("https://kodim.cz/cms/assets/czechitas/python-data-1/python-pro-data-1/datum-cas-shift/datum-cas/signal_monitoring.csv")

In [166]:
signal_monitoring["event_date_time"] = pd.to_datetime(signal_monitoring["event_date_time"])
signal_monitoring["event_date"] = signal_monitoring["event_date_time"].dt.date

signal_monitoring.head()

Unnamed: 0,event_type,event_date_time,event_date
0,signal lost,2021-02-03 00:40:08,2021-02-03
1,signal restored,2021-02-03 01:14:11,2021-02-03
2,signal lost,2021-02-05 19:14:19,2021-02-05
3,signal restored,2021-02-05 19:46:29,2021-02-05
4,signal lost,2021-02-06 14:31:34,2021-02-06


## Metoda `shift`

Nejdůležitějším parametrem metody je parametr `periods`, který může mít kladnou nebo zápornou hodnotu.

- **Kladná hodnota** parametru periods znamená, že hodnoty budou posunuty směrem **dolů**.
- **Záporná hodnota** parametru periods znamená, že hodnoty budou posunuty směrem **nahoru**.

### Jak dlouho trval výpadek?

In [169]:
signal_monitoring["event_end_date_time"] = signal_monitoring["event_date_time"].shift(periods=-1)
signal_monitoring.head()

Unnamed: 0,event_type,event_date_time,event_date,event_end_date_time
0,signal lost,2021-02-03 00:40:08,2021-02-03,2021-02-03 01:14:11
1,signal restored,2021-02-03 01:14:11,2021-02-03,2021-02-05 19:14:19
2,signal lost,2021-02-05 19:14:19,2021-02-05,2021-02-05 19:46:29
3,signal restored,2021-02-05 19:46:29,2021-02-05,2021-02-06 14:31:34
4,signal lost,2021-02-06 14:31:34,2021-02-06,2021-02-06 14:48:24


In [170]:
# Ponecháme pouze řádky, které mají ve sloupci event_type hodnotu signal lost.
signal_monitoring_signal_lost = signal_monitoring[signal_monitoring["event_type"] == "signal lost"].reset_index(drop=True)
signal_monitoring_signal_lost

Unnamed: 0,event_type,event_date_time,event_date,event_end_date_time
0,signal lost,2021-02-03 00:40:08,2021-02-03,2021-02-03 01:14:11
1,signal lost,2021-02-05 19:14:19,2021-02-05,2021-02-05 19:46:29
2,signal lost,2021-02-06 14:31:34,2021-02-06,2021-02-06 14:48:24
3,signal lost,2021-02-08 04:59:20,2021-02-08,2021-02-08 05:38:29
4,signal lost,2021-02-09 14:21:25,2021-02-09,2021-02-09 14:42:22
5,signal lost,2021-02-09 20:07:49,2021-02-09,2021-02-09 20:31:30
6,signal lost,2021-02-12 03:49:42,2021-02-12,2021-02-12 04:26:48
7,signal lost,2021-02-12 16:53:17,2021-02-12,2021-02-12 17:18:18
8,signal lost,2021-02-13 21:15:48,2021-02-13,2021-02-13 21:31:22
9,signal lost,2021-02-15 07:19:44,2021-02-15,2021-02-15 08:10:17


In [171]:
# Vypočítá délku výpadku jako rozdíl mezi 'event_end_date_time' a 'event_date_time' a uloží do sloupce 'outage_length'
signal_monitoring_signal_lost["outage_length"] = signal_monitoring_signal_lost["event_end_date_time"] - signal_monitoring_signal_lost["event_date_time"]
signal_monitoring_signal_lost

Unnamed: 0,event_type,event_date_time,event_date,event_end_date_time,outage_length
0,signal lost,2021-02-03 00:40:08,2021-02-03,2021-02-03 01:14:11,0 days 00:34:03
1,signal lost,2021-02-05 19:14:19,2021-02-05,2021-02-05 19:46:29,0 days 00:32:10
2,signal lost,2021-02-06 14:31:34,2021-02-06,2021-02-06 14:48:24,0 days 00:16:50
3,signal lost,2021-02-08 04:59:20,2021-02-08,2021-02-08 05:38:29,0 days 00:39:09
4,signal lost,2021-02-09 14:21:25,2021-02-09,2021-02-09 14:42:22,0 days 00:20:57
5,signal lost,2021-02-09 20:07:49,2021-02-09,2021-02-09 20:31:30,0 days 00:23:41
6,signal lost,2021-02-12 03:49:42,2021-02-12,2021-02-12 04:26:48,0 days 00:37:06
7,signal lost,2021-02-12 16:53:17,2021-02-12,2021-02-12 17:18:18,0 days 00:25:01
8,signal lost,2021-02-13 21:15:48,2021-02-13,2021-02-13 21:31:22,0 days 00:15:34
9,signal lost,2021-02-15 07:19:44,2021-02-15,2021-02-15 08:10:17,0 days 00:50:33


### Kolik bylo výpadků který den?

In [172]:
# Počet výskytů každého data v sloupci 'event_date' pro ztracené signály
signal_monitoring_signal_lost["event_date"].value_counts()

event_date
2021-02-09    2
2021-02-12    2
2021-02-03    1
2021-02-05    1
2021-02-06    1
2021-02-08    1
2021-02-13    1
2021-02-15    1
2021-02-16    1
2021-02-18    1
2021-02-19    1
2021-02-22    1
Name: count, dtype: int64

In [173]:
# Seskupuje data podle sloupce 'event_date' a sumarizuje celkovou dobu výpadků pro každý den
signal_monitoring_signal_lost.groupby("event_date")["outage_length"].sum()

event_date
2021-02-03   0 days 00:34:03
2021-02-05   0 days 00:32:10
2021-02-06   0 days 00:16:50
2021-02-08   0 days 00:39:09
2021-02-09   0 days 00:44:38
2021-02-12   0 days 01:02:07
2021-02-13   0 days 00:15:34
2021-02-15   0 days 00:50:33
2021-02-16   0 days 00:13:26
2021-02-18   0 days 00:47:35
2021-02-19   0 days 00:12:33
2021-02-22   0 days 00:59:46
Name: outage_length, dtype: timedelta64[ns]

---
## Cvičení

### Půlmaraton

Uvažuj časy závodníků za ročníky půlmaratonu 2019 a 2020, které jsou uloženy v souboru [half_marathon.csv](https://kodim.cz/cms/assets/czechitas/python-data-1/python-pro-data-1/datum-cas-shift/excs/pulmaraton/half_marathon.csv). V souboru je uloženo jméno závodníka (závodnice), rok narození, jeho/její čas a rok závodu, ke kterému se čas vztahuje. Tvým úkolem je spočítat, o kolik se změnil průměrný čas každého ze závodníků a závodnic a zda se v průměru zlepšili či zhoršili (například protože kvůli lockdownům méně trénovali).

Můžeš využít následující postup:

- Převeď sloupec s časem závodníka na typ datetime. Použij stejný postup, jaký jsme si ukázali v minulé v lekci. Protože jde pouze o časový údaj, pandas k němu připojí dnešní datum, aby byly ve sloupci datum i čas. Toho si ale nevšímej, u obou sloupců je datum stejný, takže na porovnání údajů to nebude mít vliv.
- Pomocí metody `shift()` si dej na jeden řádek výsledky obou závodů. Metodu `shift()` použij tak, aby nový sloupec obsahoval hodnoty posunuté o jeden řádek dolů. Je třeba nahradit X vhodně zvoleným číslem. Poté si nech v datech pouze data, která mají ve sloupci `Rok zavodu` hodnotu 2020. Řádky, které mají ve sloupci `Rok zavodu` hodnotu 2019, totiž obsahují "pomíchané" hodnoty dvou různých závodníků.
- Vypočítej rozdíl mezi časy závodníka a převeď ho na sekundy (postup jsme si ukazovali v lekci). Dále spočítej průměrnou změnu. Vyšlo i kladné nebo záporné číslo? A co to znamená?

In [161]:
df = pd.read_csv("https://kodim.cz/cms/assets/czechitas/python-data-1/python-pro-data-1/datum-cas-shift/excs/pulmaraton/half_marathon.csv")
df.head()

Unnamed: 0,Jmeno,Rocnik,Cas,Rok zavodu
0,Aster Vladimír,1965,01:53:25,2019
1,Aster Vladimír,1965,02:00:19,2020
2,Asterová Jana,1974,02:16:59,2019
3,Asterová Jana,1974,02:30:01,2020
4,Baborová Anna,1990,01:58:20,2019


In [162]:
# Převede sloupec 'Cas' na datový typ datetime
df["Cas"] = pd.to_datetime(df["Cas"])

# Vytvoří nový sloupec 'Cas 2019', který obsahuje hodnoty sloupce 'Cas' posunuté o jedno místo dolů
df["Cas 2019"] = df["Cas"].shift(1)

# Filtruje DataFrame tak, aby obsahoval pouze záznamy z roku 2020
df = df[df["Rok zavodu"] == 2020]

# Vypočítá časový rozdíl mezi 'Cas' a 'Cas 2019' a uloží výsledek do sloupce 'Zmena'
df["Zmena"] = df["Cas"] - df["Cas 2019"]

# df["Zmena"] = round(df["Zmena"].dt.total_seconds() / 60)

# Zobrazí upravený DataFrame
df

  df["Cas"] = pd.to_datetime(df["Cas"])


Unnamed: 0,Jmeno,Rocnik,Cas,Rok zavodu,Cas 2019,Zmena
1,Aster Vladimír,1965,2025-02-23 02:00:19,2020,2025-02-23 01:53:25,0 days 00:06:54
3,Asterová Jana,1974,2025-02-23 02:30:01,2020,2025-02-23 02:16:59,0 days 00:13:02
5,Baborová Anna,1990,2025-02-23 01:52:25,2020,2025-02-23 01:58:20,-1 days +23:54:05
7,Bambas Jan,1975,2025-02-23 02:35:39,2020,2025-02-23 02:02:59,0 days 00:32:40
9,Barochovská Andrea,1976,2025-02-23 02:50:05,2020,2025-02-23 03:01:25,-1 days +23:48:40
...,...,...,...,...,...,...
180,Šulcová Jitka,1974,2025-02-23 01:59:07,2020,2025-02-23 01:43:12,0 days 00:15:55
182,Švarcová Petra,1974,2025-02-23 02:50:01,2020,2025-02-23 02:27:45,0 days 00:22:16
184,Švelch Rosťa,1966,2025-02-23 01:55:11,2020,2025-02-23 01:54:58,0 days 00:00:13
186,Žitková Jana,1974,2025-02-23 02:42:48,2020,2025-02-23 02:45:54,-1 days +23:56:54


In [163]:
df["Zmena"].mean()

Timedelta('0 days 00:09:36.031578947')

### Swing states

V případě amerických prezidentských voleb obecně platí, že ve většině států dlouhodobě vyhrávají kandidáti jedné strany. Například v Kalifornii vyhrávají poměrně dlouho kandidáti Demokratické strany, v Texasu zase kandidáti Republikánské strany. Státy, kde se vítězné strany střídají, jsou označovány jako _swing states_ ("kolísavé státy"). Tvým úkolem je pro jeden konkrétní stát spočítat, kolikrát v něm došlo ke změně vítězné strany, přičemž data jsou uložena v souboru [election-data.csv](https://kodim.cz/cms/assets/czechitas/python-data-1/python-pro-data-1/datum-cas-shift/excs/swing-states/election-data.csv).

V souboru jsou důležité následující sloupce:

`year` - rok voleb,
`state` - stát,
`party_simplified` - zjednodušené označení politické strany,
`rank` - pořadí kandidáta v rámci státu a roku.

Vyber si jeden stát, např. stát PENNSYLVANIA. Vytvoř si tabulku, kde budou data pouze za tento stát. Současně si vyber pouze data o vítězích, tj. řádky, které mají ve sloupci `rank` hodnotu `1`. Vytvoř sloupec, který bude obsahovat politickou strunu vítěze voleb z přechozího volebního období. Pokud spočítáš řádky, kde se politická strana současného vítěze liší od strany minulého, zjistíš, kolikrát voliči v daném státě přešli od jedné strany ke druhé. Pozor na to, že pro rok 1976 neznáme předchozího vítěze, v nově přidaném sloupci tedy bude prázdná hodnota. Té se můžeš zbavit například pomocí metody `dropna()`.

Např. pro stát PENNSYLVANIA by ti mělo vyjít, že ke změně došlo celkem čtyřikrát, a to v letech 1980, 1992, 2016 a 2020. Ve státě SOUTH CAROLINA došlo ke změně pouze jednou, a to v roce 1980, kdy vyhrál Ronald Reagan. Od té doby zde vyhrávají pouze kandidáti Republikánské strany.

In [164]:
# Načte data z URL do DataFrame
data = pd.read_csv(
    "https://kodim.cz/cms/assets/czechitas/python-data-1/python-pro-data-1/datum-cas-shift/excs/swing-states/election-data.csv")

# Filtruje data pro stát 'SOUTH CAROLINA' a pouze záznamy s 'rank' rovným 1
data = data[(data["state"] == "SOUTH CAROLINA") & (data["rank"] == 1)]

# Vytvoří nový sloupec 'previous_winner_party', který obsahuje stranu vítěze z předchozích voleb (hodnoty posunuté o jedno místo dolů)
data["previous_winner_party"] = data["party_simplified"].shift(1)

# Odstraní řádky s chybějícími daty (zejména první řádek, kde je 'previous_winner_party' NaN)
data = data.dropna()

# Vrátí řádky, kde se strana vítěze liší od strany předchozího vítěze
data[data["party_simplified"] != data["previous_winner_party"]]

Unnamed: 0,year,state,candidate,party_simplified,candidatevotes,rank,previous_winner_party
3396,1980,SOUTH CAROLINA,"REAGAN, RONALD",REPUBLICAN,439277,1.0,DEMOCRAT
