# Načítání dat

In [None]:
import pandas as pd
import numpy as np

## pandas.Series

`Series` je jednorozměrné pole obsahující data a index. 

Lze si ho taky představit jako jeden sloupec.

In [None]:
age = pd.Series([19, 25, 18, 29], index=['Anna', 'Lenka', 'Hana', 'Jitka'])

In [None]:
type(age)

In [None]:
age

In [None]:
age.index

In [None]:
age.values

In [None]:
age.sort_values()

In [None]:
age.subtract(18)

### `Series` má atributy a metody

In [None]:
age.name = 'agee' # name je atribut

In [None]:
age = age.rename('age') # rename je metoda

In [None]:
age

### Načítání z `dict`

In [None]:
kids = {
    'Pavla':'berušky', 'Ondřej':'tygříci', 'Jakub':'berušky', 'Klára':'berušky', 'Magdaléna':'tygříci', 
    'Vojtěch':'berušky', 'Jan':'tygříci', 'Filip':'tygříci', 'Daniel':'tygříci', 'Michaela':'berušky', 
    'Markéta':'tygříci'
}
kids_series  = pd.Series(kids)
kids_series

### Přistupování k prvkům `Series`

In [None]:
age[0]

In [None]:
age['Anna']

### Práce se `Series` jako s polem

In [None]:
age = pd.Series([19, 25, 18, 29], index=['Anna', 'Lenka', 'Hana', 'Jitka'])

In [None]:
age.median()

In [None]:
age[age > age.median()]

### Vektorové operace se `Series`

In [None]:
ice_cream1 = pd.Series([30, 45, 55, 65], index=['Prostějov', 'Černošice', 'Brno', 'Praha'])

Nastala zmrzlinova krize :), chceme zjistit, o kolik se zvedly ceny.

In [None]:
ice_cream2 = pd.Series([110, 120, 150, 175], index=['Prostějov', 'Černošice', 'Brno', 'Praha'])

In [None]:
ice_cream2 - ice_cream1

Objevil se nový trend sníst na narozeniny tolik kopečků zmrzliny, kolik je Ti let. 

Kolik to bude stat pro každou z holek, pokud budou oslavovat v Praze?

In [None]:
age * ice_cream1['Praha']

## DataFrame

Dvourozměrná datová struktura obsahující sloupce a řádky. 

Lze si ji představit jako tabulku, např. z Excelu.

`DataFrame` se da vytvořit ze slovníku, seznamu seznamů, několika `Series`, jiného `DataFrame`, atd.

In [None]:
kids = {
    'Pavla':'berušky', 'Ondřej':'tygříci', 'Jakub':'berušky', 'Klára':'berušky', 'Magdaléna':'tygříci', 
    'Vojtěch':'berušky', 'Jan':'tygříci', 'Filip':'tygříci', 'Daniel':'tygříci', 'Michaela':'berušky', 
    'Markéta':'tygříci'
}
kids_df = pd.DataFrame(kids, index = range(0, len(kids)))

In [None]:
kids_df

In [None]:
kids_df2 = pd.DataFrame.from_dict(kids, orient = 'index')
kids_df2

In [None]:
kids_df2.reset_index(inplace = True)

In [None]:
kids_df2.columns = ['Jméno', 'Skupina']

In [None]:
kids_df2.head()

In [None]:
ice_cream1 = pd.Series([30, 45, 55, 65], index=['Prostějov', 'Černošice', 'Brno', 'Praha'], name='5_května')
ice_cream2 = pd.Series([110, 120, 150, 175], index=['Prostějov', 'Černošice', 'Brno', 'Praha'], name='6_května')
ice_cream_df = pd.concat([ice_cream1, ice_cream2], axis=1)
ice_cream_df

In [None]:
ice_cream_df.describe()

In [None]:
import datetime
np.datetime64('2012-06-18T02:00:06.453000000')-np.datetime64('2012-06-18T02:00:05.453000000')

In [None]:
np.datetime64('2012-06-18T02:00:05.453000000')

## Načítání dat

In [None]:
import pandas as pd
import numpy as np

#### Import z CSV

In [None]:
wolf_data = pd.read_csv(
    'https://raw.githubusercontent.com/vincentarelbundock/Rdatasets/master/csv/car/Depredations.csv', index_col = 0
)
wolf_data.head()

#### Import  dat ze schránky

In [None]:
data_clipboard = pd.read_clipboard()
data_clipboard

####  Import tabulek z TXT a TSV

In [None]:
titanic_train = pd.read_table('http://www.statsci.org/data/general/titanic.txt')
titanic_train.head()

#### Import z JSON

Data z ČHMÚ - kvalita ovzduší

In [None]:
import requests

In [None]:
response = requests.get('http://portal.chmi.cz/files/portal/docs/uoco/web_generator/aqindex_cze.json')
chmi_air = response.json()
chmi_air

In [None]:
czech, = [state for state in chmi_air['States'] if state['Code'] == 'CZ']
czech

In [None]:
stations = []
for r in czech['Regions']:
    for s in r['Stations']:
        row = {'Station': s['Name'], 'Region': r['Name']}
        for c in s.get('Components', []):
            if 'Val' in c:
                row[c['Code']] = c['Val']
        stations.append(row)
air_pollution = pd.DataFrame.from_records(stations, index=['Region', 'Station'])
air_pollution.head()

In [None]:
stations = [
    dict(Station=s['Name'], Region=r['Name'],
         **{c['Code']: c['Val'] for c in s.get('Components', []) if 'Val' in c})
    for r in czech['Regions'] for s in r['Stations']
]
air_pollution = pd.DataFrame.from_records(stations, index=['Region', 'Station'])
air_pollution.head()

### Naše data

In [None]:
titanic = pd.read_excel('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic3.xls')
titanic.head()

### Bonus: Peklo s Excelem

Data z ČSU - První sňatky podle věku snoubenců 

In [None]:
link = 'https://www.czso.cz/documents/10180/32853391/300002161106.xlsx/6bcf2981-2bf8-40c5-aac6-cefbf3034783?version=1.1'
pd.read_excel(link)

In [None]:
pd.read_excel(link, header = 5)

In [None]:
data = pd.read_excel(link, header = None, index_col = 0, skiprows = 4)
data

In [None]:
data.iloc[0]

In [None]:
data.iloc[5]

In [None]:
col1 = data.iloc[0].fillna(method = 'ffill')
col2 = data.iloc[1].str.split(pat='\n', n = 0).str.get(0)
columns = [col1, col2]

columns = list(zip(*columns))

In [None]:
data.columns = columns
data = data.drop(data.index[[0,1,2]])
data

In [None]:
data.columns = pd.MultiIndex.from_tuples(data.columns, names=['Rok','Ženich/nevěsta'])

In [None]:
data.head()