# Čištění dat

## Seznámení s daty

In [None]:
import pandas as pd
import numpy as np

In [None]:
titanic = pd.read_excel('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic3.xls')
titanic.head()

Zjistit počet řádků  a sloupců

In [None]:
titanic.shape

Vytisknout popisnou statistiku pro všechny numerické sloupce. použití parametru `include = 'all'` spočítá statistiku pro všechny sloupce.

In [None]:
titanic.describe()

In [None]:
titanic.describe(include = 'all')

## Vytvoření tidy data

In [None]:
wolf_data = pd.read_csv(
    'https://raw.githubusercontent.com/vincentarelbundock/Rdatasets/master/csv/car/Depredations.csv', index_col = 0
)

In [None]:
wolf_data.head()

In [None]:
wolf_data_melt = pd.melt(wolf_data, id_vars=['longitude', 'latitude'], value_vars=['early', 'late'])
wolf_data_melt.head()

## Výběr podmnožiny dat


In [None]:
# Podle čísla řádků
titanic.iloc[10]

In [None]:
# Výběr buňky
titanic.iloc[1,2]

In [None]:
titanic.loc[1, 'name']

In [None]:
# Výběr sloupce
titanic['name'].head()

In [None]:
titanic.name.head()

In [None]:
# Výběr n řádků
titanic[:10]

In [None]:
titanic[5:15]

In [None]:
titanic.loc[[5,6,7],['name', 'age']]

In [None]:
# Náhodný výběr
titanic.sample(n = 10)

## Operace s indexy

In [None]:
# Podle hodnot indexu
wolf_data.index = 'loc' + wolf_data.index.astype(str)
wolf_data.head()

In [None]:
wolf_data.loc['loc10']

In [None]:
# Očíslovat řádky znova
wolf_data.reset_index().head()

In [None]:
# Použít jeden ze sloupců jako index
wolf_data.set_index('longitude').head()

## Operace s řetězcí ve sloupcích

In [None]:
titanic['name'].head()

In [None]:
titanic['last_name'] = titanic['name'].str.split(',').str.get(0)
titanic['last_name'].head()

In [None]:
titanic['first_name'] = titanic['name'].str.split(', ').str.get(1).str.split('\\. ').str.get(1)
titanic['first_name'].head()

In [None]:
titanic['title'] = titanic['name'].str.split(',').str.get(1).str.split('.').str.get(0)
titanic['title'].head()

In [None]:
vit_c = pd.read_csv(
    'https://raw.githubusercontent.com/vincentarelbundock/Rdatasets/master/csv/datasets/ToothGrowth.csv', 
    index_col = 0
)
vit_c.head()

In [None]:
# Zjistit všechny hodnoty ve sloupci
vit_c['supp'].unique()

In [None]:
# Vyměnit jeden řetězec za druhý
vit_c['supp_long'] = vit_c['supp'].str.replace('VC', 'vitamin_c')
vit_c['supp_long'] = vit_c['supp_long'].str.replace('OJ', 'orange_juice')
vit_c.sample(n = 10)

In [None]:
# Zjistit duplikátní hodnoty
vit_c[vit_c.duplicated(keep = False)]

## Práce s chybějícími daty

In [None]:
# Zjistit kde jsou chybející data
# alternativa - .notnull()
titanic.isnull().any()

In [None]:
titanic['age'].unique()

In [None]:
sum(titanic['age'].isnull())/len(titanic)

In [None]:
titanic[titanic['age'].isnull()].head()

In [None]:
# Zbavit se řádků obsahujících NaN
len(titanic.dropna(axis=0, how='all'))

In [None]:
len(titanic)

In [None]:
sum(titanic.isnull().any())

In [None]:
len(titanic.columns)

In [None]:
len(titanic.dropna(axis=0, thresh = 14))

In [None]:
# Vyplnit chybějící hodnoty
stock_data = {
    'BID_price': [449, 448, None, None],
    'ASK_price': [451, None, 450, None],
    'BID_quantity': [1115, 2479, None, None],
    'ASK_quantity': [858, None, 9482, 6413]
}
stock_data = pd.DataFrame(stock_data)
stock_data.head()

In [None]:
# Metoda 'ffill'vyplní následující řádek hodnotou z předešlého řádku
stock_data.fillna(method = 'ffill')

## Seskupování dat

In [None]:
titanic.groupby('sex').mean()

In [None]:
# Vytvoření podmnožiny dat 
titanic_female = titanic.groupby('sex').get_group('female')
titanic_female.head()

## Filtrování dat

In [None]:
titanic[titanic['sex'] == 'female'].head()

In [None]:
titanic[titanic['age'] < 1].head()

In [None]:
titanic[titanic['survived'] != 1].head()

In [None]:
# Vybrat řádky, pokud hodnota je v seznamu hodnot
cities = ['London', 'Paris']
titanic['home.dest'].unique()

In [None]:
titanic[titanic['home.dest'].isin(cities)].head()

In [None]:
titanic[titanic['home.dest'].fillna('?').apply(lambda dest: any(city in dest for city in cities))]

In [None]:
match = []
for dest in titanic['home.dest'].fillna('?'):
    row_matches = False
    for city in cities:
        if city in dest:
            row_matches = True
    match.append(row_matches)

titanic[match]