# Preprocessing

In [1]:
import pandas as pd

In [2]:
data = pd.read_csv('GlobalTemperatures.csv', parse_dates=['dt'])

### Wypełnienie brakujących danych średnią wartością

In [3]:
data = data.apply(lambda x: x.fillna(x.mean()), axis = 0)

TypeError: unsupported operand type(s) for +: 'Timestamp' and 'Timestamp'

In [None]:
data.head()

#### Sprawdzenie efektów wypełnienia brakujących danych

- wypłenienie brakujących danych przebiegło efektywnie 
- nastąpiły zmiany w wartościach opisu statystycznego danych
- nastąpiły zmiany w histogramach

In [None]:
data.describe()

In [None]:
data.info()

In [None]:
data.isna().sum()

### Kodowanie 

W naszym przypadku nie ma danych kategorycznych, dlatego nie ma potrzeby stosowania kodowania ich na dane numeryczne.

### Normalizacja 

Ze względu na to, że wartości cech (z wykluczeniem daty pomiaru) sięgają skali ujemnej, odpowiednim zabiegiem dla naszego zestawu danych będzie normalizacja do przedziału od -1 do 1 celem ujednolicenia wszystkich atrybutów.

In [None]:
def normalize(data):
    normData = 2 * ((data - data.min())/(data.max() - data.min())) - 1
    normData["dt"] = data["dt"]
    return normData

In [None]:
data = normalize(data)
data.head()

In [None]:
data.describe()

## Analiza danych po wstępnym przetworzeniu danych

In [None]:
data.hist(figsize = (25, 25), alpha = 0.8)

In [None]:
# pip install ipynb
from ipynb.fs.full.analysis import makeThreePlot

In [None]:
tempByYear = data.groupby(data.dt.dt.year).mean()

In [None]:
makeThreePlot(tempByYear, 'Land temperature between 1750 and 2015', 'year')

In [None]:
tempByMonth = data.groupby(data.dt.dt.month).mean()

In [None]:
makeThreePlot(tempByMonth, 'Land temperature per month', 'month')