In [1]:
import pandas as pd
import numpy as np
import scipy as sp
import scipy.stats as st
import plotly.offline as py
import plotly.graph_objs as go
import os
import re

In [2]:
py.init_notebook_mode(connected=True)

In [3]:
DATA_PATH = os.path.join('data','wr201126')
DATA_MAIN_PATH = os.path.join(DATA_PATH, 'wr201126.txt')
DATA_METEOSTATIONS_PATH = os.path.join(DATA_PATH, 'statlist201126.txt')
DATA_FIELDS_PATH = os.path.join(DATA_PATH, 'fld201126a0.txt')

In [4]:
assert os.path.isdir(DATA_PATH)
assert os.path.isfile(DATA_MAIN_PATH)
assert os.path.isfile(DATA_METEOSTATIONS_PATH)
assert os.path.isfile(DATA_FIELDS_PATH)

In [5]:
meteostations = []
with open(DATA_METEOSTATIONS_PATH, encoding="WINDOWS-1251") as f:
    for line in f.readlines():
        m_data = re.split("\s+", line)[:-1]
        if len(m_data) > 3:
            m_name = " ".join(m_data[1:-2]).strip()
            meteostations.append([m_data[0], m_name, m_data[-1]])
        else:
            meteostations.append(m_data)
for m_data in meteostations:
    assert len(m_data) == 3
df_meteostations = pd.DataFrame(meteostations, columns=["Индекс ВМО", "Название станции", "Страна"])

In [6]:
header = []
with open(DATA_FIELDS_PATH, encoding="WINDOWS-1251") as f:
    header = [ " ".join(re.split("\s+", s)[4:]).strip() for s in f.readlines() ]
assert len(header) == 9

In [7]:
df = pd.read_csv(DATA_MAIN_PATH, sep=";", header=None, names=header)

In [8]:
df

Unnamed: 0,Индекс ВМО,Год,Месяц,День,Общий признак качества температур,Минимальная температура воздуха,Средняя температура воздуха,Максимальная температура воздуха,Количество осадков
0,20046,1958,1,1,0,-35.8,-34.0,-31.7,0.0
1,20046,1958,1,2,9,,,,
2,20046,1958,1,3,9,,,,
3,20046,1958,1,4,0,-40.0,-37.6,-33.0,0.0
4,20046,1958,1,5,0,-36.9,-34.8,-31.2,0.6
5,20046,1958,1,6,0,-37.8,-35.0,-32.8,0.0
6,20046,1958,1,7,9,,,,
7,20046,1958,1,8,9,,,,
8,20046,1958,1,9,9,,,,
9,20046,1958,1,10,9,,,,


In [9]:
df_meteostations[df_meteostations["Название станции"].str.contains("Москва")]

Unnamed: 0,Индекс ВМО,Название станции,Страна
225,27612,"Москва,",Россия


In [10]:
date_column = pd.DataFrame(pd.to_datetime(df.Год*10000+df.Месяц*100+df.День,format='%Y%m%d'))
df.insert(1,"Дата",date_column)
df = df.set_index("Дата")

In [11]:
df.dropna()
df = df.drop(["Год","Месяц", "День"], axis=1)

In [12]:
df

Unnamed: 0_level_0,Индекс ВМО,Общий признак качества температур,Минимальная температура воздуха,Средняя температура воздуха,Максимальная температура воздуха,Количество осадков
Дата,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1958-01-01,20046,0,-35.8,-34.0,-31.7,0.0
1958-01-02,20046,9,,,,
1958-01-03,20046,9,,,,
1958-01-04,20046,0,-40.0,-37.6,-33.0,0.0
1958-01-05,20046,0,-36.9,-34.8,-31.2,0.6
1958-01-06,20046,0,-37.8,-35.0,-32.8,0.0
1958-01-07,20046,9,,,,
1958-01-08,20046,9,,,,
1958-01-09,20046,9,,,,
1958-01-10,20046,9,,,,


In [13]:
df = df[df["Общий признак качества температур"] != 9]
df = df.drop(["Общий признак качества температур"], axis=1)

In [14]:
_tp_cols = header[5:9]
_t_cols = _tp_cols[0:3]
_p_col = _tp_cols[3]

print(_tp_cols, _t_cols, _p_col)

['Минимальная температура воздуха', 'Средняя температура воздуха', 'Максимальная температура воздуха', 'Количество осадков'] ['Минимальная температура воздуха', 'Средняя температура воздуха', 'Максимальная температура воздуха'] Количество осадков


In [15]:
print("Количество пропусков в данных")
print("-----------------------------")
for _col in _tp_cols:
    n_voids = 0
    for value in df[_col].tolist():
        if re.match("^\s+$", value):
            n_voids += 1
    print("{}: {} из {} ({:.2}%)".format(_col, n_voids, df.shape[0], n_voids * 100.0 / float(df.shape[0])))

Количество пропусков в данных
-----------------------------
Минимальная температура воздуха: 36264 из 14554115 (0.25%)
Средняя температура воздуха: 17188 из 14554115 (0.12%)
Максимальная температура воздуха: 56448 из 14554115 (0.39%)
Количество осадков: 12800 из 14554115 (0.088%)


In [16]:
v = "     "
dft = df[(df[_t_cols[0]] != v) & (df[_t_cols[1]] != v) & (df[_t_cols[2]] != v)]
dft = dft.drop([_p_col], axis=1)
dfp = df[ df[_p_col] != v ]
dfp = dfp.drop(_t_cols, axis=1)
dftp = df[(df[_t_cols[0]] != v) & (df[_t_cols[1]] != v) & (df[_t_cols[2]] != v) & (df[_p_col] != v) ]

In [17]:
dftp.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 14449103 entries, 1958-01-01 to 1998-12-31
Data columns (total 5 columns):
Индекс ВМО                          int64
Минимальная температура воздуха     object
Средняя температура воздуха         object
Максимальная температура воздуха    object
Количество осадков                  object
dtypes: int64(1), object(4)
memory usage: 661.4+ MB


In [18]:
for _column in _t_cols:
    dft[_column] = dft[_column].astype(float)
dfp[_p_col] = dfp[_p_col].astype(float)
for _column in _tp_cols:
    dftp[_column] = dftp[_column].astype(float)
dftp[_p_col] = dftp[_p_col].astype(float)



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy



In [19]:
data = dft[_t_cols].resample("Y").mean()
layout = go.Layout(
    title="График изменения температуры воздуха (по годам)",
    xaxis=dict(title = "Дата", type='date'),
    yaxis=dict(title = "Температура воздуха, °C"),
)
temperature_traces = []
for _t_col in _t_cols:
    temperature_traces.append(go.Scatter(x = data.index, y = data[_t_col], name = _t_col))
py.iplot(go.Figure(data=temperature_traces, layout=layout))

In [20]:
data = dfp[[_p_col]].resample("Y").sum() / 600
layout = go.Layout(
    title="График изменения суммы осадков (по годам)",
    xaxis=dict(title = "Дата", type='date'),
    yaxis=dict(title = "Атмосферные осадки, мм"),
)
precipitation_traces = []
precipitation_traces.append(go.Scatter(x = data.index, y = data[_p_col], name = _p_col))
py.iplot(go.Figure(data=precipitation_traces, layout=layout))

In [27]:
data = dft[dft.index > "1988-01-01"][[_t_cols[1]]].resample("Y").mean().rolling(10, min_periods=10).mean().dropna()

temperature = data[_t_cols[1]].tolist()
idx = np.arange(0,len(temperature))
slope, intercept, r_value, p_value, std_err = st.linregress(idx,temperature)
line = slope * idx + intercept

layout = go.Layout(
    title="График изменения среднегодовой температуры воздуха усредненной за период декады (10 лет)",
    xaxis=dict(title = "Время, год", type='date'),
    yaxis=dict(title = "Температура воздуха, °C"),
)

trace1 = go.Scatter(x = data.index, y=data[_t_cols[1]], name=_t_cols[1])
trace2 = go.Scatter(x = data.index, y=line, name='Линия тренда')
py.iplot(go.Figure(data=[trace1, trace2], layout=layout))

In [28]:
print("Температура воздуха возрастает в среднем на {} °C за год".format(round(slope,2)))

Температура воздуха возрастает в среднем на 0.03 °C за год


In [23]:
data = dfp[[_p_col]].resample("Y").sum().rolling(10, min_periods=10).mean().dropna() / 600

precipitation = data[_p_col].tolist()
idx = np.arange(0,len(precipitation))
slope, intercept, r_value, p_value, std_err = st.linregress(idx,precipitation)
line = slope * idx + intercept

layout = go.Layout(
    title="График изменения годовой суммы атмосферных осадков усредненной за период декады (10 лет)",
    xaxis=dict(title = "Время, год", type='date'),
    yaxis=dict(title = "Атмосферные осадки, мм"),
)

trace1 = go.Scatter(x = data.index, y=data[_p_col], name="Исходные данные")
trace2 = go.Scatter(x = data.index, y=line, name='Линия тренда')
py.iplot(go.Figure(data=[trace1,trace2], layout=layout))

In [24]:
data = dfp[dfp.index < "1980-01-01"][[_p_col]].resample("Y").sum().rolling(10, min_periods=10).mean().dropna() / 600

precipitation = data[_p_col].tolist()
idx = np.arange(0,len(precipitation))
slope, intercept, r_value, p_value, std_err = st.linregress(idx,precipitation)
line = slope * idx + intercept

layout = go.Layout(
    title="График изменения годовой суммы атмосферных осадков усредненной за период декады (10 лет)",
    xaxis=dict(title = "Время, год", type='date'),
    yaxis=dict(title = "Атмосферные осадки, мм"),
)

trace1 = go.Scatter(x = data.index, y=data[_p_col], name="Исходные данные")
trace2 = go.Scatter(x = data.index, y=line, name='Линия тренда')
py.iplot(go.Figure(data=[trace1,trace2], layout=layout))

In [25]:
print("Атмосферные осадки до 1980-го года возрастают в среднем на {} мм за год".format(round(slope,2)))

Атмосферные осадки до 1980-го года возрастают в среднем на 6.31 мм за год
