In [459]:
import numpy as np

# Рассмотрим простейшую модель

Пусть имеется $n$ состоянии и вектор распределения вероятностей в начальный момент времени: $p^0 = (p_1^0, ... , p_n^0)$. То есть в начальный момент времени мы находимся в состоянии один с вероятностью $p_1^0$, в состоянии два с вероятностью  $p_2^0$ и т. д.

Из каждого состояния можно перейти в другое с некоторой вероятностью. Переходы определяются переходной матрицей $T^{n \times n}$.

Чтобы определить распределение вероятностей в момент времени $1$, нужно умножить $p^0$ на $T$. Эту же операцию можно повторить произвольное количество раз и, таким образом, определить распределение вероятностей в произвольный момент времени $m$.

$p^m = p^0 \times T^m$

пусть имеется три состояния: солнечно, пасмурно, идет дождь и про сегодняшний день мы знаем, что светит солнце. Тогда $p^0 = (1, 0, 0)$


Определим переходную матрицу:

$\begin{equation*}
T =
\begin{pmatrix}
0.5 & 0.3 & 0.2\\
0.25 & 0.5 & 0.25\\
0.2 & 0.4 & 0.4
\end{pmatrix}
\end{equation*}$

Зададимся вопросом определения погоды на завтра, послезавтра, 10 день, 100 и 1000.

In [460]:
p0 = np.array([0.8, 0.2, 0])
p01 = np.array([1, 0, 0])
T = np.array([[0.5, 0.3, 0.2], [0.25, 0.5, 0.25], [0.2, 0.4, 0.4]])

In [461]:
print(p0@T, "- завтра")
print(p0@np.linalg.matrix_power(T, 2), '- послезавтра')
print(p0@np.linalg.matrix_power(T, 10), '- 10 день')
print(p0@np.linalg.matrix_power(T, 100), '- 100 день')
print(p0@np.linalg.matrix_power(T, 1000), '- 1000 день')

[0.45 0.34 0.21] - завтра
[0.352 0.389 0.259] - послезавтра
[0.31496171 0.40944819 0.2755901 ] - 10 день
[0.31496063 0.40944882 0.27559055] - 100 день
[0.31496063 0.40944882 0.27559055] - 1000 день


In [462]:
print(p01@T, "- завтра")
print(p01@np.linalg.matrix_power(T, 2), '- послезавтра')
print(p01@np.linalg.matrix_power(T, 10), '- 10 день')
print(p01@np.linalg.matrix_power(T, 100), '- 100 день')
print(p01@np.linalg.matrix_power(T, 1000), '- 1000 день')

[0.5 0.3 0.2] - завтра
[0.365 0.38  0.255] - послезавтра
[0.31496207 0.40944797 0.27558995] - 10 день
[0.31496063 0.40944882 0.27559055] - 100 день
[0.31496063 0.40944882 0.27559055] - 1000 день


как видно, при прогнозе на длительное время распределения совпадают, откуда логично предположить, что оно определяется переходной матрицей, а не начальным распределением

# Идея для температуры

будем рассматривать следующий вектор: $t = (t_{<-5}, t_{[-5;-2]}, t_{[-2;2]}, t_{[2;5]}, t_{>5})$

$t_{<-5}$ - температура уменьшится более чем на 5 градусов,

$t_{[-5;-2]}$ - температура уменьшится на 2-5 градусов,

$t_{[-2;2]}$ - температура будет меняться в пределах от -2 до 2 градусов,

$t_{[2;5]}$ - температура увеличиться на 2-5 градусов ,

$t_{>5}$ - температура увеличится более чем на 5 градусов


$\begin{equation*}
T =
\begin{pmatrix}
0.05 & 0.15 & 0.4 & 0.3 & 0.1\\
0.05 & 0.2 & 0.3 & 0.4 & 0.05\\
0.1 & 0.2 & 0.4 & 0.2 & 0.1\\
0.05 & 0.4 & 0.3 & 0.2 & 0.05\\
0.1 & 0.3 & 0.4 & 0.15 & 0.05
\end{pmatrix}
\end{equation*}$

берем погоду за 2 дня, высчитываем вектор $t_0$

р/м два $t_0$:

$t_{01} = (0, 0, 1, 0, 0)$

$t_{02} = (0.05, 0.2, 0.5, 0.2, 0.05)$

Определим погоду на завтра, послезавтра, 10, 100 и 100 дней

In [463]:
t01 = np.array([0, 0, 1, 0, 0])
t02 = np.array([0.05, 0.2, 0.5, 0.2, 0.05])
T_t = np.array([[0.05, 0.15, 0.4, 0.3, 0.1], 
                [0.05, 0.2, 0.3, 0.4, 0.05],
                [0.1, 0.2, 0.4, 0.2, 0.1],
                [0.05, 0.4, 0.3, 0.2, 0.05],
                [0.1, 0.3, 0.4, 0.15, 0.05]])

In [464]:
print("t01")
print(t01@T_t, "- завтра")
print(t01@np.linalg.matrix_power(T_t, 2), '- послезавтра')
print(t01@np.linalg.matrix_power(T_t, 3), '- через 2 дня')
print(t01@np.linalg.matrix_power(T_t, 4), '- через 3 дня')
print(t01@np.linalg.matrix_power(T_t, 5), '- через 4 дня')
print(t01@np.linalg.matrix_power(T_t, 10), '- 10 день')
print(t01@np.linalg.matrix_power(T_t, 100), '- 100 день')
print(t01@np.linalg.matrix_power(T_t, 1000), '- 1000 день')

t01
[0.1 0.2 0.4 0.2 0.1] - завтра
[0.075 0.245 0.36  0.245 0.075] - послезавтра
[0.07175 0.25275 0.351   0.25275 0.07175] - через 2 дня
[0.0711375 0.2541375 0.34945   0.2541375 0.0711375] - через 3 дня
[0.07102938 0.25438438 0.3491725  0.25438438 0.07102938] - через 4 дня
[0.07100592 0.25443786 0.34911244 0.25443786 0.07100592] - 10 день
[0.07100592 0.25443787 0.34911243 0.25443787 0.07100592] - 100 день
[0.07100592 0.25443787 0.34911243 0.25443787 0.07100592] - 1000 день


In [465]:
print("t02")
print(t02@T_t, "- завтра")
print(t02@np.linalg.matrix_power(T_t, 2), '- послезавтра')
print(t02@np.linalg.matrix_power(T_t, 3), '- через 2 дня')
print(t02@np.linalg.matrix_power(T_t, 4), '- через 3 дня')
print(t02@np.linalg.matrix_power(T_t, 5), '- через 4 дня')
print(t02@np.linalg.matrix_power(T_t, 10), '- 10 день')
print(t02@np.linalg.matrix_power(T_t, 100), '- 100 день')
print(t02@np.linalg.matrix_power(T_t, 1000), '- 1000 день')

t02
[0.0775 0.2425 0.36   0.2425 0.0775] - завтра
[0.071875 0.252375 0.3515   0.252375 0.071875] - послезавтра
[0.07116875 0.25406875 0.349525   0.25406875 0.07116875] - через 2 дня
[0.07103469 0.25437219 0.34918625 0.25437219 0.07103469] - через 3 дня
[0.07101105 0.25442617 0.34912556 0.25442617 0.07101105] - через 4 дня
[0.07100592 0.25443787 0.34911243 0.25443787 0.07100592] - 10 день
[0.07100592 0.25443787 0.34911243 0.25443787 0.07100592] - 100 день
[0.07100592 0.25443787 0.34911243 0.25443787 0.07100592] - 1000 день


# Мысли:
    1)хорошо бы попробовать собрать статистику по погоде за несколько  лет и составить переходные матрицы для каждого месяца(и по общему прогнозу и по температуре)
        данные скачал, необходимо разбить
    2)для пострения обучающей выборки поступим так:
      в первом приближении разобьём год по месяцам, в пределах одного месяца поступим следующим образом: рассмо-трим все солнечные дни, посмотрим следующие за ними дни, пусть соленчых дней 20, а следующих за ним солнечных дней 15, пасмурных 3, дождливых 2, тогда 
$T_0 = (\frac{15}{20}, \frac{3}{20}, \frac{2}{20})$ - первая строка матрицы переходов

In [1]:
import pandas as pd

In [2]:
data = pd.read_csv('rp5.ru/погода.csv')

In [3]:
data.head(5)

Unnamed: 0,Местное время в Шереметьево / им. А. С. Пушкина (аэропорт),T,Po,P,Pa,U,DD,Ff,ff10,ff3,...,Cm,Ch,VV,Td,RRR,tR,E,Tg,E',sss
0,25.04.2020 12:00,7.7,730.7,747.5,,54.0,"Ветер, дующий с запада",4.0,,,...,"Высококучевые, образовавшиеся из кучевых (или ...","Перистых, перисто-кучевых или перисто-слоистых...",10,-1.1,,,,,,
1,25.04.2020 09:00,5.2,730.4,747.4,,86.0,"Ветер, дующий с запада",5.0,,,...,"Высококучевые просвечивающие, полосами, либо о...","Перистых, перисто-кучевых или перисто-слоистых...",10,3.1,Следы осадков,12.0,,,,
2,25.04.2020 06:00,3.4,730.1,747.2,,95.0,"Ветер, дующий с запада",3.0,,,...,"Высококучевые просвечивающие, расположенные на...","Перистых, перисто-кучевых или перисто-слоистых...",10,2.7,,,,,,
3,25.04.2020 03:00,3.7,730.1,747.1,,93.0,"Ветер, дующий с запада",4.0,,,...,"Высококучевые просвечивающие, расположенные на...","Перистых, перисто-кучевых или перисто-слоистых...",10,2.6,,,,,,
4,25.04.2020 00:00,5.0,730.6,747.6,,88.0,"Ветер, дующий с западо-юго-запада",4.0,,,...,"Высококучевые просвечивающие, расположенные на...","Перистых, перисто-кучевых или перисто-слоистых...",10,3.2,,,,,,


In [12]:
data['WW'].unique()

array([' ', 'Состояние неба в общем не изменилось. ',
       'Ливневый(ые) дождь(и). ',
       'Ливневый(ые) дождь(и) слабый(ые) в срок наблюдения или за последний час. ',
       'Облака в целом рассеиваются или становятся менее развитыми. ',
       'Пыль или песок, поднятые ветром на или вблизи станции в срок наблюдения, но нет хорошо развитого пыльного или песчаного вихря (вихрей), и никакой пыльной или песчаной бури не видно; или, в случае сообщения с судна или с береговой станции, брызги, переносимые ветром на станции. ',
       'Ливневый снег слабый в срок наблюдения или за последний час. ',
       'Видимость ухудшена дымом, например: от степных или лесных пожаров, промышленных предприятий или вулканическим пеплом. ',
       'Дымка. ',
       'Морось незамерзающая непрерывная слабая в срок наблюдения. ',
       'Дождь или морось со снегом слабые. ',
       'Снег непрерывный слабый в срок наблюдения. ',
       'Ливневый снег или ливневый дождь и снег. ',
       'Дождь незамерзающий

In [116]:
data['W1'].unique()

array([nan, 'Ливень (ливни).',
       'Облака покрывали половину неба или менее в течение всего соответствующего периода.',
       'Облака покрывали более половины неба в течение всего соответствующего периода.',
       'Дождь со снегом или другими видами твердых осадков', 'Дождь.',
       'Облака покрывали более половины неба в течение одной части соответствующего периода и половину или менее в течение другой части периода.',
       'Снег и/или другие виды твердых осадков',
       'Туман или ледяной туман или сильная мгла.', 'Морось.',
       'Гроза (грозы) с осадками или без них.', 'Метель', 'Буря'],
      dtype=object)

для простоты будем брать погоду в 12 часов дня: температура - T, облачность - N(%), и осадки W1

In [458]:
data[['Местное время в Шереметьево / им. А. С. Пушкина (аэропорт)', 'T', 'N', 'WW']].head(15)

Unnamed: 0,Местное время в Шереметьево / им. А. С. Пушкина (аэропорт),T,N,WW
0,25.04.2020 12:00,7.7,70 – 80%.,
1,25.04.2020 09:00,5.2,70 – 80%.,Состояние неба в общем не изменилось.
2,25.04.2020 06:00,3.4,70 – 80%.,Состояние неба в общем не изменилось.
3,25.04.2020 03:00,3.7,"90 или более, но не 100%",Ливневый(ые) дождь(и).
4,25.04.2020 00:00,5.0,"90 или более, но не 100%",
5,24.04.2020 21:00,5.5,70 – 80%.,Состояние неба в общем не изменилось.
6,24.04.2020 18:00,6.3,"90 или более, но не 100%",Состояние неба в общем не изменилось.
7,24.04.2020 15:00,6.8,100%.,Ливневый(ые) дождь(и) слабый(ые) в срок наблюд...
8,24.04.2020 12:00,8.1,100%.,
9,24.04.2020 09:00,4.1,50%.,


In [50]:
import time

struct_time = time.strptime(data['Местное время в Шереметьево / им. А. С. Пушкина (аэропорт)'][0],
                                "%d.%m.%Y %H:%M")

In [51]:
import datetime

print(struct_time)
print(struct_time.tm_hour)

time.struct_time(tm_year=2020, tm_mon=4, tm_mday=25, tm_hour=12, tm_min=0, tm_sec=0, tm_wday=5, tm_yday=116, tm_isdst=-1)
12


In [642]:
table0 = data[['Местное время в Шереметьево / им. А. С. Пушкина (аэропорт)', 'T', 'W1', 'N']]

In [643]:
#table1['hour'] = time.strptime(data['Местное время в Шереметьево / им. А. С. Пушкина (аэропорт)']).tm_hour
table0['hour'] = [time.strptime(n, "%d.%m.%Y %H:%M").tm_hour for n in table0['Местное время в Шереметьево / им. А. С. Пушкина (аэропорт)']]
table0['day'] = [time.strptime(n, "%d.%m.%Y %H:%M").tm_mday for n in table0['Местное время в Шереметьево / им. А. С. Пушкина (аэропорт)']]
table0['month'] = [time.strptime(n, "%d.%m.%Y %H:%M").tm_mon for n in table0['Местное время в Шереметьево / им. А. С. Пушкина (аэропорт)']]
table0['year'] = [time.strptime(n, "%d.%m.%Y %H:%M").tm_year for n in table0['Местное время в Шереметьево / им. А. С. Пушкина (аэропорт)']]

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  This is separate from the ipykernel package so we can avoid doing imports until
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  after removing the cwd from sys.path.
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the cavea

In [644]:
table0['status'] = [1 if n >= 12 else 0 for n in table0['hour']]
#prices = [i if i > 0 else 0 for i in original_prices]

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """Entry point for launching an IPython kernel.


In [564]:
table0

Unnamed: 0,Местное время в Шереметьево / им. А. С. Пушкина (аэропорт),T,W1,N,hour,day,month,year,status
0,25.04.2020 12:00,7.7,,70 – 80%.,12,25,4,2020,1
1,25.04.2020 09:00,5.2,Ливень (ливни).,70 – 80%.,9,25,4,2020,0
2,25.04.2020 06:00,3.4,Ливень (ливни).,70 – 80%.,6,25,4,2020,0
3,25.04.2020 03:00,3.7,Ливень (ливни).,"90 или более, но не 100%",3,25,4,2020,0
4,25.04.2020 00:00,5.0,,"90 или более, но не 100%",0,25,4,2020,0
5,24.04.2020 21:00,5.5,Ливень (ливни).,70 – 80%.,21,24,4,2020,1
6,24.04.2020 18:00,6.3,Ливень (ливни).,"90 или более, но не 100%",18,24,4,2020,1
7,24.04.2020 15:00,6.8,Ливень (ливни).,100%.,15,24,4,2020,1
8,24.04.2020 12:00,8.1,,100%.,12,24,4,2020,1
9,24.04.2020 09:00,4.1,,50%.,9,24,4,2020,0


In [645]:
table0.drop(['Местное время в Шереметьево / им. А. С. Пушкина (аэропорт)'], axis='columns', inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  errors=errors)


In [488]:
#table = table1.loc[(table1['hour'] == 15)]

In [566]:
#table4 = table1.loc[(table1['month'] == 4) & (table1['hour'] == 15)]
table0

Unnamed: 0,T,W1,N,hour,day,month,year,status
0,7.7,,70 – 80%.,12,25,4,2020,1
1,5.2,Ливень (ливни).,70 – 80%.,9,25,4,2020,0
2,3.4,Ливень (ливни).,70 – 80%.,6,25,4,2020,0
3,3.7,Ливень (ливни).,"90 или более, но не 100%",3,25,4,2020,0
4,5.0,,"90 или более, но не 100%",0,25,4,2020,0
5,5.5,Ливень (ливни).,70 – 80%.,21,24,4,2020,1
6,6.3,Ливень (ливни).,"90 или более, но не 100%",18,24,4,2020,1
7,6.8,Ливень (ливни).,100%.,15,24,4,2020,1
8,8.1,,100%.,12,24,4,2020,1
9,4.1,,50%.,9,24,4,2020,0


In [123]:
table

NameError: name 'table' is not defined

In [136]:
print(table['Nh'].unique())
print(table['W1'].unique())

['90  или более, но не 100%' '100%.' 'Облаков нет.' '50%.' '60%.' '40%.'
 '70 – 80%.' '20–30%.' '10%  или менее, но не 0' nan]
['Ливень (ливни).' nan
 'Облака покрывали более половины неба в течение всего соответствующего периода.'
 'Дождь.' 'Снег и/или другие виды твердых осадков'
 'Облака покрывали половину неба или менее в течение всего соответствующего периода.'
 'Туман или ледяной туман или сильная мгла.'
 'Дождь со снегом или другими видами твердых осадков' 'Морось.'
 'Гроза (грозы) с осадками или без них.']


прогноз будем делать исходя из следующего предположения:

   1)при $Nh \in [0, 50)$ и отсутствии дождя - ясная погода
        
   2)при $Nh \in [50, 100)$ и отсутствии дождя - облачно
        
   3)при $W1 \neq Nan$ - дождь 

In [646]:
table0 = table0.sort_values(by=['year', 'month', 'day', 'hour'])

In [647]:
table0

Unnamed: 0,T,W1,N,hour,day,month,year,status
25052,5.6,,"90 или более, но не 100%",0,1,4,2010,0
25051,4.2,Облака покрывали более половины неба в течение...,"90 или более, но не 100%",3,1,4,2010,0
25050,3.5,Облака покрывали более половины неба в течение...,"90 или более, но не 100%",6,1,4,2010,0
25049,5.6,,70 – 80%.,9,1,4,2010,0
25048,10.1,,"90 или более, но не 100%",12,1,4,2010,1
25047,10.8,,"90 или более, но не 100%",15,1,4,2010,1
25046,11.2,,"90 или более, но не 100%",18,1,4,2010,1
25045,9.3,,"90 или более, но не 100%",21,1,4,2010,1
25044,8.5,,"90 или более, но не 100%",0,2,4,2010,0
25043,4.3,,70 – 80%.,3,2,4,2010,0


In [545]:
table0.loc[(table0['N'] == 'Облаков нет.') & (table0['W1'].isnull())]

Unnamed: 0,T,W1,N,hour,day,month,year,status
25032,13.3,,Облаков нет.,15,3,4,2010,1
24983,8.6,,Облаков нет.,9,10,4,2010,0
24982,12.8,,Облаков нет.,12,10,4,2010,1
24963,5.1,,Облаков нет.,21,12,4,2010,1
24962,2.3,,Облаков нет.,0,13,4,2010,0
24950,12.9,,Облаков нет.,12,14,4,2010,1
24914,4.1,,Облаков нет.,3,19,4,2010,0
24913,4.1,,Облаков нет.,6,19,4,2010,0
24846,13.5,,Облаков нет.,18,27,4,2010,1
24788,10.6,,Облаков нет.,3,5,5,2010,0


In [648]:
#table0['W1'] = ['Облаков нет.' for n in table0.loc[(table0['N'] == 'Облаков нет.') & (table0['W1'].isnull())]['W1']]
table0.loc[(table0['N'] == 'Облаков нет.') & (table0['W1'].isnull()), 'W1'] = 'Облаков нет.'

In [649]:
table0

Unnamed: 0,T,W1,N,hour,day,month,year,status
25052,5.6,,"90 или более, но не 100%",0,1,4,2010,0
25051,4.2,Облака покрывали более половины неба в течение...,"90 или более, но не 100%",3,1,4,2010,0
25050,3.5,Облака покрывали более половины неба в течение...,"90 или более, но не 100%",6,1,4,2010,0
25049,5.6,,70 – 80%.,9,1,4,2010,0
25048,10.1,,"90 или более, но не 100%",12,1,4,2010,1
25047,10.8,,"90 или более, но не 100%",15,1,4,2010,1
25046,11.2,,"90 или более, но не 100%",18,1,4,2010,1
25045,9.3,,"90 или более, но не 100%",21,1,4,2010,1
25044,8.5,,"90 или более, но не 100%",0,2,4,2010,0
25043,4.3,,70 – 80%.,3,2,4,2010,0


In [650]:
table0['W1'] = [np.nan if n == ' ' else n for n in table0['W1']]

In [391]:
print(table0.isnull().sum())
print(table0.shape)

T             2
W1        13565
hour          0
day           0
month         0
year          0
status        0
dtype: int64
(25053, 7)


In [651]:
table0 = table0.dropna()

In [652]:
table0

Unnamed: 0,T,W1,N,hour,day,month,year,status
25051,4.2,Облака покрывали более половины неба в течение...,"90 или более, но не 100%",3,1,4,2010,0
25050,3.5,Облака покрывали более половины неба в течение...,"90 или более, но не 100%",6,1,4,2010,0
25032,13.3,Облаков нет.,Облаков нет.,15,3,4,2010,1
25018,4.7,Ливень (ливни).,"90 или более, но не 100%",9,5,4,2010,0
25017,7.5,Ливень (ливни).,"90 или более, но не 100%",12,5,4,2010,1
25016,9.8,Ливень (ливни).,70 – 80%.,15,5,4,2010,1
25013,4.7,Облака покрывали более половины неба в течение...,70 – 80%.,0,6,4,2010,0
25012,2.7,Облака покрывали более половины неба в течение...,60%.,3,6,4,2010,0
25011,0.6,Облака покрывали более половины неба в течение...,70 – 80%.,6,6,4,2010,0
25006,1.8,Облака покрывали половину неба или менее в теч...,20–30%.,3,7,4,2010,0


In [593]:
table_np = table0.values

In [594]:
table_np

array([[4.2,
        'Облака покрывали более половины неба в течение всего соответствующего периода.',
        '90  или более, но не 100%', ..., 4, 2010, 0],
       [3.5,
        'Облака покрывали более половины неба в течение всего соответствующего периода.',
        '90  или более, но не 100%', ..., 4, 2010, 0],
       [13.3, 'Облаков нет.', 'Облаков нет.', ..., 4, 2010, 1],
       ...,
       [3.7, 'Ливень (ливни).', '90  или более, но не 100%', ..., 4,
        2020, 0],
       [3.4, 'Ливень (ливни).', '70 – 80%.', ..., 4, 2020, 0],
       [5.2, 'Ливень (ливни).', '70 – 80%.', ..., 4, 2020, 0]],
      dtype=object)

In [103]:
def change_useless_info(data):
    i = 1
    pattern1 = data[0][1]
    while i < data.shape[0]:
        if data[i][1] == 'Состояние неба в общем не изменилось. ':
            data[i][1] = pattern1
        else:
            pattern1 = data[i][1]
        i += 1
    return data

In [105]:
change_useless_info(table_np).T[1]

array(['Дымка. ', 'Дымка. ',
       'Ливневый(ые) дождь(и) слабый(ые) в срок наблюдения или за последний час. ',
       ..., 'Ливневый(ые) дождь(и). ', 'Ливневый(ые) дождь(и). ',
       'Ливневый(ые) дождь(и). '], dtype=object)

In [148]:
table_np

array([[4.2,
        'Облака покрывали более половины неба в течение всего соответствующего периода.',
        3, ..., 4, 2010, 0],
       [3.5,
        'Облака покрывали более половины неба в течение всего соответствующего периода.',
        6, ..., 4, 2010, 0],
       [4.7, 'Ливень (ливни).', 9, ..., 4, 2010, 0],
       ...,
       [3.7, 'Ливень (ливни).', 3, ..., 4, 2020, 0],
       [3.4, 'Ливень (ливни).', 6, ..., 4, 2020, 0],
       [5.2, 'Ливень (ливни).', 9, ..., 4, 2020, 0]], dtype=object)

In [134]:
table1['W1'].unique()

array(['Облака покрывали более половины неба в течение всего соответствующего периода.',
       'Ливень (ливни).',
       'Облака покрывали половину неба или менее в течение всего соответствующего периода.',
       'Облака покрывали более половины неба в течение одной части соответствующего периода и половину или менее в течение другой части периода.',
       'Туман или ледяной туман или сильная мгла.', 'Дождь.', 'Морось.',
       'Гроза (грозы) с осадками или без них.',
       'Дождь со снегом или другими видами твердых осадков',
       'Снег и/или другие виды твердых осадков', 'Метель', 'Буря'],
      dtype=object)

In [154]:
table['Nh'].unique()

array(['60%.', '50%.', '70 – 80%.', '100%.', '90  или более, но не 100%',
       'Облаков нет.', '40%.', '20–30%.', '10%  или менее, но не 0', nan],
      dtype=object)

In [475]:
table1

Unnamed: 0,T,W1,hour,day,month,year,status
23067,-8.8,Снег и/или другие виды твердых осадков,3,1,1,2011,0
23066,-6.7,Снег и/или другие виды твердых осадков,9,1,1,2011,0
23065,-6.8,Снег и/или другие виды твердых осадков,15,1,1,2011,1
23064,-6.7,Снег и/или другие виды твердых осадков,21,1,1,2011,1
23063,-5.6,Ливень (ливни).,3,2,1,2011,0
23062,-4.4,Ливень (ливни).,9,2,1,2011,0
23061,-1.8,Ливень (ливни).,15,2,1,2011,1
23060,-2.2,Ливень (ливни).,21,2,1,2011,1
23059,-4.6,Ливень (ливни).,3,3,1,2011,0
23058,-8.0,Снег и/или другие виды твердых осадков,9,3,1,2011,0


In [343]:
table['W1'].fillna(0, inplace=True)
table_np = table.values

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  self._update_inplace(new_data)


In [653]:
table1 = table0.loc[(table0['month'] == 1)]
table2 = table0.loc[(table0['month'] == 2)]
table3 = table0.loc[(table0['month'] == 3)]
table4 = table0.loc[(table0['month'] == 4)]
table5 = table0.loc[(table0['month'] == 5)]
table6 = table0.loc[(table0['month'] == 6)]
table7 = table0.loc[(table0['month'] == 7)]
table8 = table0.loc[(table0['month'] == 8)]
table9 = table0.loc[(table0['month'] == 9)]
table10 = table0.loc[(table0['month'] == 10)]
table11 = table0.loc[(table0['month'] == 11)]
table12 = table0.loc[(table0['month'] == 12)]

In [654]:
table_np1 = table1.values
table_np2 = table2.values
table_np3 = table3.values
table_np4 = table4.values
table_np5 = table5.values
table_np6 = table6.values
table_np7 = table7.values
table_np8 = table8.values
table_np9 = table9.values
table_np10 = table10.values
table_np11 = table11.values
table_np12 = table12.values

In [150]:
np.unique(table_np.T[1])

array(['Буря', 'Гроза (грозы) с осадками или без них.',
       'Дождь со снегом или другими видами твердых осадков', 'Дождь.',
       'Ливень (ливни).', 'Метель', 'Морось.',
       'Облака покрывали более половины неба в течение всего соответствующего периода.',
       'Облака покрывали более половины неба в течение одной части соответствующего периода и половину или менее в течение другой части периода.',
       'Облака покрывали половину неба или менее в течение всего соответствующего периода.',
       'Снег и/или другие виды твердых осадков',
       'Туман или ледяной туман или сильная мгла.'], dtype=object)

In [176]:
def preprocessing(data):
    processing_data = data
    for i in processing_data:
        
        
        if i[1] in {'Ливень (ливни).', 'Дождь.', 'Морось.', 'Туман или ледяной туман или сильная мгла.', 'Гроза (грозы) с осадками или без них.'}:
            i[1] = 2
        elif i[1] in {'Снег и/или другие виды твердых осадков', 'Дождь со снегом или другими видами твердых осадков', 'Метель', 'Буря'}:
            i[1] = 3
        elif i[1] in {'Облака покрывали более половины неба в течение всего соответствующего периода.',
                      'Облака покрывали более половины неба в течение одной части соответствующего периода и половину или менее в течение другой части периода.'}:
            i[1] = 1
        else:
            i[1] = 0
    return processing_data
        
            
'''array(['Ливень (ливни).', nan,
       'Облака покрывали более половины неба в течение всего соответствующего периода.',
       'Дождь.', 'Снег и/или другие виды твердых осадков',
       'Облака покрывали половину неба или менее в течение всего соответствующего периода.',
       'Туман или ледяной туман или сильная мгла.',
       'Дождь со снегом или другими видами твердых осадков', 'Морось.',
       'Гроза (грозы) с осадками или без них.',
       'Облака покрывали более половины неба в течение одной части соответствующего периода и половину или менее в течение другой части периода.',
       'Метель'], dtype=object)'''
'''array(['60%.', '50%.', '70 – 80%.', '100%.', '90  или более, но не 100%',
       'Облаков нет.', '40%.', '20–30%.', '10%  или менее, но не 0', nan],
      dtype=object)'''

"array(['60%.', '50%.', '70 – 80%.', '100%.', '90  или более, но не 100%',\n       'Облаков нет.', '40%.', '20–30%.', '10%  или менее, но не 0', nan],\n      dtype=object)"

In [210]:
test = preprocessing(table_np)

In [211]:
print(test)
print(table_np[0:5].T[1])

[[4.2 1 3 ... 4 2010 0]
 [3.5 1 6 ... 4 2010 0]
 [4.7 2 9 ... 4 2010 0]
 ...
 [3.7 2 3 ... 4 2020 0]
 [3.4 2 6 ... 4 2020 0]
 [5.2 2 9 ... 4 2020 0]]
[1 1 2 2 2]


In [333]:
test = table_np[0:5]
test

array([[4.2, 1, 3, 1, 4, 2010, 0],
       [3.5, 1, 6, 1, 4, 2010, 0],
       [4.7, 2, 9, 5, 4, 2010, 0],
       [7.5, 2, 12, 5, 4, 2010, 1],
       [9.8, 2, 15, 5, 4, 2010, 1]], dtype=object)

In [600]:
def voiting(data):
    cond_0 = 0
    cond_1 = 0
    cond_2 = 0
    cond_3 = 0
    if len(data) != 8:
        for i in data:
            if i[1] == 0:
                cond_0 += 1
            if i[1] == 1:
                cond_1 += 1
            if i[1] == 2:
                cond_2 += 1
            if i[1] == 3:
                cond_3 += 1
    else:
        return data
    res = np.copy(data[0])
    res[1] = np.argmax([cond_0, cond_1, cond_2, cond_3])
    res[0] = np.mean(data.T[0])
    return res

In [355]:
print(voiting(test))

[5.9399999999999995 2 3 1 4 2010 0]


In [598]:
def data_aggregate(data):
    new_data = np.array([])
    i = 0
    while i < data.shape[0]:
        _date = data[i][4]
        _status = data[i][7]
        processing = np.array([])
        processing = np.append(processing, np.copy(data[i]))
        if i+1 < data.shape[0]:
            while (data[i+1][4] == _date) and (data[i+1][7] == _status):
                processing = np.append(processing, data[i+1])
                processing = np.reshape(processing, (-1, len(data[i])))
                if i+2 < data.shape[0]:
                    i += 1
                else:
                    break
        result = voiting(processing)
        new_data = np.append(new_data, result)
        i += 1
    return np.reshape(new_data, (-1, len(data[i-1])))

In [361]:
arrg_data = data_aggregate(table_np)

In [363]:
arrg_data

array([[3.85, 1, 3, ..., 4, 2010, 0],
       [4.7, 2, 9, ..., 4, 2010, 0],
       [8.65, 2, 12, ..., 4, 2010, 1],
       ...,
       [6.2, 2, 15, ..., 4, 2020, 1],
       [4.1000000000000005, 2, 3, ..., 4, 2020, 0],
       [5.2, 2, 9, ..., 4, 2020, 0]], dtype=object)

$\begin{equation*}
T =
\begin{pmatrix}
su\rightarrow su & su\rightarrow c  & su\rightarrow r & su\rightarrow sn\\
c\rightarrow su & c\rightarrow c & c\rightarrow r & c\rightarrow sn\\
r\rightarrow su & r\rightarrow c & r\rightarrow r & r\rightarrow sn\\
sn\rightarrow su & sn\rightarrow c & sn\rightarrow r & sn\rightarrow sn
\end{pmatrix}
\end{equation*}$

In [429]:
def func_coef(data):
    #total = data.shape[0]
    rainy = 0
    sunny = 0
    snowy = 0
    cloudy = 0
    matrix = np.zeros((4, 4))
    i = 0
    while i < data.shape[0]-1:
        if data[i][1] == 2:
            rainy += 1
            matrix[2][data[i+1][1]] += 1 
        elif data[i][1] == 3:
            snowy += 1
            matrix[3][data[i+1][1]] += 1
        elif data[i][1] == 1:
            cloudy += 1
            matrix[1][data[i+1][1]] += 1
        else:
            sunny += 1
            matrix[0][data[i+1][1]] += 1
        i += 1 
    if sunny > 0:
        matrix[0] = matrix[0] / sunny
    if cloudy > 0:
        matrix[1] = matrix[1] / cloudy
    if rainy > 0:
        matrix[2] = matrix[2] / rainy
    if snowy > 0:
        matrix[3] = matrix[3] / snowy
    elif snowy == 0:
        matrix[3] = [0.25, 0.25, 0.25, 0.25]
    return matrix
    '''np.zeros((5, 5))
    j = 0
    for i in data:
        j += 1
        if j == data.shape[0]:
            break
        if i[]:
    '''
    

In [365]:
func_coef(table_np[0:5])

array([[0. , 0. , 0. , 0. ],
       [0. , 0.5, 0.5, 0. ],
       [0. , 0. , 0. , 0. ],
       [0. , 0. , 2. , 0. ]])

In [320]:
matrixes = []
tables_monthes = []
for i in range(12):
    name = 'table_np'
    name += str(i+1)
    tables_monthes.append(name)

In [655]:
t1 = preprocessing(table_np1)
t2 = preprocessing(table_np2)
t3 = preprocessing(table_np3)
t4 = preprocessing(table_np4)
t5 = preprocessing(table_np5)
t6 = preprocessing(table_np6)
t7 = preprocessing(table_np7)
t8 = preprocessing(table_np8)
t9 = preprocessing(table_np9)
t10 = preprocessing(table_np10)
t11 = preprocessing(table_np11)
t12 = preprocessing(table_np12)

In [656]:
data1 = data_aggregate(t1)
data2 = data_aggregate(t2)
data3 = data_aggregate(t3)
data4 = data_aggregate(t4)
data5 = data_aggregate(t5)
data6 = data_aggregate(t6)
data7 = data_aggregate(t7)
data8 = data_aggregate(t8)
data9 = data_aggregate(t9)
data10 = data_aggregate(t10)
data11 = data_aggregate(t11)
data12 = data_aggregate(t12)

In [445]:
M1 = func_coef(t1)
M2 = func_coef(t2)
M3 = func_coef(t3)
M4 = func_coef(t4)
M5 = func_coef(t5)
M6 = func_coef(t6)
M7 = func_coef(t7)
M8 = func_coef(t8)
M9 = func_coef(t9)
M10 = func_coef(t10)
M11 = func_coef(t11)
M12 = func_coef(t12)

In [425]:
np.array([0.7, 0.3, 0, 0]) @ M4

array([0.43904762, 0.16609524, 0.33409524, 0.0607619 ])

In [362]:
m1 = func_coef(t1)
m2 = func_coef(t2)
m3 = func_coef(t3)
m4 = func_coef(t4)
m5 = func_coef(t5)
m6 = func_coef(t6)
m7 = func_coef(t7)
m8 = func_coef(t8)
m9 = func_coef(t9)
m10 = func_coef(t10)
m11 = func_coef(t11)
m12 = func_coef(t12)

In [404]:
np.array([0.2, 0.6, 0, 0.2, 0]) @ m1

array([0.47274725, 0.01025641, 0.00827839, 0.1043956 , 0.40432234])

In [457]:
np.sum(M12, axis=1)

array([1., 1., 1., 1.])

In [641]:
m1

NameError: name 'm1' is not defined

In [399]:
m1

NameError: name 'm1' is not defined

In [581]:
table_np

array([[4.2, 0, '90  или более, но не 100%', ..., 4, 2010, 0],
       [3.5, 0, '90  или более, но не 100%', ..., 4, 2010, 0],
       [13.3, 0, 'Облаков нет.', ..., 4, 2010, 1],
       ...,
       [3.7, 0, '90  или более, но не 100%', ..., 4, 2020, 0],
       [3.4, 0, '70 – 80%.', ..., 4, 2020, 0],
       [5.2, 0, '70 – 80%.', ..., 4, 2020, 0]], dtype=object)

In [595]:
test = preprocessing(table_np)

In [610]:
test

array([[4.2, 1, '90  или более, но не 100%', ..., 4, 2010, 0],
       [3.5, 1, '90  или более, но не 100%', ..., 4, 2010, 0],
       [13.3, 0, 'Облаков нет.', ..., 4, 2010, 1],
       ...,
       [3.7, 2, '90  или более, но не 100%', ..., 4, 2020, 0],
       [3.4, 2, '70 – 80%.', ..., 4, 2020, 0],
       [5.2, 2, '70 – 80%.', ..., 4, 2020, 0]], dtype=object)

In [611]:
d = data_aggregate(test)

In [631]:
d[0:5]

array([[3.85, 1, '90  или более, но не 100%', 3, 1, 4, 2010, 0],
       [13.3, 0, 'Облаков нет.', 15, 3, 4, 2010, 1],
       [4.7, 2, '90  или более, но не 100%', 9, 5, 4, 2010, 0],
       [8.65, 2, '90  или более, но не 100%', 12, 5, 4, 2010, 1],
       [2.6666666666666665, 1, '70 – 80%.', 0, 6, 4, 2010, 0]],
      dtype=object)

In [629]:
def temp_comp(data):
    result = np.array([])
    i = 0
    while i < data.shape[0]-1:
        if data[i+1][0] - data[i][0] < -5:
            result = np.append(result, 0)
        elif (data[i+1][0] - data[i][0] >= -5) and (data[i+1][0] - data[i][0] < -2):
            result = np.append(result, 1)
        elif (data[i+1][0] - data[i][0] >= -2) and (data[i+1][0] - data[i][0] <= 2):
            result = np.append(result, 2)
        elif (data[i+1][0] - data[i][0] > 2) and (data[i+1][0] - data[i][0] <= 5):
            result = np.append(result, 3)
        else:
            result = np.append(result, 4)
        i += 1
    return result

In [657]:
diff1 = temp_comp(data1)
diff2 = temp_comp(data2)
diff3 = temp_comp(data3)
diff4 = temp_comp(data4)
diff5 = temp_comp(data5)
diff6 = temp_comp(data6)
diff7 = temp_comp(data7)
diff8 = temp_comp(data8)
diff9 = temp_comp(data9)
diff10 = temp_comp(data10)
diff11 = temp_comp(data11)
diff12 = temp_comp(data12)

In [661]:
T1 = temp_matrix(diff1)
T2 = temp_matrix(diff2)
T3 = temp_matrix(diff3)
T4 = temp_matrix(diff4)
T5 = temp_matrix(diff5)
T6 = temp_matrix(diff6)
T7 = temp_matrix(diff7)
T8 = temp_matrix(diff8)
T9 = temp_matrix(diff9)
T10 = temp_matrix(diff10)
T11 = temp_matrix(diff11)
T12 = temp_matrix(diff12)

In [667]:
T1

array([[0.15      , 0.1       , 0.35      , 0.2       , 0.2       ],
       [0.04819277, 0.10843373, 0.53012048, 0.19277108, 0.12048193],
       [0.02531646, 0.17721519, 0.67721519, 0.10126582, 0.01898734],
       [0.02985075, 0.19402985, 0.59701493, 0.14925373, 0.02985075],
       [0.125     , 0.125     , 0.45833333, 0.20833333, 0.08333333]])

In [638]:
diff

array([4., 0., 3., ..., 3., 1., 2.])

In [660]:
def temp_matrix(data):
    l5 = 0
    l2 = 0
    b = 0
    m2 = 0
    m5 = 0
    matrix = np.zeros((5, 5))
    i = 0
    while i < data.shape[0]-1:
        if data[i] == 0:
            l5 += 1
            matrix[0][int(data[i+1])] += 1
        elif data[i] == 1:
            l2 += 1
            matrix[1][int(data[i+1])] += 1
        elif data[i] == 2:
            b += 1
            matrix[2][int(data[i+1])] += 1
        elif data[i] == 3:
            m2 += 1
            matrix[3][int(data[i+1])] += 1
        else:
            m5 += 1
            matrix[4][int(data[i+1])] += 1
        i += 1
    if l5 > 0:
        matrix[0] = matrix[0] / l5
    elif l5 == 0:
        matrix[0] = [0.333, 0.333, 0.333, 0.333]
    if l2 > 0:
        matrix[1] = matrix[1] / l2
    elif l2 == 0:
        matrix[1] = [0.333, 0.333, 0.333, 0.333]
    if b > 0:
        matrix[2] = matrix[2] / b
    elif b == 0:
        matrix[2] = [0.333, 0.333, 0.333, 0.333]
    if m2 > 0:
        matrix[3] = matrix[3] / m2
    elif b == 0:
        matrix[3] = [0.333, 0.333, 0.333, 0.333]
    if m5 > 0:
        matrix[4] = matrix[4] / m5
    elif m5 == 0:
        matrix[4] = [0.333, 0.333, 0.333, 0.333]
    return matrix

In [640]:
temp_matrix(diff)

4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0
4.0


array([[0.03141361, 0.07853403, 0.34554974, 0.20942408, 0.33507853],
       [0.04381443, 0.09536082, 0.46134021, 0.24613402, 0.15335052],
       [0.04719894, 0.17159241, 0.60388178, 0.13762682, 0.03970004],
       [0.11798561, 0.28776978, 0.44460432, 0.10935252, 0.04028777],
       [0.39095745, 0.22074468, 0.26595745, 0.09574468, 0.02659574]])