In [1]:
import pandas as pd
import numpy as np
import preprocessing as pre
import time

## 3 tenure: 1997 - 2001

In [2]:
k = 3
xml_file_path = '.\Sejm-20240316T162344Z-001\Sejm\GLO3k1p119p_i\GLO3k1p119p_i.xml'
csv_file = 'GLO3k1p119p_i.csv'

In [3]:
t1 = time.time()
df_all = pre.save_xml_as_csv(xml_file_path, csv_file)
t2 = time.time()

In [4]:
print(f'{(t2 - t1)/60:.2f} min')

1.67 min


In [5]:
df_all.head()

Unnamed: 0,vote_id,data_godzina,Nrleg,NazwiskoImie,Glos,Klub
0,3001001,1997-10-20 12:51:54,1,Adamczyk Franciszek,Za,AWS
1,3001001,1997-10-20 12:51:54,2,Adamska-Wedler Elżbieta,Za,AWS
2,3001001,1997-10-20 12:51:54,3,Adamski Władysław,Za,SLD
3,3001001,1997-10-20 12:51:54,4,Ajchler Romuald,Za,SLD
4,3001001,1997-10-20 12:51:54,5,Anusz Andrzej,Za,AWS


In [6]:
assert np.all(df_all.dtypes.values == [np.dtype('int32'), np.dtype('<M8[ns]'), np.dtype('int32'), np.dtype('O'), np.dtype('O'), np.dtype('O')])
assert df_all.isnull().sum().sum() == 0
assert df_all[df_all.duplicated()].size == 0

In [7]:
df_all['data_godzina'].min(), df_all['data_godzina'].max()

(Timestamp('1997-10-20 12:51:54'), Timestamp('2001-09-18 16:26:05'))

In [8]:
y_m_list = pd.date_range(df_all['data_godzina'].min(), df_all['data_godzina'].max(), 
              freq='M').strftime("%Y-%m").tolist()

y_m_list.append(df_all['data_godzina'].max().strftime("%Y-%m"))

In [9]:
y_m_list[0], y_m_list[-1]

('1997-10', '2001-09')

In [10]:
y_m_list = [x.split('-') for x in y_m_list]

In [11]:
t1 = time.time()
df_deputies = pre.assign_node_ids(df_all)
t2 = time.time()

In [12]:
print(f'{(t2 - t1)/60:.2f} min')

1.07 min


### Monthly grahps

In [13]:
for year, month in y_m_list:
    df_m = df_all[(df_all['data_godzina'].dt.month == int(month)) & (df_all['data_godzina'].dt.year == int(year))]
    
    if len(df_m) == 0:
        print(year, month, 'no votings')
        continue
    
    df_m = pd.merge(df_m[['vote_id', 'data_godzina', 'Nrleg', 'NazwiskoImie', 'Glos', 'Klub']], df_deputies[['Nrleg', 'NazwiskoImie', 'node_id']], on=['Nrleg', 'NazwiskoImie'], how='left')
    df_node_atr = pre.assign_attributes(df_m)
    
    edge_matrix = pre.egde_weights(df_m)
    
    pre.create_graph(edge_matrix, df_node_atr, file_name=f"graphs/G_{k}_{year}_{month}")

100%|██████████████████████████████████████████████████████████████████████████████████| 33/33 [00:01<00:00, 17.08it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 33/33 [00:02<00:00, 15.68it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 87/87 [00:05<00:00, 16.16it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 72/72 [00:04<00:00, 16.14it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 42/42 [00:02<00:00, 17.43it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 31/31 [00:01<00:00, 16.59it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 34/34 [00:01<00:00, 17.54it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 169/169 [00:13<00:00, 12.50it/s]
100%|███████████████████████████████████

1999 08 no votings


100%|████████████████████████████████████████████████████████████████████████████████| 156/156 [00:12<00:00, 12.76it/s]
100%|██████████████████████████████████████████████████████████████████████████████████| 99/99 [00:06<00:00, 14.91it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 192/192 [00:14<00:00, 13.40it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 279/279 [00:26<00:00, 10.66it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 270/270 [00:25<00:00, 10.39it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 120/120 [00:09<00:00, 12.57it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 289/289 [00:29<00:00,  9.93it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 154/154 [00:13<00:00, 11.72it/s]
100%|███████████████████████████████████

2000 08 no votings


100%|████████████████████████████████████████████████████████████████████████████████| 341/341 [00:33<00:00, 10.06it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 319/319 [00:30<00:00, 10.58it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 304/304 [00:29<00:00, 10.16it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 480/480 [00:58<00:00,  8.23it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 126/126 [00:09<00:00, 12.64it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 391/391 [00:45<00:00,  8.68it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 639/639 [01:32<00:00,  6.94it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 613/613 [01:26<00:00,  7.06it/s]
100%|███████████████████████████████████

In [14]:
t3 = time.time()

In [15]:
print(f'{(t3 - t2)/60:.2f} min')

23.53 min


### 4 years graph - whole tenure

In [None]:
df_all = pd.merge(df_all, df_deputies[['Nrleg', 'NazwiskoImie', 'node_id']], on=['Nrleg', 'NazwiskoImie'], how='left')
df_node_atr = pre.assign_attributes(df_all)

edge_matrix = pre.egde_weights(df_all)

pre.create_graph(edge_matrix, df_node_atr, file_name=f"graphs/G_{k}")
t4 = time.time()

 25%|██████████████████▍                                                      | 2988/11801 [1:15:05<3:41:30,  1.51s/it]

In [None]:
print(f'{(t4 - t3)/60:.2f} min')

In [None]:
# G = pickle.load(open('filename.pickle', 'rb'))