In [1]:
import pandas as pd
import numpy as np
import json
from datetime import datetime

In [2]:
# Read the CSV file into a DataFrame
df_xlsx = pd.read_csv("/Users/Oksana/Documents/PERSONAL_PRJCTS/ua_kmr_voting/ua_kmr_voting_xlsx.csv", 
                      sep='|', encoding='utf-8')

df_xlsx = df_xlsx[['id','Num_Question', 'GLTime', 'GL_Text', 'RESULT','DPName', 'DPGolos', 'file_name']]

In [3]:
df_xlsx.rename(columns={
    #'id': 'deputy_id', 
    'DPName': 'DPName_normalized', 
    #'GLTime': 'DocTime', # DocTime for unification with other data sources
    'Num_Question': 'PD_NPP',
}, inplace=True)

# Add type identifier
df_xlsx['type'] = 'xlsx'

# Clean up data
df_xlsx = df_xlsx.dropna(subset=['DPName_normalized']) # Drop rows where DPName_normalized is NaN
df_xlsx['DPGolos'] = df_xlsx['DPGolos'].replace('...', 'Відсутній')

In [4]:
# Clean "Петрівська Л. С.". Sometimes she has DPGolos = "0" and sometimes NA. 
# Sometimes Кушнір І. І. has DPGolos = "0".

# Turn NA into "0" in the DPGolos column
df_xlsx['DPGolos'] = df_xlsx['DPGolos'].fillna('0')
# Filter out rows with DPGolos = "0" 
df_xlsx = df_xlsx[df_xlsx['DPGolos'] != '0']

# Remove all whitespace between initials. For example, "Ємець Л. О." becomes "Ємець Л.О."
df_xlsx['DPName_normalized'] = df_xlsx['DPName_normalized'].str.replace(r'\s+', ' ', regex=True)
# Remove all whitespace between initials r'(\w\.)\s+(\w\.)', r'\1\2'
df_xlsx['DPName_normalized'] = df_xlsx['DPName_normalized'].str.replace(r'(\w\.)\s+(\w\.)', r'\1\2', regex=True)

In [5]:
df_xlsx = df_xlsx[['DPName_normalized', 'DPGolos', 'GL_Text', 'PD_NPP',
                    'GLTime', #  DocTime
                    'RESULT', 'file_name', 'type' ]]

In [6]:
# Read the JSON file into a list of dictionaries
with open('/Users/Oksana/Documents/PERSONAL_PRJCTS/ua_kmr_voting/data/documents.json', 'r') as file:
    data = json.load(file)

# Convert the list of dictionaries to a DataFrame
df_json = pd.DataFrame(data)

In [7]:
df_json = df_json[['DPName_normalized', 'DPGolos', 'GL_Text', 'GLTime', 'PD_NPP', 
                   #'DocTime', 
                   'RESULT', 'file_name' ]] # GLTime more unique than DocTime
# filter empty rows "" in 'DPName_normalized' column
df_json = df_json[df_json['DPName_normalized'] != ""]
df_json['type'] = 'json'

# Change "Домогальський В.М." to "Домагальський В.М." in the 'DPName_normalized' column Домогальський В.М.
df_json['DPName_normalized'] = df_json['DPName_normalized'].replace('Домогальський В.М.', 'Домагальський В.М.')

In [8]:
# Merge two dataframes
df = pd.concat([df_xlsx, df_json], ignore_index=True)

In [9]:
df.head(2)

Unnamed: 0,id,PD_NPP,GLTime,GL_Text,RESULT,DPName_normalized,DPGolos,file_name,type
0,1.0,1,14.12.20 12:21,Приняття порядку денного за основу,Рішення ПРИЙНЯТЕ,Андронов В.Є.,За,temp_3_14.12.2020.xlsx,xlsx
1,2.0,1,14.12.20 12:21,Приняття порядку денного за основу,Рішення ПРИЙНЯТЕ,Андрусишин В.Й.,За,temp_3_14.12.2020.xlsx,xlsx


In [9]:
# Strip whitespace from the 'DPName_normalized' column
df['DPName_normalized'] = df['DPName_normalized'].str.strip()
# Strip whitespace from the 'DPGolos' column
df['DPGolos'] = df['DPGolos'].str.strip()
# Strip whitespace from the 'GL_Text' column
df['GL_Text'] = df['GL_Text'].str.strip()
# Strip whitespace from the 'PD_NPP' column
#df['PD_NPP'] = df['PD_NPP'].str.strip()
# Normalize "RESULT" column  - fix the mix of upper and lower case - some values are in lower case, some in upper case
df['RESULT'] = df['RESULT'].str.strip().str.capitalize()

In [10]:
from help_functions import extract_company, extract_address, extract_district, extract_person, extract_date_description, replace_company_names, extract_all_districts, extract_all_persons
import re


In [11]:
df_test = df.copy()
# Filter by a column "Faction" and choose "Мер" only
df_test = df_test[df_test['DPName_normalized'] == 'Кличко В.В.']

In [12]:
df_test['districts'] = df_test['GL_Text'].apply(extract_all_districts)

In [13]:
# Unnest a list in df_test['districts'] to string by joining with ", "
df_test['districts'] = df_test['districts'].apply(lambda x: ', '.join(x) if isinstance(x, list) else x)

In [47]:
df_test['person'] = df_test['GL_Text'].apply(extract_person)
df_test['persons'] = df_test['GL_Text'].apply(extract_all_persons)

In [13]:
df_test['district'] = df_test['GL_Text'].apply(extract_district)
df_test['district'] = df_test['GL_Text'].apply(extract_district)
df_test['address'] = df_test['GL_Text'].apply(extract_address)


In [11]:
del df_json, df_xlsx, data

In [None]:
import re
from help_functions import extract_company, extract_address, extract_district, extract_person, extract_date_description, replace_company_names, extract_all_persons

# Apply the functions to create new columns
df['company'] = df['GL_Text'].apply(extract_company)
df['address'] = df['GL_Text'].apply(extract_address)
df['district'] = df['GL_Text'].apply(extract_district)
#df['person'] = df['GL_Text'].apply(extract_person)
df['persons'] = df['GL_Text'].apply(extract_all_persons)

df['date_description'] = df['GL_Text'].apply(extract_date_description)

In [13]:
df['persons'] = df['GL_Text'].apply(extract_all_persons)


In [12]:
kmr_factions = pd.read_csv('/Users/Oksana/Documents/PERSONAL_PRJCTS/ua_kmr_voting/factions/factions_kmr_short.csv') 
# https://docs.google.com/spreadsheets/d/1eoeaeA2HX2ZOvZJgBfyMmrQxO8pLY2DSqetOUAiJ6YQ/edit?gid=757040049#gid=757040049
display(kmr_factions.head(2))

Unnamed: 0,short_name,Faction
0,Кириченко К.В.,УДАР
1,Артеменко С.В.,ЄС


In [28]:
df_join = df.merge(kmr_factions, left_on='DPName_normalized', right_on='short_name', how='left')
df_join.head(2)

Unnamed: 0,DPName_normalized,DPGolos,GL_Text,PD_NPP,GLTime,RESULT,file_name,type,company,address,...,Туризм,Інновації та технології,Соціальна політика,Перейменування і Найменування,Самоврядування,Містобудування,Дорожня інфраструктура,Кримінальна відповідальність,short_name,Faction
0,Андронов В.Є.,За,Приняття порядку денного за основу,1,14.12.20 12:21,Рішення прийняте,temp_3_14.12.2020.xlsx,xlsx,,,...,False,False,False,False,False,False,False,False,Андронов В.Є.,УДАР
1,Андрусишин В.Й.,За,Приняття порядку денного за основу,1,14.12.20 12:21,Рішення прийняте,temp_3_14.12.2020.xlsx,xlsx,,,...,False,False,False,False,False,False,False,False,Андрусишин В.Й.,ЄС


In [29]:
len(df_join['DPName_normalized'].unique())

134

In [30]:
# Apply a dictionary of keywords to the 'GL_Text' column
from keywords_topics import topics_keywords
for topic, keywords in topics_keywords.items():
    df[topic] = df['GL_Text'].str.contains('|'.join(keywords), case=False)
    

In [None]:
df_join = df_join[['DPName_normalized', 'Faction', 'DPGolos', 'GL_Text', 'PD_NPP',
                    #'DocTime',
                    'GLTime', #  DocTime
                    'RESULT', 'company', 'address', 'district', 
                    'persons', # before it was 'person', but changed to 'persons' to match the function extract_all_persons
                    'date_description']]

# Convert the 'DocTime' column to datetime
#df_join['DocTime'] = pd.to_datetime(df_join['DocTime'], errors='coerce')
df_join['GLTime'] = pd.to_datetime(df_join['GLTime'], errors='coerce')

import re
#from help_functions import replace_company_names
df_join['company'] = df_join['company'].apply(replace_company_names)

In [19]:
# Normalize df_join['RESULT']
df_join['RESULT'] = df_join['RESULT'].str.strip().str.capitalize()

df_join['RESULT'].unique()

array(['Рішення прийняте', 'Рішення не прийняте'], dtype=object)

In [20]:
vote_types = {
    'AbsenteeCnt': 'Відсутній',
    'DidNotVoteCnt': 'Не голосував', 
    'AgainstCnt': 'Проти',
    'ForCnt': 'За',
    'AbstainedCnt': 'Утримався'
}

for col_name, vote_pattern in vote_types.items():
    counts = (df_join[df_join['DPGolos'].str.contains(vote_pattern)]
              .groupby(['PD_NPP', 'GLTime', 'GL_Text'])
              .size()
              .reset_index(name=col_name))
    df_join = df_join.merge(counts, on=['PD_NPP', 'GLTime', 'GL_Text'], how='left')
    df_join[col_name] = df_join[col_name].fillna(0).astype(int)

In [21]:
# New calculation by faction
df_faction = None
for col_name, vote_pattern in vote_types.items():
    faction_counts = (df_join[df_join['DPGolos'].str.contains(vote_pattern)]
                     .groupby(['PD_NPP', 'GLTime', 'GL_Text', 'Faction'])
                     .size()
                     .reset_index(name=col_name))
    
    if df_faction is None:
        df_faction = faction_counts
    else:
        df_faction = df_faction.merge(faction_counts, 
                                    on=['PD_NPP', 'GLTime', 'GL_Text', 'Faction'], 
                                    how='outer')

# Fill NAs with 0 and convert to int for all vote count columns
for col_name in vote_types.keys():
    if col_name in df_faction.columns:
        df_faction[col_name] = df_faction[col_name].fillna(0).astype(int)

# Add total ForCnt per voting (across all factions)
total_for_counts = df_faction.groupby(['PD_NPP', 'GLTime', 'GL_Text'])['ForCnt'].sum().reset_index(name='TotalForCnt')
df_faction = df_faction.merge(total_for_counts, on=['PD_NPP', 'GLTime', 'GL_Text'], how='left')

In [22]:
# add 'id' column to the dataframe
df_join['id'] = np.arange(len(df_join))
### Final dataframe ####
TIMESTAMP = datetime.now().strftime("%Y%m%d_%H")
df_join.to_csv(f'data/ua_kmr_voting_{TIMESTAMP}.csv', index=False)

In [27]:
df_join.columns

Index(['DPName_normalized', 'Faction', 'DPGolos', 'GL_Text', 'PD_NPP',
       'GLTime', 'RESULT', 'company', 'address', 'district', 'person',
       'date_description', 'AbsenteeCnt', 'DidNotVoteCnt', 'AgainstCnt',
       'ForCnt', 'AbstainedCnt', 'id'],
      dtype='object')

In [23]:
import pandas as pd
from sqlalchemy import create_engine
import time

# Connection string format: 
# postgresql://username:password@host:port/database_name

# For local PostgreSQL:
connection_string = "postgresql://postgres:postgres@localhost:5432/kmr_voting"

# Create SQLAlchemy engine
engine = create_engine(connection_string)

# Assuming df_file is your DataFrame
# If you need to load it:
# df_file = pd.read_csv('your_file.csv')

# Start timer
start_time = time.time()
print(f"Starting upload of {len(df_join)} rows...")

# Upload DataFrame to PostgreSQL
# table_name will be the name of your table in PostgreSQL
table_name = 'voting_data'
df_join.to_sql(
    table_name, 
    engine, 
    if_exists='replace',  # Options: 'fail', 'replace', 'append'
    index=False,
    method='multi',  # Faster for large DataFrames
    chunksize=10000   # Process in chunks to avoid memory issues
)

# Create an index (optional, but helps with query performance)
with engine.connect() as connection:
    print("Creating index...")
    # Modify 'id' to match your actual primary key column
    connection.execute(f"CREATE INDEX IF NOT EXISTS idx_id ON {table_name} (id)")

# Print success message with timing
elapsed_time = time.time() - start_time
print(f"Upload complete! Took {elapsed_time:.2f} seconds")

# Test that the data was uploaded correctly
print("\nVerifying data:")
result = pd.read_sql(f"SELECT COUNT(*) FROM {table_name}", engine)
print(f"Total rows in database: {result.iloc[0, 0]}")

# Sample data
sample = pd.read_sql(f"SELECT * FROM {table_name} LIMIT 5", engine)
print("\nSample data:")
print(sample)

Starting upload of 992648 rows...
Creating index...


  connection.execute(f"CREATE INDEX IF NOT EXISTS idx_id ON {table_name} (id)")


Upload complete! Took 572.75 seconds

Verifying data:
Total rows in database: 992648

Sample data:
  DPName_normalized Faction    DPGolos                             GL_Text  \
0     Андронов В.Є.    УДАР         За  Приняття порядку денного за основу   
1   Андрусишин В.Й.      ЄС         За  Приняття порядку денного за основу   
2       Ар'єва Я.В.      ЄС         За  Приняття порядку денного за основу   
3    Артеменко С.В.      ЄС         За  Приняття порядку денного за основу   
4      Ахметов Р.С.    ОПЗЖ  Відсутній  Приняття порядку денного за основу   

  PD_NPP              GLTime            RESULT company address district  \
0      1 2020-12-14 12:21:00  Рішення прийняте    None    None     None   
1      1 2020-12-14 12:21:00  Рішення прийняте    None    None     None   
2      1 2020-12-14 12:21:00  Рішення прийняте    None    None     None   
3      1 2020-12-14 12:21:00  Рішення прийняте    None    None     None   
4      1 2020-12-14 12:21:00  Рішення прийняте    None   

In [24]:
import pandas as pd
from sqlalchemy import create_engine

# Create engine
engine = create_engine("postgresql://postgres:postgres@localhost:5432/kmr_voting")

# Run a test query
result = pd.read_sql("SELECT * FROM voting_data LIMIT 10", engine)
print(result)

    DPName_normalized         Faction       DPGolos  \
0       Андронов В.Є.            УДАР            За   
1     Андрусишин В.Й.              ЄС            За   
2         Ар'єва Я.В.              ЄС            За   
3      Артеменко С.В.              ЄС            За   
4        Ахметов Р.С.            ОПЗЖ     Відсутній   
5        Баленко І.М.              ЄС            За   
6          Банас Д.М.            УДАР            За   
7    Берікашвілі Н.В.         Єдність  Не голосував   
8  Білоцерковець Д.О.            УДАР            За   
9        Богатов К.В.  Позафракційний            За   

                              GL_Text PD_NPP              GLTime  \
0  Приняття порядку денного за основу      1 2020-12-14 12:21:00   
1  Приняття порядку денного за основу      1 2020-12-14 12:21:00   
2  Приняття порядку денного за основу      1 2020-12-14 12:21:00   
3  Приняття порядку денного за основу      1 2020-12-14 12:21:00   
4  Приняття порядку денного за основу      1 2020-12-1

In [25]:
# Transform the DataFrame to match the database schema SQLite3
# Assuming df_join is your DataFrame
import pandas as pd
import sqlite3
from pathlib import Path

# Create a data directory if it doesn't exist
Path("data").mkdir(exist_ok=True)

# Connect to SQLite database (will be created if it doesn't exist)
conn = sqlite3.connect("data/kmr_voting_data.db")

# Save DataFrame to database (replace 'table_name' with your preferred name)
df_join.to_sql("roll_call_voting_kmr", conn, index=False, if_exists="replace")

# Close the connection
conn.close()

print(f"Saved {len(df_join)} rows to data/kmr_voting_data.db")

Saved 992648 rows to data/kmr_voting_data.db


In [26]:
# After this block don't forget to copy "kmr_voting_data.db" to the folder "docker_app"

# Now let's create a new table with unique votings based on GL_Text and DocTime

# Connect to the SQLite database
conn = sqlite3.connect('/Users/Oksana/Documents/PERSONAL_PRJCTS/ua_kmr_voting/data/kmr_voting_data.db')

# First, let's examine the original table to understand its structure
print("Examining the original table structure...")
cursor = conn.cursor() # roll_call_voting_kmr
cursor.execute("PRAGMA table_info(roll_call_voting_kmr)")
columns = cursor.fetchall()
print(f"Columns in roll_call_voting_kmr table: {columns}")

# Get row count of the original table
cursor.execute("SELECT COUNT(*) FROM roll_call_voting_kmr")
total_rows = cursor.fetchone()[0]
print(f"Total rows in roll_call_voting_kmr table: {total_rows}")

# Drop the existing table if it exists
print("Dropping existing unique_votings table if it exists...")
cursor.execute("DROP TABLE IF EXISTS unique_votings")

# Create a new table for unique votings with only GL_Text and DocTime
print("Creating unique_votings table with only GL_Text and DocTime columns...")

# Added:  ForCnt, AbstainedCnt, AgainstCnt, DidNotVoteCnt, AbsenteeCnt,
# GLTime instead of DocTime, as GLTime is more unique
cursor.execute("""
CREATE TABLE unique_votings AS
SELECT GL_Text, GLTime, PD_NPP, RESULT, ForCnt, AbstainedCnt, AgainstCnt, DidNotVoteCnt, AbsenteeCnt, company, address, district, person, date_description
FROM roll_call_voting_kmr
GROUP BY GL_Text, GLTime
""")

# Get row count of the new table
cursor.execute("SELECT COUNT(*) FROM unique_votings")
unique_rows = cursor.fetchone()[0]
print(f"Total unique votings (based on GL_Text and DocTime): {unique_rows}")
print(f"Removed {total_rows - unique_rows} duplicate entries")

# Create indices for faster querying
print("Creating indices for faster querying...")
cursor.execute("CREATE INDEX IF NOT EXISTS idx_gl_text ON unique_votings (GL_Text)")
cursor.execute("CREATE INDEX IF NOT EXISTS idx_doc_time ON unique_votings (GLTime)") # GLTime instead of DocTime
cursor.execute("CREATE INDEX IF NOT EXISTS idx_pd_npp ON unique_votings (PD_NPP)")
cursor.execute("CREATE INDEX IF NOT EXISTS idx_result ON unique_votings (RESULT)")
cursor.execute("CREATE INDEX IF NOT EXISTS idx_company ON unique_votings (company)")
cursor.execute("CREATE INDEX IF NOT EXISTS idx_address ON unique_votings (address)")
cursor.execute("CREATE INDEX IF NOT EXISTS idx_district ON unique_votings (district)")
cursor.execute("CREATE INDEX IF NOT EXISTS idx_person ON unique_votings (person)")
cursor.execute("CREATE INDEX IF NOT EXISTS idx_date_description ON unique_votings (date_description)")
cursor.execute("CREATE INDEX IF NOT EXISTS idx_for_cnt ON unique_votings (ForCnt)")
cursor.execute("CREATE INDEX IF NOT EXISTS idx_abstained_cnt ON unique_votings (AbstainedCnt)")
cursor.execute("CREATE INDEX IF NOT EXISTS idx_against_cnt ON unique_votings (AgainstCnt)")
cursor.execute("CREATE INDEX IF NOT EXISTS idx_did_not_vote_cnt ON unique_votings (DidNotVoteCnt)")
cursor.execute("CREATE INDEX IF NOT EXISTS idx_absentee_cnt ON unique_votings (AbsenteeCnt)")

# Sample data from the new table
cursor.execute("SELECT * FROM unique_votings LIMIT 5")
sample_data = cursor.fetchall()

# Get column names
cursor.execute("PRAGMA table_info(unique_votings)")
column_names = [col[1] for col in cursor.fetchall()]

print("\nSample data from unique_votings table:")
for i, row in enumerate(sample_data):
    print(f"Row {i+1}:")
    for col_name, value in zip(column_names, row):
        print(f"  {col_name}: {value}")

# Commit changes and close connection
conn.commit()
conn.close()

Examining the original table structure...
Columns in roll_call_voting_kmr table: [(0, 'DPName_normalized', 'TEXT', 0, None, 0), (1, 'Faction', 'TEXT', 0, None, 0), (2, 'DPGolos', 'TEXT', 0, None, 0), (3, 'GL_Text', 'TEXT', 0, None, 0), (4, 'PD_NPP', 'TEXT', 0, None, 0), (5, 'GLTime', 'TIMESTAMP', 0, None, 0), (6, 'RESULT', 'TEXT', 0, None, 0), (7, 'company', 'TEXT', 0, None, 0), (8, 'address', 'TEXT', 0, None, 0), (9, 'district', 'TEXT', 0, None, 0), (10, 'person', 'TEXT', 0, None, 0), (11, 'date_description', 'TEXT', 0, None, 0), (12, 'AbsenteeCnt', 'INTEGER', 0, None, 0), (13, 'DidNotVoteCnt', 'INTEGER', 0, None, 0), (14, 'AgainstCnt', 'INTEGER', 0, None, 0), (15, 'ForCnt', 'INTEGER', 0, None, 0), (16, 'AbstainedCnt', 'INTEGER', 0, None, 0), (17, 'id', 'INTEGER', 0, None, 0)]
Total rows in roll_call_voting_kmr table: 992648
Dropping existing unique_votings table if it exists...
Creating unique_votings table with only GL_Text and DocTime columns...
Total unique votings (based on GL_Te

In [57]:
# Import sqlite3.connect('/Users/Oksana/Documents/PERSONAL_PRJCTS/ua_kmr_voting/data/kmr_voting_data.db')
# Connect to the SQLite database
conn = sqlite3.connect('/Users/Oksana/Documents/PERSONAL_PRJCTS/ua_kmr_voting/data/kmr_voting_data.db')

# First, let's examine the original table to understand its structure
print("Examining the original table structure...")
cursor = conn.cursor() # unique_votings
cursor.execute("PRAGMA table_info(unique_votings)")
columns = cursor.fetchall()
print(f"Columns in unique_votings table: {columns}")

# Get row count of the original table
cursor.execute("SELECT COUNT(*) FROM unique_votings")
total_rows = cursor.fetchone()[0]
print(f"Total rows in unique_votings table: {total_rows}")

# Sample data from the new table
cursor.execute("SELECT * FROM unique_votings LIMIT 5")
sample_data = cursor.fetchall()


# Close connection when done
conn.close()  # Uncomment if you want to close connection here



Examining the original table structure...
Columns in unique_votings table: [(0, 'GL_Text', 'TEXT', 0, None, 0), (1, 'GLTime', 'NUM', 0, None, 0), (2, 'PD_NPP', 'TEXT', 0, None, 0), (3, 'RESULT', 'TEXT', 0, None, 0), (4, 'ForCnt', 'INT', 0, None, 0), (5, 'AbstainedCnt', 'INT', 0, None, 0), (6, 'AgainstCnt', 'INT', 0, None, 0), (7, 'DidNotVoteCnt', 'INT', 0, None, 0), (8, 'AbsenteeCnt', 'INT', 0, None, 0), (9, 'company', 'TEXT', 0, None, 0), (10, 'address', 'TEXT', 0, None, 0), (11, 'district', 'TEXT', 0, None, 0), (12, 'person', 'TEXT', 0, None, 0), (13, 'date_description', 'TEXT', 0, None, 0)]
Total rows in unique_votings table: 8230


In [1]:
import pandas as pd
import sqlite3
conn = sqlite3.connect('/Users/Oksana/Documents/PERSONAL_PRJCTS/ua_kmr_voting/data/kmr_voting_data.db')

# First, let's examine the original table to understand its structure
print("Examining the original table structure...")

# Read directly into DataFrame
df_test = pd.read_sql_query("SELECT * FROM unique_votings", conn)
print("\nSample data from unique_votings table:")
print(df_test)

# Or if you want to see all columns clearly
print("\nDetailed view:")
for i, row in df_test.iterrows():
    print(f"Row {i+1}:")
    for col_name, value in row.items():
        print(f"  {col_name}: {value}")

conn.close()  # Uncomment if you want to close connection here


Examining the original table structure...

Sample data from unique_votings table:
                                                GL_Text               GLTime  \
0     "Про внесення змін та доповнень до Положення п...  2021-08-04 00:00:00   
1     (НЕ ПРИЙНЯТО) Про передачу громадянці Поповій ...  2021-09-23 17:08:15   
2     (РІШЕННЯ ПРИЙНЯТО) За основу питання порядку д...  2023-07-13 16:08:02   
3     (РІШЕННЯ ПРИЙНЯТО)За припинення обговорення пи...  2025-03-04 14:01:04   
4     1) Про надання громадянці Нестеренко Оксані Ва...  2023-07-13 18:04:49   
...                                                 ...                  ...   
8225  передачу ТОВАРИСТВУ З ОБМЕЖЕНОЮ ВІДПОВІДАЛЬНІС...  2022-08-25 17:07:39   
8226  поновлення товариству з обмеженою відповідальн...  2021-09-12 18:15:36   
8227  про внесення змін до рішення Київської міської...  2022-05-14 13:54:43   
8228  про звернення Київської міської ради до Кабіне...  2023-11-23 13:31:52   
8229  ро внесення змін до рішення Київ

In [2]:
# Import the topics_keywords dictionary from the help_functions module
from keywords_topics import topics_keywords

# Apply a dictionary of keywords to the 'GL_Text' column
for topic, keywords in topics_keywords.items():
    df_test[topic] = df_test['GL_Text'].str.contains('|'.join(keywords), case=False)
    

In [3]:
df_test.columns

Index(['GL_Text', 'GLTime', 'PD_NPP', 'RESULT', 'ForCnt', 'AbstainedCnt',
       'AgainstCnt', 'DidNotVoteCnt', 'AbsenteeCnt', 'company', 'address',
       'district', 'person', 'date_description', 'Земля', 'Оренда',
       'Приватизація', 'Екологія', 'Освіта', 'Безпека', 'Історія і культура',
       'Політика', 'Фінанси', 'Бюджет та економіка', 'Інфраструктура',
       'Культура та спадщина', 'Теплопостачання', 'Військові і війна',
       'Транспорт', 'Житлово-комунальне господарство', 'Спорт', 'Здоров'я',
       'Енергетика', 'Туризм', 'Інновації та технології', 'Соціальна політика',
       'Перейменування і Найменування', 'Самоврядування', 'Містобудування',
       'Дорожня інфраструктура', 'Кримінальна відповідальність'],
      dtype='object')

In [4]:
# Get all topic columns (the boolean columns)
topic_columns = ['Земля', 'Оренда',
       'Приватизація', 'Екологія', 'Освіта', 'Безпека', 'Історія і культура',
       'Політика', 'Фінанси', 'Бюджет та економіка', 'Інфраструктура',
       'Культура та спадщина', 'Теплопостачання', 'Військові і війна',
       'Транспорт', 'Житлово-комунальне господарство', 'Спорт', 'Здоров\'я',
       'Енергетика', 'Туризм', 'Інновації та технології', 'Соціальна політика',
       'Перейменування і Найменування', 'Самоврядування', 'Містобудування',
       'Дорожня інфраструктура', 'Кримінальна відповідальність']

# Create the 'topics' column by combining True topics with commas
df_test['topics'] = df_test[topic_columns].apply(
    lambda row: ', '.join([col for col in topic_columns if row[col]]), 
    axis=1
)

# Optional: Drop the individual boolean columns if you don't need them anymore
df_test = df_test.drop(columns=topic_columns)

# Optional: Replace empty strings with a default value like 'Other' or 'Uncategorized'
df_test['topics'] = df_test['topics'].replace('', 'Uncategorized')

In [5]:
# Filter the df and leave only Uncategorized topics
df_test = df_test[df_test['topics'] == 'Uncategorized']

In [6]:
for i in df_test['GL_Text']:
    print(i)

"Про внесення змін та доповнень до Положення про фінансово-кредитну підтримку суб’єктів малого та середнього підприємництва у місті Києві, затвердженого рішенням Київської міської ради від 21 вересня 2017 року № 46/3053 
(№ 08/231-1207/ПР від 06.04.2021) 
(Доп. Кулеба О.В.)"
(РІШЕННЯ ПРИЙНЯТО)За припинення обговорення питання.
1119/ПР
1124/ПР
1448/ПР
1466/ПР ДСК
1469/ПР ДСК
1563/ПР ДСК
1640/ПР
192/ПР
Внесення змін до рішення Київської міської ради від 15 червня 2023 року № 6505/6546 «Про деякі питання функціонування секторів для почесних поховань, відведених на міських кладовищах». (від 12.07.2023 № 08/231-880/ПР)
ДСК № 1131/ПР
ДСК № 1132/ПР
ДСК № 1187/ПР
ДСК № 1400/ПР
ДСК № 639/ПР
ДСК № 820/ПР ,821/ПР ,824/ПР ,856/ПР ,857/ПР ,905/ПР ,907/ПР ,942/ПР ,943/ПР ,945/ПР ,946/ПР ,960/ПР ,961/ПР
ДСК № 884/ПР,906/ПР,910/ПР,911/ПР,944/ПР,823/ПР
ДСК № 90/ПР
Дарницькому районі м. Києва ПРИВАТНОМУ АКЦІОНЕРНОМУ ТОВАРИСТВУ «ФАРМАЦЕВТИЧНА ФІРМА «ДАРНИЦЯ» для розміщення та експлуатації основних, підсо

In [68]:
df_test['GL_Text'].unique

<bound method Series.unique of 0       "Про внесення змін та доповнень до Положення п...
3       (РІШЕННЯ ПРИЙНЯТО)За припинення обговорення пи...
6                                                 1119/ПР
7                                                 1124/ПР
8                                                 1448/ПР
                              ...                        
8221    деякі питання комплексної підтримки суб'єктів ...
8222                                            за основу
8227    про внесення змін до рішення Київської міської...
8228    про звернення Київської міської ради до Кабіне...
8229    ро внесення змін до рішення Київської міської ...
Name: GL_Text, Length: 2324, dtype: object>

In [61]:
df_test.columns

Index(['GL_Text', 'GLTime', 'PD_NPP', 'RESULT', 'ForCnt', 'AbstainedCnt',
       'AgainstCnt', 'DidNotVoteCnt', 'AbsenteeCnt', 'company', 'address',
       'district', 'person', 'date_description', 'Земля', 'Оренда', 'Екологія',
       'Освіта', 'Безпека', 'Історія і культура', 'Політика', 'Фінанси',
       'Бюджет та економіка', 'Соціальні програми', 'Інфраструктура',
       'Культура та спадщина', 'Теплопостачання', 'Військові'],
      dtype='object')

In [30]:
import sqlite3

conn = sqlite3.connect("data/kmr_voting_data.db")
cursor = conn.cursor()

# After creating your table and importing data
cursor.execute("CREATE INDEX idx_company ON roll_call_voting_kmr (company)")
cursor.execute("CREATE INDEX idx_district ON roll_call_voting_kmr (district)")
cursor.execute("CREATE INDEX idx_person ON roll_call_voting_kmr (person)")

cursor.execute("CREATE INDEX idx_company ON roll_call_voting_kmr (address)")
cursor.execute("CREATE INDEX idx_company ON roll_call_voting_kmr (date_description)")
cursor.execute("CREATE INDEX idx_company ON roll_call_voting_kmr (DPName_normalized)")
cursor.execute("CREATE INDEX idx_company ON roll_call_voting_kmr (Faction)")
cursor.execute("CREATE INDEX idx_company ON roll_call_voting_kmr (DPGolos)")
cursor.execute("CREATE INDEX idx_company ON roll_call_voting_kmr (GL_Text)")
cursor.execute("CREATE INDEX idx_company ON roll_call_voting_kmr (PD_NPP)")

conn.commit()
conn.close()

OperationalError: index idx_company already exists

In [None]:
# To DuckDB

import sqlite3
import pandas as pd
import duckdb
import os
from pathlib import Path

# Ensure data directory exists
Path("data").mkdir(exist_ok=True, parents=True)

# Step 1: Connect to your existing SQLite database
sqlite_conn = sqlite3.connect('data/crawler_data.db')

# Get the list of tables in the SQLite database
cursor = sqlite_conn.cursor()
cursor.execute("SELECT name FROM sqlite_master WHERE type='table';")
tables = cursor.fetchall()

# Step 2: Connect to a new DuckDB database
duckdb_conn = duckdb.connect('data/crawler_data.duckdb')

# Step 3: Transfer each table
for table in tables:
    table_name = table[0]
    print(f"Migrating table: {table_name}")
    
    # Read the data from SQLite into a pandas DataFrame
    df = pd.read_sql_query(f"SELECT * FROM {table_name}", sqlite_conn)
    
    # Print info about the data
    print(f"  - Columns: {', '.join(df.columns)}")
    print(f"  - Rows: {len(df)}")
    
    # Create the table in DuckDB
    duckdb_conn.execute(f"CREATE TABLE IF NOT EXISTS {table_name} AS SELECT * FROM df")
    
    # Optional: Create indexes
    # If your SQLite DB had a primary key, recreate it in DuckDB
    # Assuming 'id' is your primary key column:
    if 'id' in df.columns:
        duckdb_conn.execute(f"CREATE INDEX IF NOT EXISTS idx_{table_name}_id ON {table_name}(id)")
    
    # Check row count to confirm
    result = duckdb_conn.execute(f"SELECT COUNT(*) FROM {table_name}").fetchone()
    print(f"  - Transferred {result[0]} rows")

# Close connections
sqlite_conn.close()
duckdb_conn.close()

print("Migration completed successfully!")