In [25]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [26]:
pop = pd.read_csv('population_ukraine_to_2022.csv')


In [27]:
pop_cleaned = pop.loc[:, ~pop.columns.str.contains('-M|Вік|Стать')]
filtered_data = pop_cleaned[pop_cleaned['Періодичність'] == 'Річна']
filtered_data = filtered_data[filtered_data['Показник'] == 'Чисельність наявного населення (за оцінкою) станом на 1 січня']

In [28]:
melted_data = filtered_data.melt(id_vars=['Показник', 'Територіальний розріз', 'Тип місцевості', 'Періодичність'],
                                 var_name='Рік', value_name='Чисельність')

In [29]:
melted_data['Рік'] = melted_data['Рік'].astype(int)

In [30]:
urban_population = melted_data[melted_data['Тип місцевості'] == 'Міська']
total_population = melted_data[melted_data['Тип місцевості'] == 'Загалом']


In [31]:
merged_data = urban_population.merge(total_population, on=['Рік', 'Територіальний розріз'], 
                                     suffixes=('_Міська', '_Загалом'))


In [32]:
merged_data['urban_percentage'] = (merged_data['Чисельність_Міська'] / merged_data['Чисельність_Загалом']).round(2)

In [33]:
merged_data.rename(columns={'Територіальний розріз': 'territorial_region', 'Рік': 'year'}, inplace=True)

In [34]:
result = merged_data[['territorial_region', 'year', 'urban_percentage']]

In [36]:
print(result.head())

          territorial_region  year  urban_percentage
0                    Україна  1989              0.67
1  Автономна Республіка Крим  1989              0.65
2                  Вінницька  1989              0.44
3                  Волинська  1989              0.49
4           Дніпропетровська  1989              0.83


In [None]:
result.to_csv('urban_population_percentage_long.csv', index=False, encoding='utf-8-sig')

In [53]:
translation_dict = {
    "Україна": "Ukraine",
    "Автономна Республіка Крим": "Autonomous Republic of Crimea",
    "Севастополь": "Sevastopol City",
    "Одеська": "Odesa Oblast",
    "Херсонська": "Kherson Oblast",
    "Київ": "Kyiv City",
    "Житомирська": "Zhytomyr Oblast",
    "Сумська": "Sumy Oblast",
    "Донецька": "Donetsk Oblast",
    "Дніпропетровська": "Dnipropetrovsk Oblast",
    "Харківська": "Kharkiv Oblast",
    "Луганська": "Luhansk Oblast",
    "Полтавська": "Poltava Oblast",
    "Запорізька": "Zaporizhzhia Oblast",
    "Чернігівська": "Chernihiv Oblast",
    "Рівненська": "Rivne Oblast",
    "Чернівецька": "Chernivtsi Oblast",
    "Івано-Франківська": "Ivano-Frankivsk Oblast",
    "Хмельницька": "Khmelnytskyi Oblast",
    "Львівська": "Lviv Oblast",
    "Тернопільська": "Ternopil Oblast",
    "Закарпатська": "Zakarpattia Oblast",
    "Волинська": "Volyn Oblast",
    "Черкаська": "Cherkasy Oblast",
    "Кіровоградська": "Kirovohrad Oblast",
    "Київська": "Kyiv Oblast",
    "Миколаївська": "Mykolaiv Oblast",
    "Вінницька": "Vinnytsia Oblast"
}

In [54]:
input_file_path = 'urban_population_percentage_long.csv'
df = pd.read_csv(input_file_path, encoding='utf-8-sig')

In [55]:
df.loc[:, 'Region_English'] = df.iloc[:, 0].map(translation_dict)

In [56]:
output_file_path = 'urban_population_percentage_long_translated.csv'
df.to_csv(output_file_path, index=False, encoding='utf-8-sig')