# Lithuanian Demographic Data
## By Svajune Klimasauskaite

In [1]:
# import all packages and set plots to be embedded inline
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sb
from mpl_toolkits import mplot3d
import datetime as dt
#from google.cloud import storage

%matplotlib inline

## Load Data



### Useful Area

In [2]:
#Load and change the column names, to prepare for the further data merge
df1=pd.read_csv("Dataset/naudingas_plotas.csv", sep=';')
df1.rename(columns={'Rodiklis':'useful_area', 'Reikšmė':'useful_area_value', 
                    'Matavimo vienetai':'useful_area_measure'}, inplace=True)
df1.head(2)

Unnamed: 0,Laikotarpis,useful_area,Administracinė teritorija,Gyvenamoji vietovė,useful_area_measure,useful_area_value
0,1995,"Naudingasis plotas, tenkantis vienam gyventojui",Lietuvos Respublika,Miestas ir kaimas,m²,20.0
1,1996,"Naudingasis plotas, tenkantis vienam gyventojui",Lietuvos Respublika,Miestas ir kaimas,m²,20.4


### Retain People 

In [3]:
#Load and change the column names, to prepare for the further data merge
df2=pd.read_csv("Dataset/islaikomi_asmenys.csv", sep=';')
df2.rename(columns={'Rodiklis':'retained_people','Reikšmė':'retained_people_value',
                   'Matavimo vienetai':'retained_people_measure'}, inplace=True)
df2.head(2)

Unnamed: 0,Laikotarpis,retained_people,Administracinė teritorija,"Amžius (0–14, 65 ir vyresni)",retained_people_measure,retained_people_value
0,2001,Išlaikomo amžiaus žmonių koeficientas metų pra...,Elektrėnų sav.,0–14,asmenys,30.0
1,2002,Išlaikomo amžiaus žmonių koeficientas metų pra...,Elektrėnų sav.,0–14,asmenys,28.0


### Neto Imigration

In [4]:
#Load and change the column names, to prepare for the further data merge
df3=pd.read_csv("Dataset/imigrantai.csv", sep=';')
df3.rename(columns={'Rodiklis':'neto_migration','Reikšmė':'neto_migration_value',
                   'Matavimo vienetai':'neto_migration_measure'}, inplace=True)
df3.head(2)

Unnamed: 0,Laikotarpis,neto_migration,Administracinė teritorija,neto_migration_measure,neto_migration_value
0,1990,Neto migracija,Elektrėnų sav.,asmenys,
1,1991,Neto migracija,Elektrėnų sav.,asmenys,


### Population Density

In [5]:
#Load and change the column names, to prepare for the further data merge
df4=pd.read_csv("Dataset/gyventoju_tankis.csv", sep=';')
df4.rename(columns={'Rodiklis':'population_density','Reikšmė':'population_density_value',
                   'Matavimo vienetai':'population_density_measure'}, inplace=True)
df4.head(2)

Unnamed: 0,Laikotarpis,population_density,Administracinė teritorija,population_density_measure,population_density_value
0,2001,Gyventojų tankis metų pradžioje,Elektrėnų sav.,viename km²,53.9
1,2002,Gyventojų tankis metų pradžioje,Elektrėnų sav.,viename km²,53.1


### Permantent residents

In [6]:
#Load and change the column names, to prepare for the further data merge
df5=pd.read_csv("Dataset/gyventoju_skaicius.csv", sep=';')
df5.rename(columns={'Rodiklis':'permanent_residents','Reikšmė':'permanent_residents_value',
                   'Matavimo vienetai':'permanent_residents_measure'}, inplace=True)
df5.head(2)

Unnamed: 0,Laikotarpis,permanent_residents,Administracinė teritorija,Gyvenamoji vietovė,permanent_residents_measure,permanent_residents_value
0,1996,Nuolatinių gyventojų skaičius metų pradžioje,Elektrėnų sav.,Miestas ir kaimas,asmenys,30410.0
1,1997,Nuolatinių gyventojų skaičius metų pradžioje,Elektrėnų sav.,Miestas ir kaimas,asmenys,30090.0


### Ageing info

In [7]:
#Load and change the column names, to prepare for the further data merge
df6=pd.read_csv("Dataset/gyventoju_amzius.csv", sep=';')
df6.rename(columns={'Rodiklis':'median_age','Reikšmė':'median_age_value',
                   'Matavimo vienetai':'median_age_measure'}, inplace=True)
df6.head(2)

Unnamed: 0,Laikotarpis,median_age,Administracinė teritorija,Lytis,median_age_measure,median_age_value
0,2001,Medianinis gyventojų amžius metų pradžioje,Elektrėnų sav.,Vyrai,metai,34.0
1,2002,Medianinis gyventojų amžius metų pradžioje,Elektrėnų sav.,Vyrai,metai,34.0


### Average housing

In [8]:
#Load and change the column names, to prepare for the further data merge
df7=pd.read_csv("Dataset/buto_dydis.csv", sep=';')
df7.rename(columns={'Rodiklis':'average_housing','Reikšmė':'average_housing_value',
                   'Matavimo vienetai':'average_housing_measure'}, inplace=True)
df7.head(2)

Unnamed: 0,Laikotarpis,average_housing,Administracinė teritorija,Gyvenamoji vietovė,average_housing_measure,average_housing_value
0,2004,Vidutinis būsto dydis,Elektrėnų sav.,Miestas ir kaimas,m²,57.7
1,2005,Vidutinis būsto dydis,Elektrėnų sav.,Miestas ir kaimas,m²,58.6


### Unemployment

In [9]:
#Load and change the column names, to prepare for the further data merge
df8=pd.read_csv("Dataset/bedarbiai.csv", sep=';')
df8.rename(columns={'Rodiklis':'unemployment','Reikšmė':'unemployment_value',
                   'Matavimo vienetai':'unemployment_measure'}, inplace=True)
df8.head(2)

Unnamed: 0,Laikotarpis,unemployment,Administracinė teritorija,unemployment_measure,unemployment_value
0,1993,Registruotų bedarbių ir darbingo amžiaus gyven...,Elektrėnų sav.,proc.,
1,1994,Registruotų bedarbių ir darbingo amžiaus gyven...,Elektrėnų sav.,proc.,


## Merge

Merge all datasets on the **period** and **municipality**.

In [10]:
all_data = pd.merge(df1, df2, how='outer', on=['Laikotarpis','Administracinė teritorija'])
all_data = pd.merge(all_data, df3, how='outer', on=['Laikotarpis','Administracinė teritorija'])
all_data = pd.merge(all_data, df4, how='outer', on=['Laikotarpis','Administracinė teritorija'])
all_data = pd.merge(all_data, df5, how='outer', on=['Laikotarpis','Administracinė teritorija'])
all_data = pd.merge(all_data, df6, how='outer', on=['Laikotarpis','Administracinė teritorija'])
all_data = pd.merge(all_data, df7, how='outer', on=['Laikotarpis','Administracinė teritorija'])
all_data = pd.merge(all_data, df8, how='outer', on=['Laikotarpis','Administracinė teritorija'])

In [11]:
all_data.sample(2)

Unnamed: 0,Laikotarpis,useful_area,Administracinė teritorija,Gyvenamoji vietovė_x,useful_area_measure,useful_area_value,retained_people,"Amžius (0–14, 65 ir vyresni)",retained_people_measure,retained_people_value,...,Lytis,median_age_measure,median_age_value,average_housing,Gyvenamoji vietovė,average_housing_measure,average_housing_value,unemployment,unemployment_measure,unemployment_value
4574,2017,"Naudingasis plotas, tenkantis vienam gyventojui",Utenos apskritis,Miestas ir kaimas,m²,42.9,,,,,...,,,,,,,,,,
3174,2004,"Naudingasis plotas, tenkantis vienam gyventojui",Pasvalio r. sav.,Miestas ir kaimas,m²,29.3,Išlaikomo amžiaus žmonių koeficientas metų pra...,65 ir vyresni,asmenys,29.0,...,Vyrai,metai,35.0,Vidutinis būsto dydis,Miestas ir kaimas,m²,70.6,Registruotų bedarbių ir darbingo amžiaus gyven...,proc.,14.1


## Data Cleaning and Augmentation

### Drop and Rename Columns

In [12]:
all_data.drop(columns = ['Gyvenamoji vietovė_y','Gyvenamoji vietovė'], inplace = True)
all_data.rename(columns = {'Laikotarpis':'year', 'Administracinė teritorija':'municipality',
                          'Gyvenamoji vietovė_x':'city_or_village',
                          'Amžius (0–14, 65 ir vyresni)':'age_group',
                          'Lytis':'gender'}, inplace = True)

### Keep Period from 2001 to 2018

In [13]:
final = all_data[all_data['year'] >= 2001]
final = final[final['year'] != 2019]
final['year'].unique()

array([2001, 2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011,
       2012, 2013, 2014, 2015, 2016, 2017, 2018])

### Keep Lowest Level Municipalities

In [14]:
final['municipality'].unique()

array(['Lietuvos Respublika', 'Sostinės regionas', 'Vilniaus apskritis',
       'Elektrėnų sav.', 'Šalčininkų r. sav.', 'Širvintų r. sav.',
       'Švenčionių r. sav.', 'Trakų r. sav.', 'Ukmergės r. sav.',
       'Vilniaus m. sav.', 'Vilniaus r. sav.',
       'Vidurio ir vakarų Lietuvos regionas', 'Alytaus apskritis',
       'Alytaus m. sav.', 'Alytaus r. sav.', 'Druskininkų sav.',
       'Lazdijų r. sav.', 'Varėnos r. sav.', 'Kauno apskritis',
       'Birštono sav.', 'Jonavos r. sav.', 'Kaišiadorių r. sav.',
       'Kauno m. sav.', 'Kauno r. sav.', 'Kėdainių r. sav.',
       'Prienų r. sav.', 'Raseinių r. sav.', 'Klaipėdos apskritis',
       'Klaipėdos m. sav.', 'Klaipėdos r. sav.', 'Kretingos r. sav.',
       'Neringos sav.', 'Palangos m. sav.', 'Skuodo r. sav.',
       'Šilutės r. sav.', 'Marijampolės apskritis', 'Kalvarijos sav.',
       'Kazlų Rūdos sav.', 'Marijampolės sav.', 'Marijampolės r. sav.',
       'Šakių r. sav.', 'Vilkaviškio r. sav.', 'Panevėžio apskritis',
       'Bir

In [15]:
final = final[np.isin(final['municipality'], ['Lietuvos Respublika','Sostinės regionas','Vilniaus apskritis',
                                      'Vidurio ir vakarų Lietuvos regionas','Alytaus apskritis',
                                      'Kauno apskritis','Klaipėdos apskritis','Marijampolės apskritis',
                                      'Panevėžio apskritis','Šiaulių apskritis','Tauragės apskritis',
                                      'Telšių apskritis','Utenos apskritis','Marijampolės r. sav.'], invert=True)]

In [16]:
final['municipality'].nunique()                    

60

In [17]:
final.sample(2)

Unnamed: 0,year,useful_area,municipality,city_or_village,useful_area_measure,useful_area_value,retained_people,age_group,retained_people_measure,retained_people_value,...,median_age,gender,median_age_measure,median_age_value,average_housing,average_housing_measure,average_housing_value,unemployment,unemployment_measure,unemployment_value
1389,2005,"Naudingasis plotas, tenkantis vienam gyventojui",Kauno m. sav.,Miestas ir kaimas,m²,22.5,Išlaikomo amžiaus žmonių koeficientas metų pra...,0–14,asmenys,22.0,...,Medianinis gyventojų amžius metų pradžioje,Moterys,metai,41.0,Vidutinis būsto dydis,m²,55.3,Registruotų bedarbių ir darbingo amžiaus gyven...,proc.,3.1
3742,2004,"Naudingasis plotas, tenkantis vienam gyventojui",Šiaulių m. sav.,Miestas ir kaimas,m²,21.2,Išlaikomo amžiaus žmonių koeficientas metų pra...,0–14,asmenys,24.0,...,Medianinis gyventojų amžius metų pradžioje,Vyrai,metai,34.0,Vidutinis būsto dydis,m²,55.6,Registruotų bedarbių ir darbingo amžiaus gyven...,proc.,5.0


## Data Check

In [18]:
final.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 4320 entries, 65 to 5043
Data columns (total 29 columns):
year                           4320 non-null int64
useful_area                    4320 non-null object
municipality                   4320 non-null object
city_or_village                4320 non-null object
useful_area_measure            4320 non-null object
useful_area_value              4320 non-null float64
retained_people                4320 non-null object
age_group                      4320 non-null object
retained_people_measure        4320 non-null object
retained_people_value          4320 non-null float64
neto_migration                 4320 non-null object
neto_migration_measure         4320 non-null object
neto_migration_value           4320 non-null float64
population_density             4320 non-null object
population_density_measure     4320 non-null object
population_density_value       4320 non-null float64
permanent_residents            4320 non-null object
perma

In [19]:
# Count null records
final.isnull().sum()

year                             0
useful_area                      0
municipality                     0
city_or_village                  0
useful_area_measure              0
useful_area_value                0
retained_people                  0
age_group                        0
retained_people_measure          0
retained_people_value            0
neto_migration                   0
neto_migration_measure           0
neto_migration_value             0
population_density               0
population_density_measure       0
population_density_value         0
permanent_residents              0
permanent_residents_measure      0
permanent_residents_value        0
median_age                       0
gender                           0
median_age_measure               0
median_age_value                 0
average_housing                720
average_housing_measure        720
average_housing_value          720
unemployment                     0
unemployment_measure             0
unemployment_value  

In [20]:
# Count unique records
final.nunique()

year                             18
useful_area                       1
municipality                     60
city_or_village                   1
useful_area_measure               1
useful_area_value               250
retained_people                   1
age_group                         2
retained_people_measure           1
retained_people_value            40
neto_migration                    1
neto_migration_measure            1
neto_migration_value            732
population_density                1
population_density_measure        1
population_density_value        534
permanent_residents               1
permanent_residents_measure       1
permanent_residents_value      1077
median_age                        1
gender                            2
median_age_measure                1
median_age_value                 30
average_housing                   1
average_housing_measure           1
average_housing_value           252
unemployment                      1
unemployment_measure        

## Save the File

In [21]:
#df.to_csv(neigh, '⁨Google Drive⁩/My Drive⁩/Vilniaus duomenys⁩/Vilnius.csv', sep=';')