# Initial installation and imports

In [2]:
%pip install requests

Note: you may need to restart the kernel to use updated packages.


You should consider upgrading via the 'c:\Users\rokas\AppData\Local\Programs\Python\Python310\python.exe -m pip install --upgrade pip' command.


In [3]:
# Imports
import requests
import pandas as pd
import json
import csv

# Loading data

In [4]:
# Loading ATM JSON file
with open('ATM.json', 'r', encoding='utf-8') as f:
    atm_data = json.load(f)

# Loading Population CSV file

with open('population_city.csv', 'r', encoding='utf-8') as f:
    reader = csv.DictReader(f)
    population_city_data = list(reader)


# Data Cleaning

In [5]:
# Filtering out only relevant data which is cities
atm_cities = []

for feature in atm_data['features']:
    city = feature['properties']['USER_Miest']
    atm_cities.append(city)
    
print(atm_cities)

# Counting ATMs in each city

city_counts = {}

for city in atm_cities:
    if city in city_counts:
        city_counts[city] += 1
    else:
        city_counts[city] = 1
        
print(city_counts)

['Klaipėda', 'Akmenė', 'Šiauliai', 'Panevėžys', 'Alytus', 'Kazlų Rūda', 'Alytus', 'Palanga', 'Alytus', 'Mažeikiai', 'Vilnius', 'Alytus', 'Vilnius', 'Alytus', 'Alytus', 'Klaipėda', 'Vilnius', 'Alytus', 'Alytus', 'Vilnius', 'Vilnius', 'Anykščiai', 'Vilnius', 'Vilnius', 'Ariogala', 'Vilnius', 'Švenčionys', 'Anykščiai', 'Birštonas', 'Vilnius', 'Vilnius', 'Biržai', 'Biržai', 'Biržai', 'Didžioji Riešė', 'Druskininkai', 'Druskininkai', 'Druskininkai', 'Dusetos', 'Druskininkai', 'Elektrėnai', 'Elektrėnai', 'Elektrėnai', 'Druskininkai', 'Gargždai', 'Garliava', 'Grigiškės', 'Ignalina', 'Ignalina', 'Ignalina', 'Gargždai', 'Jonava', 'Jonava', 'Jonava', 'Jonava', 'Joniškis', 'Joniškis', 'Anykščiai', 'Jurbarkas', 'Joniškis', 'Kaišiadorys', 'Jurbarkas', 'Jurbarkas', 'Kalvarija', 'Kaišiadorys', 'Kaišiadorys', 'Kalvarija', 'Kaunas', 'Kaunas', 'Gargždai', 'Kaunas', 'Kaunas', 'Kaunas', 'Kaunas', 'Kaunas', 'Kaunas', 'Kaunas', 'Kaunas', 'Kaunas', 'Kaunas', 'Kaunas', 'Kaunas', 'Kaunas', 'Kaunas', 'Kaunas', 

In [6]:
# Cleaning population data to only get city and value (Miestas and Reikšmė). Using dict to make it consistent with the city_counts

population_dict = {d['Miestas']: d['Reikšmė'] for d in population_city_data}
print(population_dict)


{'Vilnius': '581475', 'Kaunas': '305120', 'Klaipėda': '158420', 'Šiauliai': '104300', 'Panevėžys': '87913', 'Alytus': '51856', 'Marijampolė': '36807', 'Mažeikiai': '33249', 'Jonava': '27134', 'Utena': '25608', 'Kėdainiai': '23447', 'Telšiai': '22261', 'Visaginas': '19586', 'Tauragė': '21416', 'Ukmergė': '21048', 'Plungė': '17385', 'Kretinga': '17207', 'Šilutė': '16200', 'Radviliškis': '15112', 'Palanga': '18132', 'Druskininkai': '13170', 'Rokiškis': '11606', 'Juodupė': '', 'Gargždai': '15932', 'Biržai': '10444', 'Elektrėnai': '11753', 'Kuršėnai': '10651', 'Jurbarkas': '10571', 'Garliava': '10110', 'Vilkaviškis': '10291', 'Raseiniai': '9763', 'Lentvaris': '9680', 'Anykščiai': '8638', 'Naujoji Akmenė': '8170', 'Grigiškės': '9750', 'Prienai': '8894', 'Joniškis': '8466', 'Kelmė': '7512', 'Varėna': '8042', 'Kaišiadorys': '8590', 'Pasvalys': '6411', 'Kupiškis': '6178', 'Zarasai': '5942', 'Skuodas': '5346', 'Kazlų Rūda': '5507', 'Širvintos': '5802', 'Molėtai': '5783', 'Šalčininkai': '6841', '

# Checking the data for errors


In [7]:
num_cities = len(city_counts.keys())
print("There are", num_cities, "different cities in city_counts.")
num_cities = len(population_dict.keys())
print(num_cities)

unique_cities = [city for city in city_counts.keys()]
print(unique_cities)
unique_cities2 = [city for city in population_dict.keys()]
print(unique_cities2)


There are 201 different cities in city_counts.
106
['Klaipėda', 'Akmenė', 'Šiauliai', 'Panevėžys', 'Alytus', 'Kazlų Rūda', 'Palanga', 'Mažeikiai', 'Vilnius', 'Anykščiai', 'Ariogala', 'Švenčionys', 'Birštonas', 'Biržai', 'Didžioji Riešė', 'Druskininkai', 'Dusetos', 'Elektrėnai', 'Gargždai', 'Garliava', 'Grigiškės', 'Ignalina', 'Jonava', 'Joniškis', 'Jurbarkas', 'Kaišiadorys', 'Kalvarija', 'Kaunas', 'Kėdainiai', 'Kelmė', 'Kybartai', 'Krekenava', 'Kretinga', 'Kupiškis', 'Lazdijai', 'Kuršėnai', 'Lentvaris', 'Marijampolė', 'Molėtai', 'Nemenčinė', 'Naujoji Akmenė', 'Pabradė', 'Pakruojis', 'Plungė', 'Priekulė', 'Prienai', 'Radviliškis', 'Pasvalys', 'Ramučiai', 'Raseiniai', 'Rietavas', 'Ringaudai', 'Rokiškis', 'Salantai', 'Seda', 'Skuodas', 'Šakiai', 'Šalčininkai', 'Šeduva', 'Šilalė', 'Šilutė', 'Širvintos', 'Tauragė', 'Telšiai', 'Tytuvėnai', 'Trakai', 'Ukmergė', 'Utena', 'Varėna', 'Veisiejai', 'Varniai', 'Venta', 'Vievis', 'Vilkaviškis', 'Vilkija', 'Visaginas', 'Zarasai', 'Žagarė', 'Baisogala'

In [8]:
unique_cities = list(city_counts.keys())
unique_cities2 = list(population_dict.keys())

# Find cities that appear in only one of the lists
unique_to_city_counts = set(unique_cities).difference(unique_cities2)
unique_to_population_dict = set(unique_cities2).difference(unique_cities)

# Print the results
print("Cities unique to city_counts:", unique_to_city_counts)
print("Cities unique to population_dict:", unique_to_population_dict)


Cities unique to city_counts: {'Alsėdžiai', 'Alanta', 'Didžiasalis', 'Pakuonis', 'Išlaužas', 'Rudamina', 'Naujamiestis', 'Dercekliai', 'Kėdainiai\xa0', 'Butrimonys', 'Saugos', 'Merkinė', 'Kalveliai', 'Veiveriai', 'Dukstyna', 'Parokiškė', 'Pajūris', 'Mostiškės', 'Šėta', 'Vilkavškis', 'Vienybės a. 14, Žeimelis', 'Ylakiai', 'Gruzdžiai', 'Šėtupio g. 32, Girkalnis', 'Klaipeda', 'KudirkosNaumiestis', 'Karmėlava', 'Plateliai', 'Balbieriškis', 'Pumpėnai', 'Pabaliai, Daugėliškių k.', 'Ginkūnai', 'Seirijai', 'Adutiškis', 'Sudervė', 'Nida', 'Vandžiogala', 'Rozalimas', 'Maišiagala', 'Rukla', 'BaltojiVokė', 'Upninkai', 'Gedimino g. 11, Saločiai', 'Krekenava', 'Bijūtiškis', 'Laukuva', 'Šventoji', 'Mosėdis', 'Pyktiškė', 'Trakų Vokė', 'Naujojji Vilnia', 'Piliuona', 'Vainutas', 'Akademija', 'Išorai', 'Ringaudai', 'Kvėdarna', 'Kužiai', 'ŽemaičiųNaumiestis', 'Svėdasai', 'Paberžė', 'Leipalingis', 'Meškuičiai', 'Mickūnai', 'Nemakščiai', 'Rukai', 'Baisogala', 'Babtai', 'Pagiriai', 'N. Akmenė', 'Dieveniškės'

# Correcting data


In [9]:
# Correcting some of the data after analyzing it. For cities where we do not have any population data, we just ignore, assuming they are too small and such calculation would be inaccurate

city_corrections = {
    "N. Akmenė": "Naujoji Akmenė",
    "ŽemaičiųNaumiestis": "Žemaičių Naumiestis",
    "KudirkosNaumiestis": "Kudirkos Naumiestis",
    "Vienybės a. 14, Žeimelis": "Žeimelis",
    "Pabaliai, Daugėliškių k.": "Pabaliai",
    "Kėdainiai\xa0": "Kėdainiai",
    "Gedimino g. 11, Saločiai": "Saločiai",
    "BaltojiVokė": "Baltoji Vokė",
    "Naujojji Vilnia": "Naujoji Vilnia",
    "Šėtupio g. 32, Girkalnis": "Girkalnis",
    "Pakruojis\xa0": "Pakruojis",
    "Klaipeda": "Klaipėda"
}

corrected_city_counts = {}

for city, count in city_counts.items():
    corrected_city = city_corrections.get(city, city)
    corrected_city_counts[corrected_city] = corrected_city_counts.get(corrected_city, 0) + count

city_counts = corrected_city_counts



# Calculation of ATM # per 10 000 capita in each city.

In [10]:
# Calculating ATM per 10k for each city.

atms_per_10k_dict = {}
not_available_count = 0

for city, atms in city_counts.items():
    population_str = population_dict.get(city, '')
    if population_str:
        population = int(population_str)
        if population > 1000: # Assuming smaller cities will have highly skewed data, so only taking cities with over 1 000 people
            atms_per_10k = round((atms / population) * 10000, 2)
            atms_per_10k_dict[city] = atms_per_10k
    else:
        print(f"Population data not available for {city}")
        not_available_count += 1
        
print(f"Number of cities with population data not available: {not_available_count}") # As mentioned above in the Correcting data section, I will ignore these, as most of these are very small cities and most likely their data might be skewed


Population data not available for Didžioji Riešė
Population data not available for Krekenava
Population data not available for Ramučiai
Population data not available for Ringaudai
Population data not available for Baisogala
Population data not available for Karmėlava
Population data not available for Nida
Population data not available for Dukstyna
Population data not available for Trakų Vokė
Population data not available for Akademija
Population data not available for Ginkūnai
Population data not available for Naujoji Vilnia
Population data not available for Rudamina
Population data not available for Parokiškė
Population data not available for Rukla
Population data not available for Šventoji
Population data not available for Vilkavškis
Population data not available for Adutiškis
Population data not available for Alanta
Population data not available for Alsėdžiai
Population data not available for Aukštadvaris
Population data not available for Babtai
Population data not available for Bal

In [11]:
print(atms_per_10k_dict)
print(city_counts)

{'Klaipėda': 4.73, 'Akmenė': 4.38, 'Šiauliai': 4.7, 'Panevėžys': 5.0, 'Alytus': 4.44, 'Kazlų Rūda': 5.45, 'Palanga': 7.72, 'Mažeikiai': 5.41, 'Vilnius': 4.54, 'Anykščiai': 8.1, 'Ariogala': 3.82, 'Švenčionys': 6.7, 'Birštonas': 6.46, 'Biržai': 7.66, 'Druskininkai': 7.59, 'Elektrėnai': 5.11, 'Gargždai': 5.65, 'Garliava': 3.96, 'Grigiškės': 2.05, 'Ignalina': 10.0, 'Jonava': 5.16, 'Joniškis': 7.09, 'Jurbarkas': 5.68, 'Kaišiadorys': 10.48, 'Kalvarija': 7.45, 'Kaunas': 4.59, 'Kėdainiai': 7.25, 'Kelmė': 6.66, 'Kybartai': 4.98, 'Kretinga': 5.81, 'Kupiškis': 9.71, 'Lazdijai': 10.27, 'Kuršėnai': 5.63, 'Lentvaris': 4.13, 'Marijampolė': 5.71, 'Molėtai': 10.38, 'Nemenčinė': 4.36, 'Naujoji Akmenė': 4.9, 'Pabradė': 6.34, 'Pakruojis': 8.91, 'Plungė': 6.9, 'Priekulė': 7.99, 'Prienai': 6.75, 'Radviliškis': 4.63, 'Pasvalys': 9.36, 'Raseiniai': 9.22, 'Rietavas': 6.15, 'Rokiškis': 6.89, 'Salantai': 7.99, 'Skuodas': 9.35, 'Šakiai': 9.19, 'Šalčininkai': 7.31, 'Šeduva': 4.23, 'Šilalė': 10.64, 'Šilutė': 6.17, 

In [12]:
sorted_dict = dict(sorted(atms_per_10k_dict.items(), key=lambda item: item[1], reverse=True))
print(sorted_dict)


{'Pagėgiai': 13.01, 'Vilkija': 11.56, 'Šilalė': 10.64, 'Kaišiadorys': 10.48, 'Molėtai': 10.38, 'Lazdijai': 10.27, 'Trakai': 10.15, 'Ignalina': 10.0, 'Jieznas': 9.77, 'Kupiškis': 9.71, 'Veisiejai': 9.49, 'Pasvalys': 9.36, 'Skuodas': 9.35, 'Raseiniai': 9.22, 'Šakiai': 9.19, 'Pakruojis': 8.91, 'Širvintos': 8.62, 'Simnas': 8.39, 'Ramygala': 8.35, 'Linkuva': 8.22, 'Anykščiai': 8.1, 'Žagarė': 8.02, 'Priekulė': 7.99, 'Salantai': 7.99, 'Vilkaviškis': 7.77, 'Palanga': 7.72, 'Biržai': 7.66, 'Druskininkai': 7.59, 'Kudirkos Naumiestis': 7.52, 'Varėna': 7.46, 'Kalvarija': 7.45, 'Šalčininkai': 7.31, 'Skaudvilė': 7.3, 'Kėdainiai': 7.25, 'Vievis': 7.12, 'Joniškis': 7.09, 'Plungė': 6.9, 'Rokiškis': 6.89, 'Prienai': 6.75, 'Zarasai': 6.73, 'Švenčionys': 6.7, 'Kelmė': 6.66, 'Utena': 6.64, 'Gelgaudiškis': 6.57, 'Birštonas': 6.46, 'Pabradė': 6.34, 'Ežerėlis': 6.32, 'Šilutė': 6.17, 'Rietavas': 6.15, 'Kretinga': 5.81, 'Marijampolė': 5.71, 'Jurbarkas': 5.68, 'Gargždai': 5.65, 'Tytuvėnai': 5.64, 'Kuršėnai': 5.6

# Storing data into csv

In [14]:
data = [(city, atms_per_10k) for city, atms_per_10k in atms_per_10k_dict.items()]
df = pd.DataFrame(data, columns=['City', 'ATMs per 10k'])
df.to_csv('cleaned_data.csv', index=False)