In [1]:
# список всех регионов
import pandas as pd

df = pd.read_csv('cities.csv', delimiter=';', encoding='windows-1251')
regions = df['Регион'].unique()
regions.sort()
print("Список всех регионов:")
print(regions)

Список всех регионов:
['Адыгея' 'Алтай' 'Алтайский край' 'Амурская область'
 'Архангельская область' 'Астраханская область' 'Башкортостан'
 'Белгородская область' 'Брянская область' 'Бурятия'
 'Владимирская область' 'Волгоградская область' 'Вологодская область'
 'Воронежская область' 'Дагестан' 'Еврейская АО' 'Забайкальский край'
 'Ивановская область' 'Ингушетия' 'Иркутская область' 'Кабардино-Балкария'
 'Калининградская область' 'Калмыкия' 'Калужская область'
 'Камчатский край' 'Карачаево-Черкесия' 'Карелия' 'Кемеровская область'
 'Кировская область' 'Коми' 'Костромская область' 'Краснодарский край'
 'Красноярский край' 'Крым' 'Курганская область' 'Курская область'
 'Ленинградская область' 'Липецкая область' 'Магаданская область'
 'Марий Эл' 'Мордовия' 'Москва' 'Московская область' 'Мурманская область'
 'Ненецкий АО' 'Нижегородская область' 'Новгородская область'
 'Новосибирская область' 'Омская область' 'Оренбургская область'
 'Орловская область' 'Пензенская область' 'Пермский край'


In [2]:
# города где есть буква "Ы"
df[df['Город'].str.contains('ы')].to_csv('cities_with_ы.csv', index=False)

In [3]:
# csv-файл, данные отсортированы по названию округа, региона, города
df.sort_values(['Федеральный округ', 'Регион', 'Город']).to_csv('sorted_cities.csv', index=False)

In [4]:
# создать N csv-файлов с данными по каждому региону в котором будет отсутствовать столбец 'Регион'
for region in regions:
    df[df['Регион'] == region].drop(columns=['Регион']).to_csv(f'temp/cities - {region}.csv', index=False)

In [5]:
# города, в название которых содержит до 4-х букв включительно и отсортированные в обратном алфавитном порядке
short_cities = df[df['Город'].str.len() <= 4]['Город'].sort_values(ascending=False)
print("Список коротких городов:")
print(short_cities)

Список коротких городов:
1066    Юрга
1062     Южа
1049     Шуя
1040    Шацк
1035    Шали
1027    Чита
1001    Холм
985      Уяр
983     Ухта
982      Уфа
966     Урай
961     Ужур
948     Тула
873     Сочи
841      Сим
792     Руза
782     Ржев
780      Реж
736     Плёс
709     Очёр
707      Оха
699      Оса
695     Орёл
698     Орск
691     Омск
680      Обь
623      Нея
521     Луза
520     Луга
490     Куса
415     Кола
405     Клин
401     Кирс
380     Кемь
334     Ишим
327     Инта
324     Инза
308     Зима
307      Зея
268     Емва
264     Елец
261     Ейск
247      Дно
197     Гдов
131      Буй
117      Бор
51       Аша
40      Арск
8       Азов
Name: Город, dtype: object


In [7]:
# список регионов и количество городов в каждом регионе
city_counts = df['Регион'].value_counts()
print(city_counts)

Регион
Московская область       70
Свердловская область     44
Ленинградская область    32
Челябинская область      29
Нижегородская область    28
                         ..
Магаданская область       2
Алтай                     1
Москва                    1
Ненецкий АО               1
Санкт-Петербург           1
Name: count, Length: 84, dtype: int64


In [8]:
# список федеральных округов с количеством регионов и количеством городов
districts = df.groupby('Федеральный округ').agg({'Регион': 'nunique', 'Город': 'count'})
print("Количество регионов и городов в каждом федеральном округе:")
print(districts)

Количество регионов и городов в каждом федеральном округе:
                   Регион  Город
Федеральный округ               
Дальневосточный         9     65
Приволжский            14    198
Северо-Западный        11    147
Северо-Кавказский       7     58
Сибирский              12    126
Уральский               6    110
Центральный            18    294
Южный                   7     83


In [9]:
# буквы алфавита по убыванию и рядом количество городов, начинающихся на каждую букву
letter_counts = df['Город'].apply(lambda x: x[0]).value_counts().sort_index(ascending=False)
print("Количество городов, начинающихся на каждую букву:")
print(letter_counts)

Количество городов, начинающихся на каждую букву:
Город
Я     11
Ю     10
Э      6
Щ      5
Ш     17
Ч     27
Ц      2
Х     12
Ф      6
У     30
Т     45
С    112
Р     25
П     64
О     33
Н     81
М     63
Л     38
К    158
Й      1
И     21
З     31
Ж     11
Е     13
Д     33
Г     36
В     57
Б     82
А     52
Name: count, dtype: int64


In [10]:
#  числа по возрастанию и рядом количество городов, состоящих из указанного количества букв
length_counts = df['Город'].str.len().value_counts().sort_index()
print("Количество городов, состоящих из указанного количества букв:")
print(length_counts)

Количество городов, состоящих из указанного количества букв:
Город
3      15
4      34
5     119
6     165
7     165
8     174
9     118
10     88
11     64
12     52
13     37
14     18
15     11
16      4
17      6
18      2
19      2
20      2
21      1
22      3
24      1
25      1
Name: count, dtype: int64


In [11]:
#  список ТОП-10 городов с самыми длинными названиями
longest_cities = df['Город'].apply(len).nlargest(10).index
print("ТОП-10 городов с самыми длинными названиями:")
print(df.loc[longest_cities, 'Город'])

ТОП-10 городов с самыми длинными названиями:
18      Александровск-Сахалинский
727      Петропавловск-Камчатский
71         БахчисарайОспаривается
725        Петровск-Забайкальский
887        СтарыйКрымОспаривается
276         Железногорск-Илимский
422          Комсомольск-на-Амуре
720          Переславль-Залесский
634           Николаевск-на-Амуре
1051          ЩёлкиноОспаривается
Name: Город, dtype: object


In [12]:
# список ТОП-10 городов, в названии которых больше всего согласных букв
df['num_consonants'] = df['Город'].apply(lambda x: sum(1 for c in x if c.lower() in 'бвгджзйклмнпрстфхцчшщ'))
top_cities_consonants = df.nlargest(10, 'num_consonants')['Город']
print("ТОП-10 городов с наибольшим количеством согласных букв:")
print(top_cities_consonants)

ТОП-10 городов с наибольшим количеством согласных букв:
18     Александровск-Сахалинский
727     Петропавловск-Камчатский
725       Петровск-Забайкальский
276        Железногорск-Илимский
887       СтарыйКрымОспаривается
71        БахчисарайОспаривается
351           Каменск-Шахтинский
720         Переславль-Залесский
506            Ленинск-Кузнецкий
640            Новоалександровск
Name: Город, dtype: object


In [13]:
#  ТОП-10 букв, которые используются чаще всего в названии городов
from collections import Counter

letter_counts = Counter(''.join(df['Город']))
top_letters = letter_counts.most_common(10)
print("ТОП-10 букв, которые чаще всего используются в названиях городов:")
print(top_letters)


ТОП-10 букв, которые чаще всего используются в названиях городов:
[('о', 890), ('а', 734), ('к', 613), ('с', 574), ('р', 541), ('н', 511), ('е', 507), ('и', 465), ('в', 403), ('л', 381)]


In [15]:
# расстояние между случайными двумя городами (используем данные из lat и lng)
from geopy.distance import geodesic
import random

df['lat'] = df['lat'].str.replace(',', '.').astype(float)
df['lng'] = df['lng'].str.replace(',', '.').astype(float)

city1, city2 = df.sample(2)[['Город', 'lat', 'lng']].values

distance = geodesic(city1[1:], city2[1:]).km

print(f"Расстояние между {city1[0]} и {city2[0]}: {distance} км")


Расстояние между Моздок и Зубцов: 1557.403304485112 км


In [18]:
#  список городов и расстоянием до города 'Москва' и отсортировать города по удаленности от Москвы
moscow_coords = df[df['Город'] == 'Москва'][['lat', 'lng']].values[0]
df['Дистанция до Москвы'] = df.apply(lambda row: geodesic((row['lat'], row['lng']), moscow_coords).km, axis=1)
df_sorted_by_distance = df.sort_values('Дистанция до Москвы')[['Город', 'Дистанция до Москвы']]
print("Список городов и расстояние до Москвы:")
print(df_sorted_by_distance)

Список городов и расстояние до Москвы:
                         Город  Дистанция до Москвы
587                     Москва             0.000000
781                     Реутов            14.628449
438                 Котельники            18.358410
594                     Мытищи            18.908751
1000                     Химки            19.305151
...                        ...                  ...
265                    Елизово          6772.878492
727   Петропавловск-Камчатский          6797.072330
156                  Вилючинск          6799.586241
821            Северо-Курильск          6917.683434
483                   Курильск          7058.169783

[1082 rows x 2 columns]


In [19]:
#  города которые дальше всего расположены друг от друга
import pandas as pd
from geopy.distance import geodesic
from itertools import combinations

df = pd.read_csv('cities.csv', delimiter=';', decimal=',', encoding='windows-1251')

city_combinations = list(combinations(df[['Город', 'lat', 'lng']].values, 2))

distances = [(c[0][0], c[1][0], geodesic(c[0][1:], c[1][1:]).km) for c in city_combinations]

distances.sort(key=lambda x: x[2])

print("ТОП-10 городов, которые дальше всего расположены друг от друга:")
for i in range(1, 11):
    print(f"{i}. {distances[-i][0]} и {distances[-i][1]}: {distances[-i][2]} км")

ТОП-10 городов, которые дальше всего расположены друг от друга:
1. БахчисарайОспаривается и Курильск: 8114.43961283887 км
2. БахчисарайОспаривается и Северо-Курильск: 8060.211039497941 км
3. Курильск и Шацк: 8018.517916662921 км
4. БахчисарайОспаривается и Вилючинск: 7964.838334219622 км
5. БахчисарайОспаривается и Петропавловск-Камчатский: 7963.880751724396 км
6. Курильск и ЩёлкиноОспаривается: 7953.822195728981 км
7. БахчисарайОспаривается и Елизово: 7939.413306093247 км
8. КерчьОспаривается и Курильск: 7924.910339071783 км
9. Курильск и Мамоново: 7915.635724428237 км
10. Анапа и Курильск: 7915.339835254055 км


In [20]:
#  ТОП 10 городов которые ближе всего расположены друг от друга
print("\nТОП-10 городов, которые ближе всего расположены друг от друга:")
for i in range(10):
    print(f"{i+1}. {distances[i][0]} и {distances[i][1]}: {distances[i][2]} км")


ТОП-10 городов, которые ближе всего расположены друг от друга:
1. Бежецк и БелаяКалитва: 0.0 км
2. Бежецк и БелаяХолуница: 0.0 км
3. БелаяКалитва и БелаяХолуница: 0.0 км
4. Берёзовский и Берёзовский: 0.0 км
5. Благовещенск и Благовещенск: 0.0 км
6. Болхов и БольшойКамень: 0.0 км
7. Велиж и ВеликиеЛуки: 0.0 км
8. Велиж и ВеликийНовгород: 0.0 км
9. Велиж и ВеликийУстюг: 0.0 км
10. ВеликиеЛуки и ВеликийНовгород: 0.0 км
