# Описание задачи
У нас есть таблица с 2 листами. Первый лист - это исходные данные, а второй - то, как должна выглядеть таблица после нашей обработки. Приступим к работе.

In [1]:
#импортируем необходимые библиотеки
import pandas as pd
from io import BytesIO
import requests
import numpy as np
from nltk.stem import SnowballStemmer 
russian_stemmer = SnowballStemmer('russian')  

Сначаа рассмотрим то, как выглядит исходная таблица

In [2]:
#встраиваем файл в проект
spreadsheet_id = '1-JlTH9p-GPTguIT9VNRWNmHmDZN542vPDwUSJphv9lk'
file_name = 'https://docs.google.com/spreadsheets/d/{}/export?format=csv'.format(spreadsheet_id)
r = requests.get(file_name)
#присваиваем переменной значение датасета
lab = pd.read_csv(BytesIO(r.content))
lab

Unnamed: 0,Название ЛПУ,Адрес
0,"АВТОНОМНАЯ НЕКОММЕРЧЕСКАЯ ОРГАНИЗАЦИЯ ""РЕГИОНА...","690014, г.Владивосток, ул.Гоголя, д.41"
1,"ГБУЗ ""Краевая клиническая больница №2""","690039, г.Владивосток, ул.Русская, д.55"
2,"ГБУЗ ""ПККБ № 1""","690091, г.Владивосток, ул.Алеутская, д.57"
3,ФГБУЗ ДВОМЦ ФМБА России,"690022, г.Владивосток, пр-кт 100-Летия Владиво..."
4,ФГБУЗ ДВОМЦ ФМБА России,"690022, г.Владивосток, ул.Береговая, д.3"
5,"ООО ""ДИАЛАЙН ЛАБОРАТОРИЯ""","400137, г.Волгоград, ул.Им.Расула Гамзатова, д..."
6,"ГОАУЗ ""ЦСМ""","г.Мурманск, ул.Ленина Пр-Кт, д.67"
7,"ГОАУЗ ""ЦСМ""","г.Мурманск, ул.Рыбный Проезд, д.35"
8,"ООО ""Медицина АльфаСтрахования""","183025, г.Мурманск, ул.Капитана Буркова, д.32,..."
9,"ООО ""Медицина АльфаСтрахования""","183025, г.Мурманск, ул.Капитана Буркова, д.32,..."


Вот так выглядит наша исходная таблица. Посмотрим теперь на ту, что должна у нас получится.

In [3]:
#встраиваем файл в проект
spreadsheet_id = '1vnIkokOUHU3YAgOyotAyNR6gR6fpEap8V3NfJCvkZfk'
file_name = 'https://docs.google.com/spreadsheets/d/{}/export?format=csv'.format(spreadsheet_id)
r = requests.get(file_name)
#присваиваем переменной значение датасета
result = pd.read_csv(BytesIO(r.content))
result

Unnamed: 0,Название ЛПУ,Адрес,Индекс,Населенный пункт,Улица,Дом,Корпус
0,"АВТОНОМНАЯ НЕКОММЕРЧЕСКАЯ ОРГАНИЗАЦИЯ ""РЕГИОНА...","690014, г.Владивосток, ул.Гоголя, д.41",690014.0,Владивосток,Гоголя,41,
1,"ГБУЗ ""Краевая клиническая больница №2""","690039, г.Владивосток, ул.Русская, д.55",690039.0,Владивосток,Русская,55,
2,"ГБУЗ ""ПККБ № 1""","690091, г.Владивосток, ул.Алеутская, д.57",690091.0,Владивосток,Алеутская,57,
3,ФГБУЗ ДВОМЦ ФМБА России,"690022, г.Владивосток, пр-кт 100-Летия Владиво...",690022.0,Владивосток,100-Летия Владивостока,161,
4,ФГБУЗ ДВОМЦ ФМБА России,"690022, г.Владивосток, ул.Береговая, д.3",690022.0,Владивосток,Береговая,3,
5,"ООО ""ДИАЛАЙН ЛАБОРАТОРИЯ""","400137, г.Волгоград, ул.Им.Расула Гамзатова, д...",400137.0,Волгоград,Им. Расула Гамзатова,7,
6,"ГОАУЗ ""ЦСМ""","г.Мурманск, ул.Ленина Пр-Кт, д.67",,Мурманск,Ленина Пр-Кт,67,
7,"ГОАУЗ ""ЦСМ""","г.Мурманск, ул.Рыбный Проезд, д.35",,Мурманск,Рыбный Проезд,35,
8,"ООО ""Медицина АльфаСтрахования""","183025, г.Мурманск, ул.Капитана Буркова, д.32,...",183025.0,Мурманск,Капитана Буркова,32,1.0
9,"ООО ""Медицина АльфаСтрахования""","183025, г.Мурманск, ул.Капитана Буркова, д.32,...",183025.0,Мурманск,Капитана Буркова,32,2.0


Мы видим, что две таблицы отличаются тем, что адрес разбит на более конкретные единицы.

Первый столбец нас не интересует, а потому сразу перейдем ко второму.

In [4]:
#разделим столбец на части
split_data = [item.strip().split(',') for item in lab['Адрес']]
split_data

[['690014', ' г.Владивосток', ' ул.Гоголя', ' д.41'],
 ['690039', ' г.Владивосток', ' ул.Русская', ' д.55'],
 ['690091', ' г.Владивосток', ' ул.Алеутская', ' д.57'],
 ['690022', ' г.Владивосток', ' пр-кт 100-Летия Владивостока', ' д.161'],
 ['690022', ' г.Владивосток', ' ул.Береговая', ' д.3'],
 ['400137',
  ' г.Волгоград',
  ' ул.Им.Расула Гамзатова',
  ' д.7',
  ' корп.оф. 395-398',
  ' оф.395-398'],
 ['г.Мурманск', ' ул.Ленина Пр-Кт', ' д.67'],
 ['г.Мурманск', ' ул.Рыбный Проезд', ' д.35'],
 ['183025', ' г.Мурманск', ' ул.Капитана Буркова', ' д.32', ' корп.1'],
 ['183025', ' г.Мурманск', ' ул.Капитана Буркова', ' д.32', ' корп.1'],
 ['692519',
  ' Приморский край',
  ' г.Уссурийск',
  ' ул.Краснознаменная',
  ' д.148а'],
 ['692519', ' Приморский край', ' г.Уссурийск', ' ул.Тимирязева', ' д.8']]

Мы видим, что у двух клиник не указан индекс, а потому для избежания съезжания таблицы, поправим ситуцию.

In [5]:
#укажем отсутствие индексов
split_data[6] = [None, 'г.Мурманск', ' ул.Ленина Пр-Кт', ' д.67']
split_data[7] = [None, 'г.Мурманск', ' ул.Рыбный Проезд', ' д.35']


Мы видим, что в результате разделения корпоративные офисы были внесены в отдельные столбцы, а также "Приморский край" портит всю картину

In [6]:
#уберем Приморский край из города
word_to_remove = " Приморский край"
split_data[10].remove(word_to_remove)
split_data[11].remove(word_to_remove)

In [7]:
#Убрем информацию о корп.офисах
split_data[5] = ['400137',' г.Волгоград', ' ул.Им.Расула Гамзатова', ' д.7']

Теперь мы обработали данные и можем строить таблицу

In [8]:
split_data

[['690014', ' г.Владивосток', ' ул.Гоголя', ' д.41'],
 ['690039', ' г.Владивосток', ' ул.Русская', ' д.55'],
 ['690091', ' г.Владивосток', ' ул.Алеутская', ' д.57'],
 ['690022', ' г.Владивосток', ' пр-кт 100-Летия Владивостока', ' д.161'],
 ['690022', ' г.Владивосток', ' ул.Береговая', ' д.3'],
 ['400137', ' г.Волгоград', ' ул.Им.Расула Гамзатова', ' д.7'],
 [None, 'г.Мурманск', ' ул.Ленина Пр-Кт', ' д.67'],
 [None, 'г.Мурманск', ' ул.Рыбный Проезд', ' д.35'],
 ['183025', ' г.Мурманск', ' ул.Капитана Буркова', ' д.32', ' корп.1'],
 ['183025', ' г.Мурманск', ' ул.Капитана Буркова', ' д.32', ' корп.1'],
 ['692519', ' г.Уссурийск', ' ул.Краснознаменная', ' д.148а'],
 ['692519', ' г.Уссурийск', ' ул.Тимирязева', ' д.8']]

In [9]:
#строим таблицу
df = pd.DataFrame(split_data)
df

Unnamed: 0,0,1,2,3,4
0,690014.0,г.Владивосток,ул.Гоголя,д.41,
1,690039.0,г.Владивосток,ул.Русская,д.55,
2,690091.0,г.Владивосток,ул.Алеутская,д.57,
3,690022.0,г.Владивосток,пр-кт 100-Летия Владивостока,д.161,
4,690022.0,г.Владивосток,ул.Береговая,д.3,
5,400137.0,г.Волгоград,ул.Им.Расула Гамзатова,д.7,
6,,г.Мурманск,ул.Ленина Пр-Кт,д.67,
7,,г.Мурманск,ул.Рыбный Проезд,д.35,
8,183025.0,г.Мурманск,ул.Капитана Буркова,д.32,корп.1
9,183025.0,г.Мурманск,ул.Капитана Буркова,д.32,корп.1


Теперь переименуем столбцы в соответствии с ожидаемым результатом.

In [10]:
#переименуем
df = df.rename(columns={0: 'Индекс', 1: 'Населенный пункт', 2:'Улица', 3:'Дом', 4:'Корпус'})
df

Unnamed: 0,Индекс,Населенный пункт,Улица,Дом,Корпус
0,690014.0,г.Владивосток,ул.Гоголя,д.41,
1,690039.0,г.Владивосток,ул.Русская,д.55,
2,690091.0,г.Владивосток,ул.Алеутская,д.57,
3,690022.0,г.Владивосток,пр-кт 100-Летия Владивостока,д.161,
4,690022.0,г.Владивосток,ул.Береговая,д.3,
5,400137.0,г.Волгоград,ул.Им.Расула Гамзатова,д.7,
6,,г.Мурманск,ул.Ленина Пр-Кт,д.67,
7,,г.Мурманск,ул.Рыбный Проезд,д.35,
8,183025.0,г.Мурманск,ул.Капитана Буркова,д.32,корп.1
9,183025.0,г.Мурманск,ул.Капитана Буркова,д.32,корп.1


Уберем сокращенные обозначений корпуса, города, дома, улицы

In [11]:
lists =df.columns
for c in lists:
    df[c] = df[c].str.lstrip().str.rstrip()
df['Корпус'] = df['Корпус'].str.replace('корп.1', '1', regex=False)
df['Дом'] = df['Дом'].str.replace('д.', '', regex=False)
df['Населенный пункт'] = df['Населенный пункт'].str.replace('г.', ' ', regex=False)
df['Улица'] = df['Улица'].str.replace('ул.', '', regex=False)
df

Unnamed: 0,Индекс,Населенный пункт,Улица,Дом,Корпус
0,690014.0,Владивосток,Гоголя,41,
1,690039.0,Владивосток,Русская,55,
2,690091.0,Владивосток,Алеутская,57,
3,690022.0,Владивосток,пр-кт 100-Летия Владивостока,161,
4,690022.0,Владивосток,Береговая,3,
5,400137.0,Волгоград,Им.Расула Гамзатова,7,
6,,Мурманск,Ленина Пр-Кт,67,
7,,Мурманск,Рыбный Проезд,35,
8,183025.0,Мурманск,Капитана Буркова,32,1.0
9,183025.0,Мурманск,Капитана Буркова,32,1.0


Теперь дело за малым - мы просто объединим таблицы

In [12]:
#объединим таблицы
lab = lab.join(df)

Теперь сравним две таблицы

In [13]:
#наша полученная таблица
lab

Unnamed: 0,Название ЛПУ,Адрес,Индекс,Населенный пункт,Улица,Дом,Корпус
0,"АВТОНОМНАЯ НЕКОММЕРЧЕСКАЯ ОРГАНИЗАЦИЯ ""РЕГИОНА...","690014, г.Владивосток, ул.Гоголя, д.41",690014.0,Владивосток,Гоголя,41,
1,"ГБУЗ ""Краевая клиническая больница №2""","690039, г.Владивосток, ул.Русская, д.55",690039.0,Владивосток,Русская,55,
2,"ГБУЗ ""ПККБ № 1""","690091, г.Владивосток, ул.Алеутская, д.57",690091.0,Владивосток,Алеутская,57,
3,ФГБУЗ ДВОМЦ ФМБА России,"690022, г.Владивосток, пр-кт 100-Летия Владиво...",690022.0,Владивосток,пр-кт 100-Летия Владивостока,161,
4,ФГБУЗ ДВОМЦ ФМБА России,"690022, г.Владивосток, ул.Береговая, д.3",690022.0,Владивосток,Береговая,3,
5,"ООО ""ДИАЛАЙН ЛАБОРАТОРИЯ""","400137, г.Волгоград, ул.Им.Расула Гамзатова, д...",400137.0,Волгоград,Им.Расула Гамзатова,7,
6,"ГОАУЗ ""ЦСМ""","г.Мурманск, ул.Ленина Пр-Кт, д.67",,Мурманск,Ленина Пр-Кт,67,
7,"ГОАУЗ ""ЦСМ""","г.Мурманск, ул.Рыбный Проезд, д.35",,Мурманск,Рыбный Проезд,35,
8,"ООО ""Медицина АльфаСтрахования""","183025, г.Мурманск, ул.Капитана Буркова, д.32,...",183025.0,Мурманск,Капитана Буркова,32,1.0
9,"ООО ""Медицина АльфаСтрахования""","183025, г.Мурманск, ул.Капитана Буркова, д.32,...",183025.0,Мурманск,Капитана Буркова,32,1.0


In [14]:
#ожидаемая таблица
result

Unnamed: 0,Название ЛПУ,Адрес,Индекс,Населенный пункт,Улица,Дом,Корпус
0,"АВТОНОМНАЯ НЕКОММЕРЧЕСКАЯ ОРГАНИЗАЦИЯ ""РЕГИОНА...","690014, г.Владивосток, ул.Гоголя, д.41",690014.0,Владивосток,Гоголя,41,
1,"ГБУЗ ""Краевая клиническая больница №2""","690039, г.Владивосток, ул.Русская, д.55",690039.0,Владивосток,Русская,55,
2,"ГБУЗ ""ПККБ № 1""","690091, г.Владивосток, ул.Алеутская, д.57",690091.0,Владивосток,Алеутская,57,
3,ФГБУЗ ДВОМЦ ФМБА России,"690022, г.Владивосток, пр-кт 100-Летия Владиво...",690022.0,Владивосток,100-Летия Владивостока,161,
4,ФГБУЗ ДВОМЦ ФМБА России,"690022, г.Владивосток, ул.Береговая, д.3",690022.0,Владивосток,Береговая,3,
5,"ООО ""ДИАЛАЙН ЛАБОРАТОРИЯ""","400137, г.Волгоград, ул.Им.Расула Гамзатова, д...",400137.0,Волгоград,Им. Расула Гамзатова,7,
6,"ГОАУЗ ""ЦСМ""","г.Мурманск, ул.Ленина Пр-Кт, д.67",,Мурманск,Ленина Пр-Кт,67,
7,"ГОАУЗ ""ЦСМ""","г.Мурманск, ул.Рыбный Проезд, д.35",,Мурманск,Рыбный Проезд,35,
8,"ООО ""Медицина АльфаСтрахования""","183025, г.Мурманск, ул.Капитана Буркова, д.32,...",183025.0,Мурманск,Капитана Буркова,32,1.0
9,"ООО ""Медицина АльфаСтрахования""","183025, г.Мурманск, ул.Капитана Буркова, д.32,...",183025.0,Мурманск,Капитана Буркова,32,2.0


Общий вывод: мы видим, что таблицы теперь идентичны. Мы справились с задачей.