# Разметка данных

# Пакеты

In [3]:
import pandas as pd
from enum import Enum
from datasets import Dataset, DatasetDict

In [4]:
df = pd.read_csv("places_address_elements.csv")
df = df.fillna('')

In [5]:
df

Unnamed: 0,region_name,region_type_name,region_type_name_short,area_name,area_type_name,area_type_name_short,city_name,city_type_name,city_type_name_short,territory_name,territory_type_name,territory_type_name_short,street_name,street_type_name,street_type_name_short
0,Адыгея,Республика,Респ,,,,,,,,,,,,
1,Башкортостан,Республика,Респ,,,,,,,,,,,,
2,Алтай,Республика,Респ,,,,,,,,,,,,
3,Кабардино-Балкарская,Республика,Респ,,,,,,,,,,,,
4,Калмыкия,Республика,Респ,,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1519314,Краснодарский,Край,край,Тихорецкий,Район,р-н,Тихорецк,Город,г,Западный-4,Территория СНТ,тер. СНТ,Малиновая,Улица,ул.
1519315,Краснодарский,Край,край,Тихорецкий,Район,р-н,Тихорецк,Город,г,Западный-4,Территория СНТ,тер. СНТ,Персиковая,Улица,ул.
1519316,Краснодарский,Край,край,Тихорецкий,Район,р-н,Тихорецк,Город,г,Западный-4,Территория СНТ,тер. СНТ,Яблоневая,Улица,ул.
1519317,Краснодарский,Край,край,Тихорецкий,Район,р-н,Тихорецк,Город,г,Западный-4,Территория СНТ,тер. СНТ,Садовая,Улица,ул.


# Словарь ElementType 

In [6]:

class ElementType(Enum):
    OTHER = 0
    REGION=1
    REGION_TYPE=2
    AREA=3
    AREA_TYPE=4
    TERRITORY=5
    TERRITORY_TYPE=6
    CITY=7
    CITY_TYPE=8
    STREET=9
    STREET_TYPE=10


In [7]:
e = ElementType.OTHER
e.value

0

# Представление адреса в виде типизированных слов-токенов

Разбиение адреса на слова-токены:

In [8]:
str ='Алтайский Край, Залесовский Район, Залесово Село, автодорога Мартыново-Тогул-Залесово Территория, 151-й Километр'
tokens = str.split(' ')
tokens

['Алтайский',
 'Край,',
 'Залесовский',
 'Район,',
 'Залесово',
 'Село,',
 'автодорога',
 'Мартыново-Тогул-Залесово',
 'Территория,',
 '151-й',
 'Километр']

Проставим каждому токену тип. Для этого введем класс TypedWord

In [9]:
class TypedWord:
    word = ''
    type = ElementType.OTHER
    def __init__(self, word:str, type:ElementType):
        self.word = word
        self.type = type
    
    def __repr__(self):
        return self.word + ":" + self.type.name

### Функция конвертации набора адресо-образующих элементов в TypedWords

In [10]:
def to_typed_word_list(input , elementType :ElementType  ) -> list:
    words = list(filter(('').__ne__, input.split(' ')))
    res = list()
    for word in words:
        res.append(TypedWord(word, elementType))
    return res


def convert_address_elements(elements: dict):
    return (to_typed_word_list(elements['region_name'], ElementType.REGION) +
            to_typed_word_list(elements['region_type_name'], ElementType.REGION_TYPE) +
            to_typed_word_list(elements['area_name'], ElementType.AREA) +
            to_typed_word_list(elements['area_type_name'], ElementType.AREA_TYPE) +
            to_typed_word_list(elements['city_name'], ElementType.CITY) +
            to_typed_word_list(elements['city_type_name'], ElementType.CITY_TYPE) +
            to_typed_word_list(elements['territory_name'], ElementType.TERRITORY) +
            to_typed_word_list(elements['territory_type_name'], ElementType.TERRITORY_TYPE) +
            to_typed_word_list(elements['street_name'], ElementType.STREET) +
            to_typed_word_list(elements['street_type_name'], ElementType.STREET_TYPE)
            )

# elements = df.sample().to_dict('records')
# convert_address_elements(elements[0])

In [11]:
sample_typed_words = convert_address_elements(df.sample().to_dict('records')[0])
sample_typed_words

[Рязанская:REGION,
 Область:REGION_TYPE,
 Рыбновский:AREA,
 Район:AREA_TYPE,
 Высокое:CITY,
 Деревня:CITY_TYPE,
 Сельскохозяйственная:TERRITORY,
 Территория:TERRITORY_TYPE]

# TypedWord list to tokens and ner_tags

In [12]:
class AddressTransform:
    # p - is probability to apply transform
    def __init__(self, p):
        self.proba = p

    def transform(self, input) -> list:
        return None

In [13]:
class SimpleAddressTransform(AddressTransform):
    def transform(self, input:list) -> tuple:
        words = []
        type_codes = []
        for element in input:
            words.append(element.word)
            type_codes.append(element.type.value)
        return words, type_codes       

In [14]:
transform = SimpleAddressTransform(1)
transform.transform(sample_typed_words)

(['Рязанская',
  'Область',
  'Рыбновский',
  'Район',
  'Высокое',
  'Деревня',
  'Сельскохозяйственная',
  'Территория'],
 [1, 2, 3, 4, 7, 8, 5, 6])

In [15]:
def typed_words_to_words(input:list):
    words = []
    for element in input:
        words.append(element.word)
    return words    

In [16]:
def typed_words_to_type_codes(input:list):
    type_codes = []
    for element in input:
        type_codes.append(element.type.value)
    return type_codes    

## Appply to dataframe

In [17]:
df['typed_words'] = df.apply(convert_address_elements, axis=1)
df['tokens'] = df.apply(lambda row: typed_words_to_words(row.typed_words),  axis=1)
df['classes'] = df.apply(lambda row: typed_words_to_type_codes(row.typed_words),  axis=1)

In [18]:
df_token_with_classes = df[['tokens','classes']]

In [19]:
df_token_with_classes.to_pickle('./df_token_with_classes.pkl')

In [20]:
!zip archive_pkl.zip ./df_token_with_classes.pkl  

  adding: df_token_with_classes.pkl (deflated 90%)
