# Импорт библиотек

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import sklearn

# Описание задачи:

Nomao - это инструмент для поиска различных локаций. Nomao собирает данные о различных местах из множества источников в интернете и аггрегирует их. Задача заключается в исключении дублирующихся мест, т.е. нужно понять, какие данные из разных источников говорят об одних и тех же местах.

Данные Nomao это сравнения описаний различных мест. Место описывается своими главными признаками: имя, адрес, геолокация, вебсайт, телефон, факс и т.д. В самом же датасете представлены метрики сравнения этих признаков между двумя точками

Пропущенные значения обозначаются через `?`.

Метки следующие: +1, если сравниваемые места это одно и то же место и -1, если сравниваемые места разные

Чек требований к датасету:
1. ~~Наличие пропущенных значений~~
2. ~~Разнородные признаки (например, один признак - зарплата, второй - марка автомобиля, а не все - интенсивности пикселей и т.п.)~~
3. ~~Несбалансированные классы (например, 90% объектов первого класса и 10% объектов второго класса)~~
4. Большое количество выбросов
5. Наличие текстовых признаков. Т.е. один из признаков - это произвольный текст, например, описание товара, аннотация к фильму и т.п.

# Загрузка данных

Имена столбцов не лежат отдельно, а представлены в файле с описанием данных. Для их извлечения я применил парсинг регулярными выражениями в Notepad++.

In [None]:
column_names = ['id',
'clean_name_intersect_min',
'clean_name_intersect_max',
'clean_name_levenshtein_sim',
'clean_name_trigram_sim',
'clean_name_levenshtein_term',
'clean_name_trigram_term',
'clean_name_including',
'clean_name_equality',
'city_intersect_min',
'city_intersect_max',
'city_levenshtein_sim',
'city_trigram_sim',
'city_levenshtein_term',
'city_trigram_term',
'city_including',
'city_equality',
'zip_intersect_min',
'zip_intersect_max',
'zip_levenshtein_sim',
'zip_trigram_sim',
'zip_levenshtein_term',
'zip_trigram_term',
'zip_including',
'zip_equality',
'street_intersect_min',
'street_intersect_max',
'street_levenshtein_sim',
'street_trigram_sim',
'street_levenshtein_term',
'street_trigram_term',
'street_including',
'street_equality',
'website_intersect_min',
'website_intersect_max',
'website_levenshtein_sim',
'website_trigram_sim',
'website_levenshtein_term',
'website_trigram_term',
'website_including',
'website_equality',
'countryname_intersect_min',
'countryname_intersect_max',
'countryname_levenshtein_sim',
'countryname_trigram_sim',
'countryname_levenshtein_term',
'countryname_trigram_term',
'countryname_including',
'countryname_equality',
'geocoderlocalityname_intersect_min',
'geocoderlocalityname_intersect_max',
'geocoderlocalityname_levenshtein_sim',
'geocoderlocalityname_trigram_sim',
'geocoderlocalityname_levenshtein_term',
'geocoderlocalityname_trigram_term',
'geocoderlocalityname_including',
'geocoderlocalityname_equality',
'geocoderinputaddress_intersect_min',
'geocoderinputaddress_intersect_max',
'geocoderinputaddress_levenshtein_sim',
'geocoderinputaddress_trigram_sim',
'geocoderinputaddress_levenshtein_term',
'geocoderinputaddress_trigram_term',
'geocoderinputaddress_including',
'geocoderinputaddress_equality',
'geocoderoutputaddress_intersect_min',
'geocoderoutputaddress_intersect_max',
'geocoderoutputaddress_levenshtein_sim',
'geocoderoutputaddress_trigram_sim',
'geocoderoutputaddress_levenshtein_term',
'geocoderoutputaddress_trigram_term',
'geocoderoutputaddress_including',
'geocoderoutputaddress_equality',
'geocoderpostalcodenumber_intersect_min',
'geocoderpostalcodenumber_intersect_max',
'geocoderpostalcodenumber_levenshtein_sim',
'geocoderpostalcodenumber_trigram_sim',
'geocoderpostalcodenumber_levenshtein_term',
'geocoderpostalcodenumber_trigram_term',
'geocoderpostalcodenumber_including',
'geocoderpostalcodenumber_equality',
'geocodercountrynamecode_intersect_min',
'geocodercountrynamecode_intersect_max',
'geocodercountrynamecode_levenshtein_sim',
'geocodercountrynamecode_trigram_sim',
'geocodercountrynamecode_levenshtein_term',
'geocodercountrynamecode_trigram_term',
'geocodercountrynamecode_including',
'geocodercountrynamecode_equality',
'phone_diff',
'phone_levenshtein',
'phone_trigram',
'phone_equality',
'fax_diff',
'fax_levenshtein',
'fax_trigram',
'fax_equality',
'street_number_diff',
'street_number_levenshtein',
'street_number_trigram',
'street_number_equality',
'geocode_coordinates_long_diff',
'geocode_coordinates_long_levenshtein',
'geocode_coordinates_long_trigram',
'geocode_coordinates_long_equality',
'geocode_coordinates_lat_diff',
'geocode_coordinates_lat_levenshtein',
'geocode_coordinates_lat_trigram',
'geocode_coordinates_lat_equality',
'coordinates_long_diff',
'coordinates_long_levenshtein',
'coordinates_long_trigram',
'coordinates_long_equality',
'coordinates_lat_diff',
'coordinates_lat_levenshtein',
'coordinates_lat_trigram',
'coordinates_lat_equality',
'geocode_coordinates_diff',
'coordinates_diff',
'label']

In [None]:
raw_data = pd.read_csv('Nomao.data', names=column_names)
raw_data = raw_data.drop(columns="id")

In [None]:
raw_data.shape

Первые 5 строк:

In [None]:
raw_data.head()

Последние 5 строк:

In [None]:
raw_data.tail()

# Работа с пропущенными значениями

Посмотрим, сколько процентов пропущенных значений в столбцах (столбцы без пропущенных значений не представлены)

In [None]:
counter = 0
for column in raw_data.columns:
    counts = raw_data[column].value_counts()
    if '?' in counts:
        counter = counter + 1
        coef = 100 * counts['?'] / len(raw_data[column])
        print(column, coef)
print(counter)

Для начала сделаем копию

In [None]:
data = raw_data

Избавимся от всех столбцов, где пропущенных значений больше 30%

In [None]:
columns_for_delete = []
for column in data.columns:
    counts = data[column].value_counts()
    if '?' in counts:
        coef = 100 * counts['?'] / len(data[column])
        if coef >= 30:
            columns_for_delete.append(column)
data = data.drop(columns=columns_for_delete)

In [None]:
data.shape

Первые 5 строк:

In [None]:
data.head()

Последние 5 строк:

In [None]:
data.tail()

Посмотрим еще раз проценты пропущенных значений

In [None]:
counter = 0
for column in data.columns:
    counts = data[column].value_counts()
    if '?' in counts:
        counter = counter + 1
        coef = 100 * counts['?'] / len(data[column])
        print(column, coef)
print(counter)

Данных много, поэтому можно позволить себе удалить все строки с пропущенными значениями

In [None]:
indexes_for_delete = []
for index in data.index:
    if '?' in data.loc[index, ].array:
        indexes_for_delete.append(index)
data = data.drop(index=indexes_for_delete)

In [None]:
data.shape

Посмотрим еще раз проценты пропущенных значений

In [None]:
counter = 0
for column in data.columns:
    counts = data[column].value_counts()
    if '?' in counts:
        counter = counter + 1
        coef = 100 * counts['?'] / len(data[column])
        print(column, coef)
print(counter)