In [16]:
import pandas as pd
import random

In [17]:
COLUMNS = ['sportsObjectsAmountPer100k', 'sportsAmountPer100k', 'areasSquarePer100k', 'subwayDistance', 'pollutedPointsPercentage', 'result']
OBJECTS_OK = 300
AMOUNT_OK = 50
SQUARE_OK = 400000
SUBWAY_DIST_OK = 1500
POLLUTION_OK = 0.1

In [18]:
def poly_classify(poly_dict: dict) -> int:
    if poly_dict['sportsObjectsAmountPer100k'] >= OBJECTS_OK and\
       poly_dict['sportsAmountPer100k'] >= AMOUNT_OK and\
       poly_dict['areasSquarePer100k'] >= SQUARE_OK and\
       poly_dict['subwayDistance'] <= SUBWAY_DIST_OK and\
       poly_dict['subwayDistance'] <= POLLUTION_OK:
       return 1
    return 0

In [19]:
def generate_new_polygon_row(expected_class: int = 1) -> dict:
    if expected_class == 1:
        sports_objects_amount_per_100k = random.randrange(OBJECTS_OK, 500) # количество спортивных зон на 100к человек (единицы)
        sports_amount_per_100k = random.randrange(AMOUNT_OK, 500) # количество различных видов спорта на 100к человек (единицы)
        areas_square_per_100k = random.uniform(SQUARE_OK, 1500000.) # суммарная площадь спортивных зон на 100к человек (метры^2)
        subway_distance = random.uniform(0, SUBWAY_DIST_OK) # средняя удаленность до метро в полигоне (метры)
        polluted_points_percentage = random.uniform(0., POLLUTION_OK) # процентное соотношение "грязных" точек к суммарному их числу (проценты в виде десятичной дроби)
        poly_dict = {
            'sportsObjectsAmountPer100k': sports_objects_amount_per_100k,
            'sportsAmountPer100k': sports_amount_per_100k,
            'areasSquarePer100k': areas_square_per_100k,
            'subwayDistance': subway_distance,
            'pollutedPointsPercentage': polluted_points_percentage,
            'result': 1
        }   
        return poly_dict
        
    elif expected_class == 0:
        sports_objects_amount_per_100k = random.randrange(0, OBJECTS_OK) # количество спортивных зон на 100к человек (единицы)
        sports_amount_per_100k = random.randrange(0, AMOUNT_OK) # количество различных видов спорта на 100к человек (единицы)
        areas_square_per_100k = random.uniform(0., SQUARE_OK) # суммарная площадь спортивных зон на 100к человек (метры^2)
        subway_distance = random.uniform(SUBWAY_DIST_OK, 8000) # средняя удаленность до метро в полигоне (метры)
        polluted_points_percentage = random.uniform(POLLUTION_OK, 1) # процентное соотношение "грязных" точек к суммарному их числу (проценты в виде десятичной дроби)
        poly_dict = {
            'sportsObjectsAmountPer100k': sports_objects_amount_per_100k,
            'sportsAmountPer100k': sports_amount_per_100k,
            'areasSquarePer100k': areas_square_per_100k,
            'subwayDistance': subway_distance,
            'pollutedPointsPercentage': polluted_points_percentage,
            'result': 0
        }   
        return poly_dict
    
    else:
        sports_objects_amount_per_100k = random.randrange(0, 500) # количество спортивных зон на 100к человек (единицы)
        sports_amount_per_100k = random.randrange(0, 500) # количество различных видов спорта на 100к человек (единицы)
        areas_square_per_100k = random.uniform(0., 1500000.) # суммарная площадь спортивных зон на 100к человек (метры^2)
        subway_distance = random.uniform(0, 8000) # средняя удаленность до метро в полигоне (метры)
        polluted_points_percentage = random.uniform(0, 1) # процентное соотношение "грязных" точек к суммарному их числу (проценты в виде десятичной дроби)
        poly_dict = {
            'sportsObjectsAmountPer100k': sports_objects_amount_per_100k,
            'sportsAmountPer100k': sports_amount_per_100k,
            'areasSquarePer100k': areas_square_per_100k,
            'subwayDistance': subway_distance,
            'pollutedPointsPercentage': polluted_points_percentage,
        }   
        poly_dict['result'] = poly_classify(poly_dict)
        return poly_dict

In [20]:
def generate_polygons_dataset(lines: int = 5000) -> pd.DataFrame:
    df = pd.DataFrame(columns=COLUMNS)
    for _ in range(int(lines/3)):
        new_0_row = generate_new_polygon_row(0)
        new_1_row = generate_new_polygon_row(1)
        new_2_row = generate_new_polygon_row(2)
        df = df.append(new_0_row, ignore_index=True)
        df = df.append(new_1_row, ignore_index=True)
        df = df.append(new_2_row, ignore_index=True)
    return df

In [21]:
df = generate_polygons_dataset()
df.head()

Unnamed: 0,sportsObjectsAmountPer100k,sportsAmountPer100k,areasSquarePer100k,subwayDistance,pollutedPointsPercentage,result
0,196.0,30.0,197403.6,3394.338193,0.845349,0.0
1,395.0,194.0,1119281.0,122.853231,0.005379,1.0
2,67.0,447.0,1328228.0,6719.077349,0.13596,0.0
3,196.0,23.0,184692.8,7856.788927,0.166539,0.0
4,300.0,151.0,1149871.0,981.04383,0.037876,1.0


In [22]:
df.to_csv('../assets/train.csv', index_label=False)