In [35]:
import pandas as pd
import random

In [36]:
COLUMNS = ['areasAmountPer100k', 'sportsAmountPer100k', 'areasSquarePer100k', 'subwayDistance', 'pollutedPointsPercentage', 'result']
AREAS_OK = 200
AMOUNT_OK = 50
SQUARE_OK = 400000
SUBWAY_DIST_OK = 5000
POLLUTION_OK = 0.7

In [37]:
def poly_classify(poly_dict: dict) -> int:
    if poly_dict['areasAmountPer100k'] >= AREAS_OK and\
       poly_dict['sportsAmountPer100k'] >= AMOUNT_OK and\
       poly_dict['areasSquarePer100k'] >= SQUARE_OK and\
       poly_dict['subwayDistance'] <= SUBWAY_DIST_OK and\
       poly_dict['subwayDistance'] <= POLLUTION_OK:
      return 1
    return 0

In [38]:
def generate_new_polygon_row(expected_class: int = 1) -> dict:
    if expected_class == 1:
        areas_amount_per_100k = random.randrange(AREAS_OK, 600) # количество спортивных зон на 100к человек (единицы)
        sports_amount_per_100k = random.randrange(AMOUNT_OK, 500) # количество различных видов спорта на 100к человек (единицы)
        areas_square_per_100k = random.uniform(SQUARE_OK, 1500000.) # суммарная площадь спортивных зон на 100к человек (метры^2)
        subway_distance = random.uniform(0, SUBWAY_DIST_OK) # средняя удаленность до метро в полигоне (метры)
        polluted_points_percentage = random.uniform(0., POLLUTION_OK) # процентное соотношение "грязных" точек к суммарному их числу (проценты в виде десятичной дроби)
        poly_dict = {
            'areasAmountPer100k': areas_amount_per_100k,
            'sportsAmountPer100k': sports_amount_per_100k,
            'areasSquarePer100k': areas_square_per_100k,
            'subwayDistance': subway_distance,
            'pollutedPointsPercentage': polluted_points_percentage,
            'result': 1
        }   
        return poly_dict
        
    elif expected_class == 0:
        areas_amount_per_100k = random.randrange(0, AREAS_OK) # количество спортивных зон на 100к человек (единицы)
        sports_amount_per_100k = random.randrange(0, AMOUNT_OK) # количество различных видов спорта на 100к человек (единицы)
        areas_square_per_100k = random.uniform(0., SQUARE_OK) # суммарная площадь спортивных зон на 100к человек (метры^2)
        subway_distance = random.uniform(SUBWAY_DIST_OK, 10000) # средняя удаленность до метро в полигоне (метры)
        polluted_points_percentage = random.uniform(POLLUTION_OK, 1) # процентное соотношение "грязных" точек к суммарному их числу (проценты в виде десятичной дроби)
        poly_dict = {
            'areasAmountPer100k': areas_amount_per_100k,
            'sportsAmountPer100k': sports_amount_per_100k,
            'areasSquarePer100k': areas_square_per_100k,
            'subwayDistance': subway_distance,
            'pollutedPointsPercentage': polluted_points_percentage,
            'result': 0
        }   
        return poly_dict
    
    else:
        areas_amount_per_100k = random.randrange(0, 500) # количество спортивных зон на 100к человек (единицы)
        sports_amount_per_100k = random.randrange(0, 500) # количество различных видов спорта на 100к человек (единицы)
        areas_square_per_100k = random.uniform(0., 1500000.) # суммарная площадь спортивных зон на 100к человек (метры^2)
        subway_distance = random.uniform(0, 8000) # средняя удаленность до метро в полигоне (метры)
        polluted_points_percentage = random.uniform(0, 1) # процентное соотношение "грязных" точек к суммарному их числу (проценты в виде десятичной дроби)
        poly_dict = {
            'areasAmountPer100k': areas_amount_per_100k,
            'sportsAmountPer100k': sports_amount_per_100k,
            'areasSquarePer100k': areas_square_per_100k,
            'subwayDistance': subway_distance,
            'pollutedPointsPercentage': polluted_points_percentage,
        }   
        poly_dict['result'] = poly_classify(poly_dict)
        return poly_dict

In [39]:
def generate_polygons_dataset(lines: int = 12000) -> pd.DataFrame:
    df = pd.DataFrame(columns=COLUMNS)
    for _ in range(int(lines/3)):
        new_0_row = generate_new_polygon_row(0)
        new_1_row = generate_new_polygon_row(1)
        new_2_row = generate_new_polygon_row(2)
        df = df.append(new_0_row, ignore_index=True)
        df = df.append(new_1_row, ignore_index=True)
        df = df.append(new_2_row, ignore_index=True)
    return df

In [40]:
df = generate_polygons_dataset()
df.head()

12000


Unnamed: 0,areasAmountPer100k,sportsAmountPer100k,areasSquarePer100k,subwayDistance,pollutedPointsPercentage,result
0,15.0,20.0,186861.6,7353.397854,0.94823,0.0
1,331.0,317.0,1367124.0,3165.050693,0.024175,1.0
2,300.0,77.0,332290.8,6801.64157,0.173018,0.0
3,127.0,42.0,67032.59,8076.08257,0.891446,0.0
4,405.0,148.0,1026126.0,3440.022194,0.275477,1.0


In [41]:
df.to_csv('../assets/train.csv', index_label=False)