# В этом ноутбуке будут рассмотрены различные видны препроцессинга данных для моделей классификации

In [1]:
import pandas as pd
import numpy as np
from tqdm import tqdm
from sklearn.neighbors import KDTree
import sys

sys.path.append('/Users/alexander.savelyev/PycharmProjects/Snow_recognition')
from preprocess import Preprocess

preprocess.py -- в этом файле написаны все методы препроцессинга, которые будут описываться в этой тетрадке 

In [2]:
preprocessor = Preprocess()

In [3]:
df = pd.read_csv("/Volumes/HP P800/itmo/Lidar data/data.csv")

In [4]:
df.head(5)

Unnamed: 0,scene_id,x,y,z,intensity,ring,label
0,0,-11.355618,-4.206962,0.344085,0.0,23.0,1.0
1,0,-5.916535,-1.972164,0.283262,0.0,25.0,1.0
2,0,-7.410451,-2.113039,2.137792,0.0,31.0,1.0
3,0,-13.84587,-1.406652,0.40631,0.0,23.0,1.0
4,0,-8.326218,-0.34606,0.226469,0.0,22.0,1.0


### 1. Простой препроцессинг

Для каждой сцены будем в ней нормализовывать с помощью min_max в ней координаты x, y, z, intensity и ring

In [8]:
df_1 = preprocessor.simple_preprocess_normalize_all_columns(df)
df_1.to_csv("/Volumes/HP P800/itmo/Lidar data/data_simple_preprocess_normalize_all_columns.csv")
df_1 = pd.read_csv("/Volumes/HP P800/itmo/Lidar data/data_simple_preprocess_normalize_all_columns.csv", index_col=0)

In [9]:
df_1

Unnamed: 0,scene_id,x,y,z,intensity,ring,label,x_normailized,y_normailized,z_normailized,ring_normailized,intensity_normailized
0,0,-11.355618,-4.206962,0.344085,0.0,23.0,1.0,0.334384,0.428199,0.304751,0.741912,0.000000
1,0,-5.916535,-1.972164,0.283262,0.0,25.0,1.0,0.425570,0.466143,0.298890,0.806426,0.000000
2,0,-7.410451,-2.113039,2.137792,0.0,31.0,1.0,0.400525,0.463751,0.477613,0.999968,0.000000
3,0,-13.845870,-1.406652,0.406310,0.0,23.0,1.0,0.292635,0.475745,0.310748,0.741912,0.000000
4,0,-8.326218,-0.346060,0.226469,0.0,22.0,1.0,0.385172,0.493753,0.293417,0.709655,0.000000
...,...,...,...,...,...,...,...,...,...,...,...,...
5587413,229,-21.061958,-19.518799,-1.736692,9.0,7.0,0.0,0.168736,0.168792,0.223123,0.225799,0.035856
5587414,229,-14.454390,-13.593932,-2.120711,17.0,4.0,0.0,0.279571,0.268292,0.184520,0.129028,0.067729
5587415,229,-16.462903,-16.933895,-2.049159,21.0,5.0,0.0,0.245881,0.212202,0.191713,0.161285,0.083665
5587416,229,-14.510767,-13.547505,-2.122062,17.0,4.0,0.0,0.278626,0.269071,0.184384,0.129028,0.067729


Проверим что координаты действительно нормализованы

In [10]:
df_1.describe()

Unnamed: 0,scene_id,x,y,z,intensity,ring,label,x_normailized,y_normailized,z_normailized,ring_normailized,intensity_normailized
count,5587418.0,5587418.0,5587418.0,5587418.0,5587418.0,5587418.0,5587418.0,5587418.0,5587418.0,5587418.0,5587418.0,5587418.0
mean,112.9268,0.6404926,0.07356524,-0.9317976,15.44064,12.23832,0.105228,0.5309799,0.5048388,0.1775312,0.3740787,0.1057433
std,66.5193,11.89973,12.35524,1.02041,17.59814,9.141331,0.306847,0.2019528,0.2125203,0.1190406,0.2644248,0.123088
min,0.0,-31.4982,-29.98987,-5.708614,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,53.0,-7.758378,-8.026161,-1.69254,4.0,5.0,0.0,0.3869205,0.3634907,0.0897586,0.1612851,0.02564092
50%,111.0,1.964681,-1.041601,-1.123072,12.0,10.0,0.0,0.5516589,0.4849513,0.1570859,0.2903132,0.07058796
75%,170.0,8.635318,8.710825,-0.3801832,20.0,18.0,0.0,0.6683471,0.651705,0.2400947,0.5483694,0.1415081
max,229.0,29.98755,29.99027,8.67758,255.0,39.0,1.0,0.9999833,0.9999833,0.9999246,0.9999744,0.9999961


Как видим, x_normalized, y_normalized, z_normalized, ring_normailized и intensity_normailized находяться от 0 до 1

Будем использовать эти данные для обучения логистической регресии, потому что линейная модель может быть очень подвержена большой высокоими значениями фичей

### 2. Препроцессинг на основе KDTree

Для каждой сцены будем делать следующее:

1) Нормализовывать координаты x, y и z, а затем сохранять их в x_normalized, y_normalized и z_normalized.

2) Для всех точек сцены по кординатам x_normalized, y_normalized и z_normalized будем строить KDTree. KDTree -- структура для быстрого поиска ближайших соседей, будем использовать ее потому что полный перебор очень долго делается.

3) Затем для каждой точки сцены будем находить ее 7 ближайших соседей с помощью KDTree. 

4) Будем считать следующие характеристики на основе ее ближайших соседей:

    * dist_mean -- среднее расстояние от точки до всех ее соседей
    * dist_std -- стандартное отклонение расстояний от точки до всех ее соседей
    * dist_for_first -- расстоние до самой ближней точки (из найденных соседей)
    * dist_for_last -- расстоние до самой дальней точки точки (из найденных соседей)
    
    * ring_mean -- средний номер луча от точки до всех ее соседей
    * ring_std -- стандартное отклонение номера луча от точки до всех ее соседей
    * ring_for_first -- номера луча самой ближней точки (из найденных соседей)
    * ring_for_last -- номера луча самой дальней точки точки (из найденных соседей)
    
    * int_mean -- среднея интенсивность от точки до всех ее соседей
    * int_std -- стандартное отклонение интенсивности от точки до всех ее соседей
    * int_for_first -- интенсивность самой ближней точки (из найденных соседей)
    * int_for_last -- интенсивность самой дальней точки точки (из найденных соседей)
    

Такой фичи инжеринг обуслевден тем фактом, что проведя EDA мы сделали несколько выводов:

* Также дисперсия для снега меньше, чем у обычных точек, из этого можно сделать вывод, что снег скапливается в одном месте, а не "раскидан" по всей сцене.

* По этой информации можно сделать вывод, что снег в среднем находиться выше, чем другие точки, потому z_normailized больше для label = 1, чем z_normailized для label = 0.

* По этой информации можно сделать вывод, что снег в среднем намного тусклее, и эта тусклость находиться около 0.

Значит если точка находиться в окружении точек снега, то скорее всего она будет тоже снегом, эту гипотезу мы проверем в будущем

In [11]:
df_kdtree = preprocessor.kdtree_preprocess(df)
df_kdtree.to_csv("/Volumes/HP P800/itmo/Lidar data/data_kdtree_preprocess.csv")
df_kdtree = pd.read_csv("/Volumes/HP P800/itmo/Lidar data/data_kdtree_preprocess.csv")

In [12]:
df_kdtree

Unnamed: 0.1,Unnamed: 0,scene_id,x,y,z,intensity,ring,label,x_normailized,y_normailized,...,dist_for_first,dist_for_last,ring_mean,ring_std,ring_for_first,ring_for_last,int_mean,int_std,int_for_first,int_for_last
0,0,0,-11.355618,-4.206962,0.344085,0.0,23.0,1.0,0.334384,0.428199,...,0.063558,0.109770,16.666667,7.366591,25.0,10.0,20.333333,22.642144,0.0,48.0
1,1,0,-5.916535,-1.972164,0.283262,0.0,25.0,1.0,0.425570,0.466143,...,0.049237,0.076238,18.500000,4.593474,22.0,25.0,0.833333,1.329160,0.0,0.0
2,2,0,-7.410451,-2.113039,2.137792,0.0,31.0,1.0,0.400525,0.463751,...,0.160898,0.173386,27.833333,1.602082,27.0,31.0,0.000000,0.000000,0.0,0.0
3,3,0,-13.845870,-1.406652,0.406310,0.0,23.0,1.0,0.292635,0.475745,...,0.063558,0.103703,24.000000,1.673320,23.0,26.0,0.000000,0.000000,0.0,0.0
4,4,0,-8.326218,-0.346060,0.226469,0.0,22.0,1.0,0.385172,0.493753,...,0.041669,0.056021,22.333333,3.076795,25.0,25.0,0.000000,0.000000,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5587413,5587413,229,-21.061958,-19.518799,-1.736692,9.0,7.0,0.0,0.168736,0.168792,...,0.015266,0.032256,6.166667,0.408248,6.0,7.0,12.833333,2.316607,12.0,10.0
5587414,5587414,229,-14.454390,-13.593932,-2.120711,17.0,4.0,0.0,0.279571,0.268292,...,0.001207,0.006411,4.000000,0.000000,4.0,4.0,15.666667,1.032796,15.0,17.0
5587415,5587415,229,-16.462903,-16.933895,-2.049159,21.0,5.0,0.0,0.245881,0.212202,...,0.001430,0.007129,5.000000,0.000000,5.0,5.0,21.000000,0.000000,21.0,21.0
5587416,5587416,229,-14.510767,-13.547505,-2.122062,17.0,4.0,0.0,0.278626,0.269071,...,0.001233,0.007502,4.000000,0.000000,4.0,4.0,15.666667,1.032796,15.0,17.0
