# 2. Предобработка данных.

**Содержание**
* [Data Science проект](#ds)
* [1. Загрузка данных](#load)
* [2. Типы данных](#types)
* [3. Основы статистики](#stats)
* [4. Обработка пропусков](#nan)
* [5. Обработка выбросов](#outlier)
* [6. Отбор и построение новых признаков](#feature)
* [6. Сохранение результатов](#save)
* [7. Подготовка данных в реальном проекте](#real)

### **Data Science проект:**<a class='anchor' id='ds'>
**Введение. Описание проекта по обработке данных**
    
**Постановка задачи** Задача может быть коммерческая и некоммерческая (по оплате ресурсов). Задача может формулироваться с внешней стороны, так и внутри команды или даже самим автором (постановка). Задача может быть научная или прикладная инженерная (по степени новизны применяемых механизмов). Задача может варьироваться по тематике (область применения): финансы и экономика, робототехника или медицина.

**Получение данных** Данные предоставляются тем, кто ставит задачу и определяет тематику исследований. Процесс сбора данных может быть долог и сложен. При этом встречается ряд ограничений типа коммерческая тайна или защищенность данных с предоставлением допусков.

**Анализ данных** Исходный объем информации подвергается предварительному анализу, который может включать в себя рассчет простых статистик: средние величины, отклонения, функции распределения. Отдельным элементом в ходе такого анализа данных является визуализация результатов с построение графиков, многомерных профилей, кластерных точек, круговых и столбцовых диаграмм.
    
**Переработка данных** Этот процесс включает в себя исключение артефактов и ошибочно зарегистрированных значений dataset, а также выделение признаков, полученных в ходе анализа данных. По этим признакам из исходного набора можно выделить нужные закономерности, которые и лягут затем в основу модели анализа данных.
    
**Построение модели** Модель строится на основе определенного алгоритма интерпретации признаков полученных ранее. Для построения модели выбирается определенный фрагмент исходных данных. Далее по оставшимся можно уже проводить анализ пригодности данной модели, считать ошибки и прочие метрики.
    
**Внедрение модели** Пройдя стадию простроения и контроль пригодности, модель запускается в промышленную эксплуатацию. Промышленная эксплуатация подразумевает нетолько вывод, но и проведение доработок и улучшений.


### 1. Загрузка данных <a class='anchor' id='load'>

**Пути к директориям и файлам**

Создаем необходимые константы и указываем пути доступа файлов. В данном случае для простоты мы их располагаем рядом с файлом jupiter notebook в папке текущего проекта. В принципе файлы могут располагаться и в других местах дискового пространства.

In [1]:
DATASET_PATH = './housing.csv'
PREPARED_DATASET_PATH = './housing_prepared.csv'

**Подключение библиотек и скриптов**

Для проведения вычислений потребуется модули <br/>
**numpy** (https://numpy.org/) <br/>
**scipy** (https://docs.scipy.org/doc/scipy/tutorial/linalg.html). <br/>
Для проведения построений потребуется модуль **pandas** (https://pandas.pydata.org/). <br/>
Для работы с сообщениями об ошибках **warnings** (https://docs.python.org/3/library/warnings.html) <br/>

In [2]:
import numpy as np
import pandas as pd

from scipy.stats import mode

import warnings
warnings.filterwarnings('ignore')

**Описание задачи**

Цель - предсказать стоимость дома 

Зачем?  

_В банках, страховых компаниях:_
- Узнать истинную стоимость имущества (залога)
- Принять решение о выдаче ипотеки/страховки
- Принять решение о % по ипотеке/страховке
  
_На площадках объявлений (Авито, Циан, ...):_
- Найти недооцененные квартиры (~ выгодные предложения), показать их пользователям
- Показывать рыночную стоимость квартиры пользователям
- Для тех, кто продает квартиру, рекомендовать цену продажи

_Для инвесторов в недвижимость:_
- Определять рыночную стоимость квартир
- Поиск недооцененных активов
- Торговля на рынке недвижимости

**Описание dataset**

Статистические данные о ряде домов в Калифорнии, основанные на переписи 1990 года.

* **longitude** - долгота
* **latitude** - широта
* **housing_median_age** - средний возраст дома
* **total_rooms** - общее количество комнат
* **total_bedrooms** - общее количество спален
* **population** - количество проживающих
* **households** - домохозяйства
* **ocean_proximity** - близость океана
* **median_income** - средний доход
* **median_house_value** - средняя стоимость дома

Ранее мы определелили пути для CSV файлов, в которых хранятся описанные выше файлы. Каждая строчка CSV - это определенная запись наблюдения с соответствующей совокупностью параметров, названия и практическое использование которых приведены выше по тексту. Считываем данные при помощи **pandas**.<br>
Операция чтения <a href='https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html'>read_csv</a> возвращает нам объект DataFrame. Спецификацию методов объекта можно посмотреть <a href='https://www.w3schools.com/python/pandas/pandas_ref_dataframe.asp'>здесь</a><br>


In [3]:
dataFrame = pd.read_csv(DATASET_PATH, sep=',')

In [4]:
dataFrame.head(3) #Returns the header row and the first 10 rows, or the specified number of rows

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity,id
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY,0
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY,1
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY,2


In [5]:
dataFrame.tail(2) #Returns the headers and the last rows

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity,id
20638,-121.32,39.43,18.0,1860.0,409.0,741.0,349.0,1.8672,84700.0,INLAND,20638
20639,-121.24,39.37,16.0,2785.0,616.0,1387.0,530.0,2.3886,89400.0,INLAND,20639


In [6]:
dataFrame.sample(12) #Returns a random selection elements

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity,id
4453,-118.17,34.1,48.0,2514.0,595.0,2484.0,601.0,3.1146,142500.0,<1H OCEAN,4453
3113,-117.66,35.62,11.0,5897.0,1138.0,2728.0,1072.0,4.15,85700.0,INLAND,3113
14046,-117.13,32.77,30.0,2582.0,650.0,1098.0,603.0,2.8281,171700.0,NEAR OCEAN,14046
3840,-118.44,34.18,36.0,2077.0,496.0,,528.0,2.2326,221000.0,<1H OCEAN,3840
10144,-117.9,33.91,26.0,2885.0,476.0,1227.0,439.0,4.9524,226600.0,<1H OCEAN,10144
14829,-117.1,32.67,26.0,2629.0,763.0,2721.0,767.0,2.0982,109100.0,NEAR OCEAN,14829
9573,-120.6,37.35,19.0,3874.0,676.0,2441.0,707.0,3.2955,88600.0,INLAND,9573
9345,-122.57,37.98,49.0,2860.0,552.0,1178.0,522.0,4.625,355000.0,NEAR BAY,9345
9341,-122.6,38.0,21.0,2198.0,462.0,1100.0,449.0,4.1098,246600.0,<1H OCEAN,9341
11546,-118.04,33.74,26.0,2532.0,421.0,1274.0,441.0,5.3559,235800.0,<1H OCEAN,11546


С помощью .sample можно получить случайную долю объектов, либо перемешать весь датасет<br>
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sample.html

In [7]:
dataFrame.sample(frac=1) #return all randomized objects

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity,id
2494,-120.19,36.60,25.0,875.0,214.0,931.0,214.0,1.5536,58300.0,INLAND,2494
13983,-116.85,34.98,26.0,3606.0,792.0,1683.0,608.0,2.6587,57400.0,INLAND,13983
3111,-117.68,35.62,30.0,2994.0,741.0,1481.0,581.0,2.1458,52400.0,INLAND,3111
19053,-121.69,38.16,33.0,1808.0,363.0,824.0,340.0,3.2937,96400.0,INLAND,19053
15726,-122.45,37.78,43.0,1452.0,397.0,897.0,393.0,4.1319,322700.0,NEAR BAY,15726
...,...,...,...,...,...,...,...,...,...,...,...
6968,-118.05,33.98,41.0,1406.0,428.0,1174.0,390.0,2.0147,137500.0,<1H OCEAN,6968
20384,-118.94,34.18,24.0,3689.0,585.0,1898.0,581.0,5.9224,239400.0,<1H OCEAN,20384
15932,-122.40,37.73,50.0,1947.0,411.0,1170.0,384.0,3.4769,238700.0,NEAR BAY,15932
17970,-121.96,37.32,11.0,1711.0,493.0,1094.0,543.0,3.7300,227700.0,<1H OCEAN,17970


In [8]:
dataFrame.shape #Return a tuple representing the dimensionality of the DataFrame

(20640, 11)

In [9]:
dataFrame.columns #The property of the column labels of the DataFrame

Index(['longitude', 'latitude', 'housing_median_age', 'total_rooms',
       'total_bedrooms', 'population', 'households', 'median_income',
       'median_house_value', 'ocean_proximity', 'id'],
      dtype='object')

In [10]:
dataFrame.index #The index (row labels) of the DataFrame

RangeIndex(start=0, stop=20640, step=1)

Стилизация вывода DataFrame https://pandas.pydata.org/docs/user_guide/style.html

**Получение одного или нескольких признаков из датасета**

In [11]:
dataFrame['total_rooms'] #selecting all elements of the one property

0         880.0
1        7099.0
2        1467.0
3        1274.0
4        1627.0
          ...  
20635    1665.0
20636     697.0
20637    2254.0
20638    1860.0
20639    2785.0
Name: total_rooms, Length: 20640, dtype: float64

In [12]:
dataFrame.total_rooms # the direct point reference

0         880.0
1        7099.0
2        1467.0
3        1274.0
4        1627.0
          ...  
20635    1665.0
20636     697.0
20637    2254.0
20638    1860.0
20639    2785.0
Name: total_rooms, Length: 20640, dtype: float64

In [13]:
dataFrame[['total_rooms', 'total_bedrooms']] #Aggregated values of two selected properties

Unnamed: 0,total_rooms,total_bedrooms
0,880.0,129.0
1,7099.0,1106.0
2,1467.0,190.0
3,1274.0,235.0
4,1627.0,280.0
...,...,...
20635,1665.0,374.0
20636,697.0,150.0
20637,2254.0,485.0
20638,1860.0,409.0


**Фильтрация данных с помощью булевых масок**

Существую так называемые булевые маски, благодаря которым можно вводить условия сравнения по значениям признака идентичного типа. Например сравнить набор значений dataFrame c определенным числовым скалярным значением. 

In [14]:
dataFrame['population'] > 400 # returns all population values with numeric type which have values higher then 400

0        False
1         True
2         True
3         True
4         True
         ...  
20635     True
20636    False
20637    False
20638     True
20639     True
Name: population, Length: 20640, dtype: bool

Если подставить эти булевые маски в исходный dataFrame, то получится что можно выводить все значения dataFrame, отфильтрованные по одному свойству 

In [15]:
dataFrame[dataFrame['population'] > 400].head() #Returns all data frame values which corresponds to the population higher then 400

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity,id
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY,1
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY,2
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY,3
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY,4
5,-122.25,37.85,52.0,919.0,213.0,413.0,193.0,4.0368,269700.0,NEAR BAY,5


Аналогично можно комбинировать условия по правилу И , ИЛИ. И будет определяться как &. ИЛИ будет определяться как |

In [16]:
dataFrame[(dataFrame['population'] > 100) & (dataFrame['households'] > 100)].head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity,id
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY,0
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY,1
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY,2
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY,3
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY,4


In [17]:
dataFrame[(dataFrame['population'] > 100) | (dataFrame['households'] > 100)].head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity,id
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY,0
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY,1
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY,2
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY,3
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY,4


Знак ~ определяет логическое отрицание. Строгое обращение превращается в не строгое. 

In [18]:
~(dataFrame['population'] > 322)

0         True
1        False
2        False
3        False
4        False
         ...  
20635    False
20636    False
20637     True
20638    False
20639    False
Name: population, Length: 20640, dtype: bool

Соответственно если подставить условие как запрос, то получится фильтрация с выдачей определенного набора данных. Отдельно стоит обратить внимание на работу с NULL при фильтрации. Если исходное поле NULL, то соответсвенно при его фильтрации такое поле будет зачтено.

In [19]:
dataFrame[~(dataFrame['population'] > 100)].head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity,id
34,-122.27,37.83,51.0,2665.0,574.0,,536.0,2.7303,109700.0,NEAR BAY,34
59,-122.29,37.82,2.0,158.0,43.0,94.0,57.0,2.5625,60000.0,NEAR BAY,59
61,-122.29,37.82,49.0,135.0,29.0,86.0,23.0,6.1183,75000.0,NEAR BAY,61
73,-122.29,37.81,46.0,12.0,4.0,18.0,7.0,0.4999,67500.0,NEAR BAY,73
121,-122.24,37.85,37.0,334.0,54.0,98.0,47.0,4.9643,335000.0,NEAR BAY,121


In [20]:
tmp = dataFrame[~(dataFrame['population'] > 100)]
tmp.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity,id
34,-122.27,37.83,51.0,2665.0,574.0,,536.0,2.7303,109700.0,NEAR BAY,34
59,-122.29,37.82,2.0,158.0,43.0,94.0,57.0,2.5625,60000.0,NEAR BAY,59
61,-122.29,37.82,49.0,135.0,29.0,86.0,23.0,6.1183,75000.0,NEAR BAY,61
73,-122.29,37.81,46.0,12.0,4.0,18.0,7.0,0.4999,67500.0,NEAR BAY,73
121,-122.24,37.85,37.0,334.0,54.0,98.0,47.0,4.9643,335000.0,NEAR BAY,121


**Взятие наблюдения по индексу**<br>
Из dataFrame можно забирать объекты по индексу. 

In [21]:
tmp.index

Int64Index([   34,    59,    61,    73,   121,   129,   140,   167,   194,
              201,
            ...
            20452, 20453, 20484, 20489, 20502, 20571, 20624, 20625, 20633,
            20637],
           dtype='int64', length=828)

существуют два метода loc и iloc. loc - забирает все текущие значения по прямому индексу, а iloc ориентируется на порядковое номерное значение в исходной выборке

In [22]:
tmp.loc[34] # loc scans the INDEX=34 It's the first data vector shown above

longitude              -122.27
latitude                 37.83
housing_median_age        51.0
total_rooms             2665.0
total_bedrooms           574.0
population                 NaN
households               536.0
median_income           2.7303
median_house_value    109700.0
ocean_proximity       NEAR BAY
id                          34
Name: 34, dtype: object

In [23]:
tmp.iloc[2] # iloc scans the sequence number 2. It's the third data vector shown above with ID=61

longitude              -122.29
latitude                 37.82
housing_median_age        49.0
total_rooms              135.0
total_bedrooms            29.0
population                86.0
households                23.0
median_income           6.1183
median_house_value     75000.0
ocean_proximity       NEAR BAY
id                          61
Name: 61, dtype: object

In [24]:
tmp.loc[:61] # Slicing from ID =34 up to 61

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity,id
34,-122.27,37.83,51.0,2665.0,574.0,,536.0,2.7303,109700.0,NEAR BAY,34
59,-122.29,37.82,2.0,158.0,43.0,94.0,57.0,2.5625,60000.0,NEAR BAY,59
61,-122.29,37.82,49.0,135.0,29.0,86.0,23.0,6.1183,75000.0,NEAR BAY,61


In [25]:
tmp.iloc[:5] # Slicing from sequence index=0 up to 5

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity,id
34,-122.27,37.83,51.0,2665.0,574.0,,536.0,2.7303,109700.0,NEAR BAY,34
59,-122.29,37.82,2.0,158.0,43.0,94.0,57.0,2.5625,60000.0,NEAR BAY,59
61,-122.29,37.82,49.0,135.0,29.0,86.0,23.0,6.1183,75000.0,NEAR BAY,61
73,-122.29,37.81,46.0,12.0,4.0,18.0,7.0,0.4999,67500.0,NEAR BAY,73
121,-122.24,37.85,37.0,334.0,54.0,98.0,47.0,4.9643,335000.0,NEAR BAY,121


In [26]:
tmp.iloc[-6:-1] # Reverse order slice with negative step. It mean's backward propagation

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity,id
20502,-118.68,34.33,45.0,121.0,25.0,67.0,27.0,2.9821,325000.0,<1H OCEAN,20502
20571,-121.99,38.53,6.0,4598.0,834.0,,812.0,3.4186,127300.0,INLAND,20571
20624,-121.41,39.04,16.0,1698.0,300.0,,291.0,3.0739,87200.0,INLAND,20624
20625,-121.52,39.12,37.0,102.0,17.0,29.0,14.0,4.125,72000.0,INLAND,20625
20633,-121.53,39.19,27.0,2080.0,412.0,,382.0,2.5495,98300.0,INLAND,20633


**Сводная таблица**
Можно делать определенные view над дата frame в виде pivot tables. Причем сводная таблица собирается засчет аггрегирующей функции например среднее. 

In [27]:
pd.pivot_table(data=dataFrame[(dataFrame['housing_median_age']<20) & (dataFrame['housing_median_age']>10)],
               values='total_rooms',
               index='ocean_proximity',
               columns='housing_median_age')#(,
               #aggfunc='mean')

housing_median_age,11.0,12.0,13.0,14.0,15.0,16.0,17.0,18.0,19.0
ocean_proximity,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
-,4134.5,5382.0,,5549.0,4061.0,,127.0,2127.0,1733.0
<1H OCEAN,4075.746835,4296.807692,3582.269231,3746.460993,3403.575581,3313.063218,3352.389706,3361.5311,3270.70283
INLAND,3880.984733,3968.279661,3594.66,3485.341584,3069.685106,2614.018182,3109.129825,2854.611814,2741.795918
NEAR BAY,3214.4,5508.888889,4401.75,5775.8125,4326.043478,2774.268293,2919.064516,3436.5625,3357.392857
NEAR OCEAN,3839.933333,3734.25,3434.36,2780.102564,3361.253731,2868.35,2861.922078,2933.147059,3194.6


Аналогичный запрос можно сделать засчет сканирования и вычисления среднего

In [28]:
dataFrame[
    (dataFrame.housing_median_age == 3)
    & (dataFrame.ocean_proximity == 'INLAND')
  ]['total_rooms'].mean()

7826.806451612903

### 2. Типы данных<a class='anchor' id='types'>

Объект DataFrame состоит из набора векторов. Номер вектора это его index или отдельно взятое название. Координата каждого вектора описывается как отдельное property поле, имеющиее имя, которое по сути и задает координаты вектора.<br>
Строго говоря объект DataFrame это матрица, в строках которой лежат вектора. Каждый вектор описывает фиксированное состояние исследуемого процесса по набору параметров в определенный момент времени или в зависимости от какого-либо другого параметра, например географической координаты и т.д.. Соответственно количество векторов это количество строк такой матрицы. Следовательно в столбцах матрицы будут отражены временные ряды, показывающие изменение отдельно взятой именнованной характеристики. Или ряды изменения от какого-либо другого интересующего параметра.<br>
(https://pandas.pydata.org/docs/user_guide/10min.html)
https://pandas.pydata.org/docs/user_guide/dsintro.html
Пример такого создания dataFrame

In [29]:
# Creating DataFrame as a sequence of time series:------------------
dates = pd.date_range("20130101", periods=6)
pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))


Unnamed: 0,A,B,C,D
2013-01-01,1.388917,-0.402106,1.187747,-0.434384
2013-01-02,-0.987465,0.012706,-0.998316,0.121667
2013-01-03,-0.375725,0.152767,0.701892,-0.824086
2013-01-04,-1.379063,0.259679,-0.18518,1.085137
2013-01-05,0.744846,1.163678,-0.064349,0.944764
2013-01-06,-0.05309,-0.963374,0.237822,0.252699


In [30]:
# Creating DataFrame as a series and constants
pd.DataFrame(
    {
        "A": 1.0,
        "B": pd.Timestamp("20130102"),
        "C": pd.Series(1, index=list(range(4)), dtype="float32"),
        "D": np.array([3] * 4, dtype="int32"),
        "E": pd.Categorical(["test", "train", "test", "train"]),
        "F": "foo",
    }
)

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,test,foo
1,1.0,2013-01-02,1.0,3,train,foo
2,1.0,2013-01-02,1.0,3,test,foo
3,1.0,2013-01-02,1.0,3,train,foo


Вообще DataFrame можно создавать из любого набора перечисляемых типов:<br>
-> From dict of Series or dicts<br>
-> From dict of ndarrays / lists<br>
-> From structured or record array<br>
-> From a list of dicts<br>
-> From a dict of tuples<br>
-> From a Series<br>
-> From a list of namedtuples<br>
-> From a list of dataclasses<br>
-> DataFrame.from_dict
-> DataFrame.from_records
https://pandas.pydata.org/docs/user_guide/dsintro.html

Типы данных у отдельно взятого DataFrame хранятся в матрице dtypes

In [31]:
dataFrame.dtypes

longitude             float64
latitude              float64
housing_median_age    float64
total_rooms           float64
total_bedrooms        float64
population            float64
households            float64
median_income         float64
median_house_value    float64
ocean_proximity        object
id                      int64
dtype: object

**Числовые типы данных**

float и int это числовые типы данных. boolean в какой-то мере может быть также отнесен к числовым типам данных. object - это как нестранно тип строки.<br>
Чтобы посмотреть на dataFrame тип данных ряда взятого по параметру нужно просто взять от него функцию type ()

In [32]:
type(dataFrame['longitude'])

pandas.core.series.Series

чтобы посмотреть тип данных каждого элемента ряда, нужно обратиться к полю dtype объекта выбранного ряда

In [33]:
dataFrame['id'].dtype

dtype('int64')

In [34]:
# Getting array from the selected 'id'-named series:
dataFrame['id'].values

array([    0,     1,     2, ..., 20637, 20638, 20639], dtype=int64)

In [35]:
# Getting array type:
type(dataFrame['id'].values)

numpy.ndarray

In [36]:
# Changing element type of selected series:
dataFrame['id'] = dataFrame['id'].astype(str)
# Showing the new type:
dataFrame['id'].dtype

dtype('O')

In [37]:
dataFrameNumbers = dataFrame.select_dtypes(include=['float64', 'int64'])
dataFrameNumbers.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0


Количественные переменные любого dataFrame можно оценить и описать по значениям при помощи describe - метода:<br>
dataframe.describe()

In [38]:
dataFrame.describe() #(percentiles=[1],include=['float64'],exclude=['int64'],datetime_is_numeric=True);

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
count,20640.0,20640.0,19918.0,20640.0,20433.0,20041.0,20640.0,20640.0,20640.0
mean,-119.471242,35.036934,28.65363,2635.763081,537.870553,1425.418243,499.53968,3.870671,206855.816909
std,5.041408,94.903955,12.576796,2181.615252,421.38507,1135.185798,382.329753,1.899822,115395.615874
min,-124.35,-13534.03,1.0,2.0,1.0,3.0,1.0,0.4999,14999.0
25%,-121.8,33.93,18.0,1447.75,296.0,786.0,280.0,2.5634,119600.0
50%,-118.49,34.26,29.0,2127.0,435.0,1165.0,409.0,3.5348,179700.0
75%,-118.01,37.71,37.0,3148.0,647.0,1726.0,605.0,4.74325,264725.0
max,122.03,1327.13,52.0,39320.0,6445.0,35682.0,6082.0,15.0001,500001.0


In [39]:
dataFrame.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20640 entries, 0 to 20639
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   longitude           20640 non-null  float64
 1   latitude            20640 non-null  float64
 2   housing_median_age  19918 non-null  float64
 3   total_rooms         20640 non-null  float64
 4   total_bedrooms      20433 non-null  float64
 5   population          20041 non-null  float64
 6   households          20640 non-null  float64
 7   median_income       20640 non-null  float64
 8   median_house_value  20640 non-null  float64
 9   ocean_proximity     20640 non-null  object 
 10  id                  20640 non-null  object 
dtypes: float64(9), object(2)
memory usage: 1.7+ MB


**Обзор категорий (categorical data)**
    
Категории - это такой тип данных соответствующий классам в статистике. Категории дискретны и принимают одно из значений взяторе из конечного множества значений. Например пол человека, месяцы в году и т. д. Категории могут быть упорядочены, однако, арифметические операции над категориями невозможны. Порядок упорядочивания как правило лексический т.е. по расположению букв в названии категории. Категории вводяться на основе строк и в библиотеке pandas отображаются как object. Категории могут кодироваться цифрами, что делает их схожими с переменными типа enum , которые распространены в семействе языков с с - подобным синтаксисом. 

Запрос на переменную категории можно выполнить на основе запроса всех строковых типов 

In [40]:
dataFrame.select_dtypes(include='object')

Unnamed: 0,ocean_proximity,id
0,NEAR BAY,0
1,NEAR BAY,1
2,NEAR BAY,2
3,NEAR BAY,3
4,NEAR BAY,4
...,...,...
20635,INLAND,20635
20636,INLAND,20636
20637,INLAND,20637
20638,INLAND,20638


In [41]:
# Return a Series containing counts of unique rows in the DataFrame
# DataFrame.value_counts(subset=None, normalize=False, sort=True, ascending=False, dropna=True)

dataFrame['ocean_proximity'].value_counts()

<1H OCEAN     9127
INLAND        6542
NEAR OCEAN    2655
NEAR BAY      2288
-               23
ISLAND           5
Name: ocean_proximity, dtype: int64

In [42]:
dataFrame['ocean_proximity'].unique()

array(['NEAR BAY', '<1H OCEAN', 'INLAND', '-', 'NEAR OCEAN', 'ISLAND'],
      dtype=object)

In [43]:
# DataFrame.nunique(axis=0, dropna=True)
# Count number of distinct elements in specified axis.
# Return Series with number of distinct elements. Can ignore NaN values.

dataFrame['ocean_proximity'].nunique()

6

### 3. Основы статистики<a class='anchor' id='stats'>

Методы статистики применяются к одномерным массивам числовых данных, которые рассматриваются как статистическии выборки. Для создания массивов можно использовать pandas или numpy

In [44]:
# Numpy array:----------------------------------------------------

np.array([1, 2, 3, 4, 5])


array([1, 2, 3, 4, 5])

In [45]:
numpyArray = np.array ([1,2,3])
pythonArray = [4,5,6]

# Pandas series:--------------------------------------------------
pd.Series (pythonArray)
pd.Series (numpyArray)

0    1
1    2
2    3
dtype: int32

**Среднее арифметическое**

Среднее арифметическое - это сумма всех элементво ряда, деленная для количество элементов. Для больших выборок рассматривается деление на количество элементов минус 1
https://numpy.org/doc/stable/reference/generated/numpy.average.html

In [46]:
pytArray = [1,2,3,4,5,6,7,8,9]

panMean = pd.Series(pytArray).mean()

numMean = np.mean(np.array(pytArray))

pytMean = sum(pytArray)/len(pytArray)

# pytMean == numMean == panMean
pytMean


5.0

In [47]:
# Calculating average by weights:----------------------------------

np.average(pytArray,weights=list( (1 for i in range(0,9)) ))

5.0

**Дисперсия и среднеквадратическое отклонение**

Дисперсия - это суммарный квадрат разности между средней величиной и отдельно взятыми значениями выборки, разделенный на общее количество элементов выборки. При рассмотрении не смещенных оценок деление производится на общее количество элементов минус 1.
Среднеквадратическое оклонение - это квадратный корень из дисперсии.

In [48]:
np.var(pytArray,ddof=1)

7.5

In [49]:
pd.Series(pytArray).var()

7.5

In [50]:
# Manual calculation of variance:-------------------------------------
variance = np.mean((pytArray - np.mean(pytArray)) ** 2)
std = np.sqrt(variance)
variance, std

(6.666666666666667, 2.581988897471611)

In [51]:
# Pandas standard deviation:------------------------------------------
pd.Series(pytArray).std()

2.7386127875258306

In [52]:
# Numpy standard deviation:-------------------------------------------
np.std(pytArray,ddof=1)

2.7386127875258306

**Медиана**

Медиана - среднее значение, взятое из середины отсортированного массива выборки. Если количество элементов четное, то медиана считается как среднее значени двух около центральных значений

In [53]:
np.median(pytArray)

5.0

In [54]:
pd.Series(pytArray).median()

5.0

**Метрики по значениям функции распределения**

У каждому процессу, характеризуемому засчет значений детерминированной или случайной величины можно сопоставить функцию распределения вероятности или функцию плотности вероятности. Квантиль определенного порядка P равен значению непрерывной функции распределения вероятности и может быть определен как некоторое пороговое значение, которое не достигается случайным процессом с вероятностью P. В терминах функции плотности распределения можно сказать: порядок квантиля -это такое значение определенного интеграла от функции плотности на интервале от минимального знечения до некоторой пороговой величины, которая и будет определяться значением квантиля.
Квантиль определяется согласно вероятности случайного процесса превысить некорое фиксированное значение. Следовательно порядок квантиля лежит в диапазоне от 0 до 1 включительно. Значения могут быть любыми, но как правило рассматривается область значений случайного процесса от минимального до максимального значений.
По значению порядка <a href="https://ru.wikipedia.org/wiki/%D0%9A%D0%B2%D0%B0%D0%BD%D1%82%D0%B8%D0%BB%D1%8C">квантили</a> делятся на квартили (1/4), децили (1/10) и перцентили (1/100). т.е каждый из них имеет фиксированные значения для порядка в диапазоне от 0 до 1 включительно с указанным шагом порядка 1/4, 1/25, 1/100.

In [55]:
# Numpy quantile:------------------------------
np.quantile(pytArray, 0.52)

5.16

In [56]:
np.percentile(pytArray, 52)

5.16

In [57]:
# Pandas quantile: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.quantile.html
pd.Series(pytArray).quantile(0.52)

5.16

**Мода**

Мода - это величина указывающая на часто встречающийся объект в выборке. Таких значение может быть одно, два и много. Поэтому распределение может быть многомодовым. Количество мод определяется количеством локальных максимумов на графике функции плотности распределения. Для дискретных небольших выборок можно считать количество значений определенной величины. Но в целом это неправильно, потому что в этом случае повторяющиеся значения в окрестности максимума могут давать ложные значения мод по повторениям.

In [58]:
dataFrame.mode(numeric_only=True)

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-118.31,34.06,52.0,1527.0,280.0,891.0,306.0,3.125,500001.0
1,,,,,,,,15.0001,


In [59]:
x1 = np.array([2, 2, 2, 3, 4, 4, 4, 5, 5, 5, 7])

#find unique values in array along with their counts
vals, counts = np.unique(x1, return_counts=True)

#find mode
vals[np.argwhere(counts == np.max(counts))].flatten().tolist()


[2, 4, 5]

In [60]:
dataFrame['total_rooms'].describe()

count    20640.000000
mean      2635.763081
std       2181.615252
min          2.000000
25%       1447.750000
50%       2127.000000
75%       3148.000000
max      39320.000000
Name: total_rooms, dtype: float64

In [61]:
dataFrame['total_rooms'].mode()

0    1527.0
Name: total_rooms, dtype: float64

In [62]:
dataFrame['total_rooms'].value_counts().index

Float64Index([ 1527.0,  1613.0,  1582.0,  2127.0,  1717.0,  2053.0,  1607.0,
               1722.0,  1471.0,  1703.0,
              ...
               9531.0,  4501.0,  9493.0,  3392.0, 15622.0,  9614.0, 10839.0,
              11872.0,  6205.0, 10035.0],
             dtype='float64', length=5926)

In [63]:
dataFrame[dataFrame['total_rooms'] == 1527].shape

(18, 11)

### 4. Обработка пропусков<a class='anchor' id='nan'>

Пропуски пораждаются из-за нехватки переменных и из-за некорректных арифметических действий.
Как определить пропуски. Для этого есть метод isna (is not a number)


In [64]:
# Checking every cell by Nan condtion:-----------
dataFrame.isna()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity,id
0,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...
20635,False,False,False,False,False,False,False,False,False,False,False
20636,False,False,False,False,False,False,False,False,False,False,False
20637,False,False,False,False,False,True,False,False,False,False,False
20638,False,False,False,False,False,False,False,False,False,False,False


In [65]:
# Summarizing all not a number:--------------------
dataFrame.isna().sum()

longitude               0
latitude                0
housing_median_age    722
total_rooms             0
total_bedrooms        207
population            599
households              0
median_income           0
median_house_value      0
ocean_proximity         0
id                      0
dtype: int64

housing_median_age имеет 722 пропуска также ести 207 и 599 пропусков по другим свойствам.

Сделаем маркерный столбец, в котором будут отмечены цифрами NaN случаи

In [66]:
dataFrame['housing_median_age_is_nan'] = 0
dataFrame

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity,id,housing_median_age_is_nan
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY,0,0
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY,1,0
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY,2,0
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY,3,0
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY,4,0
...,...,...,...,...,...,...,...,...,...,...,...,...
20635,-121.09,39.48,25.0,1665.0,374.0,845.0,330.0,1.5603,78100.0,INLAND,20635,0
20636,-121.21,39.49,18.0,697.0,150.0,356.0,114.0,2.5568,77100.0,INLAND,20636,0
20637,-121.22,39.43,17.0,2254.0,485.0,,433.0,1.7000,92300.0,INLAND,20637,0
20638,-121.32,39.43,18.0,1860.0,409.0,741.0,349.0,1.8672,84700.0,INLAND,20638,0


In [67]:
# Access a group of rows and columns by label(s) or a boolean array.
# .loc[] is primarily label based, but may also be used with a boolean array.

dataFrame.loc[ dataFrame['housing_median_age'].isna(), 'housing_median_age_is_nan' ]

25       0
117      0
138      0
170      0
299      0
        ..
20531    0
20536    0
20600    0
20601    0
20604    0
Name: housing_median_age_is_nan, Length: 722, dtype: int64

In [68]:
# Marking all skipped values by 1:--------------------------------------------
dataFrame.loc[dataFrame['housing_median_age'].isna(), 'housing_median_age_is_nan'] = 1
dataFrame[dataFrame['housing_median_age_is_nan']==1]

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity,id,housing_median_age_is_nan
25,-122.28,37.85,,535.0,123.0,317.0,119.0,2.4038,107500.0,NEAR BAY,25,1
117,-122.25,37.83,,4190.0,1105.0,1786.0,1037.0,3.0897,234100.0,NEAR BAY,117,1
138,-122.20,37.82,,1229.0,181.0,420.0,176.0,7.0175,366700.0,NEAR BAY,138,1
170,-122.25,37.79,,629.0,188.0,742.0,196.0,2.6458,125000.0,NEAR BAY,170,1
299,-122.17,37.76,,1764.0,397.0,987.0,354.0,2.4333,98200.0,NEAR BAY,299,1
...,...,...,...,...,...,...,...,...,...,...,...,...
20531,-121.81,38.58,,1964.0,314.0,808.0,286.0,5.9629,286000.0,INLAND,20531,1
20536,-121.73,38.55,,1717.0,393.0,1224.0,387.0,2.7917,130800.0,INLAND,20536,1
20600,-121.57,39.16,,1632.0,367.0,769.0,330.0,3.1029,71700.0,INLAND,20600,1
20601,-121.57,39.13,,442.0,103.0,413.0,88.0,1.5694,57900.0,INLAND,20601,1


In [69]:
# DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None)[source]
# Fill NA/NaN values using the specified method.

# Calculating median value:-----------------------------
median = dataFrame['housing_median_age'].median()

# Filling all NOT NUMBERS:------------------------------
# ATTENTION: by default fillna is immutable. It returns the new series
# To change fillna we have to use INPLACE property
dataFrame['housing_median_age']=dataFrame['housing_median_age'].fillna(median);

# Checking NOT NUMBERS existence:-----------------------
dataFrame['housing_median_age'].isna().sum()

0

In [70]:
median = dataFrame['total_bedrooms'].median()
dataFrame['total_bedrooms'].fillna(median, inplace=True)

In [71]:
median = dataFrame['population'].median()
dataFrame['population'].fillna(median, inplace=True)

Все пропуски можно заменить сразу:

In [72]:
medians = dataFrame[['housing_median_age', 'total_bedrooms', 'population']].median()
dataFrame[['housing_median_age', 'total_bedrooms', 'population']]=dataFrame[['housing_median_age', 'total_bedrooms', 'population']].fillna(medians)
dataFrame.isna().sum()

longitude                    0
latitude                     0
housing_median_age           0
total_rooms                  0
total_bedrooms               0
population                   0
households                   0
median_income                0
median_house_value           0
ocean_proximity              0
id                           0
housing_median_age_is_nan    0
dtype: int64

**Замена категориальных признаков**

In [73]:
# Calculating all values like '-'
dataFrame[dataFrame['ocean_proximity']=='-'].shape

(23, 12)

In [74]:
# Creating marker column:--------------------------------------------------
dataFrame['ocean_proximity_is_nan']=0
dataFrame.loc[dataFrame['ocean_proximity']=='-','ocean_proximity_is_nan']=1

# Calculating the most popular value:--------------------------------------
mode = dataFrame['ocean_proximity'].mode()[0];

# Replacing all '-' by the mode value:-------------------------------------
dataFrame['ocean_proximity'].replace({'-': mode},inplace=True)
dataFrame['ocean_proximity'].value_counts()

<1H OCEAN     9150
INLAND        6542
NEAR OCEAN    2655
NEAR BAY      2288
ISLAND           5
Name: ocean_proximity, dtype: int64

### 5. Обработка выбросов<a class='anchor' id='outlier'>
    
**Выбросы** - это объекты в данных, которые не принадлежат определенной зависимости. Это ненормальное наблюдение, которое находятся далеко от других наблюдений.

Что можно делать с ними?
1. Исключить эти данные
2. Заменять заменить на медиану или среднюю

In [75]:
dataFrame.describe()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,housing_median_age_is_nan,ocean_proximity_is_nan
count,20640.0,20640.0,20640.0,20640.0,20640.0,20640.0,20640.0,20640.0,20640.0,20640.0,20640.0
mean,-119.471242,35.036934,28.665746,2635.763081,536.838857,1417.860562,499.53968,3.870671,206855.816909,0.034981,0.001114
std,5.041408,94.903955,12.355019,2181.615252,419.391878,1119.445348,382.329753,1.899822,115395.615874,0.183735,0.033364
min,-124.35,-13534.03,1.0,2.0,1.0,3.0,1.0,0.4999,14999.0,0.0,0.0
25%,-121.8,33.93,19.0,1447.75,297.0,797.0,280.0,2.5634,119600.0,0.0,0.0
50%,-118.49,34.26,29.0,2127.0,435.0,1165.0,409.0,3.5348,179700.0,0.0,0.0
75%,-118.01,37.71,37.0,3148.0,643.25,1701.0,605.0,4.74325,264725.0,0.0,0.0
max,122.03,1327.13,52.0,39320.0,6445.0,35682.0,6082.0,15.0001,500001.0,1.0,1.0


Возможные значения longtitude (долгота) и latitude (широта) можно найти [здесь](https://dateandtime.info/ru/citycoordinates.php?id=5332748)



_Широта принимает значения от −90° до 90°. 0° – широта экватора; −90° – широта Южного полюса; 90° – широта Северного полюса. Положительные значения соответствуют северной широте (точки севернее экватора, сокращённо с.ш. или N); отрицательные – южной широте (точки южнее экватора, сокращённо ю.ш. или S).  
Долгота отсчитывается от нулевого меридиана (IERS Reference Meridian в системе WGS 84) и принимает значения от −180° до 180°. Положительные значения соответствуют восточной долготе (сокращённо в.д. или E); отрицательные – западной долготе (сокращённо з.д. или W)._

**Поис объектов по критериям задачи и правилам модели данных**

Калифорнии находится в западном и северном полушарии:<br>

*Координаты California City в десятичных градусах<br>
Широта: 35.1258000° (latitude)<br>
Долгота: -117.9859000° (longtitude)* 


In [76]:
# Longtitude has to be negative as shown above.
# All positive values are failure
dataFrame[dataFrame['longitude'] >= 0]

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity,id,housing_median_age_is_nan,ocean_proximity_is_nan
3479,118.51,34.29,29.0,1287.0,194.0,525.0,187.0,6.4171,319300.0,<1H OCEAN,3479,0,0
5904,118.43,34.29,39.0,1769.0,410.0,1499.0,390.0,3.1212,153500.0,<1H OCEAN,5904,0,0
8405,118.36,33.93,40.0,1625.0,500.0,2036.0,476.0,2.6298,156500.0,<1H OCEAN,8405,0,0
8636,118.41,33.88,43.0,2492.0,449.0,1033.0,437.0,7.9614,500001.0,<1H OCEAN,8636,0,0
13051,121.29,38.61,17.0,13553.0,2474.0,6544.0,2359.0,3.9727,132700.0,INLAND,13051,0,0
15263,117.27,33.02,21.0,2144.0,340.0,928.0,344.0,5.798,286100.0,NEAR OCEAN,15263,0,0
17085,0.0,37.47,33.0,1266.0,415.0,1991.0,334.0,2.92,202800.0,NEAR OCEAN,17085,0,0
17359,0.0,34.88,4.0,3680.0,559.0,1678.0,569.0,5.0639,201700.0,<1H OCEAN,17359,0,0
18551,122.03,36.96,28.0,1607.0,421.0,926.0,385.0,2.425,216100.0,NEAR OCEAN,18551,0,0
19423,0.0,37.69,5.0,9601.0,1639.0,4449.0,1575.0,4.5332,195500.0,INLAND,19423,0,0


In [77]:
# Creating the longtitude failure marker:-----------------------------------------
dataFrame['longitude_outlier'] = 0


# Marking failures as 1:----------------------------------------------------------
dataFrame.loc[dataFrame['longitude'] >= 0, 'longitude_outlier'] = 1


# All positive values are corrected by multiplying:-------------------------------
dataFrame.loc[dataFrame['longitude'] > 0, 'longitude'] = dataFrame.loc[dataFrame['longitude'] > 0, 'longitude'] * -1


# All ZERO values are corrected by the median value:------------------------------
dataFrame.loc[dataFrame['longitude'] == 0, 'longitude'] = dataFrame['longitude'].median()


#Checking:------------------------------------------------------------------------
dataFrame[dataFrame['longitude'] >= 0]

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity,id,housing_median_age_is_nan,ocean_proximity_is_nan,longitude_outlier


In [78]:
# Latitide has to be placed between 0 and 50. All outbound values are failure

dataFrame[(dataFrame['latitude'] <= 0) | (dataFrame['latitude'] > 50)]

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity,id,housing_median_age_is_nan,ocean_proximity_is_nan,longitude_outlier
8283,-118.13,-13534.03,45.0,1016.0,172.0,361.0,163.0,7.5,434500.0,NEAR OCEAN,8283,0,0,0
12772,-121.42,1327.13,29.0,2217.0,536.0,1203.0,507.0,1.9412,73100.0,INLAND,12772,1,0,0


In [79]:
# Creating marker property:------------------------------------------------------
dataFrame['latitude_outlier'] = 0

# Marking all outbound values:---------------------------------------------------
dataFrame.loc[(dataFrame['latitude'] <= 0) | (dataFrame['latitude'] > 50), 'latitude_outlier'] = 1

# Correcting by the median value:------------------------------------------------
dataFrame.loc[(dataFrame['latitude'] <= 0) | (dataFrame['latitude'] > 50), 'latitude'] = dataFrame['latitude'].median()

# Checking:----------------------------------------------------------------------
dataFrame[(dataFrame['latitude'] <= 0) | (dataFrame['latitude'] > 50)].shape

(0, 15)

**Поиск объектов по квантилям**

Найдем выбросы с помощью квантилей. Наблюдения, значения которых больше 97,5% квантиля и которые меньше 2,5% квантиля будем считать выбросами и заменять на медиану.

In [80]:
dataFrame['total_rooms'].describe()

count    20640.000000
mean      2635.763081
std       2181.615252
min          2.000000
25%       1447.750000
50%       2127.000000
75%       3148.000000
max      39320.000000
Name: total_rooms, dtype: float64

In [81]:
# Wrigtht values are limited by 0.025 and 0.975 quantile values
# ATTENTION: It excludes the values like 2 or 39320. The value 2 is the lowest failure
# The value 39320 is the highest failure

# Calculating max values

# total_rooms_max_value = np.quantile(dataFrame['total_rooms'], q=0.975)
# total_rooms_max_value

total_rooms_max_value = dataFrame['total_rooms'].quantile(0.975)
total_rooms_max_value

8069.074999999993

In [82]:
# Calculating min values by quantile

# total_rooms_min_value = np.quantile(dataFrame['total_rooms'], q=0.025)
# total_rooms_min_value
total_rooms_min_value = dataFrame['total_rooms'].quantile(0.025)
total_rooms_min_value

370.975

In [83]:
# Printing all wrong values:-------------------------------------

condition = (dataFrame['total_rooms'] > total_rooms_max_value) | (dataFrame['total_rooms'] < total_rooms_min_value)
dataFrame[condition]

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity,id,housing_median_age_is_nan,ocean_proximity_is_nan,longitude_outlier,latitude_outlier
59,-122.29,37.82,2.0,158.0,43.0,94.0,57.0,2.5625,60000.0,NEAR BAY,59,0,0,0,0
61,-122.29,37.82,49.0,135.0,29.0,86.0,23.0,6.1183,75000.0,NEAR BAY,61,0,0,0,0
73,-122.29,37.81,46.0,12.0,4.0,18.0,7.0,0.4999,67500.0,NEAR BAY,73,0,0,0,0
81,-122.27,37.81,52.0,210.0,56.0,183.0,56.0,1.1667,112500.0,NEAR BAY,81,0,0,0,0
82,-122.28,37.81,52.0,340.0,97.0,200.0,87.0,1.5208,112500.0,NEAR BAY,82,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20578,-121.81,38.84,37.0,352.0,65.0,238.0,67.0,2.8542,275000.0,INLAND,20578,0,0,0,0
20620,-121.48,39.05,40.0,198.0,41.0,151.0,48.0,4.5625,100000.0,INLAND,20620,0,0,0,0
20625,-121.52,39.12,37.0,102.0,17.0,29.0,14.0,4.1250,72000.0,INLAND,20625,0,0,0,0
20627,-121.32,39.13,5.0,358.0,65.0,169.0,59.0,3.0000,162500.0,INLAND,20627,0,0,0,0


In [84]:
# Without preliminary marking we correct all failed values by the median value:-------------

dataFrame.loc[condition, 'total_rooms'] = dataFrame['total_rooms'].median()
dataFrame['total_rooms'].describe()

count    20640.000000
mean      2435.698837
std       1358.232607
min        371.000000
25%       1511.000000
50%       2127.000000
75%       3006.000000
max       8069.000000
Name: total_rooms, dtype: float64

### 5. Отбор и построение новых признаков<a class='anchor' id='feature'>

**Удаление колонок (признаков) и строк (значений признака) из dataFrame**

Некоторые значения отдельных параметров могут считаться явно избыточными и не несущими в себе какой-либо информации. Например идентификаци или нумерация. Некоторые значения могут быть испорчены при записи и являться nan. Вместо ранее продемонстрированной замены можно исключать подобного рода артефакты. Выкидывать при этом можно как столбцы так и строчки.<br>Исключаем признак "id"

In [85]:
dataFrame.columns

Index(['longitude', 'latitude', 'housing_median_age', 'total_rooms',
       'total_bedrooms', 'population', 'households', 'median_income',
       'median_house_value', 'ocean_proximity', 'id',
       'housing_median_age_is_nan', 'ocean_proximity_is_nan',
       'longitude_outlier', 'latitude_outlier'],
      dtype='object')

In [86]:
# Droping the definite column property with name 'id':---------------------
dataFrame.drop(columns='id', inplace=True)
dataFrame

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity,housing_median_age_is_nan,ocean_proximity_is_nan,longitude_outlier,latitude_outlier
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY,0,0,0,0
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY,0,0,0,0
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY,0,0,0,0
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY,0,0,0,0
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20635,-121.09,39.48,25.0,1665.0,374.0,845.0,330.0,1.5603,78100.0,INLAND,0,0,0,0
20636,-121.21,39.49,18.0,697.0,150.0,356.0,114.0,2.5568,77100.0,INLAND,0,0,0,0
20637,-121.22,39.43,17.0,2254.0,485.0,1165.0,433.0,1.7000,92300.0,INLAND,0,0,0,0
20638,-121.32,39.43,18.0,1860.0,409.0,741.0,349.0,1.8672,84700.0,INLAND,0,0,0,0


In [87]:
# Droping the definite row:------------------------------------------------
dataFrame.drop([1,1], axis=0, inplace=True)
dataFrame

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity,housing_median_age_is_nan,ocean_proximity_is_nan,longitude_outlier,latitude_outlier
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY,0,0,0,0
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY,0,0,0,0
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY,0,0,0,0
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY,0,0,0,0
5,-122.25,37.85,52.0,919.0,213.0,413.0,193.0,4.0368,269700.0,NEAR BAY,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20635,-121.09,39.48,25.0,1665.0,374.0,845.0,330.0,1.5603,78100.0,INLAND,0,0,0,0
20636,-121.21,39.49,18.0,697.0,150.0,356.0,114.0,2.5568,77100.0,INLAND,0,0,0,0
20637,-121.22,39.43,17.0,2254.0,485.0,1165.0,433.0,1.7000,92300.0,INLAND,0,0,0,0
20638,-121.32,39.43,18.0,1860.0,409.0,741.0,349.0,1.8672,84700.0,INLAND,0,0,0,0


**Создание дополнительных признаков по уже имеющимся значениям**

Ранее мы создавали разметочные маркерные признаки в виде колонок с нулями и единицами. Обозначая различные аномалии или ошибки в анализируемых данных. Аналогично можно создавать дополнительные признаки на основе калькуляции признаков между собой. Рассмотрим два примера по созданию нормированных значений через операции деления и умножения соответственно.

In [88]:
# Доля спален в общем кол-ве комнат:-------------------------------------------------
dataFrame['bedroom_share'] = dataFrame['total_bedrooms'] / dataFrame['total_rooms'] * 100

# Сколько человек в среднем живут в одной комнате:-----------------------------------
dataFrame['population_per_room'] = dataFrame['population'] / dataFrame['total_rooms']

dataFrame[['bedroom_share', 'population_per_room']].head()

Unnamed: 0,bedroom_share,population_per_room
0,14.659091,0.365909
2,12.951602,0.338105
3,18.44584,0.437991
4,17.209588,0.347265
5,23.177367,0.449402


**Трансформация категориальных признаков в числовые**

Неколичественные строковые признаки всегда нужно переводить в числовое представление, так как многие модели машинного обучения не способны работать со строками. Хороший обзор по работе с категориальными признаками можно посмотреть [здесь](https://dyakonov.org/2016/08/03/python-%D0%BA%D0%B0%D1%82%D0%B5%D0%B3%D0%BE%D1%80%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5-%D0%BF%D1%80%D0%B8%D0%B7%D0%BD%D0%B0%D0%BA%D0%B8/)

In [89]:
dataFrame['ocean_proximity'].value_counts()

<1H OCEAN     9150
INLAND        6542
NEAR OCEAN    2655
NEAR BAY      2287
ISLAND           5
Name: ocean_proximity, dtype: int64

Можно придумать цифровые псевдонимы для каждого значения '<1H OCEAN'=1 'INLAND'=2 и т.д. При этом значения индексов можно подружить с какой нибудь другой характеристикой, такие как взвешенное среднее или линейная зависимость от какого либо признака.

In [90]:
# Coding definite values:----------------------------------------------------------------
from sklearn.preprocessing import LabelEncoder
encoder = LabelEncoder()
encoder.fit(dataFrame['ocean_proximity'])
dataFrame['ocean_proximity'] = pd.Series(encoder.transform(dataFrame['ocean_proximity']))
dataFrame

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity,housing_median_age_is_nan,ocean_proximity_is_nan,longitude_outlier,latitude_outlier,bedroom_share,population_per_room
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,3.0,0,0,0,0,14.659091,0.365909
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,3.0,0,0,0,0,12.951602,0.338105
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,3.0,0,0,0,0,18.445840,0.437991
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,3.0,0,0,0,0,17.209588,0.347265
5,-122.25,37.85,52.0,919.0,213.0,413.0,193.0,4.0368,269700.0,3.0,0,0,0,0,23.177367,0.449402
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20635,-121.09,39.48,25.0,1665.0,374.0,845.0,330.0,1.5603,78100.0,1.0,0,0,0,0,22.462462,0.507508
20636,-121.21,39.49,18.0,697.0,150.0,356.0,114.0,2.5568,77100.0,1.0,0,0,0,0,21.520803,0.510760
20637,-121.22,39.43,17.0,2254.0,485.0,1165.0,433.0,1.7000,92300.0,1.0,0,0,0,0,21.517303,0.516859
20638,-121.32,39.43,18.0,1860.0,409.0,741.0,349.0,1.8672,84700.0,1.0,0,0,0,0,21.989247,0.398387


pandas.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)[source]¶
Convert categorical variable into dummy/indicator variables.

In [91]:
# Lets use pandas get_dummies:-------------------
pd.get_dummies(dataFrame['ocean_proximity'])

Unnamed: 0,0.0,1.0,2.0,3.0,4.0
0,0,0,0,1,0
2,0,0,0,1,0
3,0,0,0,1,0
4,0,0,0,1,0
5,0,0,0,1,0
...,...,...,...,...,...
20635,0,1,0,0,0
20636,0,1,0,0,0
20637,0,1,0,0,0
20638,0,1,0,0,0


In [92]:
# Generating pandas dummies columns:-------------------------------------
dummies = pd.get_dummies(dataFrame['ocean_proximity'])

# Adding new columns to the dataFrame:-----------------------------------
dataFrame = pd.concat([dataFrame,dummies],axis=1)
dataFrame

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity,...,ocean_proximity_is_nan,longitude_outlier,latitude_outlier,bedroom_share,population_per_room,0.0,1.0,2.0,3.0,4.0
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,3.0,...,0,0,0,14.659091,0.365909,0,0,0,1,0
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,3.0,...,0,0,0,12.951602,0.338105,0,0,0,1,0
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,3.0,...,0,0,0,18.445840,0.437991,0,0,0,1,0
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,3.0,...,0,0,0,17.209588,0.347265,0,0,0,1,0
5,-122.25,37.85,52.0,919.0,213.0,413.0,193.0,4.0368,269700.0,3.0,...,0,0,0,23.177367,0.449402,0,0,0,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20635,-121.09,39.48,25.0,1665.0,374.0,845.0,330.0,1.5603,78100.0,1.0,...,0,0,0,22.462462,0.507508,0,1,0,0,0
20636,-121.21,39.49,18.0,697.0,150.0,356.0,114.0,2.5568,77100.0,1.0,...,0,0,0,21.520803,0.510760,0,1,0,0,0
20637,-121.22,39.43,17.0,2254.0,485.0,1165.0,433.0,1.7000,92300.0,1.0,...,0,0,0,21.517303,0.516859,0,1,0,0,0
20638,-121.32,39.43,18.0,1860.0,409.0,741.0,349.0,1.8672,84700.0,1.0,...,0,0,0,21.989247,0.398387,0,1,0,0,0


**Описание признака засчет каких-либо других признаков исходя из группировки**

*DataFrame.groupby(by=None, axis=0, level=None, as_index=True,<br> sort=True, group_keys=True, squeeze=NoDefault.no_default, observed=False, dropna=True)*<br>
Group DataFrame using a mapper or by a Series of columns.<br>
A groupby operation involves some combination of splitting the object, applying a function, and combining the results. This can be used to group large amounts of data and compute operations on these groups.<br>
It returns **pandas.core.groupby.generic.DataFrameGroupBy**

In [93]:
# Lets goup values by the ocean_proximity and calculate the median value for each grouped property.
# Lets show the grouped ocean_proximity and respective medians for total_bedrooms:
newDataFrame = dataFrame.groupby('ocean_proximity').median()['total_bedrooms']
newDataFrame = pd.DataFrame(newDataFrame)
newDataFrame

Unnamed: 0_level_0,total_bedrooms
ocean_proximity,Unnamed: 1_level_1
0.0,435.0
1.0,426.5
2.0,521.0
3.0,425.0
4.0,461.0


In [94]:
# Making the same calculations excluding the index:
# df_cat = df.groupby('ocean_proximity', as_index=False).median()[['ocean_proximity', 'total_bedrooms']]
# df_cat = pd.DataFrame(df_cat)

# Renaming the new columns:----------------------------------------
newDataFrame.rename(columns={'total_bedrooms': 'median_rooms'}, inplace=True)
newDataFrame.sort_values(by='median_rooms')

#dataFrame['total_bedrooms'].median()


Unnamed: 0_level_0,median_rooms
ocean_proximity,Unnamed: 1_level_1
3.0,425.0
1.0,426.5
0.0,435.0
4.0,461.0
2.0,521.0


In [95]:
# Merging with original dataFrame:------------------------------------
dataFrame = dataFrame.merge(newDataFrame, on=['ocean_proximity'])
dataFrame.head(3)

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity,...,longitude_outlier,latitude_outlier,bedroom_share,population_per_room,0.0,1.0,2.0,3.0,4.0,median_rooms
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,3.0,...,0,0,14.659091,0.365909,0,0,0,1,0,425.0
1,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,3.0,...,0,0,12.951602,0.338105,0,0,0,1,0,425.0
2,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,3.0,...,0,0,18.44584,0.437991,0,0,0,1,0,425.0


**Создание признаков засчет интевального сравнения других признаков**

Допускается разбивать по диапазонам знечений какой-то один признак, после чего необходимо сравнивать текущее значение и при попадании в интервал генерировать значение взятое **(feature discretization)** как оценка интервала в виде другого заранее предоопределенного чилса [здесь](https://towardsdatascience.com/encoding-categorical-features-21a2651a065c)
[Статья на эту тему](https://towardsdatascience.com/an-introduction-to-discretization-in-data-science-55ef8c9775a2)

Рассмотрим на примере возраста дома. **возраст дома (0-100)**

1 категория - новые дома (до 5 лет),<br>2 категория - дома от 5 до 10<br>...


In [106]:
dataFrame['housing_median_age'].describe()

count    20638.000000
mean        28.666731
std         12.355188
min          1.000000
25%         19.000000
50%         29.000000
75%         37.000000
max         52.000000
Name: housing_median_age, dtype: float64

In [107]:
# Lets create the function which accept DataFrame object and analyze required property whith in them:-----
def age_to_cat(X):

    X['age_cat'] = 0

    X.loc[X['housing_median_age'] <= 5, 'age_cat'] = 1  
    X.loc[(X['housing_median_age'] > 5) & (X['housing_median_age'] <= 10), 'age_cat'] = 2
    X.loc[(X['housing_median_age'] > 10) & (X['housing_median_age'] <= 25), 'age_cat'] = 3
    X.loc[X['housing_median_age'] > 25, 'age_cat'] = 4

    return X

dataFrame = age_to_cat(dataFrame)
dataFrame.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity,...,latitude_outlier,bedroom_share,population_per_room,0.0,1.0,2.0,3.0,4.0,median_rooms,age_cat
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,3.0,...,0,14.659091,0.365909,0,0,0,1,0,425.0,4
1,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,3.0,...,0,12.951602,0.338105,0,0,0,1,0,425.0,4
2,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,3.0,...,0,18.44584,0.437991,0,0,0,1,0,425.0,4
3,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,3.0,...,0,17.209588,0.347265,0,0,0,1,0,425.0,4
4,-122.25,37.85,52.0,919.0,213.0,413.0,193.0,4.0368,269700.0,3.0,...,0,23.177367,0.449402,0,0,0,1,0,425.0,4


Аналогично можно сделать только проводить сравнение по двум интервалам **(feature benarization)**<br>
[Статья на эту тему](https://subscription.packtpub.com/book/big_data_and_business_intelligence/9781789808452/1/ch01lvl1sec17/binarization)
только 1 признак<br>
1 - новый дом,<br>0 - старый

In [108]:
# Lets comapare the with the housing median age:-------------------------------------------
def age_to_binary_cat(X):

    X['age_binary_cat'] = 0
    X.loc[X['housing_median_age'] <= 5, 'age_binary_cat'] = 1  

    return X

dataFrame = age_to_binary_cat(dataFrame)
dataFrame.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity,...,bedroom_share,population_per_room,0.0,1.0,2.0,3.0,4.0,median_rooms,age_cat,age_binary_cat
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,3.0,...,14.659091,0.365909,0,0,0,1,0,425.0,4,0
1,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,3.0,...,12.951602,0.338105,0,0,0,1,0,425.0,4,0
2,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,3.0,...,18.44584,0.437991,0,0,0,1,0,425.0,4,0
3,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,3.0,...,17.209588,0.347265,0,0,0,1,0,425.0,4,0
4,-122.25,37.85,52.0,919.0,213.0,413.0,193.0,4.0368,269700.0,3.0,...,23.177367,0.449402,0,0,0,1,0,425.0,4,0


Создание признаков на основе обобщения географических параметов и получение прямых инфраструктурных экономических показателей. Рассмотрим на примере географических координат latitude, longitude.<br>
Найти координаты центров городов, достопримечательностей, станций метро, ..
Считать расстояние до <...>
Количество <...> в радиусе 3 км
...
[Источник](https://medium.com/open-machine-learning-course/open-machine-learning-course-topic-6-feature-engineering-and-feature-selection-8b94f870706a)



In [110]:
# pip install reverse_geocoder

Collecting reverse_geocoder
  Downloading reverse_geocoder-1.5.1.tar.gz (2.2 MB)
Note: you may need to restart the kernel to use updated packages.
Building wheels for collected packages: reverse-geocoder
  Building wheel for reverse-geocoder (setup.py): started
  Building wheel for reverse-geocoder (setup.py): finished with status 'done'
  Created wheel for reverse-geocoder: filename=reverse_geocoder-1.5.1-py3-none-any.whl size=2268088 sha256=0d46f6bd9d516a87addae562d3ed33f99905fbdea77f65d08256c3ab89160cec
  Stored in directory: c:\users\alex\appdata\local\pip\cache\wheels\10\05\be\d2edd4ff207cf625ce8bd20cf1493c27838828e8920aff9f4e
Successfully built reverse-geocoder
Installing collected packages: reverse-geocoder
Successfully installed reverse-geocoder-1.5.1


In [112]:
# Using special libraries for geocoding:------------------------------------------
import reverse_geocoder as revgc  

revgc.search((dataFrame.iloc[10].latitude, dataFrame.iloc[10].longitude))   

[{'lat': '37.87159',
  'lon': '-122.27275',
  'name': 'Berkeley',
  'admin1': 'California',
  'admin2': 'Alameda County',
  'cc': 'US'}]

### 6. Сохранение результатов<a class='anchor' id='save'>

Исходный dataFrame c момента всей проработки сильно изменился. Все изменения с новыми характеристиками необходимо сохранить.
Для это используется запись, например в csv:

In [113]:
dataFrame.to_csv(PREPARED_DATASET_PATH, index=False, encoding='utf-8', sep=';')

### 7. Подготовка данных в реальном проекте<a class='anchor' id='real'>

Данный notebook используется для предподготовки или отладки данных. В проектном коде как правило используются обычные проекты на python, которые в дальнейшем попадают в систему контроля версии. Приведем пример структурированного класса, который содержит в себе все основные стадии по анализу данных:<br>
1 - Чтение<br>
2 - Расчет статистик<br>
3 - Трансформация данных и удаление артефактов<br>
4 - Генерация новых признаков<br>
5 - Обучение модели<br>
6 - Сохраниение запуск и модели<br>

In [104]:
import numpy as np
import pandas as pd

class DataPipeline:
    
    def __init__(self):
        """Параметры класса"""
        self.medians = None
        self.longitude_median = None
        self.latitude_median = None
        
    def fit(self, df):
        """Сохранение статистик"""
        
        # Расчет медиан
        self.medians = df[['population', 'housing_median_age', 'total_bedrooms']].median()
        self.longitude_median = df['longitude'].median()
        self.latitude_median = df['latitude'].median()
        
    def transform(self, df):
        """Трансформация данных"""
        
        # 1. Пропуски
        df[['population', 'housing_median_age', 'total_bedrooms']] =\
            df[['population', 'housing_median_age', 'total_bedrooms']].fillna(self.medians)
        
        
        # 2. Выбросы (outliers)
        df.loc[df['longitude'] > 0, 'longitude'] = df.loc[df['longitude'] > 0, 'longitude'] * -1
        df.loc[df['longitude'] == 0, 'longitude'] = self.longitude_median
        df.loc[(df['latitude'] <= 0) | (df['latitude'] > 50), 'latitude'] = self.latitude_median
        
        
        # 3. Новые фичи (features)
        
        # Доля спален в общем кол-ве комнат
        df['bedroom_share'] = df['total_bedrooms'] / df['total_rooms'] * 100

        # Сколько человек в среднем живут в одной комнате
        df['population_per_room'] = df['population'] / df['total_rooms']
        
        # 4. Обработка категорий
        df = pd.concat([df, pd.get_dummies(df['ocean_proximity'])], axis=1)
        
        return df


Создание экземпляра класса и последовательное исполнение методов.

In [114]:
df = pd.read_csv(DATASET_PATH)

pipe = DataPipeline()
pipe.fit(df)
df = pipe.transform(df)

df.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity,id,bedroom_share,population_per_room,-,<1H OCEAN,INLAND,ISLAND,NEAR BAY,NEAR OCEAN
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY,0,14.659091,0.365909,0,0,0,0,1,0
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY,1,15.579659,0.338217,0,0,0,0,1,0
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY,2,12.951602,0.338105,0,0,0,0,1,0
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY,3,18.44584,0.437991,0,0,0,0,1,0
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY,4,17.209588,0.347265,0,0,0,0,1,0


In [116]:
# Additional manual result checking:---------------------------------------
df.isnull().sum()

longitude              0
latitude               0
housing_median_age     0
total_rooms            0
total_bedrooms         0
population             0
households             0
median_income          0
median_house_value     0
ocean_proximity        0
id                     0
bedroom_share          0
population_per_room    0
-                      0
<1H OCEAN              0
INLAND                 0
ISLAND                 0
NEAR BAY               0
NEAR OCEAN             0
dtype: int64

# 3. Библиотеки Python: Matplotlib, Scikit-learn 

Matplotlib была вупущена впервые в 2003 году. Автор библиотеки Джон Хантер. Библиотека радотает в 2Д и 3Д режимах. Используется в отчетах и статьях <br>
Для работы с matplotlib необходимо загрузить matplotlib.pyplot

In [117]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Setting jupiter for matplot lib
%matplotlib inline

Matplotlib is building the font cache; this may take a moment.


In [None]:
# Plotting diagrams:
x = [1,2,3,4,5,6,7]
y = [0,1,4,9,16,25,36]

# Linear diagrams: Simple plotting y as a series of array index
plt.plot(y)
plt.show();

# Plotting x,y simultaneously
plt.plot(x,y)
plt.show()

# Plotting dots with satter: diagram of difference
plt.scatter(x,y)
plt.show()

# Plotting diagrams with logarithmic scale
planets = ['Mercurry','Venus','Earth','Mars','Jupiter','Saturn']
masses = [0.055,0.815,1.00,0.107,317.8,95.0]
plt.plot(planets,masses)
plt.yscale(value='log')
plt.show()



