# Вебинар 2. Предобработка данных.

**Подключение библиотек и скриптов**

In [1]:
import numpy as np
import pandas as pd

**Пути к директориям и файлам**

In [2]:
DATASET_PATH = './housing.csv'
PREPARED_DATASET_PATH = './housing_prepared.csv'

## 1. Загрузка данных

**Описание задачи**

Цель - предсказать стоимость дома 

Зачем?  

_В банках, страховых компаниях:_
- Узнать истинную стоимость имущества (залога)
- Принять решение о выдаче ипотеки/страховки
- Принять рещшение о % по ипотеке/страховке
  
_На площадках объявлений (Авито, Циан, ...):_
- Найти недооцененные квартиры (~ выгодные предложения), показать их пользователям
- Показывать рыночную стоимость квартиры пользователям
- Для тех, кто продает квартиру, рекомендовать цену продажи
- Поиск фрода

_Для инвесторов в недвижимость:_
- Определять рыночную стоимость квартир
- Поиск недооцененных активов
- Торговля на рынке недвижимости

**Описание датасета**

Статистические данные о ряде домов в Калифорнии, основанные на переписи 1990 года.

* **longitude** - долгота
* **latitude** - широта
* **housing_median_age** - средний возраст дома
* **total_rooms** - общее количество комнат
* **total_bedrooms** - общее количество спален
* **population** - количество проживающих
* **households** - домохозяйства (семья)
* **ocean_proximity** - близость океана
* **median_income** - средний доход
* **median_house_value** - средняя стоимость дома

In [3]:
? pd.read_csv

In [4]:
df = pd.read_csv(DATASET_PATH )
df.tail(10)

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity,id
20630,-121.32,39.29,11.0,2640.0,505.0,1257.0,445.0,3.5673,112000.0,INLAND,20630
20631,-121.4,39.33,15.0,2655.0,493.0,1200.0,432.0,3.5179,107200.0,INLAND,20631
20632,-121.45,39.26,15.0,2319.0,416.0,1047.0,385.0,3.125,115600.0,INLAND,20632
20633,-121.53,39.19,27.0,2080.0,412.0,,382.0,2.5495,98300.0,INLAND,20633
20634,-121.56,39.27,28.0,2332.0,395.0,1041.0,344.0,3.7125,116800.0,INLAND,20634
20635,-121.09,39.48,25.0,1665.0,374.0,845.0,330.0,1.5603,78100.0,INLAND,20635
20636,-121.21,39.49,18.0,697.0,150.0,356.0,114.0,2.5568,77100.0,INLAND,20636
20637,-121.22,39.43,17.0,2254.0,485.0,,433.0,1.7,92300.0,INLAND,20637
20638,-121.32,39.43,18.0,1860.0,409.0,741.0,349.0,1.8672,84700.0,INLAND,20638
20639,-121.24,39.37,16.0,2785.0,616.0,1387.0,530.0,2.3886,89400.0,INLAND,20639


In [5]:
df.shape

(20640, 11)

In [6]:
df.columns = []

ValueError: Length mismatch: Expected axis has 11 elements, new values have 0 elements

In [None]:
df.index

In [None]:
df[['longitude', 'latitude']].head(2)

In [None]:
df['longitude'].head(2)

In [None]:
df.longitude.head(2)

In [None]:
df['longitude'] > 10

In [None]:
df[df['longitude'] > 10].head(2)

In [None]:
df[(df['longitude'] > 10) | (df['latitude'] < 100)].head(2)

In [None]:
df[(df['longitude'] > 10) & (df['latitude'] < 100)].head(2)

In [None]:
df.loc[df['longitude'] > 10, 'median_income'].head(2)

In [None]:
df.loc[df['longitude'] > 10, ['median_income', 'median_house_value']].head(2)

## 2. Приведение типов данных

In [None]:
df.dtypes

In [None]:
type(df['id'])

In [None]:
type(df.id)

In [None]:
type(df['id'].values)

In [None]:
df['id'].dtype

In [None]:
df['id'] = df['id'].astype(str)
df['id'].dtype

### Обзор количественных переменных

In [None]:
df_num_features = df.select_dtypes(include=['float64', 'int64'])
df_num_features.head()

In [None]:
df.shape

In [None]:
df.describe().T

_Пример расчета статистик_

In [None]:
x = np.array([1,2,3,4,5,6])
x = np.sort(x)
x

In [None]:
np.quantile(x, q=0.5)

In [None]:
np.quantile(df['total_rooms'], q=0.5)

### Обзор категориальных переменных

In [None]:
df_obj_features = df.select_dtypes(include='object')
df_obj_features.head()

In [None]:
df['ocean_proximity'].value_counts()

In [None]:
df['ocean_proximity'].unique()

In [None]:
df['ocean_proximity'].nunique()

## 3. Обработка пропусков

In [None]:
df.shape[0]

In [None]:
df.isnull().sum()

**housing_median_age**

In [None]:
median = df['housing_median_age'].median()

df['housing_median_age'] = df['housing_median_age'].fillna(median)

In [None]:
median

**total_bedrooms**

In [None]:
median = df['total_bedrooms'].median()

df['total_bedrooms'] = df['total_bedrooms'].fillna(median)

**population**

In [None]:
median = df['population'].median()

df['population'] = df['population'].fillna(median)

**Все и сразу**

In [None]:
median = df[['population', 'housing_median_age', 'total_bedrooms']].median()
median

In [None]:
df[['population', 'housing_median_age', 'total_bedrooms']] =\
    df[['population', 'housing_median_age', 'total_bedrooms']].fillna(median)

In [None]:
df.isnull().sum()

**ocean_proximity**

In [None]:
df['ocean_proximity'].mode()

In [None]:
df['ocean_proximity'].mode()[0]

In [None]:
df.replace({'ocean_proximity': 
                {'-': df['ocean_proximity'].mode()[0]}
           }, 
           inplace=True)

In [None]:
df['ocean_proximity'].value_counts()

## 4. Обработка выбросов

In [None]:
df.describe()

**longitude**

Возможные значения longtitude (долгота) и latitude (широта) можно найти [здесь](https://dateandtime.info/ru/citycoordinates.php?id=5332748)

_Широта принимает значения от −90° до 90°. 0° – широта экватора; −90° – широта Южного полюса; 90° – широта Северного полюса. Положительные значения соответствуют северной широте (точки севернее экватора, сокращённо с.ш. или N); отрицательные – южной широте (точки южнее экватора, сокращённо ю.ш. или S).  
Долгота отсчитывается от нулевого меридиана (IERS Reference Meridian в системе WGS 84) и принимает значения от −180° до 180°. Положительные значения соответствуют восточной долготе (сокращённо в.д. или E); отрицательные – западной долготе (сокращённо з.д. или W)._

In [None]:
df[df['longitude'] >= 0]

In [None]:
df.loc[df['longitude'] > 0, 'longitude'] * -1

In [None]:
df.loc[df['longitude'] > 0, 'longitude'] = df.loc[df['longitude'] > 0, 'longitude'] * -1

In [None]:
df.loc[df['longitude'] == 0, 'longitude'] = df['longitude'].median()

**latitude**

In [None]:
df[(df['latitude'] <= 0) | (df['latitude'] > 50)]

Калифорния вытянута вдоль берега Тихого Океана между 32 и 42 гр. северной широты 114 и 124 западной долготы. 

In [None]:
df.loc[(df['latitude'] <= 0) | (df['latitude'] > 50), 'latitude'] = df['latitude'].median()

## 5. Отбор и построение новых признаков (фичей)

**Исключаем признак "id"**

In [None]:
df = df[df.columns[:-1]]

In [None]:
df.columns

In [None]:
df.columns[:-1]

### 5.1 Количественные переменные

In [None]:
# Доля спален в общем кол-ве комнат
df['bedroom_share'] = df['total_bedrooms'] / df['total_rooms'] * 100

# Сколько человек в среднем живут в одной комнате
df['population_per_room'] = df['population'] / df['total_rooms']

### 5.2 Категориальные переменные

Неплохой обзор по работе с категориальными признаками можно посмотреть [здесь](https://dyakonov.org/2016/08/03/python-%D0%BA%D0%B0%D1%82%D0%B5%D0%B3%D0%BE%D1%80%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5-%D0%BF%D1%80%D0%B8%D0%B7%D0%BD%D0%B0%D0%BA%D0%B8/)

In [None]:
for i in df.columns: # перебираем все столбцы
    if str(df[i].dtype) == 'object': # если тип столбца - object
        print('='*10)
        print(i) # выводим название столбца
        print(set(df[i])) # выводим все его значения (но делаем set - чтоб значения не повторялись)
        print('\n') # выводим пустую строку

**A) Бинарные (дамми) переменные**

In [None]:
df = pd.concat([df, pd.get_dummies(df['ocean_proximity'])], axis=1)
df.head()

In [None]:
df = df[df.col > 0]

**Б) Feature encoding / Target encoding**

In [None]:
df_cat = df.groupby('ocean_proximity')['total_rooms'].median()
df_cat = pd.DataFrame(df_cat)

df_cat

In [None]:
df_cat.reset_index(inplace=True)

df_cat

In [None]:
df_cat.rename(columns={'total_rooms': 'median_rooms'},
             inplace=True)

df_cat.sort_values(by='median_rooms')

In [None]:
df['total_rooms'].median()

In [None]:
df = df.merge(df_cat, on='ocean_proximity')

df.head(3)

## 5.3* А что дальше?

### latitude, longitude:

_Идея №1_

[Источник](https://medium.com/open-machine-learning-course/open-machine-learning-course-topic-6-feature-engineering-and-feature-selection-8b94f870706a)

If you have a small amount of data, enough time, and no desire to extract fancy features, you can use _reverse_geocoder_ from OpenStreetMap (OSM):
                   

In [None]:
#Import all necessary libraries
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import geopandas
import plotly.express as px

In [None]:
dn=df.head(100)

In [None]:
fig = px.scatter_geo(data_frame=dn, scope='north america',lat='latitude',lon='longitude',
                     size='median_house_value', color='median_house_value', projection='hammer')
fig.update_layout(
        title_text = 'Дома калифорнии')
fig.show()

_Идея №2_

- Найти координаты центров городов, достопримечательностей, станций метро, ..
- Считать расстояние до <...>
- Количество <...> в радиусе 3 км
- ...

### Работа с категориальными признаками

Описание методов можно посмотреть [здесь](https://towardsdatascience.com/encoding-categorical-features-21a2651a065c)

Мало категориальных признаков? Можно **создать их!**
- [Feature discretization](https://towardsdatascience.com/an-introduction-to-discretization-in-data-science-55ef8c9775a2)
- [Feature binarization](https://subscription.packtpub.com/book/big_data_and_business_intelligence/9781789808452/1/ch01lvl1sec17/binarization)

## 6. Сохранение результатов

In [None]:
df.head()

In [None]:
df.to_csv(PREPARED_DATASET_PATH, index=False, encoding='utf-8')

## 7**. Подготовка данных в реальном проекте

In [None]:
import numpy as np
import pandas as pd

In [None]:
class DataPipeline:
    """Подготовка исходных данных"""
    
    def __init__(self):
        """Параметры класса"""
        self.medians = None
        
    def fit(self, df):
        """Сохранение статистик"""
        
        # Расчетет медиан
        self.medians = df[['population', 'housing_median_age', 'total_bedrooms']].median()
        self.longitude_median = df['longitude'].median()
        self.latitude_median = df['latitude'].median()
        
    def transform(self, df):
        """Трансформация данных"""
        
        # !. Пропуски
        df[['population', 'housing_median_age', 'total_bedrooms']] =\
            df[['population', 'housing_median_age', 'total_bedrooms']].fillna(self.medians)
        
        
        # 2. Выбросы (outliers)
        df.loc[df['longitude'] > 0, 'longitude'] = df.loc[df['longitude'] > 0, 'longitude'] * -1
        df.loc[df['longitude'] == 0, 'longitude'] = self.longitude_median
        df.loc[(df['latitude'] <= 0) | (df['latitude'] > 50), 'latitude'] = self.latitude_median
        
        
        # 3. Новые фичи (features)
        
        # Доля спален в общем кол-ве комнат
        df['bedroom_share'] = df['total_bedrooms'] / df['total_rooms'] * 100

        # Сколько человек в среднем живут в одной комнате
        df['population_per_room'] = df['population'] / df['total_rooms']
        
        # Обработка категорий
        df = pd.concat([df, pd.get_dummies(df['ocean_proximity'])], axis=1)
        
        return df


In [None]:
DATASET_PATH = './housing.csv'
PREPARED_DATASET_PATH = './housing_prepared.csv'

In [None]:
df = pd.read_csv(DATASET_PATH)

pipe = DataPipeline()
pipe.fit(df) # расчет статисстик
df = pipe.transform(df)

df.to_csv(PREPARED_DATASET_PATH, index=False, encoding='utf-8')

In [None]:
df.head()

In [None]:
df.isnull().sum()