In [1]:
import pandas as pd
import numpy as np

In [None]:
data_flats = pd.read_csv("data_flats.csv",sep=';')
data_flats.head()

In [None]:
data_flats.dtypes[data.dtypes == 'object']

## Создадим тестовый набор данных:

---
# Удаление пропусков
---


In [None]:
test_data = pd.DataFrame([[1, 2, np.nan], [3, np.nan, 4],
                          [0, 1, 2]], columns=['one', 'two', 'three'])

В данных часто бывают пропуски, в Pandas их можно найти с помощью метода .isna():

In [None]:
test_data.isna()

В местах пропусков у нас появится значение True.

Столбцы или строки с пропусками мы можем удалить с помощью метода .dropna(). При axis=0 удаляются строки, при 1 — столбцы, по умолчанию значение равно 0:

In [None]:
test_data.dropna(axis=0)

Удаление строк и столбцов — грубое решение, из-за этого можно случайно убрать нужные данные. Поэтому лучше заменять пропуски статистиками или константным значением с помощью метода fillna():

In [None]:
test_data.fillna(-1)

Какими статистиками можно заменить пропуски:

среднее значение np.mean();

максимальное значение np.max();

минимальное значение np.min();

медиана np.median().

Для удобства некоторые методы можно вызвать прямо у столбцов.

---
# Нормализация данных
---


Некоторые алгоритмы обращают внимание на масштаб переменных - это помогает алгоритму (например, градиентному спуску) лучше сходиться. Для этого нужно делать нормализацию данных - приведение переменных к одному масштабу.
Кроме этого, если есть несколько наборов данных одной природы, но разного размера, их нужно нормализовать, чтобы иметь возможность сравнить влияние каких-то других признаков.
Несмотря на то, что некоторые алгоритмы работают независимо от масштаба признаков, хуже от нормализации обычно не становится.
Когда мы говорим о нормализации, мы говорим о числах.
Мы посмотрим на работу методов нормализации из библиотеки sklearn. На вход будем подавать pandas.DataFrame, на выходе будем получать np.ndarray. Информация о структуре pandas-таблицы теряется.

## minmax нормализация

Одним из стандартных способов нормализации является `minmax` нормализация.  
Данный вид нормализации приводит независимо каждый признак к значению между 0 и 1.  
Как это работает? Для каждого признака алгоритм находит минимальное ($x_{min}$) и максимальное ($x_{max}$) значение, после этого признак `x` трансформируется в $$x := \frac{x - x_{min}}{x_{max} - x_{min}}$$

In [None]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
scaler.fit_transform(test_data)

## std нормализация (стандартная нормализация)

Ещё один вид нормализации — std нормализация. Мы находим среднее значение для признака, затем стандартное отклонение, из каждого значения в текущем признаке вычитаем среднее значение для всего признака и делим на стандартное отклонение.

`std` нормализация (иначе называется `стандартная нормализация` или `zero mean, unit variance`) - еще один вид нормализации признаков.  
Как он работает? Для каждого признака алгоритм независимо находит среднее значение ($x_{mean}$) и стандартное отклонение ($x_{std}$), после этого признак `x` трансформируется в $$x := \frac{x - x_{mean}}{x_{std}}$$

In [None]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit_transform(test_data)

## Удаление ненужных строк и столбцов

Иногда в данных находятся признаки (столбцы), которые не несут никакой полезной информации или были считаны по ошибке.  
Их можно можно удалить с помощью метода `.drop(column_names, axis=1)`. В `columns` необходимо передать или название признака (столбца), или список названий признаков (столбцов):

In [None]:
test_data.drop('one', axis=1)

In [None]:
test_data.drop(['one', 'three'], axis=1)

Если в предыдущем методе в параметр axis передавать 0, метод будет удалять строки с номерами, которые вы передадите (или один номер, или список номеров):

In [None]:
test_data.drop(0, axis=0)

In [None]:
test_data.drop([0, 2], axis=0)

---
# Задачи
---


In [2]:
df_compl = pd.read_csv("train.csv", encoding = 'ISO-8859-1', low_memory = False)

In [None]:
df_compl.head()

In [None]:
df_compl.info()

In [None]:
missing_data = df_compl.isna().sum()[df_compl.isna().sum()>0].reset_index()

In [None]:
missing_data

 Затем найдите значение, которое встречается чаще всего. Замените пропуски этим значением и запишите получившийся признак в переменную result.

In [None]:
df_compl['state'] = df_compl['state'].fillna(df['state'].value_counts().index[0])

In [None]:
result = df_compl['state'].value_counts().index[0]
df_compl['state'] = df_compl['state'].fillna(result)

In [None]:
result

In [None]:
# V2
state = df_compl['state'].value_counts().index[0]
result = df_compl['state'].fillna(state)


Продолжим готовить к анализу наш Data set, посвященный квартирам, выставленным на продажу. Избавимся от пропусков. Просто удалять данные с пропусками довольно грубо. Однако если у вас большое количество объектов, и лишь крайне малая их доля имеет пропущенные значения, то это возможное допущение. Поступим здесь таким образом. Нас будут интересовать только те квартиры, про которые продавцы заполнили все данные. Удалите, пожалуйста, все строки, где есть хотя бы один пропуск. Сколько объектов осталось?

In [None]:
data_flats = data_flats.dropna()

In [None]:
data_flats.info()

Загрузите данные train.csv, найдите признак, обозначающий баланс. Нормализуйте признак с помощью std-нормализации. Проверьте, что вы нашли нужный признак и нормализовали его подходящим методом. Метод для нормализации принимает матрицу, а не массив. В numpy можно превратить массив в матрицу с помощью reshape(). В качестве ответа укажите минимальное значение в получившемся нормализованном признаке. Ответ округлите до 5 знаков после запятой.

In [3]:
flo = df_compl.dtypes[df_compl.dtypes == 'float64'].index

In [6]:
flo1 = df_compl[flo]
X = flo1.iloc[:,11].values

In [10]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
matr = sc.fit_transform(X)

ValueError: Expected 2D array, got 1D array instead:
array=[305.  75.   0. ...   0.   0.   0.].
Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.reshape(1, -1) if it contains a single sample.

In [9]:
flo1

Unnamed: 0,violation_street_number,violation_zip_code,mailing_address_str_number,fine_amount,admin_fee,state_fee,late_fee,discount_amount,clean_up_cost,judgment_amount,payment_amount,balance_due,compliance
0,2900.0,,3.0,250.0,20.0,10.0,25.0,0.0,0.0,305.0,0.0,305.0,0.0
1,4311.0,,2959.0,750.0,20.0,10.0,75.0,0.0,0.0,855.0,780.0,75.0,1.0
2,1449.0,,23658.0,250.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,
3,1441.0,,5.0,250.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,
4,2449.0,,7449.0,250.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
250301,10701.0,,1715.0,1000.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,
250302,10701.0,,1715.0,1000.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,
250303,10701.0,,1715.0,1000.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,
250304,10701.0,,1715.0,1000.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,
