Согласованность, Точность, Уникальность, Полнота, Своевременность, Доступность и т.д.

Range Constraints: числа или даты должны попадать в определенный диапазон с использованием одной единицы измерения
Mandatory Constraints: некоторые столбцы не могут быть пустыми
Шаблоны регулярных выражений: текстовые поля, которые должны быть в определенном шаблоне. Например (999) 999–9999.
Consistency: степень соответствия данных в одном или нескольких БД

In [None]:
import os
import csv
import numpy as np
import pandas as pd
import matplotlib 
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from pylab import plot,show,hist
from scipy.stats.kde import gaussian_kde
from scipy.stats import norm, chi2_contingency

from sklearn import preprocessing
#%config InlineBackend.figure_format = 'svg' для большей четкости графиков
matplotlib.style.use('ggplot')
%matplotlib inline

#df = pd.read_csv('AmesHousing.txt', sep="\t", header = 0, encoding='cp1251', index_col=False)
#df = pd.read_csv('beverage_r.csv', sep=";", decimal=',', parse_dates=[0], index_col='numb.obs')
#df = pd.read_csv('diamond.dat', header=None, sep='\s+', names=['weight', 'price'])
#df = pd.read_csv('adult.test', header=None, names=columns, na_values=' ?', skiprows=1)

In [None]:
df.head()

In [None]:
#Удаляем столбцы, где данные непрочитались
df = df.filter(regex='^(?!.*Unnamed).*$')

In [None]:
#Смотрим коэффициенты корелляций. Мало больших значений - плохо для факторного анализа
df.corr()

In [None]:
#Сортировка числовых колонок
df['data'].value_counts(normalize=True)

In [None]:
#Чистка от пустых значений
df = df.replace(-9999, np.nan)
print('Rows in the data frame: {0}'.format(len(df)))
print('Rows without NAN: {0}'.format(len(df.dropna(how='any'))))

#Слишком много данных содержат хотя бы одно пропущенное значение, чтобы удалить их все. Смотрим их распределение по колонкам
#Функция .apply для всей матрицы. 1й аргумент-применяемая функция, 2й - направление применения (0 к колонкам, 1 ко строкам)
df.apply(lambda x: sum(x.isnull()), axis=0)

#Если непоправимо мало данных, удаляем колонку
del df['data']

#Анализируем колонку где можно заменить пропуски
df['data'].hist()

#Меняем пропущенные значения на среднее значение по колонке 
df['data'] = df['data'].fillna(df['data'].mean())

#Удалим самые пустые колонки полностью и выбросим строчки с пропущенными значениями в тех где нужно
df = df.drop(['data', 'data'], axis=1)
df = df[(df['data'] != 'unknown') & (df['data'] != 'unknown')]

In [None]:
#Преобразуем бинарные столбцы в численные. Колонку y тоже
df['data'] = df['data'].map({'predict1': 0, 'predict2': 1, 'predict3': 2})

In [None]:
#Категориальные колонки не имеют естественного порядка, поэтому преобразуем их с помощью one-hot encoding
features = ['predict1', 'predict2', 'predict3']
df = pd.get_dummies(df, columns=features)

In [None]:
# Преобразуем строчки с датами в объект datetime
df['date'] = pd.to_datetime(df['date'], format='%b %Y') # format показывает что читаем: '%b %Y' трехбуквенный месяц, затем год 

#Построим график проверить тип тренда (линейный или нет), тип сезонности (аддитивный или мультипликативный), его длину, выбросы
#Видим линейный тренд и мультипликативную сезонность. Это подтверждается после логирафмирование цикла 

fig = plt.figure(figsize=(12, 4))
ax1 = fig.add_subplot(121)
df['date'].plot(ax=ax1)
ax1.set_title(u'коммент')
ax1.set_ylabel(u'коммент')

ax2 = fig.add_subplot(122)
pd.Series(np.log10(df['date'])).plot(ax=ax2)
ax2.set_title(u'коммент')
ax2.set_ylabel(u'коммент')

In [None]:
#Если несколько классов, но хочется сделать классификацию строго бинарной, то разбиваем на группы ДА и НЕТ
df['date'] = df['date'].replace(0, 1)

In [None]:
#Вероятностная гистограмма 
df['data'].hist(density=True, bins=60)
#Сравнение гистограмм
df.groupby('data')['data'].plot.hist(alpha=.6)
plt.legend()

In [None]:
#В случае очевидного смешения двух нормальных распределений, можно оценить их более подробно
df.groupby('data')['data'].plot.hist(alpha=0.6)
df.groupby('data')['data'].plot.hist(density=True) #Нормализованный вариант
plt.legend(loc='upper left')

In [None]:
#Shapiro-Wilk позволяют проверить выборку на принадлежность к ГС и нормальность распредеелния
df = df.set_index(u'номер')
plt.hist(np.log10(df[u'номер']), bins=50) #Применяем критерий Шапиро-Вилка после логарифмирования
res = stats.shapiro(np.log10(df[u'номер']))
print('p-value: ', res[1]) #Если p маленькое, гипотезу о нормальности отвергаем

In [None]:
#Работа с выбросами
town_2 = df.iloc[2:1004] #Обрезать аномалии

x = np.log10(df[u'номер']) #Логарифмировать переменную (для лог-нормального распределения)
pd.Series(x).hist(bins=45)

exclude = int(len(df)/100*2.5) #Усеченное среднее (Среднее -2,5% самых малых и -2,5% наибольших)
redacted_town = df[exclude:len(df)-exclude]

In [None]:
#Матрица диаграмм рассеивания: комплексное сравнение по нескольким переменным. Диагональ - ядерная оценка плотности
colors = {'genuine': 'green', 'counterfeit': 'red'}
scatter_matrix(df,               
               figsize=(6, 6), #размер картинки
               diagonal='kde', #плотность вместо гистограммы на диагонали
               c=df['data'].replace(colors),  #цвета классов
               alpha=0.2 #степень прозрачности точек
              )

In [None]:
#Корреляция двух переменных
plt.scatter(df['data'], df['data'])

In [None]:
#Исправление опечаток
df['data'].map({'m': 'male', fem.': 'female', ...})
re.sub (r "\ ^ m \ $", ' Male ', ' male ', flags = re. IGNORECASE )

In [None]:
#Заполнить пробелы Средним значением
rand = np.random.randint(average_age - 2*std_age, average_age + 2*std_age, size = count_nan_age) 
df["data"][np.isnan(df["data"])] = rand

In [None]:
#Строим R матрицу корелляций. Много выбросов, есть бимодальности. Но сильной корелляции увы нет
scatter_matrix(df); #Добавление ";" позволяет показать только график, без цифр

In [None]:
#Приводим множество названий колонок к типу set, находим разность двух множеств: Голландии нет в колонке native-county 
print(set(X_train.columns) - set(X_test.columns))
print(set(X_test.columns) - set(X_train.columns))

#Добавляем недостающую колонку. Смотрим, стоит ли склеивать отдельные переменные в более крупные классы
columns = set(X_train.columns) | set(X_test.columns)
X_train = X_train.reindex(columns=columns).fillna(0)
X_test = X_test.reindex(columns=columns).fillna(0)

#Проверяем совпадение колонок (если да, то True)
all(X_train.columns == X_test.columns)

In [None]:
#Если в БД нет единой метрики, то стандартизируем данные
import math
from sklearn import preprocessing
from sklearn.decomposition import FactorAnalysis
from sklearn.decomposition import PCA

norm = preprocessing.StandardScaler()
norm.fit(df)
X = norm.transform(df)

#Cтандартизируем переменные 2
df_scaled = preprocessing.scale(df)

#Методом поиска главных компонентов проецируем данные на двумерную плоскость и получаем ранжирование компонентов по важности 
pca = PCA(n_components=5).fit(df_scaled) #Уточняем число компонент и источник данных 

#Доля разброса в данных, объясняемая главными компонентами
print('Влияние компонентов на общий разброс данных: ', pca.explained_variance_ratio_)

In [1]:
import pandas as pd
pd.options.display.float_format = '{:,.2f}'.format
pd.set_option('display.width', 85)
pd.set_option('display.max_columns', 8)