In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
'''
Используется искусственно сгенерированный датасет.
Рассматривается конвеер по производству пирожных. Надо предсказать невкусные! 
'''

In [None]:
df= pd.read_csv('df_for_EDA.csv')

In [None]:
# Исследуем признаки

In [None]:
df.describe(include='all')

In [None]:
df.head()

# Date

In [None]:
df.date.min()

In [None]:
df.date.max()

In [None]:
df[df.is_test==0].sort_values('date').date.iloc[[0,-1]]

In [None]:
df[df.is_test==1].sort_values('date').date.iloc[[0,-1]]

Видим что трейн и тест разделены не по времени

In [None]:
# поисследуем что можно сказать о частоте появления объектов
df.date = pd.to_datetime(df.date)
df.sort_values('date').date.diff().describe()

In [None]:
# Индексы остановок
diff_date = df.sort_values('date').date.diff().dt.seconds
diff_date[diff_date > 300]

In [None]:
# Нарисуем что было с таргетом в момент остановок

In [None]:
df = df.sort_values('date')
df = df.reset_index()
df.rename(columns={'index': 'old_index'}, inplace=True)

In [None]:
for v in [498, 556, 2252, 199, 183, 903]:
    new_idx = df[df.old_index == v].index[0]
    idxs = [i for i in range(new_idx - 10, new_idx + 10)]
    fig, axes = plt.subplots(figsize=(20, 5))
    plt.plot_date(df.date.loc[idxs], df.target.loc[idxs])
    plt.axvline(df.date[new_idx], color='orange')
    plt.axvline(df.date[new_idx - 1], color='orange')
    plt.title = 'v=='+str(v);

Если долго смотреть на эти графики, что можно заметить, что сразу после остановки у нескольких объектов таргет либо 1, либо неизвестен. Это можно использовать либо в качестве постобработки, либо  ввести признак - сколько времени прошло с момента остановки

# Customer

In [None]:
fig, ax=plt.subplots(figsize=(15, 4))
plt.subplot(1, 2, 1)
sns.countplot(df[df.is_test==0].customer, order=df.customer.unique()).set_title('train');
plt.subplot(1, 2, 2)
sns.countplot(df[df.is_test==1].customer).set_title('test');

In [None]:
fig, ax=plt.subplots(figsize=(15, 4))
plt.subplot(1, 2, 1)
sns.countplot(x='customer', hue='target', data=df[df.is_test==0], 
              order=df.customer.unique()).set_title('train');

# num_of_pink_flowers

In [None]:
df.num_of_pink_flowers.nunique()

In [None]:
df.num_of_pink_flowers.isnull().sum()

In [None]:
fig, ax=plt.subplots(figsize=(15, 4))
plt.subplot(1, 2, 1)
sns.distplot(df[df.is_test==0].num_of_pink_flowers.dropna()).set_title('train');
plt.subplot(1, 2, 2)
sns.distplot(df[df.is_test==1].num_of_pink_flowers.dropna()).set_title('test');

In [None]:
fig, ax=plt.subplots(figsize=(15, 4))
plt.subplot(1, 2, 1)
sns.countplot(x='num_of_pink_flowers', hue='target', data=df[df.is_test==0]).set_title('train');

# Flour

In [None]:
fig, ax=plt.subplots(figsize=(15, 4))
plt.subplot(1, 2, 1)
sns.distplot(df[df.is_test==0].flour.dropna(), kde=False, bins=100).set_title('train');
plt.subplot(1, 2, 2)
sns.distplot(df[df.is_test==1].flour.dropna(), kde=False, bins=100).set_title('test');

In [None]:
df[df.flour < 50]

In [None]:
df[df.flour < 50].flour.describe()

In [None]:
df[df.flour>50].flour.describe()

# temperature

In [None]:
fig, ax=plt.subplots(figsize=(15, 4))
plt.subplot(1, 2, 1)
sns.distplot(df[df.is_test==0].temperature.dropna(), bins=40).set_title('train');
plt.subplot(1, 2, 2)
sns.distplot(df[df.is_test==1].temperature.dropna(), bins=40).set_title('test');

In [None]:
fig, ax=plt.subplots(figsize=(10, 5))
sns.boxplot(x='target', y='temperature', data=df[df.is_test==0])

In [None]:
fig, ax=plt.subplots(figsize=(10, 5))
sns.violinplot(x='target', y='temperature', data=df[df.is_test==0])

# type

In [None]:
fig, ax=plt.subplots(figsize=(15, 4))
plt.subplot(1, 2, 1)
sns.countplot(df[df.is_test==0].type).set_title('train');
plt.subplot(1, 2, 2)
sns.countplot(df[df.is_test==1].type).set_title('test');

In [None]:
fig, ax=plt.subplots(figsize=(15, 4))
plt.subplot(1, 2, 1)
sns.countplot(x='type', hue='target', data=df[df.is_test==0]).set_title('train');

In [None]:
# не успели эту часть на семинаре

In [None]:
# смотрим на признак
df[['date', 'type', 'target']][-50:]

In [None]:
# Видим что изделия одного типа идут партиями. Что происходит когда одна партия сменяет другую, 

In [None]:
# Нарисуем последние 200 точек. Будем искать индексы когда партия одного типа 
# менялась на партию другого типа
tmp = df.iloc[-201:-1, :]['type'].values != df.iloc[-200:, :]['type'].values
change_idx = df.iloc[-200:, :][tmp].index

In [None]:
df.date[55]

In [None]:
maper = {'A': 'blue', 'B': 'green', 'C': 'red', 'D': 'orange'}
fig, axes = plt.subplots(figsize=(20, 5))
for pcolor, gp in df.assign(color=lambda x: x.type.map(maper))[-200:].groupby('color'):
    plt.plot_date(gp['date'], gp['target'], marker='o', color=pcolor) 
for i in change_idx:
    plt.axvline(df.date[i], color='gray', ls='--')

На этом пестром графике видно, что все объекты после смены партии имеют таргет==1 или неизвестный. Те признак как давно была смена типа выглядит полезным. 

# Взаимодействия

In [None]:
sns.catplot(x='type', y='temperature', data=df, height=5, aspect=1.5);

In [None]:
sns.catplot(x='type', y='temperature', hue='target', data=df[df.is_test==0], height=5, aspect=1.5);