* Ссылки 
  * [Разведочный анализ данных](https://www.kaggle.com/emstrakhov/eda-with-pandas).<br>
  * [Построение графиков](https://pcnews.ru/blogs/spargalka_po_vizualizacii_dannyh_v_python_s_pomosu_plotly-986119.html).<br>
  * [Продвинутая визуализация](https://habr.com/ru/company/skillfactory/blog/510320/).<br>

In [1]:
import numpy as np 
import pandas as pd
import plotly
import chart_studio.plotly as py
from plotly.offline import iplot, init_notebook_mode
import cufflinks
cufflinks.go_offline(connected=True)
init_notebook_mode(connected=True)
import plotly.graph_objs as go
import plotly.express as px
from plotly.subplots import make_subplots
import matplotlib 
import matplotlib.pyplot as plt
import seaborn as sns
from wordcloud import WordCloud
%matplotlib inline

#Настройки показа графиков в блокноте
pd.options.display.float_format = '{:,.2f}'.format
pd.set_option('display.width', 85)
pd.set_option('display.max_columns', 8)

df = pd.read_csv('../Kaggle/Titanic/train.csv')

In [None]:
df.head()

In [None]:
#Транспонируем, если колонок много
df.head(10).T

In [None]:
df.shape

In [None]:
df.info()

In [None]:
#Статистика по всем
df.describe(include="all")

In [None]:
#Статистика по колонке
pd.DataFrame(df.Data.describe())

In [None]:
print('Число строк в фрейме: {0}'.format(len(df)))
print('Число строк без пропущенных значений: {0}'.format(len(df.dropna(how='any'))))

In [None]:
#Агрегирование. Подсчет количества записей
df.groupby('data').count()

In [None]:
#Проверка на недостающие значения
pd.DataFrame(df.isnull().sum()).plot.line().set_title("Number of missing values in the given features")
df.isnull().sum()

In [None]:
#Тепловая карта пропущенных значений
df.isnull().sum()
sns.heatmap(df.isnull(), cbar = False).set_title("Missing values heatmap")

In [None]:
#Проверка на уникальные значения
df.nunique()

In [None]:
#Проверка уникальных значений в колонке
print( df.Data.unique() )

In [None]:
#кросс-таблица (таблица сопряжённости)
pd.crosstab(df['data'], df['data1'])

In [None]:
#Разбиение переменных на категории и выделение в новый столбец 
df['data_new'] = pd.cut(df['data'], bins=[0,7.90,14.45,31.28,120], labels=['Low','Mid', 'High_Mid','High'])

In [None]:
#Средние показатель выборки по определенному параметру
df[df['data'] == 1]['data1'].mean()

#Условие может быть составным
df[(df['data'] == 1) & (df['data1'] == "male")]['data2'].mean()

In [None]:
#Выборка всех строк из фрейма по конкретному параметру в колонке
grouped = df.groupby('Data').get_group('param')

In [None]:
#Среднее значение второго параметра для колонки фрейма, сгрупированного по первому параметру в другой колонке
income_mean = df.groupby('data1')['data2'].mean()

In [None]:
#Выбираем из матрицы интересующую нас ячейку
first_patient = df.loc[0, 'data']

In [None]:
#Выбираем срез из матрицы по интересующим нас колонкам 
df.loc[:10, ["data1", "data2"]]

In [None]:
#Строим график по распределению значений в колонке
(df.Data.value_counts(normalize=True) * 100).plot.barh().set_title(
    "Training Data - Percentage of people survived and Deceased")

In [None]:
# Строим картинку
df['Survived'].value_counts().plot(kind='bar')
# Добавляем подпись
plt.title(u'Число выживших на Титанике')
plt.xticks([0, 1], ['Not Survived', 'Survived'], rotation=None)
plt.text(-0.1, 275, '61.5%', fontsize=15, color='silver')
plt.text(0.9, 150, '38.5%', fontsize=15, color='silver');

In [None]:
# Хак для того, чтобы исправить наезжающие заголовки графика
ax.get_figure().suptitle('')

# Нужно, чтобы подписи к картинкам отображались корректно по-русски
matplotlib.rc('font', family='Arial')

#Доля выживших на Титанике
fig, ax = plt.subplots(1)
df['Survived'].value_counts().plot(kind='pie', labels=['', ''],
                                   ax=ax, autopct='%.2f%%', fontsize=15)
ax.set_title(u'Доля выживших на Титанике')
ax.axis('equal')
ax.legend(labels=[u'Выжили', u'Погибли'], framealpha=0)
ax.set_ylabel('')
plt.tight_layout()

In [None]:
#Подробное распределение внутри класса по определенным параметрам
plt.figure(figsize=(15, 8)) # увеличим размер картинки
sns.countplot(y='data', hue='data1', data=df);

In [None]:
#Круговая диаграмма распределения значений в колонке
df.Data.value_counts().plot.pie().legend(labels=["Class 3","Class 1","Class 2"], 
                                                         loc='center right', 
                                                         bbox_to_anchor=(2.25, 0.5)
                                                        ).set_title("Training Data - People travelling in different classes")

In [None]:
#График сравнения значений в колонках по дополнительному признаку из другой колонки. В процентах

data1 = round((df[df.Data == 1].Survived == 1).value_counts()[1]/len(df[df.Data == 1]) * 100, 2)
data2 = round((df[df.Data == 2].Survived == 1).value_counts()[1]/len(df[df.Data == 2]) * 100, 2)
data3 = round((df[df.Data == 3].Survived == 1).value_counts()[1]/len(df[df.Data == 3]) * 100, 2)
pclass_perc_df = pd.DataFrame(
    { "Percentage Survived":{"Class 1": data1,"Class 2": data2, "Class 3": data3},  
     "Percentage Not Survived":{"Class 1": 100-data1,"Class 2": 100-data2, "Class 3": 100-data3}})
pclass_perc_df.plot.bar().set_title("Training Data - Percentage of people survived on the basis of class")

In [None]:
#Вариант графика сравнения, две бинарных переменных
df['data_new'] = pd.cut(df.Data, [0, 10, 20, 30, 40, 50, 60, 70, 80])
sns.countplot(x = "data_new", 
              hue = "data1", 
              data = df, 
              palette=["C1", "C0"]).legend(labels = ["Deceased", "Survived"]
              )

In [None]:
#График распределения переменных по характеристике второй переменной
for x in [1,2,3]:    #задаем число классов
    df.data0[df.data1 == x].plot(kind="kde")
plt.title("Age density in classes")
plt.legend(("1st","2nd","3rd"))

In [None]:
#Вариант графика сравнения, две бинарных переменных
sns.distplot(df['data'].dropna(),
             color='darkgreen',
             bins=30
            )

In [None]:
#Вероятностная гистограмма 
df['data'].hist(density=True, bins=60)
#Сравнение гистограмм
df.groupby('data')['data'].plot.hist(alpha=.6)
plt.legend()

In [None]:
#Линейная гистограмма
ss = pd.DataFrame()
ss['survived'] = df.Data1
ss['sibling_spouse'] = pd.cut(df.Data2, [0, 1, 2, 3, 4, 5, 6, 7, 8], include_lowest = True)
(ss.sibling_spouse.value_counts()).plot.area().set_title("Training Data - Number of siblings or spouses vs survival count")

In [None]:
#Проверка на тип тренда (линейный или нет), тип сезонности (аддитивный или мультипликативный), его длину, выбросы
#Видим линейный тренд и мультипликативную сезонность. Это подтверждает логирафмирование цикла

fig = plt.figure(figsize=(12, 4))
ax1 = fig.add_subplot(121)
df['data'].plot(ax=ax1)
ax1.set_title(u'Объём пассажироперевозок')
ax1.set_ylabel(u'Тысяч человек')

ax2 = fig.add_subplot(122)
pd.Series(np.log10(df['data'])).plot(ax=ax2)
ax2.set_title(u'log10 от объёма пассажироперевозок')
ax2.set_ylabel(u'log10 от тысяч человек')

In [None]:
#Быстрая проверка по интересующим нас данным. Перебор -> результат
age = df['data']
age[age < 22].shape[0]

In [None]:
#В случае очевидного смешения двух нормальных распределений, можно оценить их более подробно
df.groupby('data')['data1'].plot.hist(alpha=0.6)
df.groupby('data')['data1'].plot.hist(density=True) #Нормализованный вариант
plt.legend(loc='upper left')

In [None]:
#Боксплот
sns.boxplot(x=df['data']);

In [None]:
#Первый признак разбивает на классы, второй дает среднее значение параметра по группе
df.groupby('data')['data1'].mean().round().plot(kind='bar') 
plt.ylabel('Age') # добавляем подпись на оси Оу
plt.show();

In [None]:
#Матрица диаграмм рассеивания: комплексное сравнение по нескольким переменным. Диагональ - ядерная оценка плотности
colors = {'genuine': 'green', 'counterfeit': 'red'}
scatter_matrix(df,               
               figsize=(6, 6), #размер картинки
               diagonal='kde', #плотность вместо гистограммы на диагонали
               c=df['data'].replace(colors),  #цвета классов
               alpha=0.2 #степень прозрачности точек
              )

In [None]:
#Scatter плот для исследования пар числовых признаков
plt.scatter(df['Sex'], df['Pclass']);
#Для изучения совместного распределения двух числовых признаков
sns.jointplot(x='height', y='weight', data=df);

In [None]:
#Для исследования трёх и более признаков сводные таблицы (pivot tables)
#Index - признаки, по которым выполняется группировка. Values - признаки, по которым вычисляются значения функции
df.pivot_table(values=['age', 'cardio'], index=['smoke', 'alco'], aggfunc='mean')

In [None]:
#Анализ объектов в колонке. Выделение уникальных, сплит по знакам и выделение в отдельную колонку 
df['data_new'] = df.Data.apply(lambda name: name.split(',')[1].split('.')[0].strip()) 
df.Data.nunique()

#Построение облачного графика из объектов, где размер коррелирует с частотой
wc = WordCloud(width = 1000, height = 450, background_color = 'white').generate(str(df.Data_new.values))
plt.imshow(wc, interpolation = 'bilinear')
plt.axis('off')
plt.tight_layout(pad=0)
plt.show()

df.Data_new.value_counts()

In [6]:
x = np.arange(0, 5, 0.1)

def f(x):
    return x**2

def h(x):
    return np.sin(x)

def k(x):
    return np.cos(x)

def m(x):
    return np.tan(x)

fig = go.Figure() #создаем фигуру
fig = make_subplots(rows=2, #Создание нескольких графиков на одной фигуре
                    cols=2, #Число колонок на фигуре
                    column_widths=[1, 1], #Пропорции размера графиков
                    specs=[ #Указываем расположение графиков в фигуре
                        [{'rowspan':2},{}], #Указываем что первый график двойной. Чтобы объединить по гризонтали colspan 
                        [None, {}] #Выбрасываем нижнего соседа первого графика None
                    ]
                   )
fig.update_yaxes(range=[-0.5, 2.5], #Зум к определенному участку на графике
                 zeroline=True, #Рисует оси на графике
                 zerolinewidth=2, 
                 zerolinecolor='LightPink',
                 col=2 #Уточнение к какой колонке применять
                )
fig.update_xaxes(range=[-0.5, 2.5], zeroline=True, zerolinewidth=2, zerolinecolor='#008000', col=2)
fig.add_trace(go.Scatter(x=x,
                         y=x**2,
                         name='f(x)=x<sup>2</sup>', #HTML в подписях
                         mode='lines+markers'),
                         1, #Координаты на фигуре, указывающие к какому графику принадлежат
                         2
                        )
fig.add_trace(go.Scatter(x=x,
                         y=x,
                         name='g(x)=x', #Метод графика с плавной линией
                         mode='markers'),
              1,
              2
             )

fig.add_trace(go.Scatter(visible='legendonly', #Невидимый режим, показывается только при клике на легенду
                         x=x,
                         y=h(x),
                         name='x=sin(x)'),
                         2,
                         2                         
                        )
fig.add_trace(go.Scatter(visible='legendonly',
                         x=x,
                         y=k(x),
                         name='x=cos(x)'),
                         2,
                         2                        
                        )
fig.add_trace(go.Scatter(visible='legendonly',
                         x=x,
                         y=m(x),
                         name='x=tan(x)'),              
                         1,
                         1                        
                        )
fig.update_layout(legend_orientation='h', #Смещение легенды под график
                  margin=dict(l=0, r=0, t=30, b=0), #Убрать отступы вокруг графика
                  legend=dict(x=.5, xanchor="center"), #Смещение легенды по центру
                  hovermode='x', #Показывает одновременно все значения Y для точки Х
                  title='Заголовок',
                  xaxis_title='ось Х',
                  yaxis_title='ось Y'
                 )
fig.update_traces(hoverinfo='all', #Отображается значение подписи на курсоре. Например 'x+y'
                  hovertemplate='Аргумент: %{x}<br>Функция: %{y}'
                 )
fig.update_xaxes(title='Ось Х графика 1', col=1, row=1)
fig.update_yaxes(title='Ось Y графика 1', col=1, row=1)
fig.update_xaxes(title='Ось Х графика 2', col=2, row=1)
fig.update_yaxes(title='Ось Y графика 2', col=2, row=1)
fig.update_xaxes(title='Ось Х графика 3', col=2, row=2)
fig.update_yaxes(title='Ось Y графика 3', col=2, row=2)

fig.show()

In [7]:
fig = go.Figure() #создаем фигуру
fig.add_trace(go.Scatter(x=x,
                         y=x**2,
                         name='f(x)=x<sup>2</sup>', #HTML в подписях
                         mode='lines+markers',
                         marker=dict(color=h(x), #Словарь, в котором столько же цветов, сколько точек
                                     colorbar=dict(title="h(x)=sin(x)"), #Боковая полоса. Цвета те же что у точек
                                     colorscale='Inferno', #Стиль цветовой гаммы
                                     size=30*abs(h(x))) #стиль маркера  
                        ))

frames=[] #Словарь, куда будут откладываться все фреймы для анимированного показа
for i in range(1, len(x)): #Циклом создаем нужные фреймы
    frames.append(go.Frame(data=[go.Scatter(x=x[:i+1], y=f(x[:i+1]), marker=dict(color=h(x[:i+1]), size=50*abs(h(x[:i+1]))))]))
    
fig.frames = frames #Атрибут для создания анимированной фигуры

fig.update_layout(legend_orientation='h', #Смещение легенды под график
                  margin=dict(l=0, r=0, t=30, b=0), #Убрать отступы вокруг графика
                  legend=dict(x=.5, xanchor="center"), #Смещение легенды по центру                  
                  updatemenus=[dict(type="buttons", #Задаем кнопки Старт, Пауза анимации
                                    buttons=[dict(label="►",
                                                  method="animate",
                                                  args=[None,
                                                        {"fromcurrent": True}]),
                                             dict(label="❚❚",
                                                  method="animate",
                                                  args=[[None],
                                                        {"frame": {"duration": 0, "redraw": False},
                                                         "mode": "immediate",
                                                         "transition": {"duration": 0}}])])]
                 )
fig.update_traces(hoverinfo='all', #Отображается значение подписи на курсоре. Например 'x+y'
                  hovertemplate='Аргумент: %{x}<br>Функция: %{y}'
                 )
fig.show()