# Peer-graded Assignment: Описательный анализ данных

Часто при работе с пользовательскими данными приходится сталкиваться с тем, что данные предоставляются для работы без описания. При этом не известно, что содержательно представляют собой те или иные признаки, а известны лишь их типы: числовые, категориальные, номинальные переменные. Такие ситуации - не редкость при работе с «чувствительными» данными, например, в сфере банковской аналитики, HR-аналитики, сфере телекоммуникаций, страхования, здравоохранения, недвижимости или ритейла. Тем не менее, с такими данным нужно уметь работать, и нужно уметь проводить на них классические этапы анализа, в частности описательный анализ данных и визуализацию. Именно этим мы займемся на первой неделе.


В этом задании мы потренируемся делать описательный анализ и визуализацию так называемых «закрытых» данных - данных, которые предоставляются для анализа и построения моделей без описания. Выборка, с которой мы будем работать прилагается.

* Метки классов (здесь `1` соответствует классу `отток`, `-1` - классу `не отток`) – `orange_small_churn_labels.train`
* Данные (предоставлены без описания, однако известно, что первые 190 переменных являются числовыми, а оставшиеся 40 - категориальными) – `orange_small_churn_data.train`

Скачайте эти файлы [на странице задания](https://www.coursera.org/learn/data-analysis-project/peer/roSOe/opisatiel-nyi-analiz-dannykh) и переходите к выполнению задачи! Результатом выполнения задания является jupyter notebook. Перед отправкой результата убедитесь, что вы выполнили все пункты из задания и это можно понять из вашего notebook'а. Проверьте, что код написан понятно и аккуратно - это поможет вашим сокурсником лучше понять, что вы сделали, и оценить вашу работу.

## Инструкции

1\. Загрузите данные `orange_small_churn_data.train` и `orange_small_churn_labels.train`

In [2]:
import pandas as pd
data = pd.read_csv('orange_small_churn_data.train',sep = ',')
labels = pd.read_csv('orange_small_churn_labels.train',sep = ',', names=['label'])

In [3]:
data.head()

Unnamed: 0,Var1,Var2,Var3,Var4,Var5,Var6,Var7,Var8,Var9,Var10,...,Var221,Var222,Var223,Var224,Var225,Var226,Var227,Var228,Var229,Var230
0,,,,,,3052.0,,,,,...,Al6ZaUT,vr93T2a,LM8l689qOp,,,fKCe,02N6s8f,xwM2aC7IdeMC0,,
1,,,,,,1813.0,7.0,,,,...,oslk,6hQ9lNX,LM8l689qOp,,ELof,xb3V,RAYp,55YFVY9,mj86,
2,,,,,,1953.0,7.0,,,,...,zCkv,catzS2D,LM8l689qOp,,,FSa2,ZI9m,ib5G6X1eUxUn6,mj86,
3,,,,,,1533.0,7.0,,,,...,oslk,e4lqvY0,LM8l689qOp,,,xb3V,RAYp,F2FyR07IdsN7I,,
4,,,,,,686.0,7.0,,,,...,oslk,MAz3HNj,LM8l689qOp,,,WqMG,RAYp,F2FyR07IdsN7I,,


In [4]:
labels.head()

Unnamed: 0,label
0,-1
1,-1
2,-1
3,1
4,-1


In [5]:
labels.shape

(40000, 1)

2\. Рассчитайте доли классов `отток` и `не отток`.

In [6]:
print labels["label"].value_counts()/labels.shape[0]

-1    0.9256
 1    0.0744
Name: label, dtype: float64


3\. Рассчитайте корреляции переменных с целевой функцией и проанализируйте полученные данные.

Обратите внимание на то, что целевая функция предсталвляет собой бинарную переменную. Теоретически, это не помешает рассчиать, например, корреляцию Пирсона между непрерывной переменной и целевой функцией, онднако анализиоовать полученные результаты будет сложно, корреляция Пирсона просто не рассчитана на такое применение. Кто уже забыл, как действовать в такой ситуации - вспоминить можно вот здесь: https://www.coursera.org/teach/stats-for-data-analysis/content/edit/lecture/prX3S/video-subtitles 

In [7]:
ind_churn = [labels.index[i] for i in range(labels.shape[0]) if labels.label[i]==1]
ind_non_churn = [labels.index[i] for i in range(labels.shape[0]) if labels.label[i]==-1]

In [25]:
data.shape
print data.columns

Index([u'Var1', u'Var2', u'Var3', u'Var4', u'Var5', u'Var6', u'Var7', u'Var8',
       u'Var9', u'Var10',
       ...
       u'Var221', u'Var222', u'Var223', u'Var224', u'Var225', u'Var226',
       u'Var227', u'Var228', u'Var229', u'Var230'],
      dtype='object', length=230)


In [22]:
data_churn = data.ix[ind_churn]
data_non_churn = data.ix[ind_non_churn]

In [44]:
# Считаем корреляции непрерывных переменных с бинарной целевой
import numpy as np
corr_array = np.zeros((2,190))

for i, col in enumerate(data.columns):
    if i<190:
        corr_array[0][i] = i+1
        corr_array[1][i] = data_churn[col].mean()-data_non_churn[col].mean()

In [63]:
s_corr_array = corr_array[:, np.argsort(corr_array[1, :])]

In [71]:
s_corr_array[0, -20:]

array([ 177.,   53.,   69.,  131.,   15.,   79.,  141.,  185.,    8.,
         31.,  169.,   55.,   20.,   52.,  167.,   48.,  175.,   39.,
         42.,   32.])

In [89]:
Top_vars = ['Var'+str(int(s_corr_array[0,-i-1])) for i in range(20)]

4\. Визуализируйте данные: рассмотрите топ 20 числовых переменных, наиболее сильно коррелирующих с целевой функцией. Для этих переменных постройте:
* Распределения в разрезе классов
* Отобразите объекты в координатах пар признаков

5\. Проделайте аналогичные шаги для случайно выбранных 10 числовых признаков.

6\. Проделайте аналогичные шаги для 10 числовых признаков, наименее сильно коррелирующих с целевой переменной.

7\. Посмотрите на категориальные переменные: постройте и сравните гистограммы значений категориальных переменных для разных классов.

8\. Проанализируйте полученные результаты:
* Какие выводы вы можете сделать? Заметили ли вы какие-нибудь интересные закономерности?
* На основании полученных изображений и таблиц, предположите, какие переменные окажут наибольшее влияние (вклад) в модель?
* Какие переменные на ваш взгляд окажутся наименее полезными, шумовыми?
* Как вы думаете, окажется ли отбор признаков полезным для построения модели?