# Пример работы с данными опроса
Для работы с таблицами мы будем использовать библиотеку Pandas.

In [3]:
import pandas as pd

Посмотрим на данные опроса, проведенного на прошлой неделе. Они были экспортированы в формат **.csv** (Comma-Separated Values). Документ .csv, как можно догадаться из расшифровки, представляет собой таблицу данных с разделенными запятыми компонентами. 

In [4]:
data = pd.read_csv("responses.csv")
type(data)

pandas.core.frame.DataFrame

Посмотрим на первые 3 анкеты:

In [6]:
data.head(3)

Unnamed: 0,Timestamp,Фамилия Имя Отчество,E-mail адрес,Роль на курсе,Пол,Группа,Дата рождения,GPA (Средний балл),Родной город,Имели опыт анализа данных до курса?,...,Сколько параметров имеет нормальное распределение?,"Какой статистический критерий примените для проверки различия между двумя связанными выборками, в случае, если нельзя сделать предположение о виде распределения выборки?",Сколько листьев имеет полное двоичное дерево высоты 3?,"Характеризуйте тремя предложениями, почему решили пойти на курс?",Какими социальными сетями пользуетесь?,Ссылка на личный вебсайт,Ссылка на профиль в LinkedIn,Ссылка на страницу в Facebook,Согласие на обработку данных,Факультет
0,1/11/2016 21:16:50,Шестаков Андрей Владимирович,shestakoffandrey@gmail.com,Семинарист,мужской,ИАД-3,5/17/1991,7.0,"г. Бор, Нижегородская область",да,...,2.0,Критерий знаковых рангов Уилкоксона,8,For. The. Science!,"Facebook, VK.com (ВКонтакте), LinkedIn, Github...",,,,Я заполнил форму полностью и даю согласие на о...,Компьютерных Наук
1,1/11/2016 22:13:51,Кашницкий Юрий Савельевич,yury.kashnitsky@gmail.com,Семинарист,мужской,аспирант 3 года,11/1/1990,4.53,Москва,да,...,2.0,Критерий знаковых рангов Уилкоксона,8,Хочу получить опыт преподавания не только Pyth...,"Facebook, VK.com (ВКонтакте), LinkedIn, Github",http://www.hse.ru/staff/ykashnitsky,https://www.linkedin.com/profile/view?id=19224...,https://www.facebook.com/festline,Я заполнил форму полностью и даю согласие на о...,Факультет Компьютерных Наук
2,1/12/2016 9:28:50,Захарова Елена Сергеевна,1583253@gmail.com,Студент,женский,20,11/19/1996,,Москва,нет,...,,Не знаю,"Не знаю, что такое двоичное дерево",Полезно. Для. Основной специальности.,"VK.com (ВКонтакте), Instagram",,,,Я заполнил форму полностью и даю согласие на о...,Гуманитарных наук/Лингвистика


In [5]:
data.columns

Index(['Timestamp', 'Фамилия Имя Отчество', 'E-mail адрес', 'Роль на курсе',
       'Пол', 'Группа', 'Дата рождения', 'GPA (Средний балл)', 'Родной город',
       'Имели опыт анализа данных до курса?',
       'Есть ли у вас научные публикации / доклады?',
       'Есть ли у вас публикации в ненаучных изданиях (журналы, тематические блоги и т.д.)? Перечислите издания через запятую.',
       'Какой ваш уровень владения английским языком?',
       'Как называется изучаемый на курсе предмет по-английски?',
       'Какими языками программирования владеете?', 'Сколько будет 2+2?',
       'После удержания налога на доходы Мария Константиновна получила 16530 рублей. Сколько рублей составляет заработная плата Марии Константиновны?',
       'Сколько параметров имеет нормальное распределение?',
       'Какой статистический критерий примените для проверки различия между двумя связанными выборками, в случае, если нельзя сделать предположение о виде распределения выборки?',
       'Сколько листьев им

In [None]:
data.shape

In [None]:
data.index = data["Фамилия Имя Отчество"]
data.ix["Соколов Евгений Андреевич"]

In [None]:
data['Timespamp']
data.Timestamp
type(data.Timestamp)

Построим простую гистрограмму:

In [None]:
%matplotlib inline
GPA = data['GPA (Средний балл)']
GPA.hist();
GPA.mean(), GPA.std()

## Индексация!

In [None]:
fixed_GPA_data = data[(data['GPA (Средний балл)'] <= 10) & (data['GPA (Средний балл)'] > 0)]
unusual_GPA_data = data[(data['GPA (Средний балл)'] > 10) | (data['GPA (Средний балл)'] < 3)]
fixed_GPA_data['GPA (Средний балл)'].hist()
fixed_GPA_data['GPA (Средний балл)'].mean(), fixed_GPA_data['GPA (Средний балл)'].var()

In [None]:
fixed_GPA_data['GPA (Средний балл)'].plot()

In [None]:
data["Сколько будет 2+2?"].unique()

## Незаполненные данные

In [None]:
data.dropna(subset = ['Ссылка на личный вебсайт'])

##Преобразование столбцов

Для "причесывания" данных оказывается незаменим метод map()

In [None]:
print(data.Timestamp.map.__doc__)

Воспользуемся ответам на вопрос о налогообложении для примера

In [None]:
data = data.rename(columns = {"После удержания налога на доходы Мария Константиновна получила 16530 рублей. Сколько рублей составляет заработная плата Марии Константиновны?" : "tax_question"})

Изначально ответы были таковы:

In [None]:
data.tax_question.unique()

Пример с функцией:

In [None]:
def clean(string):
    try:
        return float(string)
    except:
        return None

data.tax_question = data.tax_question.map(clean)
data.tax_question

Пример со словарём:

In [None]:
data["Сколько будет 2+2?"].unique()

In [None]:
dict = {'4' : 'Ответил', 
        '100' : 'Не ответил',
        '5' : 'Не ответил', 
        'ровно 4' : 'Ответил', 
        '22' : 'Не ответил', 
        'зависит от системы счисления ' : 'Не ответил', 
        '44' : 'Не ответил'}
data["Сколько будет 2+2?"].map(dict)

Для работы со временем может пригодиться тип [**datetime**](https://docs.python.org/3/library/datetime.html)

In [None]:
from datetime import datetime

data["Timestamp"].map(lambda t: datetime.strptime(t, "%m/%d/%Y %H:%M:%S").date())

В конце-концов сохранять Dataframe можно так:

In [None]:
data.to_csv("transformed_data.csv")

#Задания для практики

1. Выписать e-mail людей, правильно ответивших на вопрос о статистических критериях
2. Найти всех своих тёзок на курсе
3. Построить гистограмму для ответов о количестве параметров нормального распределения. Распределены ли ответы нормально?
4. Выписать средний балл студентов в зависимости от уровня владения английским языком (можно воспользоваться методом groupby())
5. Составить список всех людей с ФКН, которые правильно ответили на вопрос о количестве вершин в двоичном дереве. Выписать указанные ими профили в facebook.
6. Известно, что с достаточно большой вероятностью среди 40 людей найдется пара человек, у которых совпадает день рождения. Есть ли такие на курсе? 