### <center>Курс: "Введение в анализ данных (1 семестр)"</center>

# <center>Группа 8</center>

<center><b>Состав группы:</b> Белялова Мария, Лопаткин Владимир, Постников Михаил</center>

## <center>Задание:</center>

Цель работы определить о чем датасет + найти в нем что-то интересное.

Исследование должно быть выполнено по методологии cхожей с CRISP-DM. А именно, обязательно должны быть фазы:
- 1) Определение задач и целей исследования
- 2) Понимание данных (аналогично CRISP-DM) (в том числе визуализация данных)
- 3) Подготовка данных (аналогично CRISP-DM)
- 4) Непосредственно исследование. А именно, проверка гепотез, визуализация результатов и т.д.
- 5) Подведение итогов исследования.

Фаза "Понимание данных" должна быть выполнена в соответствии с протоколом разведочного анализа данных http://iis4.nateko.lu.se/courses/ngem01/ZuurEtAl_2010_Stistics.pdf (но, без фанатизма, с учетом имеющихся датасетов).

Работа должна разделяться на разделы в соответствии с методологией.

- За часть связанной с <b>обработкой и разведочным анализом данных (а именно с построением графиков, показывающих структуру, раскрывающих ключивые моменты и ставящих задачи для дальнейшего анализа)</b> можно заработать 20 баллов, при условии, что <b>будут использоваться не менее 5 типов графиков (в том числе один связанный с нанесением данных на карту)</b>. Общего кол-ва графиков должно быть достаточно для того, чтобы понять структуру данных (но не меньше, чем по 4-5 графика на человека в группе).


- За <b>выдвижение и проверку различных статистических гипотез</b> на основе данных можно заработать еще 10 баллов. Гипотезы должны быть разных типов (простая VS простая, простая VS сложная, сложная VS сложная). Кроме того, нужно будет <b>использовать как минимум 1-2 статистических критерия</b>.

 <b>Достаточно будет сделать проверку 2-х гипотез (на группу)</b>:
  - в качестве простой - тест на проверку значения какой-либо оценки
  - в качестве сложной (критерий согласия/тест на равенство параметров в выборочных совокупностях):
   - использован критерий согласия для проверки гипотезы о виде распределения;
   - проверена гипотеза о равенстве параметров в различных совокупностях.
  

- За <b>анализ временного ряда</b> (1-3 на группу) можно будет получить еще 10 баллов. Под анализом понимается: <b>обнаружения тренда, сезонности в данных. Формирования прогноза и построение доверительных интерваллов для него</b>.

$$[---------------------------------------------]$$

Для дополнительного изучения анализа временных рядов рекомендуется курс лекций "Анализ временных рядов" Канторовича Г.Г.

## <center>Вариант задания - 4</center>

4. Агрегированная информация по сделкам с недвижимостью в городе New York https://nycopendata.socrata.com/data?agency=Department+of+Finance+%28DOF%29&cat=housing%20%26%20development&type=datasets&browseSearch=&scope=

Данные:
- Cooperative and Condominium comparable rental inclome.
- Queens, Manhattan, Bronx, Brooklyn, Staten Island
- 2008-2012 years

Информация о датасетах:

- Condominiums and cooperatives are valued as if they were residential rental apartments. Income information from similar rental properties is applied to determine value. 
The Department of Finance (DOF) chooses similar properties to value condos and coops. Properties are selected based on a combination of factors such as: <b>land location, income levels, building age and construction and exemptions and subsidies</b>.

# <center>Решение</center>

## Подключение библиотек

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import os

In [2]:
%matplotlib inline

In [3]:
plt.style.use('ggplot')

## Реализация функций

## Основной блок

#### Глобальные переменные

In [4]:
datasetsPath = "./Datasets"
years = range(2008, 2013)
cooperativePath = "/".join([datasetsPath, "Cooperative"])
condiminiumPath = "/".join([datasetsPath, "Condominium"])

#### http://www.machinelearning.ru/wiki/index.php?title=CRISP-DM

### 1) Определение задач и целей исследования

Первая фаза процесса направлена на определение целей проекта. Затем эти знания конвертируются в постановку задачи интеллектуального анализа данных и предварительный план достижения целей проекта.

- Определить цели
- Оценить ситуацию
- Определить цели анализа данных
- Составить план проекта

### 2) Понимание данных (в том числе визуализация данных)

Вторая фаза начинается со сбора данных и ставит целью познакомиться с данными как можно ближе. Для этого необходимо выявить проблемы с качеством данных такие как ошибки или пропуски, понять что за данные имеются в наличии, попробовать отыскать интересные наборы данных или сформировать гипотезы о наличии скрытых закономерностей в данных.
- Собрать исходные данные (загрузить в датафреймы)
- Описать данные (значения тех или иных переменных)
- Исследовать данные (посмотреть распределения)
- Проверить качество данных (значения NULL, все ли правильно внесены, нет ли некорректных данных, столбцы объединить)

#### http://iis4.nateko.lu.se/courses/ngem01/ZuurEtAl_2010_Stistics.pdf

Сначала загрузим <b>Cooperative</b> датасеты

In [5]:
cooperativeDF = {}
for year in years[:-1]:
    folderName = "%d_%d" % (year, year+1)
    cooperativePathByYears = '/'.join([cooperativePath, folderName])
    for filename in os.listdir(cooperativePathByYears):
        district = filename[filename.find("___")+3:]
        district = district[:district.find("__")]
        df = pd.read_csv('/'.join([cooperativePathByYears, filename]))
        df['Year'] = year
        if cooperativeDF.has_key(district):
            cooperativeDF[district] = pd.concat([cooperativeDF[district], df])
        else:
            cooperativeDF[district] = df

In [6]:
cooperativeDF.keys()

['Bronx', 'Staten_Island', 'Brooklyn', 'Manhattan', 'Queens']

### 3) Подготовка данных

Фаза подготовки данных ставит целью получить итоговый набор данных, которые будут использоваться при моделировании, из исходных разнородных и разноформатных данных. Задачи подготовки данных могут выполняться много раз без какого-либо наперед заданного порядка. Они включают в себя отбор таблиц, записей и атрибутов, а также конвертацию и очистку данных для моделирования.
- Отобрать данные (удалить ненужные столбцы)
- Очистить данные (избавиться от неопределенных значений)
- Сделать производные данные (дополнительные столбцы, вычисления)
- Объединить данные (если необходимо)
- Привести данные в нужный формат (числа в числа, строки в строки, получить хороший датафрейм)

### 4) Непосредственно исследование. А именно, проверка гепотез, визуализация результатов и т.д.

В этой фазе к данным применяются разнообразные методики моделирования, строятся модели и их параметры настраиваются на оптимальные значения. Обычно для решения любой задачи анализа данных существует несколько различных подходов. Некоторые подходы накладывают особые требования на представление данных. Таким образом часто бывает нужен возврат на шаг назад к фазе подготовки данных.
- Выбрать методику моделирования
- Сделать тесты для модели
- Построить модель
- Оценить модель

### 5) Подведение итогов исследования.

На этом этапе проекта уже построена модель и получены количественные оценки её качества. Перед тем, как внедрять эту модель, необходимо убедиться, что мы достигли всех поставленных бизнес-целей. Основной целью этапа является поиск важных бизнес-задач, которым не было уделено должного внимания.
- Оценить результаты
- Сделать ревью процесса