# Обнаружению присутствия людей в помещении

## Текстовое описание выбранного набора данных

В качестве набора данных мы будем использовать набор данных по обнаружению присутствия людей в помещении - [Occupancy Detection Data Set](https://archive.ics.uci.edu/ml/datasets/Occupancy+Detection+).

Эта задача является очень актуальной для создания "умных зданий", которые выполняют все требования по кондиционированию воздуха, температурным условиям, но при этом экономят электроэнергию в том случае, если людей в помещении нет.

Датасет состоит из трех файлов:

* `datatraining.txt` - обучающая выборка (в этом примере используется только данный файл)
* `datatest.txt` - тестовая выборка
* `datatest2.txt` - тестовая выборка большего размера

Каждый файл содержит следующие колонки:

* `date` - дата-время в формате `ГОД-МЕСЯЦ-ДЕНЬ ЧАСЫ:МИНУТЫ:СЕКУНДЫ`. Набор данных содержит данные с интервалом измерения в минуту.
* `Temperature` - температура в градусах Цельсия.
* `Humidity` - относительная влажность в %.
* `Light` - освещенность в Люксах.
* `CO2` - концентрация углекислого газа в миллионных долях.
* `HumidityRatio` - величина, производная от температуры и относительной влажности.
* `Occupancy` - целевой признак. Если в помещении находятся люди то `1`, иначе `0`.

## Загрузка git-репозитория в текущее окружение

In [None]:
%cd /content/
!mkdir gitrepos
%cd /content/gitrepos/
!git clone https://github.com/anondigriz/inginirium-course-ai

In [None]:
!ls '/content/gitrepos/inginirium-course-ai/src/05-02-2022/datasets/Occupancy Detection Data Set' -l

## Загрузка датасета

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# 'Магическая' функция matplotlib
%matplotlib inline 

# Есть пять предустановленная тем Seaborn: darkgrid, whitegrid, dark, white, 
# и ticks. Каждый из них подходит для различных приложений и личных предпочтений.
sns.set(style="ticks")

In [None]:
# Если запуск блокнота не в Google Colab, то указать здесь папку, в которой располагается загруженный датасет
CURENT_DIR = '/content/gitrepos/inginirium-course-ai/src/05-02-2022/datasets/Occupancy Detection Data Set'

In [None]:
# загрузка данных из txt
data = pd.read_csv(CURENT_DIR+'/datatraining.txt', sep=',')

# изучение типа объекта, создаваемого функцией pd.read_csv
print(type(data))

# вывод первых 5 строк из датасета
data.head()

## Исследование основных характеристик датасета

### Исследование внешних признаков датасета

In [None]:
data.dtypes

In [None]:
data.shape

In [None]:
data.isna().sum()

In [None]:
data.head()

Преобразуем к нужному типу колонку `date`:

In [None]:
data['date'] =  pd.to_datetime(data['date'])
data.dtypes