# Что мы сегодня узнаем?

- узнаем об основных классах задач в машинном обучении
- разберем, какие инструменты используются для решения таких задач на практике
- поработаем с numpy и pandas
- попрактикуемся анализировать данные сами

## 1 Постановки основных классов задач в машинном обучении

* **Обучение с учителем (supervised learning)**
    * Дана обучающая выборка $(X,y)$, требуется для новых $X$ предсказать $y$
    * Примеры
        * **Задачи классификации**
            1. Автоматическое определение пола по фотографии
            2. Генерация текста
            3. Машинный перевод
            
        * **Задачи регрессии**
            1. Синтез речи
            2. Предсказание возраста человека по его поведению в интернете
            3. Генерация котиков
---

* **Обучение без учителя (unsupervised learning)**
    * Даны только $X$, чаще всего требуется как-то сгруппировать объекты на основе их схожести
    * Примеры
        * **Кластеризация**
            * Выделить группы пользователей приложения
        * Уменьшение размерности
---

* **Частичное обучение (semi-supervised learning)**
    * Даны $X$ и для некоторых из них даны $y$
    * Примеры
        * Рекомендательные системы
---

* **Обучение с подкреплением (reinforcement learning)**
    * Необходимо найти стратегию поведения, которая максимизирует выигрыш в долгосрочной перспективе в заданной среде.
    * Примеры
        * Обучение роботов передвижению предметов
        * AlphaGo, AlphaGo Zero
        * Прохождение игр агентами

## 2. Введение в python, numpy, pandas, matplotlib

In [None]:
# Так мы подключаем библиотеки, которые хотим использовать
# После служебного слова `as` указываем как будем называть этот модуль в коде
# Это как `import Мария as Маша` потому что Машу мы чаще называем Маша для краткости:)

import pandas as pd # Для работы с табличками данных
import numpy as np # Для работы с числовыми векторами и матрицами

In [None]:
from matplotlib import pyplot as plt # Для рисования всего
# Чтобы все рисовалось в ноутбуке, а не в отдельном окне
%matplotlib inline

# Numpy

In [None]:
vec = np.array([[1, 2], [3, 4], [5, 6]])
vec

In [None]:
# размер массива
vec.shape

**Индексация массива**

In [None]:
vec[:, 1]

In [None]:
vec[2, :]

In [None]:
vec[1:2, 0]

**Индексация массива с помощью булевых выражений**

In [None]:
vec % 2 == 0

In [None]:
vec[vec % 2 == 0]

### Задание 1

1.1 Выведите все первые элементы у каждой строчки массива vec с помощью индексирования

In [None]:
# твой код тут # (つ▀¯▀)つ

1.2 Выведите все элементы массива, которые больше 3

In [None]:
# твой код тут # (つ▀¯▀)つ

**Арифметические операции**

In [None]:
vec + 1

In [None]:
vec * 2

In [None]:
vec ** 2

In [None]:
vec + vec ** 2

In [None]:
vec * vec ** 2

In [None]:
np.sin(vec)

In [None]:
# e^(x)
np.exp(vec)

In [None]:
np.log(vec)

**Статистики**

In [None]:
np.max(vec), np.min(vec)

In [None]:
# среднее арифметическое
np.mean(vec)

**Генерация значений матриц и векторов**

In [None]:
np.zeros(3)

In [None]:
np.ones(3)

In [None]:
# делит интервал от start до stop на равные части и возвращает нужное число точек
np.linspace(start=0, stop=10, num=5)

In [None]:
# А вот и ПИ!
np.pi

In [None]:
# И экспонента тут тоже есть
np.e

**Визуализация с matplotlib**

## Тип графика №1 - plot

In [None]:
# генерируем данные
x = np.linspace(0, 4*np.pi, num=100)
y1 = np.sin(x)
y2 = 2*np.sin(x)

# строим график
plt.plot(x, y1, label='sin(x)')
plt.plot(x, y2, label='2*sin(x)')
plt.legend()
plt.show()

### Задание 2

Постройте и нарисуйте функцию:

**Butterfly curve**

$$x = \sin(t) \left(e^{\cos(t)} - 2\cos(4t) - \sin^5\left({t \over 12}\right)\right)$$
$${\displaystyle y=\cos(t)\left(e^{\cos(t)}-2\cos(4t)-\sin ^{5}\left({t \over 12}\right)\right)} $$
$${\displaystyle 0\leq t\leq 12\pi } $$

In [None]:
t = np.linspace(0, 12*np.pi, num=1000)

# твой код тут, напиши x(t) & y(t) # (つ▀¯▀)つ
x = 
y = 

plt.plot(x,y)
plt.show()

# Исследуем данные (основы pandas)

I'd like to investigate UFO data over the last century to formulate some questions, and gain insight regarding what the answers may be. This can also be a useful notebook on seeing how one may get their brain juices flowing when faced with an unknown dataset.

Without looking at the data, I already have a question I'd like to investigate considering the topic: 
1. Are there any geographic areas where UFO sightings occur more frequently than others?

<img src="https://i.imgur.com/z7Ah2e9.jpg" width=300>


In [None]:
ufo_data = pd.read_csv("./data/ufo.csv")  # Подгружаем данные в переменную ufo_data

In [None]:
# чтобы увидеть первые 5 строк таблицы
ufo_data.head()

Видим, что данные бывают очень разных типов:
 * Дата и время
 * Категориальные данные (country, shape, state, city)
 * Геоданные (latitude, longitute)
 * Числовые данные (duration (seconds))

In [None]:
# Так можно получить названия всех колонок таблицы
ufo_data.columns

In [None]:
# Позволяет быстро оценить распределение для числовых признаков
ufo_data.describe()

In [None]:
# количество записей в таблице, количество признаков для каждой записи
ufo_data.shape

### Основы работы с DataFrame

In [None]:
# Вытащить значения определенного столбца можно так:
ufo_data['city'].values

In [None]:
# Или так
ufo_data.city.values

In [None]:
# Как узнать какие уникальные значения вообще представлены в колонке признака?
ufo_data['shape'].unique()

In [None]:
# Как быстро посчитать распределение значений категориального признака?
result = ufo_data['shape'].value_counts()
result

In [None]:
# В возвращенном объекте в индексе будут лежать сами уникальные значения
result.index

In [None]:
# Здесь будут лежать соответствующие количества
result.values

In [None]:
# Как вытащить часть таблички только с определенным значением категориального признака?
# Принцип тот же, что и при работе с np.array

ufo_data[ufo_data['shape'] == 'round']

Как задать сразу несколько условий?
Можно осуществлять над ними булевы операции типа логического `и` (`&`), `или` (`|`).

Пример:

In [None]:
ufo_data[(ufo_data['shape'] == 'round') & (ufo_data['city'] == 'pomona')]

## Задание №3

Получите табличку, для которой верно следующее:
    * city: `vienna` и `mansfield`
    * duration (seconds) >= 1000

Какие формы НЛО чаще всего встречались в этой табличке?

Ваш ответ 2 слова:)

## Тип графика №2 - histogram

In [None]:
# Можно также рисовать графики с определенным значением признака
# Например, так:
plt.hist(ufo_data['duration (seconds)'].values)
plt.title("Гистограмма распределения\nдлительности НЛО в секундах")
plt.xlabel("Длительность НЛО (в секундах)")
plt.ylabel("Количество НЛО с такой длительностью")

# для логарифмического масштаба по шкале y
# можете проверить что будет, если эту строчку закомментировать
plt.semilogy()
plt.show()

### DateTime

In [None]:
# Приводим дату и время к формату  pandas.datetime, чтобы было удобнее работать
ufo_data['datetime'] = ufo_data.datetime.str.replace('24:00', '00:00')
ufo_data['datetime'] = pd.to_datetime(ufo_data['datetime'], format='%m/%d/%Y %H:%M')

# 1. Как меняется количество НЛО с годами?

In [None]:
ufo_yr = ufo_data['datetime'].dt.year  # так можно достать только год из даты

years_data = ufo_yr.value_counts() # считаем сколько раз каждый год встретился
years_index = years_data.index  # берем уникальные значения чтобы сделать подписи на шкале x
years_values = years_data.values # берем значения подсчета

## Тип графика №3 - bar plot

In [None]:
plt.figure(figsize=(13,4))
plt.xticks(rotation = 60)
plt.title('Распределение количества зафиксированных случаев НЛО по годам')

years_plot = plt.bar(x=years_index, height=years_values, color = "red", )

Данные прерываются на середине 2014 года

# **2. География** - Где зафиксировано больше всего НЛО?


## Тип графика №4 - pie chart

In [None]:
country_sightings = ufo_data.country.value_counts()  # num ufo sightings per country 

colors = ['lightblue','gold','yellowgreen','lightcoral','orange']
country_sightings.plot(kind = 'pie', fontsize = 0, title='UFO Sightings by Country', colors=colors,
                       autopct='%1.1f%%',shadow=True,figsize=(4,4))
plt.legend(labels=['United States','Canada','United Kingdom','Australia'], loc="best")
plt.tight_layout()

In [None]:
country_sightings

## Задание №4

Видимо в представленных данных наибольшее количество НЛО приходится на США.

**4.1** Хочется узнать, какие штаты самые популярные по количеству зафиксированных НЛО.
Постройте подходящую визуализацию для ответа на этот вопрос.

**4.2** Используйте данные о количестве населения в каждом штате, чтобы оценка популярности НЛО в штате была более честной -- нужно построить тот же график что и в первом пункте, но теперь он будет описывать количество случаев НЛО на душу населения.

In [None]:
# 4.1 твой код тут # (つ▀¯▀)つ

In [None]:
# 4.2 

# Данные о популяции населения в каждом штате
statespop = {'al':4872725.,'ak':746079.,'az':7044577.,'ar':2998643.,'ca':39506094.,
            'co':5632271.,'ct':3568174.,'de':960054.,'dc':691963.,'fl':20979964.,
            'ga':10421344.,'hi':1431957.,'id':1713452.,'il':12764031.,'in':6653338.,
            'ia':3147389.,'ks':2907857.,'ky':4449337.,'la':4694372.,'me':1333505.,
            'md':6037911.,'ma':6839318.,'mi':9938885.,'mn':5557469.,'ms':2988062.,
            'mo':6109796.,'mt':1052967.,'ne':1920467.,'nv':2996358,'nh':1339479.,
            'nj':8953517.,'nm':2081702.,'ny':19743395.,'nc':10258390.,'nd':759069.,
            'oh':11623656.,'ok':3939708.,'or':4162296.,'pa':12776550.,'pr':3661538.,
            'ri':1057245.,'sc':5027404.,'sd':872989.,'tn':6707332.,'tx':28295553.,
            'ut':3111802.,'vt':623100.,'va':8456029.,'wa':7415710.,'wv':1821151.,
            'wi':5789525.,'wy':584447.} 
states_pop = pd.Series(statespop)
states_pop[:5]

# **3. Сезонность** - Какой самый популярный месяц для появления НЛО?

In [None]:
m_cts = (ufo_data['datetime'].dt.month.value_counts()).sort_index()
m_ctsx = m_cts.index
m_ctsy = m_cts.get_values()
f, ax = plt.subplots(figsize=(7,3))

# Чтобы были красивые цвета на картиночке можно еще так делать
data_color = [x/max(m_ctsx) for x in m_ctsx]
my_cmap = plt.cm.get_cmap('GnBu')
colors = my_cmap(data_color)


plt.bar(x=m_ctsx, height=m_ctsy, color=colors)
ax.set_title('Количество появление НЛО по месяцам')
ax.set_xlabel('Месяц')
ax.set_ylabel('# НЛО')
plt.xticks(rotation=45)
plt.show()

Лидирует 7-ой месяц, кажется это **июль**;

Возможно это связано с тем, что в это время большая часть населения выбирается на природу?

Можно проанализировать, какова закономерность отдельно для каждого полушария (ведь у нас есть данные о широте!).

<img src="https://i.ytimg.com/vi/LtUb5tha9C0/maxresdefault.jpg" width=400>

## Задание №5

Проанализируйте распределение количества наблюдений НЛО по месяцам отдельно для южного и северного полушария.