### Описание задания:
В итоговой работе предлагается решить задачу классификации. В датасете находится информация о флаге и базовых показателях страны. На основе доступной информации решается задача классификации стран по религии. Целевой признак мультиклассовый – religion. Остальные признаки описывают характерные черты флага и самой страны. 

### Этапы работы:

1) Получите данные и загрузите их в рабочую среду. 

2) Проведите первичный разведочный анализ данных.
**a)** Проверьте данные на пропуски.
**b)** Постройте 1-2 графика на выбор. Визуализация должна быть основана на исследуемых данных и быть полезной (из графика можно сделать вывод об особенностях датасета/класса/признака).
**c)** Визуализируйте распределение количества флагов по религиям.

3) Разделите выборку на обучающее и тестовое подмножество. 80% данных оставить на обучающее множество, 20% на тестовое.

4) Обучите любую модель классификации на выбор.

5) Для тестового множества сделайте предсказание целевой переменной. Выведите метрики модели с помощью metrics.classification_report. Можно использовать любой другой альтернативный метод подсчета метрик.

6) Посчитайте и выведите корреляционную матрицу. Убедитесь, что ячейки матрицы поделены на цветные категории, в ячейках указано числовое значение корреляции.
**a)** Сделайте выводы.

7) Обработайте выбросы в данных.
**a)** Визуализируйте распределение значений для каждой переменной. Можно использовать функции sns.boxplot, sns.distplot.
**b)** Исследуйте признаки на выбросы. Удалите выбросы, если они были найдены/вы считаете это необходимым.

8) Проведите нормализацию признаков.
**a)** Выберите признаки для нормализации, предложите способы для их обработки.

9) Повторите п. 4, п. 5.

10) Сбалансируйте классы путем oversampling/undersampling.
**a)** Повторите п. 4, п. 5.

11) Уменьшите размерность пространства признаков.
**a)** Повторите п. 4, п. 5.

12) Примените любой метод на ваше усмотрение для отбора признаков.
**a)** Повторите п. 4, п. 5. Укажите количество выбранных признаков.

13) Оптимизируйте параметры модели из п. 4.
**a)** Повторите п. 4, п. 5.

14) Обучите стекинг трех моделей, включая модель с оптимизированными параметрами.

15) Выберите результат с лучшими метриками и постройте для него Confusion Matrix.

16) *Творческий пункт. Предложите что-то интересное для датасета.

17) Сделайте выводы.

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

In [16]:
with open('flag.names', 'r') as plt:
    lines = [line.rstrip('\n') for line in plt]
    print(*lines, sep='\n')

1. TItle: Flag database

2. Source Information
   -- Creators: Collected primarily from the "Collins Gem Guide to Flags":
      Collins Publishers (1986).
   -- Donor: Richard S. Forsyth 
             8 Grosvenor Avenue
             Mapperley Park
             Nottingham NG3 5DX
             0602-621676
   -- Date: 5/15/1990

3. Past Usage:
   -- None known other than what is shown in Forsyth's PC/BEAGLE User's Guide.

4. Relevant Information:
   -- This data file contains details of various nations and their flags.
      In this file the fields are separated by spaces (not commas).  With
      this data you can try things like predicting the religion of a country
      from its size and the colours in its flag.  
   -- 10 attributes are numeric-valued.  The remainder are either Boolean-
      or nominal-valued.

5. Number of Instances: 194

6. Number of attributes: 30 (overall)

7. Attribute Information:
   1. name	Name of the country concerned
   2. landmass	1=N.America, 2=S.America,

In [18]:
header = [
    'name',
    'landmass',
    'zone',
    'area',
    'population',
    'language',
    'religion',
    'bars',
    'stripes',
    'colours',
    'red',
    'green',
    'blue',
    'gold',
    'white',
    'black',
    'orange',
    'mainhue',
    'circles',
    'crosses',
    'saltires',
    'quarters',
    'sunstars',
    'crescent',
    'triangle',
    'icon',
    'animate',
    'text',
    'topleft',
    'botright',
]
len(header)

30

In [20]:
data = pd.read_csv('flag.data', names=header, sep=',')
data.head()

Unnamed: 0,name,landmass,zone,area,population,language,religion,bars,stripes,colours,...,saltires,quarters,sunstars,crescent,triangle,icon,animate,text,topleft,botright
0,Afghanistan,5,1,648,16,10,2,0,3,5,...,0,0,1,0,0,1,0,0,black,green
1,Albania,3,1,29,3,6,6,0,0,3,...,0,0,1,0,0,0,1,0,red,red
2,Algeria,4,1,2388,20,8,2,2,0,3,...,0,0,1,1,0,0,0,0,green,white
3,American-Samoa,6,3,0,0,1,1,0,0,5,...,0,0,0,0,1,1,1,0,blue,red
4,Andorra,3,1,0,0,6,0,3,0,3,...,0,0,0,0,0,0,0,0,blue,red


In [21]:
data.duplicated().sum()

0

In [22]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 194 entries, 0 to 193
Data columns (total 30 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   name        194 non-null    object
 1   landmass    194 non-null    int64 
 2   zone        194 non-null    int64 
 3   area        194 non-null    int64 
 4   population  194 non-null    int64 
 5   language    194 non-null    int64 
 6   religion    194 non-null    int64 
 7   bars        194 non-null    int64 
 8   stripes     194 non-null    int64 
 9   colours     194 non-null    int64 
 10  red         194 non-null    int64 
 11  green       194 non-null    int64 
 12  blue        194 non-null    int64 
 13  gold        194 non-null    int64 
 14  white       194 non-null    int64 
 15  black       194 non-null    int64 
 16  orange      194 non-null    int64 
 17  mainhue     194 non-null    object
 18  circles     194 non-null    int64 
 19  crosses     194 non-null    int64 
 20  saltires  