# IRIS-Flower-classification

Этот проект представляет собой применение машинного обучения с программированием на Python на примере классификации цветов IRIS с использованием машинного обучения с инструментами scikit.
Здесь используются алгоритмы, которые представляют собой некоторые типы машинного обучения с учителем и без учителя.

[Ирисы Фишера](https://ru.wikipedia.org/wiki/%D0%98%D1%80%D0%B8%D1%81%D1%8B_%D0%A4%D0%B8%D1%88%D0%B5%D1%80%D0%B0) — набор данных для задачи классификации, на примере которого Рональд Фишер в 1936 году продемонстрировал работу разработанного им метода дискриминантного анализа. Иногда его также называют ирисами Андерсона, так как данные были собраны американским ботаником Эдгаром Андерсоном. Этот набор данных стал классическим и часто используется в литературе для иллюстрации работы различных статистических алгоритмов.

Ирисы Фишера состоят из данных о 150 экземплярах ириса, по 50 экземпляров из трёх видов — Ирис щетинистый (Iris setosa), Ирис виргинский (Iris virginica) и Ирис разноцветный (Iris versicolor). Для каждого экземпляра измерялись четыре характеристики (в сантиметрах):

- Длина наружной доли околоцветника (англ. sepal length);
- Ширина наружной доли околоцветника (англ. sepal width);
- Длина внутренней доли околоцветника (англ. petal length);
- Ширина внутренней доли околоцветника (англ. petal width).

На основании этого набора данных требуется построить правило классификации, определяющее вид растения по данным измерений. Это задача многоклассовой классификации, так как имеется три класса — три вида ириса.

Один из классов (Iris setosa) линейно-разделим от двух остальных.

В качестве задания вам предлагается повторить данные действия по классификации для наборов данных (можно выбрать, что больше понравится, но лучше сделать для всех)
- [User Knowledge Modeling Data Set](http://archive.ics.uci.edu/ml/datasets/User+Knowledge+Modeling)
- [Blood Transfusion Service Center Data Set](http://archive.ics.uci.edu/ml/datasets/Blood+Transfusion+Service+Center)
- [Somerville Happiness Survey Data Set](http://archive.ics.uci.edu/ml/datasets/Somerville+Happiness+Survey)
- [Wine Quality Data Set](https://archive.ics.uci.edu/ml/datasets/wine+quality)



In [26]:
# Подключаем библиотеки
import pandas as pd # Работа с набором данных
import numpy as np # Линейная алгебра
# Визуализация данных
import seaborn as sns
import matplotlib.pyplot as plt

# отключение информационных сообщений
from warnings import filterwarnings
filterwarnings(action='ignore')

# разделение выборки
from sklearn.model_selection import train_test_split
#метрики
from sklearn import metrics
#Наивный байесовский классификатор
from sklearn.naive_bayes import GaussianNB

In [None]:
# читаем данные
url = 'https://raw.githubusercontent.com/yakushinav/omo/main/data/iris.csv'
data = pd.read_csv(url)
data.head(5)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [None]:
# Разделим выборку на обучающую и тестовую
train, test = train_test_split(data, test_size = 0.4, stratify = data['species'], random_state = 42)

In [None]:
# Выделим признаки и результат
X_train = train[['sepal_length','sepal_width','petal_length','petal_width']]
y_train = train.species
X_test = test[['sepal_length','sepal_width','petal_length','petal_width']]
y_test = test.species

fn = ['sepal_length','sepal_width','petal_length','petal_width']
cn = data['species'].unique()

# Наивный байесовский классификатор

Пусть все компоненты случайной величины $X=(X_1,\dots,X_d)$ дискретны, т. е. все признаки номинальны


$$
{\rm Pr}\,\{Y = y \mid X = x\} = \frac{{\rm Pr}\,\{X = x\mid Y = y\} \cdot{\rm Pr}\,\{Y = y\}}{{\rm Pr}\,\{X = x\}}
=
$$
$$
=
\frac{{\rm Pr}\,\{X = x\mid Y = y\} \cdot{\rm Pr}\,\{Y = y\}}{\sum_{y'} {\rm Pr}\,\{X = x\mid Y = y'\} \cdot{\rm Pr}\,\{Y = y'\}}
$$


_Основное предположение наивного байесовского классификатора:_

переменные $X_1,\dots, X_d$ _условно независимы_ при любом заданном $Y=y$,
т. е.

$$
{\rm Pr}\,\{X_1=x_1,\dots, X_d=x_d \mid Y=y\} = {\rm Pr}\,\{X_1 = x_1 \mid Y=y\}\cdot\dots\cdot {\rm Pr}\,\{X_d = x_d \mid Y=y\},
$$

или, короче,
$$
{\rm Pr}\,\{X=x \mid Y=y\} = \prod_{j=1}^d {\rm Pr}\,\{X_j = x_j \mid Y=y\}.
$$

По принципу максимума апостериорной вероятности
$$
f(x) = {\rm argmax}_y {\rm Pr}\,\{Y=y\mid X=x\}
= {\rm argmax}_y \left({\rm Pr}\,\{Y=y\}\cdot \prod_{j=1}^d {\rm Pr}\,\{X_j = x_j \mid Y=y\}\right).
$$

Вероятности заменяем частотой:


$$
{\rm Pr}\,\{Y = y\} \approx \frac{1}{N} |\{i:~y^{(i)} = y\}|,
\qquad
{\rm Pr}\,\{X_j = x_j \mid Y = y\} \approx \frac{|\{i:~{x_j^{(i)} = x_j, y^{(i)} = y}\}|}{|\{i:~y^{(i)} = y\}|}.
$$



In [None]:
mod_gnb_all = GaussianNB()
y_pred = mod_gnb_all.fit(X_train, y_train).predict(X_test)

In [None]:
#Выполняем предсказание
y_pred=mod_gnb_all.predict(X_test)

print('accuracy (точность) классификатора ',metrics.accuracy_score(y_pred,y_test))

# матрица ошибок
print("матрица ошибок")
print(metrics.confusion_matrix(y_test, y_pred))

accuracy (точность) классификатора Деревья решений 0.9333333333333333
матрица ошибок
[[20  0  0]
 [ 0 19  1]
 [ 0  3 17]]


In [None]:
# Использование построенной модели для предсказания класса
new_iris=[1.3, 2.4, 5.6, 3.5]
y_new_iris=mod_gnb_all.predict([new_iris])

print(y_new_iris)

['Iris-virginica']


## Набор данных Blood Transfusion Service Center Data Set

In [28]:
raw_url = 'https://raw.githubusercontent.com/setarets/mo2025/main/data/transfusion.data'
data = pd.read_csv(raw_url)
print(data.head(5))

   Recency (months)  Frequency (times)  Monetary (c.c. blood)  Time (months)  \
0                 2                 50                  12500             98   
1                 0                 13                   3250             28   
2                 1                 16                   4000             35   
3                 2                 20                   5000             45   
4                 1                 24                   6000             77   

   whether he/she donated blood in March 2007  
0                                           1  
1                                           1  
2                                           1  
3                                           1  
4                                           0  


In [37]:
train, test = train_test_split(data, test_size = 0.4, stratify = data['whether he/she donated blood in March 2007'], random_state = 42)

In [43]:
X_train = train[['Recency (months)', 'Frequency (times)', 'Monetary (c.c. blood)', 'Time (months)']]
y_train = train['whether he/she donated blood in March 2007']
X_test = test[['Recency (months)', 'Frequency (times)', 'Monetary (c.c. blood)', 'Time (months)']]
y_test = test['whether he/she donated blood in March 2007']


fn = ['Recency (months)','Frequency (times)','Monetary (c.c. blood)','Time (months)']
cn = data['whether he/she donated blood in March 2007'].unique()

In [44]:
mod_gnb_all = GaussianNB()
y_pred = mod_gnb_all.fit(X_train, y_train).predict(X_test)

In [45]:
y_pred=mod_gnb_all.predict(X_test)

print('accuracy (точность) классификатора ',metrics.accuracy_score(y_pred,y_test))

print("матрица ошибок")
print(metrics.confusion_matrix(y_test, y_pred))

accuracy (точность) классификатора  0.76
матрица ошибок
[[212  17]
 [ 55  16]]


In [48]:
new_1=[1.3, 2.4, 5.6, 3.5]
y_new_1=mod_gnb_all.predict([new_1])
print(y_new_1)

[0]
