# IRIS-Flower-classification

Этот проект представляет собой применение машинного обучения с программированием на Python на примере классификации цветов IRIS с использованием машинного обучения с инструментами scikit.
Здесь используются алгоритмы, которые представляют собой некоторые типы машинного обучения с учителем и без учителя.

[Ирисы Фишера](https://ru.wikipedia.org/wiki/%D0%98%D1%80%D0%B8%D1%81%D1%8B_%D0%A4%D0%B8%D1%88%D0%B5%D1%80%D0%B0) — набор данных для задачи классификации, на примере которого Рональд Фишер в 1936 году продемонстрировал работу разработанного им метода дискриминантного анализа. Иногда его также называют ирисами Андерсона, так как данные были собраны американским ботаником Эдгаром Андерсоном. Этот набор данных стал классическим и часто используется в литературе для иллюстрации работы различных статистических алгоритмов.

Ирисы Фишера состоят из данных о 150 экземплярах ириса, по 50 экземпляров из трёх видов — Ирис щетинистый (Iris setosa), Ирис виргинский (Iris virginica) и Ирис разноцветный (Iris versicolor). Для каждого экземпляра измерялись четыре характеристики (в сантиметрах):

- Длина наружной доли околоцветника (англ. sepal length);
- Ширина наружной доли околоцветника (англ. sepal width);
- Длина внутренней доли околоцветника (англ. petal length);
- Ширина внутренней доли околоцветника (англ. petal width).

На основании этого набора данных требуется построить правило классификации, определяющее вид растения по данным измерений. Это задача многоклассовой классификации, так как имеется три класса — три вида ириса.

Один из классов (Iris setosa) линейно-разделим от двух остальных.

В качестве задания вам предлагается повторить данные действия по классификации для наборов данных (можно выбрать, что больше понравится, но лучше сделать для всех)
- [User Knowledge Modeling Data Set](http://archive.ics.uci.edu/ml/datasets/User+Knowledge+Modeling)
- [Blood Transfusion Service Center Data Set](http://archive.ics.uci.edu/ml/datasets/Blood+Transfusion+Service+Center)
- [Somerville Happiness Survey Data Set](http://archive.ics.uci.edu/ml/datasets/Somerville+Happiness+Survey)
- [Wine Quality Data Set](https://archive.ics.uci.edu/ml/datasets/wine+quality)



In [1]:
# Подключаем библиотеки
import pandas as pd # Работа с набором данных
import numpy as np # Линейная алгебра
# Визуализация данных
import seaborn as sns
import matplotlib.pyplot as plt

# отключение информационных сообщений
from warnings import filterwarnings
filterwarnings(action='ignore')

# разделение выборки
from sklearn.model_selection import train_test_split
#метрики
from sklearn import metrics
#Логистическая регрессия
from sklearn.linear_model import LogisticRegression

In [2]:
# читаем данные
url = 'https://raw.githubusercontent.com/yakushinav/omo/main/data/iris.csv'
data = pd.read_csv(url)
data.head(5)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [3]:
# Разделим выборку на обучающую и тестовую
train, test = train_test_split(data, test_size = 0.4, stratify = data['species'], random_state = 42)

In [4]:
# Выделим признаки и результат
X_train = train[['sepal_length','sepal_width','petal_length','petal_width']]
y_train = train.species
X_test = test[['sepal_length','sepal_width','petal_length','petal_width']]
y_test = test.species

fn = ['sepal_length','sepal_width','petal_length','petal_width']
cn = data['species'].unique()

# Логистическая регрессия

Здачу бинарной классификации, в которой целевая переменная $y$ принимает два значения: -1 и 1 можно решить при помощи линейного классификатора

$$
f(x_i, w) = \mathrm{sign}\left(\langle x_i, w \rangle\right).
$$

Функция потерь для такой задачи – это сумма индикаторов того, что предсказание сделано неверно:

$$Q(X, w) = \frac{1}{\ell}\sum_{i = 1}^{\ell}[y_i \ne \mathrm{sign}\left(\langle x_i, w \rangle\right)].$$

Эту идею можно удобно записать через функцию отступа:

$$
Q(X, w) = \frac{1}{\ell}\sum_{i = 1}^{\ell}[y_i \langle x_i, w \rangle < 0].
$$

Такую функцию проблематично дифференцировать по $w$, потому что даже в местах, где градиент существует, он равен нулю. Вместо этого будем минимизировать некоторую функцию $\tilde{Q}(X, w)$, являющуюся верхней оценкой для $Q(X, w)$, и надеяться, что минимизация $\tilde{Q}(X, w)$ позволит достаточно хорошо минимизировать и $Q(X, w)$.

Логистическая регрессия предлагает использовать логистическую функцию потерь:

$$
\tilde{Q}(X, w) = \frac{1}{\ell}\sum_{i = 1}^{\ell}\log(1 + e^{-y_i \langle x_i, w \rangle}) \rightarrow \min_w.
$$

In [5]:
# Логистическая регрессия
mod_lr = LogisticRegression(solver = 'newton-cg').fit(X_train, y_train)
y_pred=mod_lr.predict(X_test)

In [6]:
#Выполняем предсказание
y_pred=mod_lr.predict(X_test)

print('accuracy (точность) классификатора',metrics.accuracy_score(y_pred,y_test))

# матрица ошибок
print("матрица ошибок")
print(metrics.confusion_matrix(y_test, y_pred))

accuracy (точность) классификатора 0.95
матрица ошибок
[[20  0  0]
 [ 0 19  1]
 [ 0  2 18]]


In [7]:
# Использование построенной модели для предсказания класса
new_iris=[1.3, 2.4, 5.6, 3.5]
y_new_iris=mod_lr.predict([new_iris])

print(y_new_iris)

['Iris-virginica']


In [8]:
# Модель
print(mod_lr.coef_)
print(mod_lr.intercept_)


[[-0.55537613  0.67503606 -2.14801264 -0.88199928]
 [ 0.47658608 -0.39970253 -0.09971921 -0.80565171]
 [ 0.07879005 -0.27533353  2.24773185  1.68765099]]
[  9.9162059    1.84086417 -11.75707006]


## Действия по классификации для набора Wine Quality Data Set

In [9]:
url = 'https://raw.githubusercontent.com/setarets/mo2025/refs/heads/main/data/winequality-red.csv'
df = pd.read_csv(url, sep=';')
print("Первые 5 строк DataFrame:")
print(df.head(5))

Первые 5 строк DataFrame:
   fixed acidity  volatile acidity  citric acid  residual sugar  chlorides  \
0            7.4              0.70         0.00             1.9      0.076   
1            7.8              0.88         0.00             2.6      0.098   
2            7.8              0.76         0.04             2.3      0.092   
3           11.2              0.28         0.56             1.9      0.075   
4            7.4              0.70         0.00             1.9      0.076   

   free sulfur dioxide  total sulfur dioxide  density    pH  sulphates  \
0                 11.0                  34.0   0.9978  3.51       0.56   
1                 25.0                  67.0   0.9968  3.20       0.68   
2                 15.0                  54.0   0.9970  3.26       0.65   
3                 17.0                  60.0   0.9980  3.16       0.58   
4                 11.0                  34.0   0.9978  3.51       0.56   

   alcohol  quality  
0      9.4        5  
1      9.8      

In [10]:
df1 = pd.read_csv('https://raw.githubusercontent.com/setarets/mo2025/refs/heads/main/data/winequality-red.csv')
df1 = pd.read_csv(url, sep=';')
df2 = pd.read_csv('https://raw.githubusercontent.com/setarets/mo2025/refs/heads/main/data/winequality-white.csv')
df2 = pd.read_csv(url, sep=';')
combined_df = pd.concat([df1, df2], ignore_index=True)
combined_df.to_csv('combined_file.csv', index=False)
print(combined_df.head(5))

   fixed acidity  volatile acidity  citric acid  residual sugar  chlorides  \
0            7.4              0.70         0.00             1.9      0.076   
1            7.8              0.88         0.00             2.6      0.098   
2            7.8              0.76         0.04             2.3      0.092   
3           11.2              0.28         0.56             1.9      0.075   
4            7.4              0.70         0.00             1.9      0.076   

   free sulfur dioxide  total sulfur dioxide  density    pH  sulphates  \
0                 11.0                  34.0   0.9978  3.51       0.56   
1                 25.0                  67.0   0.9968  3.20       0.68   
2                 15.0                  54.0   0.9970  3.26       0.65   
3                 17.0                  60.0   0.9980  3.16       0.58   
4                 11.0                  34.0   0.9978  3.51       0.56   

   alcohol  quality  
0      9.4        5  
1      9.8        5  
2      9.8        5 

In [11]:
url_red = 'https://raw.githubusercontent.com/setarets/mo2025/refs/heads/main/data/winequality-red.csv'

url_white = 'https://raw.githubusercontent.com/setarets/mo2025/refs/heads/main/data/winequality-white.csv'

df1 = pd.read_csv(url_red, sep=';')
df2 = pd.read_csv(url_white, sep=';')

df1 = df1.assign(wine='red')
df2 = df2.assign(wine='white')

combined_df = pd.concat([df1, df2], ignore_index=True)

combined_df.to_csv('combined_file.csv', index=False)

print(combined_df.head(5))

   fixed acidity  volatile acidity  citric acid  residual sugar  chlorides  \
0            7.4              0.70         0.00             1.9      0.076   
1            7.8              0.88         0.00             2.6      0.098   
2            7.8              0.76         0.04             2.3      0.092   
3           11.2              0.28         0.56             1.9      0.075   
4            7.4              0.70         0.00             1.9      0.076   

   free sulfur dioxide  total sulfur dioxide  density    pH  sulphates  \
0                 11.0                  34.0   0.9978  3.51       0.56   
1                 25.0                  67.0   0.9968  3.20       0.68   
2                 15.0                  54.0   0.9970  3.26       0.65   
3                 17.0                  60.0   0.9980  3.16       0.58   
4                 11.0                  34.0   0.9978  3.51       0.56   

   alcohol  quality wine  
0      9.4        5  red  
1      9.8        5  red  
2    

In [12]:
print(combined_df.tail(5))

      fixed acidity  volatile acidity  citric acid  residual sugar  chlorides  \
6492            6.2              0.21         0.29             1.6      0.039   
6493            6.6              0.32         0.36             8.0      0.047   
6494            6.5              0.24         0.19             1.2      0.041   
6495            5.5              0.29         0.30             1.1      0.022   
6496            6.0              0.21         0.38             0.8      0.020   

      free sulfur dioxide  total sulfur dioxide  density    pH  sulphates  \
6492                 24.0                  92.0  0.99114  3.27       0.50   
6493                 57.0                 168.0  0.99490  3.15       0.46   
6494                 30.0                 111.0  0.99254  2.99       0.46   
6495                 20.0                 110.0  0.98869  3.34       0.38   
6496                 22.0                  98.0  0.98941  3.26       0.32   

      alcohol  quality   wine  
6492     11.2     

In [14]:
train, test = train_test_split(combined_df, test_size = 0.4, stratify = combined_df['quality'], random_state = 42)
print(combined_df.columns.tolist())

['fixed acidity', 'volatile acidity', 'citric acid', 'residual sugar', 'chlorides', 'free sulfur dioxide', 'total sulfur dioxide', 'density', 'pH', 'sulphates', 'alcohol', 'quality', 'wine']


In [15]:
X_train = train[['fixed acidity', 'volatile acidity', 'citric acid', 'residual sugar', 'chlorides', 'free sulfur dioxide', 'total sulfur dioxide', 'density', 'pH', 'sulphates', 'alcohol']]
y_train = train.quality
X_test = test[['fixed acidity', 'volatile acidity', 'citric acid', 'residual sugar', 'chlorides', 'free sulfur dioxide', 'total sulfur dioxide', 'density', 'pH', 'sulphates', 'alcohol']]
y_test = test.quality

fn = ['fixed acidity', 'volatile acidity', 'citric acid', 'residual sugar', 'chlorides', 'free sulfur dioxide', 'total sulfur dioxide', 'density', 'pH', 'sulphates', 'alcohol']
cn = combined_df['quality'].unique()

In [16]:
mod_lr = LogisticRegression(solver = 'newton-cg').fit(X_train, y_train)
y_pred=mod_lr.predict(X_test)

In [17]:
y_pred=mod_lr.predict(X_test)
print('accuracy (точность) классификатора',metrics.accuracy_score(y_pred,y_test))
print("матрица ошибок")
print(metrics.confusion_matrix(y_test, y_pred))

accuracy (точность) классификатора 0.5313582146979607
матрица ошибок
[[  0   0   5   6   0   1   0]
 [  0   0  50  34   2   0   0]
 [  0   0 473 378   4   0   0]
 [  0   0 250 822  63   0   0]
 [  0   0  25 321  86   0   0]
 [  0   0   7  43  27   0   0]
 [  0   0   0   0   2   0   0]]


In [19]:
new_quality = [7.4, 0.7, 0, 1.9, 0.076, 11, 34, 0.9978, 3.51, 0.56, 9.4]
y_new_quality=mod_lr.predict([new_quality])
print(y_new_quality)

[5]


In [20]:
print(mod_lr.coef_)
print(mod_lr.intercept_)

[[ 2.16415646e-01  2.03109592e+00 -6.89674230e-02  8.69486933e-03
   2.00250139e-01 -9.11132504e-02  9.84725620e-03 -4.35028162e-03
   5.16657609e-01 -1.05755050e+00 -4.50123100e-01]
 [-7.61924510e-02  2.26158183e+00 -1.71167587e-01 -7.15432825e-02
  -3.53406606e-01 -5.61844348e-02  1.01242020e-02 -2.46681753e-02
  -4.71396449e-01 -2.05087287e+00 -6.46628301e-01]
 [-6.94937517e-02  2.38115156e+00  3.72840471e-01 -6.38795098e-02
   9.08442778e-01  4.65084551e-03  3.03105157e-03  6.77135449e-02
  -6.57209559e-01 -3.18180876e-01 -9.14521853e-01]
 [-6.21977949e-02 -1.34723295e+00 -9.23509631e-02 -1.57052201e-03
   7.70087886e-01  1.62403497e-02 -3.45626403e-03  8.89234372e-02
  -1.74488737e-01  1.00712234e+00 -8.99122985e-02]
 [-4.32823481e-02 -3.66648212e+00  2.63897667e-03  2.41377559e-02
  -1.18411384e+00  2.31730567e-02 -5.11062058e-03 -8.23758992e-02
   4.56126987e-01  1.99514103e+00  5.41374293e-01]
 [-1.49185973e-01 -1.61668757e+00 -1.19523510e-01  5.08203016e-02
  -2.65249930e-01  