# Задача об ирисах

## Импорт библиотек

In [90]:
import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

## Получение датасета

In [91]:
df = pd.read_csv('./Iris.csv')

## Вывод данных о датафрейме

### Описание столбцов

1. Id - Идентификатор записи
2. SepalLengthCm - Длина чашелистика в сантиметрах
3. SepalWidthCm - Ширина чашелистика в сантиметрах
4. PetalLengthCm - Длина лепестка в сантиметрах
5. PetalWidthCm - Ширина лепестка в сантиметрах
6. Species - Вид цветка

### Размер датасета

In [None]:
df.shape

(150, 6)

### Информация о полях

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             150 non-null    int64  
 1   SepalLengthCm  150 non-null    float64
 2   SepalWidthCm   150 non-null    float64
 3   PetalLengthCm  150 non-null    float64
 4   PetalWidthCm   150 non-null    float64
 5   Species        150 non-null    object 
dtypes: float64(4), int64(1), object(1)
memory usage: 7.2+ KB


### Первые 10 записей

In [None]:
df.head()

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa


### Проверка пустых значений

In [None]:
df.isna().sum()

Id               0
SepalLengthCm    0
SepalWidthCm     0
PetalLengthCm    0
PetalWidthCm     0
Species          0
dtype: int64

Пустые значения не были найдены в датасете

## Подготовка данных для обработки

### Удалиние лишних данных

In [None]:
df.drop(['Id'], axis=1, inplace=True)

### Результат обработки

In [None]:
df.head(10)

Unnamed: 0,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
5,5.4,3.9,1.7,0.4,Iris-setosa
6,4.6,3.4,1.4,0.3,Iris-setosa
7,5.0,3.4,1.5,0.2,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa
9,4.9,3.1,1.5,0.1,Iris-setosa


## Построение модели

In [None]:
features = df.drop('Species', axis=1)
target = df['Species']

features_train, features_test, target_train, target_test = train_test_split(features, target, test_size=0.20, random_state=27)

In [None]:
model = KNeighborsClassifier(n_neighbors=5)
model.fit(features_train, target_train)

prediction = model.predict(features_test)

0.9666666666666667
[[0.  0.  1. ]
 [1.  0.  0. ]
 [0.  0.  1. ]
 [0.  0.  1. ]
 [0.  1.  0. ]
 [0.  1.  0. ]
 [0.  1.  0. ]
 [0.  0.  1. ]
 [0.  0.6 0.4]
 [1.  0.  0. ]
 [0.  1.  0. ]
 [0.  0.4 0.6]
 [1.  0.  0. ]
 [0.  1.  0. ]
 [0.  1.  0. ]
 [0.  1.  0. ]
 [1.  0.  0. ]
 [0.  0.  1. ]
 [0.  0.  1. ]
 [0.  0.  1. ]
 [0.  1.  0. ]
 [1.  0.  0. ]
 [0.  1.  0. ]
 [1.  0.  0. ]
 [0.  0.  1. ]
 [0.  1.  0. ]
 [0.  1.  0. ]
 [1.  0.  0. ]
 [0.  0.  1. ]
 [0.  0.  1. ]]
