# #09. Классификатор фруктов

In [1]:
import pandas as pd
import numpy as np

Создадим DataFrame, заполненный нулями, со столбцами, соответствующими признакам фруктов

In [2]:
df = pd.DataFrame(0, index=np.arange(1000), columns=['Длинный', 'Сладкий', 'Желтый'])
df

Unnamed: 0,Длинный,Сладкий,Желтый
0,0,0,0
1,0,0,0
2,0,0,0
3,0,0,0
4,0,0,0
...,...,...,...
995,0,0,0
996,0,0,0
997,0,0,0
998,0,0,0


Добавим столбец, соответствующий классу фрукта, и заполним его

In [3]:
def set_class(row):
    if row.name < 500:
        return 'Банан'
    if row.name < 800:
        return 'Апельсин'
    return 'Другое'

In [4]:
df['Класс'] = df.apply(set_class, axis=1)
df

Unnamed: 0,Длинный,Сладкий,Желтый,Класс
0,0,0,0,Банан
1,0,0,0,Банан
2,0,0,0,Банан
3,0,0,0,Банан
4,0,0,0,Банан
...,...,...,...,...
995,0,0,0,Другое
996,0,0,0,Другое
997,0,0,0,Другое
998,0,0,0,Другое


Видно, что количество фруктов разных классов получилось правильным

In [5]:
df['Класс'].value_counts()

Банан       500
Апельсин    300
Другое      200
Name: Класс, dtype: int64

Заполним столбцы признаков единицами. Для каждого класса в каждый столбец будем случайным образом добавлять нужное количество единиц

In [6]:
import random

# noinspection PyShadowingNames
def set_feature_randomly(df, class_name, column_name, ones_count):
    class_row_numbers = list(df[df['Класс'] == class_name].index)
    rows_to_set_ones = random.sample(class_row_numbers, ones_count)
    df.loc[rows_to_set_ones, column_name] = 1

In [7]:
set_feature_randomly(df, 'Банан', 'Длинный', 400)
set_feature_randomly(df, 'Банан', 'Сладкий', 350)
set_feature_randomly(df, 'Банан', 'Желтый', 450)
#set_feature_randomly(df, 'Апельсин', 'Длинный', 0)
set_feature_randomly(df, 'Апельсин', 'Сладкий', 150)
set_feature_randomly(df, 'Апельсин', 'Желтый', 300)
set_feature_randomly(df, 'Другое', 'Длинный', 100)
set_feature_randomly(df, 'Другое', 'Сладкий', 150)
set_feature_randomly(df, 'Другое', 'Желтый', 50)

df

Unnamed: 0,Длинный,Сладкий,Желтый,Класс
0,1,1,1,Банан
1,1,1,0,Банан
2,1,0,1,Банан
3,1,1,1,Банан
4,1,0,1,Банан
...,...,...,...,...
995,0,1,0,Другое
996,1,1,1,Другое
997,0,0,0,Другое
998,1,1,0,Другое


Проверим, правильным ли получилось количество единиц

In [8]:
df['Длинный'].value_counts()

1    500
0    500
Name: Длинный, dtype: int64

In [9]:
df['Сладкий'].value_counts()

1    650
0    350
Name: Сладкий, dtype: int64

In [10]:
df['Желтый'].value_counts()

1    800
0    200
Name: Желтый, dtype: int64

In [11]:
df[df['Класс'] == 'Банан']['Длинный'].value_counts()

1    400
0    100
Name: Длинный, dtype: int64

Отделим целевую переменную

In [12]:
x = df.drop('Класс', axis=1)
y = df['Класс']

Разделим данные на обучающую и тестовую выборки

In [13]:
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2)

Построим модель дерева принятия решений

In [14]:
from sklearn.tree import DecisionTreeClassifier

tree = DecisionTreeClassifier()
tree.fit(x_train, y_train)
prediction = tree.predict(x_test)

Вычислим accuracy модели на тестовой выборке

In [15]:
from sklearn.metrics import accuracy_score

accuracy_score(y_test, prediction)

0.83