# Подбор коров при помощи моделей машинного обучения

Владелец молочного хозяйства «Вольный луг» хочет купить бурёнок, чтобы расширить поголовье стада, и для этого он заключил контракт с ассоциацией пастбищ «ЭкоФерма».

Нашу IT-компанию наняли помочь фермеру с подбором подходящих коров, используя модели машинного обучения. Главные критерии фермера - коровы должны давать не менее 6000 килограммов молока в год, а надой был вкусным - строго по его критериям.

Перед нами стоят задачи разработать 2 прогнозные модели:
- Первая будет прогнозировать возможный удой коровы (Целевой признак `Удой`)
- Вторая будет рассчитывать вероятность получить вкусное молоко от коровы (Целевой признак `Вкус молока`)

На основе прогнозов этих двух моделей будут приниматься решения о покупке той или иной коровы.

**Описание данных**

1. `ferma_main.csv` содержит данные о стаде фермера на текущий момент.
 - id — уникальный идентификатор коровы.
 - Удой, кг — масса молока, которую корова даёт в год (в килограммах).
 - ЭКЕ (Энергетическая кормовая единица) — показатель питательности корма коровы.
 - Сырой протеин, г — содержание сырого протеина в корме (в граммах).
 - СПО (Сахаро-протеиновое соотношение) — отношение сахара к протеину в корме коровы.
 - Порода — порода коровы.
 - Тип пастбища — ландшафт лугов, на которых паслась корова.
 - порода папы_быка — порода папы коровы.
 - Жирность,% — содержание жиров в молоке (в процентах).
 - Белок,% — содержание белков в молоке (в процентах).
 - Вкус молока — оценка вкуса по личным критериям фермера, бинарный признак (вкусно, не вкусно).
 - Возраст — возраст коровы, бинарный признак (менее_2_лет, более_2_лет).


2. `ferma_dad.csv` хранит имя папы каждой коровы в стаде фермера. 
 - id — уникальный идентификатор коровы.
 - Имя Папы — имя папы коровы.


3. `cow_buy.csv` это данные о коровах «ЭкоФермы», которых фермер хочет изучить перед покупкой.
 - Порода — порода коровы.
 - Тип пастбища — ландшафт лугов, на которых паслась корова.
 - порода папы_быка — порода папы коровы.
 - Имя_папы — имя папы коровы.
 - Текущая_жирность,% — содержание жиров в молоке (в процентах).
 - Текущий_уровень_белок,% — содержание белков в молоке (в процентах).
 - Возраст — возраст коровы, бинарный признак (менее_2_лет, более_2_лет).

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
from IPython.display import display

## Загрузка данных

In [2]:
def dataset_info(ds, info=True): # Универсальная функция презентации данных
    print('Количество дубликатов:', ds.duplicated().sum())
    print('Длина датасета:', len(ds))
    display(ds.head())
    if info: 
        ds.info()
        display(ds.describe())

Для начала загрузим и ознакомимся со всеми данными.

In [3]:
try:  # Загрузка датасета с информацией о текущем стаде фермера
    ds_main = pd.read_csv('/datasets/ferma_main.csv', sep=';')
except:
    ds_main = pd.read_csv('datasets/ferma_main.csv', sep=';')
dataset_info(ds_main)

Количество дубликатов: 5
Длина датасета: 634


Unnamed: 0,id,"Удой, кг",ЭКЕ (Энергетическая кормовая единица),"Сырой протеин, г",СПО (Сахаро-протеиновое соотношение),Порода,Тип пастбища,порода папы_быка,"Жирность,%","Белок,%",Вкус молока,Возраст
0,1,5863,142,1743,89,Вис Бик Айдиал,Равнинное,Айдиал,358,3076,вкусно,более_2_лет
1,2,5529,128,2138,89,Вис Бик Айдиал,Равнинные,Соверин,354,3079,вкусно,менее_2_лет
2,3,5810,14,1854,885,РефлешнСоверинг,Холмистое,Соверин,359,3074,не вкусно,более_2_лет
3,4,5895,124,2012,885,РефлешнСоверинг,Холмистое,Айдиал,34,3075,не вкусно,более_2_лет
4,5,5302,128,1675,885,Вис Бик Айдиал,Равнинные,Соверин,373,3073,вкусно,менее_2_лет


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 634 entries, 0 to 633
Data columns (total 12 columns):
 #   Column                                 Non-Null Count  Dtype 
---  ------                                 --------------  ----- 
 0   id                                     634 non-null    int64 
 1   Удой, кг                               634 non-null    int64 
 2   ЭКЕ (Энергетическая кормовая единица)  634 non-null    object
 3   Сырой протеин, г                       634 non-null    int64 
 4   СПО (Сахаро-протеиновое соотношение)   634 non-null    object
 5   Порода                                 634 non-null    object
 6   Тип пастбища                           634 non-null    object
 7   порода папы_быка                       634 non-null    object
 8   Жирность,%                             634 non-null    object
 9   Белок,%                                634 non-null    object
 10  Вкус молока                            634 non-null    object
 11  Возраст            

Unnamed: 0,id,"Удой, кг","Сырой протеин, г"
count,634.0,634.0,634.0
mean,317.460568,6187.025237,1922.682965
std,183.096982,1638.401021,182.392548
min,1.0,5204.0,1660.0
25%,159.25,5751.75,1772.25
50%,317.5,6130.5,1880.5
75%,475.75,6501.0,2058.75
max,629.0,45616.0,2349.0


In [4]:
try:  # Загрузка датасета с информацией об отце каждой коровы в стаде фермера
    ds_dad = pd.read_csv('/datasets/ferma_dad.csv', sep=';')
except:
    ds_dad = pd.read_csv('datasets/ferma_dad.csv', sep=';')
dataset_info(ds_dad, False)
ds_dad.info()

Количество дубликатов: 0
Длина датасета: 629


Unnamed: 0,id,Имя Папы
0,1,Буйный
1,2,Соловчик
2,3,Барин
3,4,Буйный
4,5,Барин


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 629 entries, 0 to 628
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   id        629 non-null    int64 
 1   Имя Папы  629 non-null    object
dtypes: int64(1), object(1)
memory usage: 10.0+ KB


In [5]:
try: # Загрузка датасета с коровами, которых фермер хочет купить
    ds_buy = pd.read_csv('/datasets/cow_buy.csv', sep=';')
except:
    ds_buy = pd.read_csv('datasets/cow_buy.csv', sep=';')
dataset_info(ds_buy)

Количество дубликатов: 4
Длина датасета: 20


Unnamed: 0,Порода,Тип пастбища,порода папы_быка,Имя_папы,"Текущая_жирность,%","Текущий_уровень_белок,%",Возраст
0,Вис Бик Айдиал,холмистое,Айдиал,Геркулес,358,3076,более_2_лет
1,Вис Бик Айдиал,равнинное,Соверин,Буйный,354,3081,менее_2_лет
2,РефлешнСоверинг,равнинное,Соверин,Барин,359,3074,более_2_лет
3,РефлешнСоверинг,холмистое,Айдиал,Буйный,34,3061,более_2_лет
4,РефлешнСоверинг,равнинное,Айдиал,Буйный,364,3074,более_2_лет


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 7 columns):
 #   Column                   Non-Null Count  Dtype 
---  ------                   --------------  ----- 
 0   Порода                   20 non-null     object
 1   Тип пастбища             20 non-null     object
 2   порода папы_быка         20 non-null     object
 3   Имя_папы                 20 non-null     object
 4   Текущая_жирность,%       20 non-null     object
 5   Текущий_уровень_белок,%  20 non-null     object
 6   Возраст                  20 non-null     object
dtypes: object(7)
memory usage: 1.2+ KB


Unnamed: 0,Порода,Тип пастбища,порода папы_быка,Имя_папы,"Текущая_жирность,%","Текущий_уровень_белок,%",Возраст
count,20,20,20,20,20,20,20
unique,2,2,2,4,12,12,2
top,РефлешнСоверинг,равнинное,Соверин,Буйный,373,3074,более_2_лет
freq,11,11,12,8,3,5,15


Сразу переименуем все столбцы в более удобный для использования формат

In [6]:
ds_main.columns = ['id', 'удой', 'эке', 'протеин', 'спо', 'порода', 'пастбище', 'порода_пб', 'жирность', 'белок', 'вкус', 'возраст']
ds_main.columns # Переименование столбцов. Вручную приводим к нижнему регистру и упрощаем названия для быстрого доступа при работе с данными

Index(['id', 'удой', 'эке', 'протеин', 'спо', 'порода', 'пастбище',
       'порода_пб', 'жирность', 'белок', 'вкус', 'возраст'],
      dtype='object')

In [7]:
ds_dad.columns = ['id', 'имя_папы']
ds_dad.columns

Index(['id', 'имя_папы'], dtype='object')

In [8]:
ds_buy.columns = ['порода', 'пастбище', 'порода_пб', 'имя_папы', 'жирность', 'белок', 'возраст']
ds_buy.columns

Index(['порода', 'пастбище', 'порода_пб', 'имя_папы', 'жирность', 'белок',
       'возраст'],
      dtype='object')

Пропусков нигде нет, зато есть несколько полных дубликатов в данных, а также неверно определены некоторые численные переменные. Разберёмся со всем этим на этапе предобработки.

##  Предобработка данных

Начнём с дубликатов. Датасет `ds_main` содержит в себе 5 полных дубликатов (Включая уникальный id), их можно сразу удалить.

In [9]:
ds_main = ds_main.drop_duplicates() # Сброс полных дубликатов и проверка
ds_main.duplicated().sum()

0

Теперь мы можем совместить датасеты `ds_main` и `ds_dad`, чтобы не работать с большим количеством маленьких датасетов

In [10]:
ds_main = ds_main.merge(ds_dad, on='id') # Объединение ds_main и ds_dad по id
dataset_info(ds_main, False)

Количество дубликатов: 0
Длина датасета: 629


Unnamed: 0,id,удой,эке,протеин,спо,порода,пастбище,порода_пб,жирность,белок,вкус,возраст,имя_папы
0,1,5863,142,1743,89,Вис Бик Айдиал,Равнинное,Айдиал,358,3076,вкусно,более_2_лет,Буйный
1,2,5529,128,2138,89,Вис Бик Айдиал,Равнинные,Соверин,354,3079,вкусно,менее_2_лет,Соловчик
2,3,5810,14,1854,885,РефлешнСоверинг,Холмистое,Соверин,359,3074,не вкусно,более_2_лет,Барин
3,4,5895,124,2012,885,РефлешнСоверинг,Холмистое,Айдиал,34,3075,не вкусно,более_2_лет,Буйный
4,5,5302,128,1675,885,Вис Бик Айдиал,Равнинные,Соверин,373,3073,вкусно,менее_2_лет,Барин


На дубликаты датасета `ds_buy` лучше посмотрим поближе. В нём гораздо меньше записей, а также отсутствует уникальный идентификатор. Не хотелось-бы избавляться от коров, которые просто очень похожи друг на друга.

In [11]:
ds_buy[ds_buy.duplicated(keep=False)] # Вывод всех дублирующихся записей

Unnamed: 0,порода,пастбище,порода_пб,имя_папы,жирность,белок,возраст
0,Вис Бик Айдиал,холмистое,Айдиал,Геркулес,358,3076,более_2_лет
2,РефлешнСоверинг,равнинное,Соверин,Барин,359,3074,более_2_лет
4,РефлешнСоверинг,равнинное,Айдиал,Буйный,364,3074,более_2_лет
6,Вис Бик Айдиал,холмистое,Айдиал,Геркулес,358,3076,более_2_лет
8,РефлешнСоверинг,равнинное,Соверин,Барин,359,3074,более_2_лет
14,РефлешнСоверинг,равнинное,Соверин,Барин,359,3074,более_2_лет
19,РефлешнСоверинг,равнинное,Айдиал,Буйный,364,3074,более_2_лет


Совпадение в породе, типе пастбища и имени папы ещё можно счесть за совпадение, но идентичная жирность и содержание белка в молоке уже можно назвать закономерностью. Тем не менее, эти данные не будут использоваться при обучении модели, а лишние 4 предсказания модель не сломают. Оставим дубликаты исключительно на случай, если это в действительности удивительное совпадение.

Теперь типы данных. Некоторые числовые сведения в обоих датасетах сохранились в виде строк. Преобразуем их в числовой тип.

In [12]:
for i in ['жирность', 'белок', 'эке', 'спо']: # Для каждого столбца из списка, все запятые меняются на точки, строки переводятся в числовой тип данных
    ds_main[i] = pd.to_numeric(ds_main[i].replace(',', '.', regex=True))
dataset_info(ds_main)

Количество дубликатов: 0
Длина датасета: 629


Unnamed: 0,id,удой,эке,протеин,спо,порода,пастбище,порода_пб,жирность,белок,вкус,возраст,имя_папы
0,1,5863,14.2,1743,0.89,Вис Бик Айдиал,Равнинное,Айдиал,3.58,3.076,вкусно,более_2_лет,Буйный
1,2,5529,12.8,2138,0.89,Вис Бик Айдиал,Равнинные,Соверин,3.54,3.079,вкусно,менее_2_лет,Соловчик
2,3,5810,14.0,1854,0.885,РефлешнСоверинг,Холмистое,Соверин,3.59,3.074,не вкусно,более_2_лет,Барин
3,4,5895,12.4,2012,0.885,РефлешнСоверинг,Холмистое,Айдиал,3.4,3.075,не вкусно,более_2_лет,Буйный
4,5,5302,12.8,1675,0.885,Вис Бик Айдиал,Равнинные,Соверин,3.73,3.073,вкусно,менее_2_лет,Барин


<class 'pandas.core.frame.DataFrame'>
Int64Index: 629 entries, 0 to 628
Data columns (total 13 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   id         629 non-null    int64  
 1   удой       629 non-null    int64  
 2   эке        629 non-null    float64
 3   протеин    629 non-null    int64  
 4   спо        629 non-null    float64
 5   порода     629 non-null    object 
 6   пастбище   629 non-null    object 
 7   порода_пб  629 non-null    object 
 8   жирность   629 non-null    float64
 9   белок      629 non-null    float64
 10  вкус       629 non-null    object 
 11  возраст    629 non-null    object 
 12  имя_папы   629 non-null    object 
dtypes: float64(4), int64(3), object(6)
memory usage: 68.8+ KB


Unnamed: 0,id,удой,эке,протеин,спо,жирность,белок
count,629.0,629.0,629.0,629.0,629.0,629.0,629.0
mean,315.0,6188.750397,14.543879,1923.36407,0.913116,3.603657,3.075671
std,181.72094,1644.795489,1.306408,182.956251,0.032203,0.168656,0.002549
min,1.0,5204.0,10.9,1660.0,0.84,2.99,3.069
25%,158.0,5751.0,13.5,1771.0,0.89,3.59,3.074
50%,315.0,6133.0,14.7,1888.0,0.93,3.65,3.076
75%,472.0,6501.0,15.6,2062.0,0.94,3.72,3.077
max,629.0,45616.0,16.8,2349.0,0.96,3.75,3.085


In [13]:
for i in ['жирность', 'белок']: # Для каждого столбца из списка, все запятые меняются на точки, строки переводятся в числовой тип данных
    ds_buy[i] = pd.to_numeric(ds_buy[i].replace(',', '.', regex=True))
dataset_info(ds_buy)

Количество дубликатов: 4
Длина датасета: 20


Unnamed: 0,порода,пастбище,порода_пб,имя_папы,жирность,белок,возраст
0,Вис Бик Айдиал,холмистое,Айдиал,Геркулес,3.58,3.076,более_2_лет
1,Вис Бик Айдиал,равнинное,Соверин,Буйный,3.54,3.081,менее_2_лет
2,РефлешнСоверинг,равнинное,Соверин,Барин,3.59,3.074,более_2_лет
3,РефлешнСоверинг,холмистое,Айдиал,Буйный,3.4,3.061,более_2_лет
4,РефлешнСоверинг,равнинное,Айдиал,Буйный,3.64,3.074,более_2_лет


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   порода     20 non-null     object 
 1   пастбище   20 non-null     object 
 2   порода_пб  20 non-null     object 
 3   имя_папы   20 non-null     object 
 4   жирность   20 non-null     float64
 5   белок      20 non-null     float64
 6   возраст    20 non-null     object 
dtypes: float64(2), object(5)
memory usage: 1.2+ KB


Unnamed: 0,жирность,белок
count,20.0,20.0
mean,3.5775,3.0695
std,0.126818,0.010339
min,3.34,3.046
25%,3.51,3.064
50%,3.59,3.074
75%,3.65,3.076
max,3.77,3.081


Теперь все типы данных в порядке, пропусков нет, опасные дубликаты удалены. На этом предобработку данных можно заканчивать.

## Исследовательский анализ данных

## Корреляционный анализ

## Обучение модели линейной регрессии

## Обучение модели логистической регрессии

## Итоговые выводы