# Проект: Линейные модели в машинном обучении

**Описание проекта:** Молочное хозяйство «Вольный луг» хочет расширить поголовье стада коров. Для этого был заключен выгодный контракт с ассоциацией пастбищ «ЭкоФерма».
Условия позволяют очень тщательно отобрать коров, а именно определить качество молока по строгой методике, и при этом необходимо выполнять план развития молочного хозяйства. Молочное хозяйство «Вольный луг» хочет, чтобы каждая бурёнка давала не менее 6000 килограммов молока в год, а её надой был вкусным — строго по его критериям, ничуть не хуже. 

**Цель исследования:** Разработать две прогнозные модели для отбора бурёнок в поголовье, которая поможет ему управлять рисками и принимать объективное решение о покупке коров для молочного хозяйства «Вольный луг»:

* Первая будет прогнозировать возможный удой коровы (целевой признак Удой);
* Вторая — рассчитывать вероятность получить вкусное молоко от коровы (целевой признак Вкус молока).

С помощью моделей нужно отобрать коров по двум критериям:

* средний удой за год — не менее 6000 килограммов;
* молоко должно быть вкусным.

**Ход исследования:**

* Подготовка данных: 
* Предобработка данных: 
* Исследовательский анализ:
* Корреляционный анализ:
* Обучение модели линейной регрессии:
* Обучение модели логистической регрессии: 

**Общий вывод:** резюмирование полученных результатов, формулировка ключевых выводов и рекомендаций.

## Подготовка рабочей среды и вспомогательные функции:

### Импорт библиотек:

In [1]:
# Импорт библиотек
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

### Базовые настройки блокнота:

In [2]:
# Стиль графиков по умолчанию
sns.set()
# Убираем ограничение на кол-во отображаемых колонок в таблицах
pd.set_option('display.max_columns', None)

### Функции:

## Общая информация о данных:

In [3]:
# Чтение датафреймов
try:
    df_ferma_main = pd.read_csv('/Users/kirill_shiryaev/Desktop/Обучение/Проекты/Линейные модели в МО/ferma_main.csv', sep=';')
    df_ferma_dad = pd.read_csv('/Users/kirill_shiryaev/Desktop/Обучение/Проекты/Линейные модели в МО/ferma_dad.csv', sep=';')
    df_cow_buy = pd.read_csv('/Users/kirill_shiryaev/Desktop/Обучение/Проекты/Линейные модели в МО/cow_buy.csv', sep=';')
except:
    df_ferma_main = pd.read_csv('/datasets/ferma_main.csv', sep=';')
    df_ferma_dad = pd.read_csv('/datasets/ferma_dad.csv', sep=';')
    df_cow_buy = pd.read_csv('/datasets/cow_buy.csv', sep=';')

### Датафрейм "df_ferma_main":

**ferma_main.csv** - датафрейм содержит данные о стаде фермера на текущий момент. 

**Описание данных:**

* **id** — уникальный идентификатор коровы.
* **milk_yield_kg** — масса молока, которую корова даёт в год (в килограммах).
* **efu** — энергетическая кормовая единица - показатель питательности корма коровы.
* **crude_protein_g** — содержание сырого протеина в корме (в граммах).
* **spr** — отношение сахара к протеину в корме коровы.
* **breed** — порода коровы.
* **type_pasture** — тип пастбища - ландшафт лугов, на которых паслась корова.
* **daddy_breed** — порода папы коровы.
* **fat_content_%** — содержание жиров в молоке (в процентах).
* **protein_content_%** — содержание белков в молоке (в процентах).
* **taste_milk** — оценка вкуса по личным критериям фермера, бинарный признак (вкусно, не вкусно).
* **age** — возраст коровы, бинарный признак (менее_2_лет, более_2_лет).

In [4]:
# Переименование столбцов датафрейма
df_ferma_main.columns = ['id', 'milk_yield_kg', 'efu', 'crude_protein_g', 
                         'spr', 'breed', 'type_pasture', 'daddy_breed', 
                         'fat_content_%', 'protein_content_%', 'taste_milk', 
                         'age']

In [5]:
# Основная информация о датафрейме
df_ferma_main.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 634 entries, 0 to 633
Data columns (total 12 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   id                 634 non-null    int64 
 1   milk_yield_kg      634 non-null    int64 
 2   efu                634 non-null    object
 3   crude_protein_g    634 non-null    int64 
 4   spr                634 non-null    object
 5   breed              634 non-null    object
 6   type_pasture       634 non-null    object
 7   daddy_breed        634 non-null    object
 8   fat_content_%      634 non-null    object
 9   protein_content_%  634 non-null    object
 10  taste_milk         634 non-null    object
 11  age                634 non-null    object
dtypes: int64(3), object(9)
memory usage: 59.6+ KB


In [6]:
# Первые 5 строчек датафрейма
df_ferma_main.head()

Unnamed: 0,id,milk_yield_kg,efu,crude_protein_g,spr,breed,type_pasture,daddy_breed,fat_content_%,protein_content_%,taste_milk,age
0,1,5863,142,1743,89,Вис Бик Айдиал,Равнинное,Айдиал,358,3076,вкусно,более_2_лет
1,2,5529,128,2138,89,Вис Бик Айдиал,Равнинные,Соверин,354,3079,вкусно,менее_2_лет
2,3,5810,14,1854,885,РефлешнСоверинг,Холмистое,Соверин,359,3074,не вкусно,более_2_лет
3,4,5895,124,2012,885,РефлешнСоверинг,Холмистое,Айдиал,34,3075,не вкусно,более_2_лет
4,5,5302,128,1675,885,Вис Бик Айдиал,Равнинные,Соверин,373,3073,вкусно,менее_2_лет


### Датафрейм "df_ferma_dad":

**ferma_dad.csv** - датафрейм хранит имя папы каждой коровы в стаде молочного хозяйства. 

**Описание данных:**

* **id** — уникальный идентификатор коровы.
* **daddy_name** — имя папы коровы.

In [7]:
# Переименование столбцов датафрейма
df_ferma_dad.columns = ['id', 'daddy_name']

In [8]:
# Основная информация о датафрейме
df_ferma_dad.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 629 entries, 0 to 628
Data columns (total 2 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   id          629 non-null    int64 
 1   daddy_name  629 non-null    object
dtypes: int64(1), object(1)
memory usage: 10.0+ KB


In [9]:
# Первые 5 строчек датафрейма
df_ferma_dad.head()

Unnamed: 0,id,daddy_name
0,1,Буйный
1,2,Соловчик
2,3,Барин
3,4,Буйный
4,5,Барин


### Датафрейм "df_cow_buy":

**cow_buy.csv** — датафрейм с данными о коровах «ЭкоФермы». 

**Описание данных:**

* **breed** — порода коровы.
* **type_pasture** — тип пастбища - ландшафт лугов, на которых паслась корова.
* **daddy_breed** — порода папы коровы.
* **daddy_name** — имя папы коровы.
* **fat_content_%** — содержание жиров в молоке (в процентах).
* **protein_content_%** — содержание белков в молоке (в процентах).
* **age** — возраст коровы, бинарный признак (менее_2_лет, более_2_лет).

In [10]:
# Переименование столбцов датафрейма
df_cow_buy.columns = ['breed', 'type_pasture', 'daddy_breed', 'daddy_name', 
                      'fat_content_%', 'protein_content_%', 'age']

In [11]:
# Основная информация о датафрейме
df_cow_buy.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   breed              20 non-null     object
 1   type_pasture       20 non-null     object
 2   daddy_breed        20 non-null     object
 3   daddy_name         20 non-null     object
 4   fat_content_%      20 non-null     object
 5   protein_content_%  20 non-null     object
 6   age                20 non-null     object
dtypes: object(7)
memory usage: 1.2+ KB


In [12]:
# Первые 5 строчек датафрейма
df_cow_buy.head()

Unnamed: 0,breed,type_pasture,daddy_breed,daddy_name,fat_content_%,protein_content_%,age
0,Вис Бик Айдиал,холмистое,Айдиал,Геркулес,358,3076,более_2_лет
1,Вис Бик Айдиал,равнинное,Соверин,Буйный,354,3081,менее_2_лет
2,РефлешнСоверинг,равнинное,Соверин,Барин,359,3074,более_2_лет
3,РефлешнСоверинг,холмистое,Айдиал,Буйный,34,3061,более_2_лет
4,РефлешнСоверинг,равнинное,Айдиал,Буйный,364,3074,более_2_лет


### Вывод:

На данном этапе мы познакомились с данными и теперь имеем общее представление о них. Так же нам это позволило составить предаврительный план по предобработке данных. 

На что мы обратили внимание, когда ознакамливались с общей информацией о датафреймах:

* Отсутствие пропусков
* Ни один из столбцов с типом данным **float** не определился самостоятельно, необходимо будет преобразовать данные столбцы в тип данных **float64**.
* Необходимо все значения в столбцах типа **object** привести к единому стилю.
* Проверить на наличие скрытых и явных дубликатов, отсутствие стандартов заполнения *строчных* значений потенциально может способствовать появлению скрытых дубликатов.
* Разное количество строк в датафреймах **"df_ferma_main"** и **"df_ferma_dad"**. Необходимо будет проследить насколько полезен будет этот параметр для нашей модели.

##  Предобработка данных:

### Изменение типов данных:

#### Датафрейм "df_ferma_main":

In [13]:
# Преобразование типов данных
# Создание списка столбцов
columns_float = ['efu', 'spr', 'fat_content_%', 'protein_content_%']
# Цикл для последовательного преобразования значений и их типа
for i in columns_float:
    df_ferma_main[i] = df_ferma_main[i].str.replace(',', '.').astype(float)

#### Датафрейм "df_cow_buy":

In [14]:
# Преобразование типов данных
# Создание списка столбцов
columns_float = ['fat_content_%', 'protein_content_%']
# Цикл для последовательного преобразования значений и их типа
for i in columns_float:
    df_cow_buy[i] = df_cow_buy[i].str.replace(',', '.').astype(float)

### Пропущенные значения:

Исходя из общей информации во всех трех датафреймах отсутсвуют пропуски.

In [15]:
# Проверяем на наличие пропусков в датафреймах
# Список датафремов
df_dict = {'df_ferma_main': df_ferma_main, 
           'df_ferma_dad': df_ferma_dad, 
           'df_cow_buy': df_cow_buy}

for name, df in df_dict.items():
    print(f'Датафрейм: {name}')
    print('-' * 30)
    print(df.isna().sum())
    print()

Датафрейм: df_ferma_main
------------------------------
id                   0
milk_yield_kg        0
efu                  0
crude_protein_g      0
spr                  0
breed                0
type_pasture         0
daddy_breed          0
fat_content_%        0
protein_content_%    0
taste_milk           0
age                  0
dtype: int64

Датафрейм: df_ferma_dad
------------------------------
id            0
daddy_name    0
dtype: int64

Датафрейм: df_cow_buy
------------------------------
breed                0
type_pasture         0
daddy_breed          0
daddy_name           0
fat_content_%        0
protein_content_%    0
age                  0
dtype: int64



### Явные дубликаты:

In [16]:
# Проверяем на наличие явных дубликатов
for name, df in df_dict.items():
    print(f'Датафрейм: {name}')
    print('-' * 30)
    print(df.duplicated().sum())

Датафрейм: df_ferma_main
------------------------------
5
Датафрейм: df_ferma_dad
------------------------------
0
Датафрейм: df_cow_buy
------------------------------
4


В датафрейме **"df_ferma_main"** у нас не может быть явных дубликатов, так как есть столбец уникальным индификатором, и это соотносится с количеством строк из второго датафрейма **"df_ferma_dad"**, значит все верно. Осталось определить, возможны ли явные дубликаты в датафрейме **"df_cow_buy"**.

Все столбцы с типом данных **object** имеют категориальные значения, следовательно они могут повторяться, что не скажешь о столбцах с типом данных **float**. Проверим количество уникальных значений у соответствующих столбцов из датафрейма **"df_ferma_main"**, так как имеем там больше данных, если там количество уникальных значений значительно меньше количества строк, то мы допускаем, что значениям в этих столбцах допустимо повторятся.

In [17]:
print('Кол-во уникальных значений в столбце "fat_content_%":', len(df_ferma_main['fat_content_%'].unique()))
print('Кол-во уникальных значений в столбце "protein_content_%":', len(df_ferma_main['protein_content_%'].unique()))

Кол-во уникальных значений в столбце "fat_content_%": 50
Кол-во уникальных значений в столбце "protein_content_%": 15


Количество уникальных значений очень мало, значит этим значениям свойственно повторятся, следовательно мы допускаем явные дубликаты в датафрейме **"df_cow_buy"**.

Удаляем явные дубликаты только в датафрейме **"df_ferma_main"**.

In [18]:
# Удаляем явные дубликаты
df_ferma_main = df_ferma_main.drop_duplicates().reset_index(drop=True)

### Неявные дубликаты:

## Исследовательский анализ данных

## Корреляционный анализ

## Обучение модели линейной регрессии

## Обучение модели логистической регрессии

## Итоговые выводы