# Учебный проект 6_Линейные модели машинного обучения

## Содержание

* [Описание проекта](#описание-проекта)
* [Импорт библиотек Python и загрузка данных](#импорт-библиотек-python-и-загрузка-данных)
* [Предобработка данных](#предобработка-данных)
* [Исследовательский анализ данных](#исследовательский-анализ-данных)
* [Объединение данных](#объединение-данных)

## Описание проекта <a class = 'anchor' id = 'описание'></a>

На исследовании находятся данные `о текущем поголовье скота, родословной каждой коровы и список коров для будущей покупки`, которые были предоставлены фермером.

---

`Задача`

**Разработать модели машинного обучения для принятия решений о покупке коров на основании показателей**:

1. Средний удой коровы - **не менее 6 000 килограммов**;
2. **Молоко коров должно быть вкусным**.

---

`Путь решения`

Подготовить модели машинного обучения:
* Для прогнозирования удоя коровы - **модель линейной регрессии** (так как размер удоя - количественный показатель);
* Для прогнозирования вкуса молока - **модель логистической регрессии** (вкус молока - качественный показатель).

---

`Располагаемые данные`

**Данные о текущем состоянии стада - ferma_main**

* id - уникальный идентификатор коровы;
* Удой, кг — масса молока, которую корова даёт в год (в килограммах);
* ЭКЕ (Энергетическая кормовая единица) — показатель питательности корма коровы;
* Сырой протеин, г — содержание сырого протеина в корме (в граммах);
* СПО (Сахаро-протеиновое соотношение) — отношение сахара к протеину в корме коровы;
* Порода — порода коровы;
* Тип пастбища — ландшафт лугов, на которых паслась корова;
*порода папы_быка — порода папы коровы;
* Жирность,% — содержание жиров в молоке (в процентах);
* Белок,% — содержание белков в молоке (в процентах);
* Вкус молока — оценка вкуса по личным критериям фермера, бинарный признак (вкусно, не вкусно);
* Возраст — возраст коровы, бинарный признак (менее_2_лет, более_2_лет).

**Данные о родословной каждой коровы - ferma_dad**

* id — уникальный идентификатор коровы.;
* Имя Папы — имя папы коровы.

**Данные о списке коров для покупки - cow_buy**

* Порода — порода коровы;
* Тип пастбища — ландшафт лугов, на которых паслась корова;
* порода папы_быка — порода папы коровы;
* Имя_папы — имя папы коровы;
* Текущая_жирность,% — содержание жиров в молоке (в процентах);
* Текущий_уровень_белок,% — содержание белков в молоке (в процентах);
* Возраст — возраст коровы, бинарный признак (менее_2_лет, более_2_лет).

## Импорт библиотек Python и загрузка данных <a class = anchor id = 'Импорт'></a>

Данный блок характеризуется следующими последовательными действиями:

1. Импорт библиотек Python:
    * для манипулирования данными;
    * для визуализации данных;
    * для решения задач машинного обучения.
2. Загрузка данных в рабочую среду Jupyter Notebook. Инициализация переменных в соответствие с названиями загружаемых датасетов: **ferma_main**, **ferma_dad**, **cow_buy**;
3. Вывод на экран параметров датасетов:
    * вывод общей структуры набора данных - демонстрация первых 5 строк;
    * общей информации о наборе данных;
4. Формирование вывода по итогам данного этапа.

In [1]:
# импорт библиотек python

# для манипулирования данными
import pandas as pd
import numpy as np

# для визуализации данных
import matplotlib.pyplot as plt
import seaborn as sns

# методы машинного обучения
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error, accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler, StandardScaler, OneHotEncoder

In [7]:
# загрузка данных в рабочую среду
try:
    ferma_main = pd.read_csv('~/Desktop/YandexPraktikum_projects/datasets/ferma_main.csv', sep = ';') # основной набор данных о текущем состоянии стада
    ferma_dad = pd.read_csv('~/Desktop/YandexPraktikum_projects/datasets/ferma_dad.csv', sep = ';') # данные о родословной каждой коровы
    cow_buy = pd.read_csv('~/Desktop/YandexPraktikum_projects/datasets/cow_buy.csv', sep = ';') # данные о списке коров для покупки
except:
    ferma_main = pd.read_csv('/datasets/ferma_main.csv', sep = ';')
    ferma_dad = pd.read_csv('/datasets/ferma_dad.csv', sep = ';')
    cow_buy = pd.read_csv('/datasets/cow_buy.csv', sep = ';')

In [8]:
# пользовательская функция для первичного изучения содержимого наборов данных
def  first_meeting (df : pd.DataFrame, df_name : str) -> None:
    print(f'Структура набора данных {df_name}')
    display(df.head())
    print()
    print(df.info())

# вывод на экран параметров датасетов
first_meeting(ferma_main, 'ferma_main')
first_meeting(ferma_dad, 'ferma_dad')
first_meeting(cow_buy, 'cow_buy')

Структура набора данных ferma_main


Unnamed: 0,id,"Удой, кг",ЭКЕ (Энергетическая кормовая единица),"Сырой протеин, г",СПО (Сахаро-протеиновое соотношение),Порода,Тип пастбища,порода папы_быка,"Жирность,%","Белок,%",Вкус молока,Возраст
0,1,5863,142,1743,89,Вис Бик Айдиал,Равнинное,Айдиал,358,3076,вкусно,более_2_лет
1,2,5529,128,2138,89,Вис Бик Айдиал,Равнинные,Соверин,354,3079,вкусно,менее_2_лет
2,3,5810,14,1854,885,РефлешнСоверинг,Холмистое,Соверин,359,3074,не вкусно,более_2_лет
3,4,5895,124,2012,885,РефлешнСоверинг,Холмистое,Айдиал,34,3075,не вкусно,более_2_лет
4,5,5302,128,1675,885,Вис Бик Айдиал,Равнинные,Соверин,373,3073,вкусно,менее_2_лет



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 634 entries, 0 to 633
Data columns (total 12 columns):
 #   Column                                 Non-Null Count  Dtype 
---  ------                                 --------------  ----- 
 0   id                                     634 non-null    int64 
 1   Удой, кг                               634 non-null    int64 
 2   ЭКЕ (Энергетическая кормовая единица)  634 non-null    object
 3   Сырой протеин, г                       634 non-null    int64 
 4   СПО (Сахаро-протеиновое соотношение)   634 non-null    object
 5   Порода                                 634 non-null    object
 6   Тип пастбища                           634 non-null    object
 7   порода папы_быка                       634 non-null    object
 8   Жирность,%                             634 non-null    object
 9   Белок,%                                634 non-null    object
 10  Вкус молока                            634 non-null    object
 11  Возраст           

Unnamed: 0,id,Имя Папы
0,1,Буйный
1,2,Соловчик
2,3,Барин
3,4,Буйный
4,5,Барин



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 629 entries, 0 to 628
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   id        629 non-null    int64 
 1   Имя Папы  629 non-null    object
dtypes: int64(1), object(1)
memory usage: 10.0+ KB
None
Структура набора данных cow_buy


Unnamed: 0,Порода,Тип пастбища,порода папы_быка,Имя_папы,"Текущая_жирность,%","Текущий_уровень_белок,%",Возраст
0,Вис Бик Айдиал,холмистое,Айдиал,Геркулес,358,3076,более_2_лет
1,Вис Бик Айдиал,равнинное,Соверин,Буйный,354,3081,менее_2_лет
2,РефлешнСоверинг,равнинное,Соверин,Барин,359,3074,более_2_лет
3,РефлешнСоверинг,холмистое,Айдиал,Буйный,34,3061,более_2_лет
4,РефлешнСоверинг,равнинное,Айдиал,Буйный,364,3074,более_2_лет



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 7 columns):
 #   Column                   Non-Null Count  Dtype 
---  ------                   --------------  ----- 
 0   Порода                   20 non-null     object
 1   Тип пастбища             20 non-null     object
 2   порода папы_быка         20 non-null     object
 3   Имя_папы                 20 non-null     object
 4   Текущая_жирность,%       20 non-null     object
 5   Текущий_уровень_белок,%  20 non-null     object
 6   Возраст                  20 non-null     object
dtypes: object(7)
memory usage: 1.2+ KB
None


In [9]:
# вывод на экран статистической информации по наборам данных

print('Статистическая информация по набору ferma_main')
display(ferma_main.describe(include = 'all'))
print()
print('Статистическая информация по набору cow_buy')
display(cow_buy.describe(include = 'all'))

Статистическая информация по набору users


Unnamed: 0,id,"Удой, кг",ЭКЕ (Энергетическая кормовая единица),"Сырой протеин, г",СПО (Сахаро-протеиновое соотношение),Порода,Тип пастбища,порода папы_быка,"Жирность,%","Белок,%",Вкус молока,Возраст
count,634.0,634.0,634.0,634.0,634.0,634,634,634,634.0,634.0,634,634
unique,,,55.0,,12.0,2,3,3,50.0,15.0,2,2
top,,,147.0,,94.0,Вис Бик Айдиал,Холмистое,Соверин,372.0,3076.0,вкусно,более_2_лет
freq,,,27.0,,172.0,373,356,316,112.0,103.0,371,524
mean,317.460568,6187.025237,,1922.682965,,,,,,,,
std,183.096982,1638.401021,,182.392548,,,,,,,,
min,1.0,5204.0,,1660.0,,,,,,,,
25%,159.25,5751.75,,1772.25,,,,,,,,
50%,317.5,6130.5,,1880.5,,,,,,,,
75%,475.75,6501.0,,2058.75,,,,,,,,



Статистическая информация по набору rides


Unnamed: 0,Порода,Тип пастбища,порода папы_быка,Имя_папы,"Текущая_жирность,%","Текущий_уровень_белок,%",Возраст
count,20,20,20,20,20,20,20
unique,2,2,2,4,12,12,2
top,РефлешнСоверинг,равнинное,Соверин,Буйный,359,3074,более_2_лет
freq,11,11,12,8,3,5,15


**Вывод**:
1. Импортированы библиотеки Python:
    * для манипулирования данными - **pandas, numpy**;
    * для визуализации данных - **matplotlib, seaborn**;
    * для решения задач машинного обучения - **sklearn**.
2. Проведена загрузка данных в рабочую среду Jupyter Notebook. Инициализированы переменные: `ferma_main`, `ferma_dad`, `cow_buy`;
3. Выведены на экран параметры датасетов:
    * общая структура наборов данных - демонстрация первых 5 строк;
    * общая информация о наборах данных;

**Вывод после первичного знакомства с данными**:

`ferma_main`
* **В таблице нет пропущенных значений** - вся информация о поголовье коров и их характеристиках доступна;
* Требуется явное приведение типов - **многие значения сохранены как тип object вместо float**. По этой причине на текущем этапе нельзя сделать выводы по количественным показателям;
* В таблице представлены коровы **2 разных пород**;
* Все коровы классифицированы по возрасту: **менее 2 лет**, **более 2 лет**;
* Породы пап быков представлены **3 разными видами**;
* Типы пастбищ - **3 разных типа**;
* Названия столбцов не удовлетворяют формату **snake_case** - необходимо выполнить переименование.

`rides`
* **В таблице нет пропущенных значений** - вся информация о поездках и их характеристиках доступна;
* **Среднее время поездки - 17.8 минут, Медианное время - 17.6 минут**. Характеристика **duration** не содержит **явных** выбросов;
* **Среднее расстояние - 3 070 метров, Медианное расстояние 3 133**. Характеристика **distance** не содержит **явных** выбросов;
* Необходимо явного преобразовать столбец **date** - привести к типу datetime;
* Названия столбцов полностью удовлетворяют формату **snake_case**.

`cow_buy`
* Таблица состоит из 20 строк - потенциальных коров для покупки;
* **В таблице нет пропущенных значений** - вся информация о поголовье коров и их характеристиках доступна;
* Требуется явное приведение типов - **многие значения сохранены как тип object вместо float**. По этой причине на текущем этапе нельзя сделать выводы по количественным показателям;
* В таблице представлены коровы **2 разных пород**;
* Все коровы классифицированы по возрасту: **менее 2 лет**, **более 2 лет**;
* Породы пап быков представлены **2 разными видами**;
* Типы пастбищ - **2 разных типа**.
* Названия столбцов не удовлетворяют формату **snake_case** - необходимо выполнить переименование.

