# Практическая работа №4
## Тема: «Линейная регрессия»
### Выполнила студентка: Рахимова Алсу ПКТб-21-1
#### ВАРИАНТ: (ваш dataset [название, ссылка])


### Линейная регрессия

Линейная регрессия используется для прогнозирования непрерывной переменной (зависимой переменной) на основе одной или нескольких независимых переменных. Она строит линейную зависимость между независимыми и зависимой переменными, что позволяет предсказывать значение зависимой переменной на основе значений независимых переменных.

Линейная регрессия в машинном обучении — это статистический метод, который используется для прогнозирования значения одной переменной (зависимой) на основе значений одной или нескольких других переменных (независимых). Этот метод основан на построении линейной зависимости между независимыми и зависимой переменными, что позволяет моделировать взаимосвязь между ними и делать прогнозы на основе новых данных.

#### Принципы Линейной Регрессии

**Линейная зависимость:** Предполагается, что между независимыми и зависимой переменными существует линейная зависимость. Это означает, что изменение в независимой переменной приводит к прямо пропорциональному изменению в зависимой переменной.
Остаточная независимость: Остатки (разница между наблюдаемыми и прогнозируемыми значениями) не должны иметь идентифицируемой закономерности. Это помогает избежать выбросов и обеспечивает точность модели.

**Гомоскедастичность:** Предполагается, что невязки имеют постоянную дисперсию или стандартное отклонение от среднего для каждого значения независимой переменной. Это помогает обеспечить стабильность и надежность прогнозов.

**Нормальность:** Предполагается, что невязки распределены нормально. Это помогает в интерпретации результатов и проверке гипотез.

**Основные характеристики линейной регрессии:**

- **Цель:** Прогнозирование непрерывной переменной.
- **Модель:** Линейная функция независимых переменных.
- **Применение:** Простой анализ и предсказание линейных данных и трендов. Работа с переменными, линейно зависящими от одной-двух-трех других переменных. Используется в экономике, биологии, социологии и других областях для прогнозирования.

    - **Прогнозирование цен на недвижимость:** Используя данные о площади, количестве комнат, расположении и других факторах, можно прогнозировать цену на продажу дома.

    - **Анализ влияния температуры на урожай:** Исходя из исторических данных о температуре и урожае, можно оценить, как изменение температуры влияет на урожай.

    - **Прогнозирование заболеваний:** Используя данные о пациенте, такие как возраст, пол, медицинская история, можно прогнозировать вероятность развития определенного заболевания.

- **Плюсы:** Очень простая и интуитивная модель машинного обучения. Проста в реализации, быстра в работе.

- **Минусы:** Хорошо работает только на очень простых зависимостях. Плохо предсказывает сложные зависимости.

Если у вас есть последовательность чисел [10, 20, 30, 40, 50, x], то линейная регрессия легко предскажет, что на месте x должно быть число 60. Этот алгоритм предсказывает простые линейные зависимости в данных и значения в рамках трендов.

![image.png](attachment:image.png)



Для демонстрации применения линейной регрессии можно использовать следующий пример кода на Python с использованием библиотеки scikit-learn:

In [1]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
import numpy as np

from sklearn.metrics import accuracy_score, recall_score, f1_score

import warnings
# Игнорировать все предупреждения
warnings.filterwarnings('ignore')

# Пример данных
X = np.array([[1, 1], [1, 2], [2, 2], [2, 3]]) # Независимые переменные
y = np.dot(X, np.array([1, 2])) + 3 # Зависимая переменная

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# Создание и обучение модели линейной регрессии
model = LinearRegression()
model.fit(X_train, y_train)

# Прогнозирование на тестовых данных
y_pred = model.predict(X_test)

# Вывод коэффициентов модели
print("Коэффициенты модели:", model.coef_)
print("Свободный член модели:", model.intercept_)

# Оценка модели
accuracy = accuracy_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

print(f"Accuracy: {accuracy}")
print(f"Recall: {recall}")
print(f"F1 Score: {f1}")


Коэффициенты модели: [1. 2.]
Свободный член модели: 2.999999999999999
Accuracy: 1.0
Recall: 0.0
F1 Score: 0.0


**Коэффициенты модели.** В контексте линейной регрессии, коэффициенты модели также играют ключевую роль, но они интерпретируются немного иначе, поскольку линейная регрессия предсказывает непрерывную переменную, а не категориальную. Коэффициенты линейной регрессии показывают, насколько сильно каждый признак влияет на предсказанное значение.

Коэффициенты линейной регрессии помогают понять, какие признаки наиболее важны для предсказания целевой переменной. Это может быть полезно для интерпретации модели и выбора признаков для дальнейшего анализа или для создания новых признаков.

**Свободный член.** Свободный член (или смещение) в модели линейной регрессии представляет собой константу, которая добавляется к линейной комбинации признаков для получения предсказанного значения. В контексте линейной регрессии, свободный член позволяет модели быть смещенной относительно оси Y, что особенно важно, когда данные не проходят через начало координат (0,0).

В библиотеке scikit-learn, свободный член модели линейной регрессии можно получить с помощью атрибута intercept_ обученной модели.Свободный член модели показывает, насколько сильно модель смещена относительно оси Y. Если свободный член положительный, это означает, что модель смещена вверх относительно оси Y. Если свободный член отрицательный, модель смещена вниз относительно оси Y. Свободный член играет важную роль в интерпретации модели линейной регрессии, позволяя нам понять базовый уровень предсказанного значения, когда все признаки равны нулю.

Точность (Accuracy)
Точность измеряет, какую долю предсказаний модель сделала правильно. Она рассчитывается как отношение числа правильных предсказаний к общему числу предсказаний.

Полнота (Recall)
Полнота измеряет, какую долю положительных примеров модель смогла правильно идентифицировать. Она рассчитывается как отношение числа истинно положительных результатов к сумме истинно положительных и ложно отрицательных результатов.

F1-мера (F1 Score)
F1-мера является средним между точностью и полнотой и используется для оценки моделей, где важно найти баланс между этими двумя метриками. Она рассчитывается как дважды произведение отношения точности и полноты к сумме точности и полноты.

Эти метрики помогают оценить, насколько хорошо модель может предсказывать выживание пассажиров на "Титанике" на основе предоставленных признаков, учитывая как правильность предсказаний, так и способность модели идентифицировать положительные примеры.

#### Задание 1. Загрузить данные из dataset "Титаник" 

In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split

url='https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
titanic_data=pd.read_csv(url)
titanic_data

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


#### Задание 2. Произвести предобработку данных dataset "Титаник" и сохранить результаты каждый в отдельный датафрейм
1. Удалить все пустые значения и сохранить результаты в датафрейм df_del
2. Замена на конкретное значение всех пустых и сохранить результаты в датафрейм df_num
3. Заменить все пустые значения на среднее значение и сохранить результаты в датафрейм df_means
4. Заменить все пустые значения на медианное значение и сохранить результаты в датафрейм df_medians
5. Замена на предыдущее или следующее значение и сохранить результаты в датафрейм df_fb_fill

In [3]:
#1.Удалить все пустые значения и сохранить результаты в датафрейм df_del
df_del = titanic_data.dropna()
df_del

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7000,G6,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S
...,...,...,...,...,...,...,...,...,...,...,...,...
871,872,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female,47.0,1,1,11751,52.5542,D35,S
872,873,0,1,"Carlsson, Mr. Frans Olof",male,33.0,0,0,695,5.0000,B51 B53 B55,S
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S


In [4]:
#2. Замена на конкретное значение все пустые и сохранить результаты в датафрейм df_num
df_num = titanic_data.fillna(24)
df_num

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,24,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,24,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,24,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,24,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,24.0,1,2,W./C. 6607,23.4500,24,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [5]:
#3. Заменить все пустые значения на среднее значение и сохранить результаты в датафрейм df_means
df_means = titanic_data.fillna(titanic_data.Fare.mean())
df_means

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.000000,1,0,A/5 21171,7.2500,32.204208,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.000000,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.000000,0,0,STON/O2. 3101282,7.9250,32.204208,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.000000,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.000000,0,0,373450,8.0500,32.204208,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.000000,0,0,211536,13.0000,32.204208,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.000000,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,32.204208,1,2,W./C. 6607,23.4500,32.204208,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.000000,0,0,111369,30.0000,C148,C


In [6]:
#4. Заменить все пустые значения на медианное значение и сохранить результаты в датафрейм df_medians
df_medians = titanic_data.fillna(titanic_data.Fare.median())
df_medians

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0000,1,0,A/5 21171,7.2500,14.4542,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0000,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0000,0,0,STON/O2. 3101282,7.9250,14.4542,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0000,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0000,0,0,373450,8.0500,14.4542,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0000,0,0,211536,13.0000,14.4542,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0000,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,14.4542,1,2,W./C. 6607,23.4500,14.4542,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0000,0,0,111369,30.0000,C148,C


In [7]:
#5. Замена на предыдущее или следующее значение и сохранить результаты в датафрейм df_fb_fill
df_fb_fill = titanic_data.fillna(method  = 'ffill')
df_fb_fill

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,C85,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,C123,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,C50,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,19.0,1,2,W./C. 6607,23.4500,B42,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


# Задание 3. Применить к каждому датафрейму алгоритм линейной регрессиии

In [12]:
#df_del
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
import numpy as np

from sklearn.metrics import accuracy_score, recall_score, f1_score

import warnings
# Игнорировать все предупреждения
warnings.filterwarnings('ignore')

# Пример данных
X5 = df_del[['Pclass','Age']] # Независимые переменные
y5 = df_del['Fare'] # Зависимая переменная

# Разделение данных на обучающую и тестовую выборки
X5_train, X5_test, y5_train, y5_test = train_test_split(X5, y5, test_size=0.2, random_state=0)

# Создание и обучение модели линейной регрессии
model = LinearRegression()
model.fit(X5_train, y5_train)

# Прогнозирование на тестовых данных
y5_pred = model.predict(X5_test)

# Вывод коэффициентов модели
print("Коэффициенты модели:", model.coef_)
print("Свободный член модели:", model.intercept_)


Коэффициенты модели: [-52.22697456  -0.84769756]
Свободный член модели: 169.57490447066965


In [9]:
#df_num
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
import numpy as np

from sklearn.metrics import accuracy_score, recall_score, f1_score

import warnings
# Игнорировать все предупреждения
warnings.filterwarnings('ignore')

# Пример данных
X1 = df_num[['Pclass','Age']] # Независимые переменные
y1 = df_num['Fare'] # Зависимая переменная

# Разделение данных на обучающую и тестовую выборки
X1_train, X1_test, y1_train, y1_test = train_test_split(X1, y1, test_size=0.2, random_state=0)

# Создание и обучение модели линейной регрессии
model = LinearRegression()
model.fit(X1_train, y1_train)

# Прогнозирование на тестовых данных
y1_pred = model.predict(X1_test)

# Вывод коэффициентов модели
print("Коэффициенты модели:", model.coef_)
print("Свободный член модели:", model.intercept_)

Коэффициенты модели: [-34.21659439  -0.35806561]
Свободный член модели: 121.40036571450753


In [11]:
#df_means
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
import numpy as np

from sklearn.metrics import accuracy_score, recall_score, f1_score

import warnings
# Игнорировать все предупреждения
warnings.filterwarnings('ignore')

# Пример данных
X2 = df_means[['Pclass','Age']] # Независимые переменные
y2 = df_means['Fare'] # Зависимая переменная

# Разделение данных на обучающую и тестовую выборки
X2_train, X2_test, y2_train, y2_test = train_test_split(X2, y2, test_size=0.2, random_state=0)

# Создание и обучение модели линейной регрессии
model = LinearRegression()
model.fit(X2_train, y2_train)

# Прогнозирование на тестовых данных
y2_pred = model.predict(X2_test)

# Вывод коэффициентов модели
print("Коэффициенты модели:", model.coef_)
print("Свободный член модели:", model.intercept_)

Коэффициенты модели: [-33.88047857  -0.34348942]
Свободный член модели: 120.76252870598758


In [12]:
#df_medians
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
import numpy as np

from sklearn.metrics import accuracy_score, recall_score, f1_score

import warnings
# Игнорировать все предупреждения
warnings.filterwarnings('ignore')

# Пример данных
X3 = df_medians[['Pclass','Age']] # Независимые переменные
y3 = df_medians['Fare'] # Зависимая переменная

# Разделение данных на обучающую и тестовую выборки
X3_train, X3_test, y3_train, y3_test = train_test_split(X3, y3, test_size=0.2, random_state=0)

# Создание и обучение модели линейной регрессии
model = LinearRegression()
model.fit(X3_train, y3_train)

# Прогнозирование на тестовых данных
y3_pred = model.predict(X3_test)

# Вывод коэффициентов модели
print("Коэффициенты модели:", model.coef_)
print("Свободный член модели:", model.intercept_)

Коэффициенты модели: [-34.27461926  -0.32054075]
Свободный член модели: 119.85539609896345


In [14]:
#df_fb_fill
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
import numpy as np

from sklearn.metrics import accuracy_score, recall_score, f1_score

import warnings
# Игнорировать все предупреждения
warnings.filterwarnings('ignore')

# Пример данных
X4 = df_fb_fill[['Pclass','Age']] # Независимые переменные
y4 = df_fb_fill['Fare'] # Зависимая переменная

# Разделение данных на обучающую и тестовую выборки
X4_train, X4_test, y4_train, y4_test = train_test_split(X4, y4, test_size=0.2, random_state=0)

# Создание и обучение модели линейной регрессии
model = LinearRegression()
model.fit(X4_train, y4_train)

# Прогнозирование на тестовых данных
y4_pred = model.predict(X4_test)

# Вывод коэффициентов модели
print("Коэффициенты модели:", model.coef_)
print("Свободный член модели:", model.intercept_)

Коэффициенты модели: [-33.35337615  -0.23952496]
Свободный член модели: 116.21769690165091


#### Задание 4. Произвести оценку обученности модели разными метриками
1. accuracy
2. recall
3. Precision 
4. F1-Score

#### Задание 5. Определить наиболее эффективную метрику

#### Задание 6. Загрузить ваш dataset и произвести его описание


Экспертный рейтинг более 14000 шоколадных батончиков. В нём указаны компания-производитель, конкретное происхождение бобов либо название батончика, количество отданных голосов за конкретную марку, год проведения опроса, процент содержания какао, местонахождение компании-производителя, рейтинг от 1 до 5 и тип какао-бобов.

In [29]:
import pandas as pd
mydf=pd.read_excel('ChocolateBarRatings.xlsx',sheet_name='flavors_of_cacao')
mydf

Unnamed: 0,Company (Maker-if known),Specific Bean Originor Bar Name,REF,ReviewDate,Cocoa Percent,CompanyLocation,Rating,BeanType,Broad BeanOrigin
0,A. Morin,Agua Grande,1876.0,,0.63,France,3.75,Criollo,Sao Tome
1,A. Morin,Kpime,1676.0,2015.0,0.7,France,2.75,Criollo,Togo
2,A. Morin,Atsane,,2015.0,0.7,France,,Criollo,Togo
3,A. Morin,Akata,,,0.7,France,3.00,Criollo,Togo
4,A. Morin,Quilla,1704.0,,0.7,France,,Criollo,Peru
...,...,...,...,...,...,...,...,...,...
14355,Zotter,Peru,647.0,2011.0,0.7,Austria,2.00,Criollo,Peru
14356,Zotter,Congo,749.0,2011.0,0.65,Austria,3.00,Forastero,Congo
14357,Zotter,Kerala State,749.0,2011.0,0.65,Austria,3.50,Forastero,India
14358,Zotter,Kerala State,781.0,2011.0,0.62,Austria,2.00,Criollo,India


#### Задание 7. Произвести предобработку вашего dataset  и сохранить результаты каждый в отдельный датафрейм
1. Удалить все пустые значения и сохранить результаты в датафрейм mydf_del
2. Замена на конкретное значение всех пустых и сохранить результаты в датафрейм mydf_num
3. Заменить все пустые значения на среднее значение и сохранить результаты в датафрейм mydf_means
4. Заменить все пустые значения на медианное значение и сохранить результаты в датафрейм mydf_medians
5. Замена на предыдущее или следующее значение и сохранить результаты в датафрейм mydf_fb_fill

In [16]:
#1.Удалить все пустые значения и сохранить результаты в датафрейм mydf_del
mydf_del = mydf.dropna()
mydf_del

Unnamed: 0,Company (Maker-if known),Specific Bean Originor Bar Name,REF,ReviewDate,Cocoa Percent,CompanyLocation,Rating,BeanType,Broad BeanOrigin
1,A. Morin,Kpime,1676.0,2015.0,0.7,France,2.75,Criollo,Togo
5,A. Morin,Carenero,1315.0,2014.0,0.7,France,3.50,Criollo,Venezuela
22,A. Morin,Peru,797.0,2012.0,0.63,France,3.00,Criollo,Peru
23,Acalli,"Chulucanas, El Platanal",1462.0,2015.0,0.7,U.S.A.,3.50,Criollo,Peru
24,Acalli,"Tumbes, Norandino",1470.0,2015.0,0.7,U.S.A.,3.50,Criollo,Peru
...,...,...,...,...,...,...,...,...,...
14355,Zotter,Peru,647.0,2011.0,0.7,Austria,2.00,Criollo,Peru
14356,Zotter,Congo,749.0,2011.0,0.65,Austria,3.00,Forastero,Congo
14357,Zotter,Kerala State,749.0,2011.0,0.65,Austria,3.50,Forastero,India
14358,Zotter,Kerala State,781.0,2011.0,0.62,Austria,2.00,Criollo,India


In [17]:
#2.Замена на конкретное значение всех пустых и сохранить результаты в датафрейм mydf_num
mydf_num = mydf.fillna(7)
mydf_num

Unnamed: 0,Company (Maker-if known),Specific Bean Originor Bar Name,REF,ReviewDate,Cocoa Percent,CompanyLocation,Rating,BeanType,Broad BeanOrigin
0,A. Morin,Agua Grande,1876.0,7.0,0.63,France,3.75,Criollo,Sao Tome
1,A. Morin,Kpime,1676.0,2015.0,0.7,France,2.75,Criollo,Togo
2,A. Morin,Atsane,7.0,2015.0,0.7,France,7.00,Criollo,Togo
3,A. Morin,Akata,7.0,7.0,0.7,France,3.00,Criollo,Togo
4,A. Morin,Quilla,1704.0,7.0,0.7,France,7.00,Criollo,Peru
...,...,...,...,...,...,...,...,...,...
14355,Zotter,Peru,647.0,2011.0,0.7,Austria,2.00,Criollo,Peru
14356,Zotter,Congo,749.0,2011.0,0.65,Austria,3.00,Forastero,Congo
14357,Zotter,Kerala State,749.0,2011.0,0.65,Austria,3.50,Forastero,India
14358,Zotter,Kerala State,781.0,2011.0,0.62,Austria,2.00,Criollo,India


In [18]:
#3.Заменить все пустые значения на среднее значение и сохранить результаты в датафрейм mydf_means
mydf_means = mydf.fillna(mydf.REF.mean())
mydf_means

Unnamed: 0,Company (Maker-if known),Specific Bean Originor Bar Name,REF,ReviewDate,Cocoa Percent,CompanyLocation,Rating,BeanType,Broad BeanOrigin
0,A. Morin,Agua Grande,1876.000000,1035.708441,0.63,France,3.750000,Criollo,Sao Tome
1,A. Morin,Kpime,1676.000000,2015.000000,0.7,France,2.750000,Criollo,Togo
2,A. Morin,Atsane,1035.708441,2015.000000,0.7,France,1035.708441,Criollo,Togo
3,A. Morin,Akata,1035.708441,1035.708441,0.7,France,3.000000,Criollo,Togo
4,A. Morin,Quilla,1704.000000,1035.708441,0.7,France,1035.708441,Criollo,Peru
...,...,...,...,...,...,...,...,...,...
14355,Zotter,Peru,647.000000,2011.000000,0.7,Austria,2.000000,Criollo,Peru
14356,Zotter,Congo,749.000000,2011.000000,0.65,Austria,3.000000,Forastero,Congo
14357,Zotter,Kerala State,749.000000,2011.000000,0.65,Austria,3.500000,Forastero,India
14358,Zotter,Kerala State,781.000000,2011.000000,0.62,Austria,2.000000,Criollo,India


In [19]:
#4.Заменить все пустые значения на медианное значение и сохранить результаты в датафрейм mydf_medians
mydf_medians = mydf.fillna(mydf.REF.median())
mydf_medians

Unnamed: 0,Company (Maker-if known),Specific Bean Originor Bar Name,REF,ReviewDate,Cocoa Percent,CompanyLocation,Rating,BeanType,Broad BeanOrigin
0,A. Morin,Agua Grande,1876.0,1069.0,0.63,France,3.75,Criollo,Sao Tome
1,A. Morin,Kpime,1676.0,2015.0,0.7,France,2.75,Criollo,Togo
2,A. Morin,Atsane,1069.0,2015.0,0.7,France,1069.00,Criollo,Togo
3,A. Morin,Akata,1069.0,1069.0,0.7,France,3.00,Criollo,Togo
4,A. Morin,Quilla,1704.0,1069.0,0.7,France,1069.00,Criollo,Peru
...,...,...,...,...,...,...,...,...,...
14355,Zotter,Peru,647.0,2011.0,0.7,Austria,2.00,Criollo,Peru
14356,Zotter,Congo,749.0,2011.0,0.65,Austria,3.00,Forastero,Congo
14357,Zotter,Kerala State,749.0,2011.0,0.65,Austria,3.50,Forastero,India
14358,Zotter,Kerala State,781.0,2011.0,0.62,Austria,2.00,Criollo,India


In [32]:
#5. Замена на предыдущее или следующее значение и сохранить результаты в датафрейм mydf_fb_fill
mydf_fb_fill = mydf.fillna(method  = 'bfill')
mydf_fb_fill

Unnamed: 0,Company (Maker-if known),Specific Bean Originor Bar Name,REF,ReviewDate,Cocoa Percent,CompanyLocation,Rating,BeanType,Broad BeanOrigin
0,A. Morin,Agua Grande,1876.0,2015.0,0.63,France,3.75,Criollo,Sao Tome
1,A. Morin,Kpime,1676.0,2015.0,0.7,France,2.75,Criollo,Togo
2,A. Morin,Atsane,1704.0,2015.0,0.7,France,3.00,Criollo,Togo
3,A. Morin,Akata,1704.0,2014.0,0.7,France,3.00,Criollo,Togo
4,A. Morin,Quilla,1704.0,2014.0,0.7,France,3.50,Criollo,Peru
...,...,...,...,...,...,...,...,...,...
14355,Zotter,Peru,647.0,2011.0,0.7,Austria,2.00,Criollo,Peru
14356,Zotter,Congo,749.0,2011.0,0.65,Austria,3.00,Forastero,Congo
14357,Zotter,Kerala State,749.0,2011.0,0.65,Austria,3.50,Forastero,India
14358,Zotter,Kerala State,781.0,2011.0,0.62,Austria,2.00,Criollo,India


#### Задание 8. Приметить к каждому датафрейму алгоритм линейной регресси

In [22]:
#mydf_del
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
import numpy as np

from sklearn.metrics import accuracy_score, recall_score, f1_score

import warnings
# Игнорировать все предупреждения
warnings.filterwarnings('ignore')

# Пример данных
X = mydf_del[['REF','ReviewDate']] # Независимые переменные
y = mydf_del['Rating'] # Зависимая переменная

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# Создание и обучение модели линейной регрессии
model = LinearRegression()
model.fit(X_train, y_train)

# Прогнозирование на тестовых данных
y_pred = model.predict(X_test)

# Вывод коэффициентов модели
print("Коэффициенты модели:", model.coef_)
print("Свободный член модели:", model.intercept_)

Коэффициенты модели: [-0.00039868  0.07951965]
Свободный член модели: -156.5284890955771


In [21]:
#mydf_num
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
import numpy as np

from sklearn.metrics import accuracy_score, recall_score, f1_score

import warnings
# Игнорировать все предупреждения
warnings.filterwarnings('ignore')

# Пример данных
X1 = mydf_num[['REF','ReviewDate']] # Независимые переменные
y1 = mydf_num['Rating'] # Зависимая переменная

# Разделение данных на обучающую и тестовую выборки
X1_train, X1_test, y1_train, y1_test = train_test_split(X1, y1, test_size=0.2, random_state=0)

# Создание и обучение модели линейной регрессии
model = LinearRegression()
model.fit(X1_train, y1_train)

# Прогнозирование на тестовых данных
y1_pred = model.predict(X1_test)

# Вывод коэффициентов модели
print("Коэффициенты модели:", model.coef_)
print("Свободный член модели:", model.intercept_)

Коэффициенты модели: [ 5.29536294e-06 -1.95651342e-04]
Свободный член модели: 3.4737087378233915


In [23]:
#mydf_means
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
import numpy as np

from sklearn.metrics import accuracy_score, recall_score, f1_score

import warnings
# Игнорировать все предупреждения
warnings.filterwarnings('ignore')

# Пример данных
X2 = mydf_means[['REF','ReviewDate']] # Независимые переменные
y2 = mydf_means['Rating'] # Зависимая переменная

# Разделение данных на обучающую и тестовую выборки
X2_train, X2_test, y2_train, y2_test = train_test_split(X2, y2, test_size=0.2, random_state=0)

# Создание и обучение модели линейной регрессии
model = LinearRegression()
model.fit(X2_train, y2_train)

# Прогнозирование на тестовых данных
y2_pred = model.predict(X2_test)

# Вывод коэффициентов модели
print("Коэффициенты модели:", model.coef_)
print("Свободный член модели:", model.intercept_)

Коэффициенты модели: [-0.00225851 -0.07789866]
Свободный член модели: 166.4042272613234


In [24]:
#mydf_medians
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
import numpy as np

from sklearn.metrics import accuracy_score, recall_score, f1_score

import warnings
# Игнорировать все предупреждения
warnings.filterwarnings('ignore')

# Пример данных
X3 = mydf_medians[['REF','ReviewDate']] # Независимые переменные
y3 = mydf_medians['Rating'] # Зависимая переменная

# Разделение данных на обучающую и тестовую выборки
X3_train, X3_test, y3_train, y3_test = train_test_split(X3, y3, test_size=0.2, random_state=0)

# Создание и обучение модели линейной регрессии
model = LinearRegression()
model.fit(X3_train, y3_train)

# Прогнозирование на тестовых данных
y3_pred = model.predict(X3_test)

# Вывод коэффициентов модели
print("Коэффициенты модели:", model.coef_)
print("Свободный член модели:", model.intercept_)

Коэффициенты модели: [-0.00232769 -0.08327467]
Свободный член модели: 177.431023992041


In [33]:
#mydf_fb_fill
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
import numpy as np

from sklearn.metrics import accuracy_score, recall_score, f1_score

import warnings
# Игнорировать все предупреждения
warnings.filterwarnings('ignore')

# Пример данных
X4 = mydf_fb_fill[['REF','Rating']] # Независимые переменные
y4 = mydf_fb_fill['ReviewDate'] # Зависимая переменная

# Разделение данных на обучающую и тестовую выборки
X4_train, X4_test, y4_train, y4_test = train_test_split(X4, y4, test_size=0.2, random_state=0)

# Создание и обучение модели линейной регрессии
model = LinearRegression()
model.fit(X4_train, y4_train)

# Прогнозирование на тестовых данных
y4_pred = model.predict(X4_test)

# Вывод коэффициентов модели
print("Коэффициенты модели:", model.coef_)
print("Свободный член модели:", model.intercept_)

Коэффициенты модели: [0.00520077 0.04487188]
Свободный член модели: 2006.790720379185


#### Задание 9. Произвести оценку обученности модели разными метриками
1. accuracy
2. recall
3. Precision 
4. F1-Score

#### Задание 10. Определить наиболее эффективную метрику