# Прогнозирование цены

### Задача
Целевая переменная — `price`. У вас есть 4 атрибута, и, очевидно, мы хотим, чтобы вы построили некую модель машинного обучения, которая прогнозирует цены.

1. Проведите первоначальный анализ данных.
2. Используйте ML модель и кратко объясните свой выбор.
3. Покажите точность вашей модели и прокомментируйте результаты.
4. Представьте нам результаты и шаги, которые вы предприняли, а также некоторые критические размышления.

### Описание данных
Данные представлены в файле `price_sample.csv`.

### Комментарии

Определите, обучите и оцените прогнозирующую модель, которая принимает в качестве входных данных предоставленные данные. По вашему усмотрению вы можете разделить данные на наборы для обучения, тестирования. 

Убедитесь, что решение отражает весь ваш мыслительный процесс (для каждой ячейки кода оставляйте комментарии, иначе мы не поймем, что вы хотели сделать)

### Что мы точно хотим увидеть в вашей работе?

1. **Анализ данных**: Проведение первичного анализа данных для понимания их структуры и основных характеристик. 

2. **Обработка данных**: Это критически важный шаг, который включает в себя очистку данных, обработку пропущенных значений и дубликатов.

3. **Оценка модели**: Обучение и тестирование подходящей модели и оценка ее производительности с использованием релевантных метрик. 

In [44]:
#импортирую библиотеку pandas для загрузки и просмотра данных
import pandas as pd
df = pd.read_csv('price_sample.csv')
#пишу функцию head() для просмотра первых пяти строк.
df.head()

Unnamed: 0,para1,para2,para3,para4,price
0,1,662.0,3000.0,3.8,73.49
1,1,340.0,2760.0,9.2,300.0
2,0,16.0,2700.0,3.0,130.0
3,1,17.0,12320.0,6.4,365.0
4,1,610.0,2117.0,10.8,357.5


In [45]:
#shape дает мне понимание о количестве строк и колонок
df.shape

(10003, 5)

In [46]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10003 entries, 0 to 10002
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   para1   10003 non-null  int64  
 1   para2   9997 non-null   float64
 2   para3   10003 non-null  float64
 3   para4   9998 non-null   float64
 4   price   10003 non-null  float64
dtypes: float64(4), int64(1)
memory usage: 390.9 KB


In [47]:
df.describe()

Unnamed: 0,para1,para2,para3,para4,price
count,10003.0,9997.0,10003.0,9998.0,10003.0
mean,1.380986,447.270681,9547.975527,8.458024,433.774924
std,3.500408,220.913801,8022.286943,4.613645,277.443154
min,0.0,16.0,200.0,1.0,50.73
25%,1.0,301.0,2899.5,4.0,250.0
50%,1.0,434.0,6446.0,7.2,370.0
75%,1.0,582.0,15000.0,13.6,550.0
max,337.0,2554.0,34782.0,27.2,5700.0


In [48]:
#нам надо вычислить количество пустых строк в нашем дата фрейме и если их незначительное количество их можно удалить
df.isnull().sum()

para1    0
para2    6
para3    0
para4    5
price    0
dtype: int64

In [49]:
# удаляем строки с пустыми значениями
df = df.dropna() 
df.describe()

Unnamed: 0,para1,para2,para3,para4,price
count,9993.0,9993.0,9993.0,9993.0,9993.0
mean,1.381267,447.273091,9543.468248,8.456572,433.621258
std,3.502135,220.940294,8020.352543,4.613154,277.395066
min,0.0,16.0,200.0,1.0,50.73
25%,1.0,301.0,2895.0,4.0,250.0
50%,1.0,434.0,6437.0,7.2,370.0
75%,1.0,582.0,15000.0,13.6,550.0
max,337.0,2554.0,34782.0,27.2,5700.0


In [50]:
#найдем количество дубликатов
df.duplicated().sum()

215

In [51]:
#удалим все дубликаты и сбросим индексы
df = df.drop_duplicates()
df = df.reset_index(drop = True)


In [52]:
#Теперь можно приступать к ML. Так как стоит задача предсказать цену на некий продукт/услугу очевидно использование линейной регрессии
#необходимо будет импортировать саму модель, функцию для разделения на обучающую и тестовую группу,  также сразу импортируем функции для проверки модели
# среднеквадратичная ошибка (Mean Squared Error - MSE) и Коэффициент детерминации (R² Score)
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_error, r2_score

In [53]:
# Разделение данных на обучающую и тестовую выборки
X = df.iloc[:, 0:4]
y = df.iloc[:, -1]

In [54]:
#это input фичец, данные для вычислений 
X

Unnamed: 0,para1,para2,para3,para4
0,1,662.0,3000.0,3.8
1,1,340.0,2760.0,9.2
2,0,16.0,2700.0,3.0
3,1,17.0,12320.0,6.4
4,1,610.0,2117.0,10.8
...,...,...,...,...
9773,3,386.0,5000.0,12.0
9774,1,386.0,3250.0,8.0
9775,0,190.0,8856.0,5.6
9776,3,717.0,5000.0,13.6


In [55]:
#это так называемый output target, результаты вычислений
y

0        73.49
1       300.00
2       130.00
3       365.00
4       357.50
         ...  
9773    460.00
9774    325.00
9775    133.33
9776    820.00
9777    375.00
Name: price, Length: 9778, dtype: float64

y.describe()

In [57]:
#непосредственное разделение 70\30 где 30 процентов оставляем на тесты, random_state любое число для фиксированного рандома
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state = 42)

In [58]:
#обучаем модель линейной регрессии
model = LinearRegression()
model.fit(X_train, y_train)

In [1]:
y_pred = model.predict(X_test)

# Вычисление MSE и коэффициента детерминации (R²)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Mean Squared Error: {mse}")
print(f"R^2 Score: {r2}")

NameError: name 'model' is not defined

MSE = 37294.02: Ошибки предсказаний достаточно высоки в среднем.
R² = 0.537: Модель объясняет 53.7% дисперсии данных, что говорит о посредственном качестве.