# Прогнозирование цены

### Задача
Целевая переменная — `price`. У вас есть 4 атрибута, и, очевидно, мы хотим, чтобы вы построили некую модель машинного обучения, которая прогнозирует цены.

1. Проведите первоначальный анализ данных.
2. Используйте ML модель и кратко объясните свой выбор.
3. Покажите точность вашей модели и прокомментируйте результаты.
4. Представьте нам результаты и шаги, которые вы предприняли, а также некоторые критические размышления.

### Описание данных
Данные представлены в файле `price_sample.csv`.

### Комментарии

Определите, обучите и оцените прогнозирующую модель, которая принимает в качестве входных данных предоставленные данные. По вашему усмотрению вы можете разделить данные на наборы для обучения, тестирования. 

Убедитесь, что решение отражает весь ваш мыслительный процесс (для каждой ячейки кода оставляйте комментарии, иначе мы не поймем, что вы хотели сделать)

### Что мы точно хотим увидеть в вашей работе?

1. **Анализ данных**: Проведение первичного анализа данных для понимания их структуры и основных характеристик. 

2. **Обработка данных**: Это критически важный шаг, который включает в себя очистку данных, обработку пропущенных значений и дубликатов.

3. **Оценка модели**: Обучение и тестирование подходящей модели и оценка ее производительности с использованием релевантных метрик. 

## Mini Project-6 Bakytkul Serikbek

In [13]:
from sklearn.datasets import load_diabetes 
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import pandas as pd


#1. Сделайте первичный анализ данных:
df = pd.read_csv('price_sample.csv')
df

Unnamed: 0,para1,para2,para3,para4,price
0,1,662.0,3000.0,3.8,73.49
1,1,340.0,2760.0,9.2,300.00
2,0,16.0,2700.0,3.0,130.00
3,1,17.0,12320.0,6.4,365.00
4,1,610.0,2117.0,10.8,357.50
...,...,...,...,...,...
9998,3,386.0,5000.0,12.0,460.00
9999,1,386.0,3250.0,8.0,325.00
10000,0,190.0,8856.0,5.6,133.33
10001,3,717.0,5000.0,13.6,820.00


In [15]:
#просмотр первых нескольких строк
df.head()

Unnamed: 0,para1,para2,para3,para4,price
0,1,662.0,3000.0,3.8,73.49
1,1,340.0,2760.0,9.2,300.0
2,0,16.0,2700.0,3.0,130.0
3,1,17.0,12320.0,6.4,365.0
4,1,610.0,2117.0,10.8,357.5


In [17]:
#получение информации о данных
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10003 entries, 0 to 10002
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   para1   10003 non-null  int64  
 1   para2   9997 non-null   float64
 2   para3   10003 non-null  float64
 3   para4   9998 non-null   float64
 4   price   10003 non-null  float64
dtypes: float64(4), int64(1)
memory usage: 390.9 KB


In [19]:
#описательная статистика
df.describe()

Unnamed: 0,para1,para2,para3,para4,price
count,10003.0,9997.0,10003.0,9998.0,10003.0
mean,1.380986,447.270681,9547.975527,8.458024,433.774924
std,3.500408,220.913801,8022.286943,4.613645,277.443154
min,0.0,16.0,200.0,1.0,50.73
25%,1.0,301.0,2899.5,4.0,250.0
50%,1.0,434.0,6446.0,7.2,370.0
75%,1.0,582.0,15000.0,13.6,550.0
max,337.0,2554.0,34782.0,27.2,5700.0


In [24]:
df.columns

Index(['para1', 'para2', 'para3', 'para4', 'price'], dtype='object')

In [56]:
df.isnull().sum()

para1    0
para2    6
para3    0
para4    5
price    0
dtype: int64

In [62]:
df.fillna(df.mean(), inplace=True)
df

Unnamed: 0,para1,para2,para3,para4,price
0,1,662.0,3000.0,3.8,73.49
1,1,340.0,2760.0,9.2,300.00
2,0,16.0,2700.0,3.0,130.00
3,1,17.0,12320.0,6.4,365.00
4,1,610.0,2117.0,10.8,357.50
...,...,...,...,...,...
9998,3,386.0,5000.0,12.0,460.00
9999,1,386.0,3250.0,8.0,325.00
10000,0,190.0,8856.0,5.6,133.33
10001,3,717.0,5000.0,13.6,820.00


#2.Используйте ML модель и кратко объясните свой выбор.
Выбираю линейную регрессию, так как это простая и интерпретируемая модель. 
Она хорошо подходит для случаев, когда зависимость между целевой переменной и атрибутами является линейной.

In [64]:
X = df.drop(columns=['price'])  # Features
y = df['price']  # Target variable

In [66]:
X.head()

Unnamed: 0,para1,para2,para3,para4
0,1,662.0,3000.0,3.8
1,1,340.0,2760.0,9.2
2,0,16.0,2700.0,3.0
3,1,17.0,12320.0,6.4
4,1,610.0,2117.0,10.8


In [68]:
X.shape

(10003, 4)

In [70]:
y.head()

0     73.49
1    300.00
2    130.00
3    365.00
4    357.50
Name: price, dtype: float64

In [72]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [74]:
X_train.head()

Unnamed: 0,para1,para2,para3,para4
6123,1,173.0,4108.0,8.0
9072,1,525.0,23100.0,13.6
2603,1,504.0,1100.0,3.4
6127,1,402.0,2700.0,6.5
1579,0,216.0,2532.0,2.0


In [76]:
X_train.shape

(7002, 4)

In [78]:
y_train

6123    165.0
9072    580.0
2603    215.0
6127    320.0
1579    170.0
        ...  
5734    170.0
5191    255.0
5390    300.0
860     380.0
7270    450.0
Name: price, Length: 7002, dtype: float64

In [82]:
model = LinearRegression()
model.fit(X_train, y_train)

In [84]:
y_pred = model.predict(X_test)

# Вычисление MSE и коэффициента детерминации (R²)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Mean Squared Error: {mse}")
print(f"R^2 Score: {r2}")

Mean Squared Error: 38697.14320493815
R^2 Score: 0.5454746411182759


In [86]:
y_test

6883    620.00
5836    300.00
8601    700.00
2545    600.00
8697     81.50
         ...  
4262    800.00
6466    490.00
1074    240.00
3065    350.00
3094    133.33
Name: price, Length: 3001, dtype: float64

In [88]:
y_pred

array([536.623847  , 350.29635647, 681.74170909, ..., 379.2105449 ,
       422.68928417, 403.17723159])

In [92]:
mse**(1/2)

196.71589464234492

R² Score 0.545 означает, что модель имеет умеренную предсказательную способность, но есть потенциал для улучшения. Это может свидетельствовать о том, что либо имеются важные переменные, которые не учтены в модели, либо модель не является достаточно сложной, чтобы хорошо предсказать целевую переменную.