# Прогнозирование цены

### Задача
Целевая переменная — `price`. У вас есть 4 атрибута, и, очевидно, мы хотим, чтобы вы построили некую модель машинного обучения, которая прогнозирует цены.

1. Проведите первоначальный анализ данных.
2. Используйте ML модель и кратко объясните свой выбор.
3. Покажите точность вашей модели и прокомментируйте результаты.
4. Представьте нам результаты и шаги, которые вы предприняли, а также некоторые критические размышления.

### Описание данных
Данные представлены в файле `price_sample.csv`.

### Комментарии

Определите, обучите и оцените прогнозирующую модель, которая принимает в качестве входных данных предоставленные данные. По вашему усмотрению вы можете разделить данные на наборы для обучения, тестирования. 

Убедитесь, что решение отражает весь ваш мыслительный процесс (для каждой ячейки кода оставляйте комментарии, иначе мы не поймем, что вы хотели сделать)

### Что мы точно хотим увидеть в вашей работе?

1. **Анализ данных**: Проведение первичного анализа данных для понимания их структуры и основных характеристик. 

2. **Обработка данных**: Это критически важный шаг, который включает в себя очистку данных, обработку пропущенных значений и дубликатов.

3. **Оценка модели**: Обучение и тестирование подходящей модели и оценка ее производительности с использованием релевантных метрик. 

# Анализ данных

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('price_sample.csv')

In [3]:
df.head()

Unnamed: 0,para1,para2,para3,para4,price
0,1,662.0,3000.0,3.8,73.49
1,1,340.0,2760.0,9.2,300.0
2,0,16.0,2700.0,3.0,130.0
3,1,17.0,12320.0,6.4,365.0
4,1,610.0,2117.0,10.8,357.5


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10003 entries, 0 to 10002
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   para1   10003 non-null  int64  
 1   para2   9997 non-null   float64
 2   para3   10003 non-null  float64
 3   para4   9998 non-null   float64
 4   price   10003 non-null  float64
dtypes: float64(4), int64(1)
memory usage: 390.9 KB


In [5]:
df.describe()

Unnamed: 0,para1,para2,para3,para4,price
count,10003.0,9997.0,10003.0,9998.0,10003.0
mean,1.380986,447.270681,9547.975527,8.458024,433.774924
std,3.500408,220.913801,8022.286943,4.613645,277.443154
min,0.0,16.0,200.0,1.0,50.73
25%,1.0,301.0,2899.5,4.0,250.0
50%,1.0,434.0,6446.0,7.2,370.0
75%,1.0,582.0,15000.0,13.6,550.0
max,337.0,2554.0,34782.0,27.2,5700.0


In [6]:
df.shape

(10003, 5)

# Обработка данных

In [7]:
df.isnull().sum()

para1    0
para2    6
para3    0
para4    5
price    0
dtype: int64

In [8]:
df = df.drop_duplicates()

In [9]:
df.shape

(9788, 5)

In [10]:
df = df.dropna(subset=['para2', 'para4'])

In [11]:
df.shape

(9778, 5)

# Оценка модели

In [12]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

X = df.drop(columns='price')
y = df['price']

In [13]:
X.head()

Unnamed: 0,para1,para2,para3,para4
0,1,662.0,3000.0,3.8
1,1,340.0,2760.0,9.2
2,0,16.0,2700.0,3.0
3,1,17.0,12320.0,6.4
4,1,610.0,2117.0,10.8


In [14]:
y.head()

0     73.49
1    300.00
2    130.00
3    365.00
4    357.50
Name: price, dtype: float64

In [15]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [16]:
X_train.head()

Unnamed: 0,para1,para2,para3,para4
9700,1,322.0,11143.0,13.6
8119,1,488.0,8000.0,13.2
7524,3,528.0,8000.0,7.6
5711,1,295.0,4113.0,2.0
668,1,701.0,1308.0,3.6


In [17]:
y_train

9700    395.00
8119    570.00
7524    350.00
5711    100.00
668     310.00
         ...  
5836    300.00
5280    620.00
5485    600.00
864     580.00
7413     54.33
Name: price, Length: 6844, dtype: float64

In [18]:
model = LinearRegression()
model.fit(X_train, y_train)

In [19]:
y_pred = model.predict(X_test)

mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Mean Squared Error: {mse}")
print(f"R^2 Score: {r2}")

Mean Squared Error: 37294.024887189866
R^2 Score: 0.5373496834976037


In [20]:
mse**(1/2)

193.11660955803328