In [8]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import LabelEncoder, StandardScaler




# Задача классификации

In [7]:
# Создаем данные (в реальности данные загружаются из файла или базы данных)
data = {
    'gender': ['male', 'female', 'female', 'male', 'male', 'female', 'male'],
    'age': [23, 45, 34, 25, 42, 31, 26],
    'income_level': ['low', 'high', 'medium', 'medium', 'high', 'low', 'medium'],
    'purchased': [1, 0, 0, 1, 1, 0, 1]
}

# Преобразуем данные в DataFrame
df = pd.DataFrame(data)

# Выводим данные
print("Данные:")
print(df)


Данные:
   gender  age income_level  purchased
0    male   23          low          1
1  female   45         high          0
2  female   34       medium          0
3    male   25       medium          1
4    male   42         high          1
5  female   31          low          0
6    male   26       medium          1


In [3]:
# Преобразуем номинальные признаки в числовые значения (бинарные и номинальные шкалы)
le_gender = LabelEncoder()
df['gender'] = le_gender.fit_transform(df['gender'])

le_income = LabelEncoder()
df['income_level'] = le_income.fit_transform(df['income_level'])

print(df.head())

   gender  age  income_level  purchased
0       1   23             1          1
1       0   45             0          0
2       0   34             2          0
3       1   25             2          1
4       1   42             0          1


In [4]:
# Стандартизируем количественные признаки (возраст)
scaler = StandardScaler()
df['age'] = scaler.fit_transform(df[['age']])
print(df['age'])

0   -1.171980
1    1.604711
2    0.216366
3   -0.919554
4    1.226071
5   -0.162274
6   -0.793340
Name: age, dtype: float64


In [5]:
# Разделяем данные на признаки и целевую переменную
X = df[['gender', 'age', 'income_level']]
y = df['purchased']

print(X)
print(y)

   gender       age  income_level
0       1 -1.171980             1
1       0  1.604711             0
2       0  0.216366             2
3       1 -0.919554             2
4       1  1.226071             0
5       0 -0.162274             1
6       1 -0.793340             2
0    1
1    0
2    0
3    1
4    1
5    0
6    1
Name: purchased, dtype: int64


In [6]:
# Разделяем данные на тренировочный и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Обучаем модель логистической регрессии (задача классификации)
model = LogisticRegression()
model.fit(X_train, y_train)

# Прогнозируем покупки на тестовых данных
y_pred = model.predict(X_test)

# Оцениваем точность модели
accuracy = accuracy_score(y_test, y_pred)
print(f"\nТочность модели: {accuracy:.2f}")


Точность модели: 0.33


# Задача регрессии

In [9]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Данные
data = {
    'size': [1500, 2300, 1700, 1200, 2100],   # Площадь дома (кв. футы) - количественная шкала
    'bedrooms': [3, 4, 3, 2, 4],              # Количество спален - количественная шкала
    'age': [10, 5, 15, 20, 8],                # Возраст дома (годы) - количественная шкала
    'price': [300000, 450000, 320000, 200000, 400000]  # Цена дома - количественная шкала (целевая переменная)
}

# Преобразуем данные в DataFrame
df = pd.DataFrame(data)

# Разделяем данные на признаки и целевую переменную
X = df[['size', 'bedrooms', 'age']]
y = df['price']

# Разделяем данные на тренировочный и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Обучаем модель линейной регрессии (задача регрессии)
model = LinearRegression()
model.fit(X_train, y_train)

# Прогнозируем цены на тестовых данных
y_pred = model.predict(X_test)

# Оцениваем качество модели с помощью средней квадратичной ошибки
mse = mean_squared_error(y_test, y_pred)
print(f"Средняя квадратичная ошибка модели: {mse:.2f}")


Средняя квадратичная ошибка модели: 839254423.13


# Задача прогнозирования

In [10]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Данные (в реальности данные загружаются из файла или базы данных)
data = {
    'month': [1, 2, 3, 4, 5, 6],  # Месяц (порядковая шкала)
    'passengers': [120, 135, 150, 165, 180, 195]  # Количество пассажиров - количественная шкала (целевая переменная)
}

# Преобразуем данные в DataFrame
df = pd.DataFrame(data)

# Разделяем данные на признаки и целевую переменную
X = df[['month']]
y = df['passengers']

# Обучаем модель линейной регрессии (задача прогнозирования)
model = LinearRegression()
model.fit(X, y)

# Прогнозируем количество пассажиров на следующий месяц (месяц 7)
next_month = pd.DataFrame({'month': [7]})
forecast = model.predict(next_month)

print(f"Прогнозируемое количество пассажиров на следующий месяц: {forecast[0]:.0f}")


Прогнозируемое количество пассажиров на следующий месяц: 210


# Задача ранжирования

In [11]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Данные
data = {
    'page_rank': [1, 2, 3, 4, 5],  # Ранг страницы - порядковая шкала
    'relevance': [0.9, 0.8, 0.7, 0.6, 0.5],  # Релевантность страницы - количественная шкала
    'click_rate': [100, 85, 70, 50, 30]  # Количество кликов - количественная шкала (целевая переменная)
}

# Преобразуем данные в DataFrame
df = pd.DataFrame(data)

# Разделяем данные на признаки и целевую переменную
X = df[['page_rank', 'relevance']]
y = df['click_rate']

# Разделяем данные на тренировочный и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Обучаем модель линейной регрессии (задача ранжирования)
model = LinearRegression()
model.fit(X_train, y_train)

# Прогнозируем количество кликов на тестовых данных
y_pred = model.predict(X_test)

# Оцениваем качество модели с помощью средней квадратичной ошибки
mse = mean_squared_error(y_test, y_pred)
print(f"Средняя квадратичная ошибка модели: {mse:.2f}")


Средняя квадратичная ошибка модели: 12.76
