#### Попов А.В. ИУ5-61Б Вариант12

## 1. Предобработка данных

In [31]:
import pandas as pd

# Загрузка данных
data = pd.read_csv('dc-wikia-data.csv')

# Проверка первых строк
print(data.head())

# Проверка информации о данных
print(data.info())


   page_id                         name                              urlslug  \
0     1422         Batman (Bruce Wayne)         \/wiki\/Batman_(Bruce_Wayne)   
1    23387        Superman (Clark Kent)        \/wiki\/Superman_(Clark_Kent)   
2     1458   Green Lantern (Hal Jordan)   \/wiki\/Green_Lantern_(Hal_Jordan)   
3     1659     James Gordon (New Earth)     \/wiki\/James_Gordon_(New_Earth)   
4     1576  Richard Grayson (New Earth)  \/wiki\/Richard_Grayson_(New_Earth)   

                ID            ALIGN         EYE        HAIR              SEX  \
0  Secret Identity  Good Characters   Blue Eyes  Black Hair  Male Characters   
1  Secret Identity  Good Characters   Blue Eyes  Black Hair  Male Characters   
2  Secret Identity  Good Characters  Brown Eyes  Brown Hair  Male Characters   
3  Public Identity  Good Characters  Brown Eyes  White Hair  Male Characters   
4  Secret Identity  Good Characters   Blue Eyes  Black Hair  Male Characters   

   GSM              ALIVE  APPEARANCES

In [32]:
# Удаление дубликатов столбцов
data = data.loc[:,~data.columns.duplicated()]

# Проверка после удаления дубликатов
print(data.head())

   page_id                         name                              urlslug  \
0     1422         Batman (Bruce Wayne)         \/wiki\/Batman_(Bruce_Wayne)   
1    23387        Superman (Clark Kent)        \/wiki\/Superman_(Clark_Kent)   
2     1458   Green Lantern (Hal Jordan)   \/wiki\/Green_Lantern_(Hal_Jordan)   
3     1659     James Gordon (New Earth)     \/wiki\/James_Gordon_(New_Earth)   
4     1576  Richard Grayson (New Earth)  \/wiki\/Richard_Grayson_(New_Earth)   

                ID            ALIGN         EYE        HAIR              SEX  \
0  Secret Identity  Good Characters   Blue Eyes  Black Hair  Male Characters   
1  Secret Identity  Good Characters   Blue Eyes  Black Hair  Male Characters   
2  Secret Identity  Good Characters  Brown Eyes  Brown Hair  Male Characters   
3  Public Identity  Good Characters  Brown Eyes  White Hair  Male Characters   
4  Secret Identity  Good Characters   Blue Eyes  Black Hair  Male Characters   

   GSM              ALIVE  APPEARANCES

In [33]:
# Заполнение пропущенных значений
data = data.ffill().bfill()  # Простой способ, можно уточнить в зависимости от данных

# Проверка пропущенных значений
print(data.isnull().sum())

page_id             0
name                0
urlslug             0
ID                  0
ALIGN               0
EYE                 0
HAIR                0
SEX                 0
GSM                 0
ALIVE               0
APPEARANCES         0
FIRST APPEARANCE    0
YEAR                0
dtype: int64


Кодирование категориальных признаков
Преобразуем категориальные признаки в числовые.

In [34]:
from sklearn.preprocessing import LabelEncoder

# Применение LabelEncoder к категориальным признакам
label_encoders = {}
for column in data.select_dtypes(include=['object']).columns:
    le = LabelEncoder()
    data[column] = le.fit_transform(data[column])
    label_encoders[column] = le

# Проверка преобразованных данных
print(data.head())

   page_id  name  urlslug  ID  ALIGN  EYE  HAIR  SEX  GSM  ALIVE  APPEARANCES  \
0     1422   597      597   2      1    3     0    2    0      1       3093.0   
1    23387  6007     6006   2      1    3     0    2    0      1       2496.0   
2     1458  2487     2487   2      1    4     3    2    0      1       1565.0   
3     1659  3002     3003   1      1    4    16    2    0      1       1316.0   
4     1576  5280     5279   2      1    3     0    2    0      1       1237.0   

   FIRST APPEARANCE    YEAR  
0                14  1939.0  
1               454  1986.0  
2               155  1959.0  
3               460  1987.0  
4                19  1940.0  


## 2. Разделение данных на обучающую и тестовую выборки
Разделим данные на признаки (X) и целевую переменную (y), а затем на обучающую и тестовую выборки.

In [35]:
from sklearn.model_selection import train_test_split

# Предположим, что последний столбец — это целевая переменная
X = data.iloc[:, :-1]
y = data.iloc[:, -1]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Проверка размеров выборок
print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)

(5516, 12) (1380, 12) (5516,) (1380,)


## 3. Построение моделей

#### Линейная регрессия

In [36]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

# Создание и обучение модели линейной регрессии
lr = LinearRegression()
lr.fit(X_train, y_train)

# Предсказание на тестовой выборке
y_pred_lr = lr.predict(X_test)

# Оценка модели
mae = mean_absolute_error(y_test, y_pred_lr)
mse = mean_squared_error(y_test, y_pred_lr)
r2 = r2_score(y_test, y_pred_lr)

print(f"Среднеквадратичная ошибка = {mse}")
print(f"Средняя абсолютная ошибка = {mae}")
print(f"Коэффициент детерминации = {r2}")

Среднеквадратичная ошибка = 4.043512901211023
Средняя абсолютная ошибка = 1.471235447850746
Коэффициент детерминации = 0.9871969165957701


#### Случайный лес

In [37]:
from sklearn.ensemble import RandomForestRegressor
# Создание и обучение модели случайного леса
rf = RandomForestRegressor(n_estimators=100, random_state=42)
rf.fit(X_train, y_train)

# Предсказание на тестовой выборке
y_pred_rf = rf.predict(X_test)

# Оценка модели
mae = mean_absolute_error(y_test, y_pred_rf)
mse = mean_squared_error(y_test, y_pred_rf)
r2 = r2_score(y_test, y_pred_rf)

print(f"Среднеквадратичная ошибка = {mse}")
print(f"Средняя абсолютная ошибка = {mae}")
print(f"Коэффициент детерминации = {r2}")

Среднеквадратичная ошибка = 0.002407028985507053
Средняя абсолютная ошибка = 0.005615942028984024
Коэффициент детерминации = 0.999992378559532


Исходя из результатов, делаем вывод, что модель случайного леса предпочтительнее для данной задачи, тк среднеквадратичная ошибка(MSE) и средняя абсолютная ошибка(MAE) у нее меньше, а коэффициент детерминации больше.