In [1]:
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt
import seaborn as sns

"""
sklearn - осн-я библа ML
"""
from sklearn.datasets import make_regression, make_classification # генерируют выборки
from sklearn.linear_model import LinearRegression # решаем задачу с помощью линейной регрессии
from sklearn.linear_model import LogisticRegression # решаем задачу с помощью логистической регрессии
from sklearn.metrics import classification_report, confusion_matrix # оценка результатов


### Генерация выборки

In [4]:
features, output, coef = make_regression(n_samples = 10000, #количество элементов
                                         n_features = 5, #количество признаков
                                         n_informative = 4, #количество информативных признаков
                                         n_targets = 1, #количество целевых признаков
                                         noise = 0, #шум
                                         coef = True) #возвращает реальные коэфф-ты с пом-ю кот-х генерируется эта выборка

X = pd.DataFrame(features, columns=['Фактор_1', 'Фактор_2', 'Фактор_3', 'Фактор_4', 'Фактор_5'])
y = pd.DataFrame(output, columns=['Результат'])

df = pd.concat([X, y], axis = 1)

In [5]:
classification_data, classification_labels = make_classification(n_samples=500, #количество элементов
                                                      n_features=5, #количество признаков
                                                      n_informative=4, #количество информативных признаков
                                                      n_classes=2, #количество классов
                                                      n_redundant=0, #количество избыточных признаков
                                                      random_state=23) #возможность генерировать одинаковые выборки


### Небольшое повторение

In [9]:
for index, row in df.iterrows(): #iterrows позволяет пробегать построчно по нашему df
    if row["Фактор_1"] >= 3:
        print(f"На строке {index} значение Фактора 1 больше или равно 3")
        
    elif row["Фактор_1"] < -3:
        print("break")
        break
        
    elif row["Фактор_1"] != 1:
        continue  
        
    else:
        pass
        print("pass")

break


### Предварительная обработка данных

In [10]:
df.describe()

Unnamed: 0,Фактор_1,Фактор_2,Фактор_3,Фактор_4,Фактор_5,Результат
count,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0
mean,-0.00036,-0.004033,0.006725,0.027105,-0.01946,1.333122
std,0.998944,0.998068,1.004176,0.993465,1.00663,103.019125
min,-3.803531,-3.375481,-3.545069,-3.673583,-3.736458,-404.182538
25%,-0.66618,-0.678639,-0.669039,-0.64666,-0.704187,-69.531998
50%,-0.000198,-0.008683,0.007897,0.024222,-0.045153,1.446024
75%,0.678636,0.6797,0.682675,0.701145,0.658001,71.274137
max,4.256041,3.75421,3.819485,3.76888,3.683285,411.407955


In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Фактор_1   10000 non-null  float64
 1   Фактор_2   10000 non-null  float64
 2   Фактор_3   10000 non-null  float64
 3   Фактор_4   10000 non-null  float64
 4   Фактор_5   10000 non-null  float64
 5   Результат  10000 non-null  float64
dtypes: float64(6)
memory usage: 468.9 KB


In [12]:
df.iloc[1,2] = np.NaN #iloc позволяет обращаться к элементу по его индексу в виде номера строки (1) и номера столбца (2)
df.iloc[1,3] = np.NaN #np.NaN - вставляет Nan в ячейку таблицы (!нельзя делать как то иначе)
df.iloc[2,4] = np.NaN

In [13]:
df.head()

Unnamed: 0,Фактор_1,Фактор_2,Фактор_3,Фактор_4,Фактор_5,Результат
0,0.567996,1.052514,-2.02904,0.563623,-0.521846,55.193299
1,-1.394262,0.060285,,,0.385918,-104.632293
2,-0.814787,-0.587959,1.107219,0.404965,,-28.81985
3,0.610861,1.563953,-0.500579,0.746917,2.771938,221.708891
4,-0.20261,1.740161,-0.434523,0.249686,0.590912,50.226505


In [14]:
# подготовка данных (замена NaN-ов):

df["Фактор_5"] = df["Фактор_5"].fillna(0) #заполнение NaN-ов нулями
df["Фактор_3"] = df["Фактор_3"].fillna(df["Фактор_3"].mean()) #заполнение NaN-ов средними значениями
df["Фактор_4"] = df["Фактор_4"].fillna(df["Фактор_4"].median()) #заполнение NaN-ов медианным значением (медианой)

In [15]:
df.head()

Unnamed: 0,Фактор_1,Фактор_2,Фактор_3,Фактор_4,Фактор_5,Результат
0,0.567996,1.052514,-2.02904,0.563623,-0.521846,55.193299
1,-1.394262,0.060285,0.00678,0.024347,0.385918,-104.632293
2,-0.814787,-0.587959,1.107219,0.404965,0.0,-28.81985
3,0.610861,1.563953,-0.500579,0.746917,2.771938,221.708891
4,-0.20261,1.740161,-0.434523,0.249686,0.590912,50.226505


### Построение модели регрессии

In [16]:
model = LinearRegression()

In [17]:
model.fit(X, y)

LinearRegression()

In [19]:
model.coef_

array([[ 4.30019649e+01,  6.96843473e+00, -3.04966526e-15,
         8.26084871e+01,  4.43158151e+01]])

In [20]:
print(model.coef_[0][0])
print(model.coef_[0][1])
print(model.coef_[0][2])
print(model.coef_[0][3])
print(model.coef_[0][4])

43.00196492960228
6.968434731411637
-3.0496652563290513e-15
82.60848709047643
44.31581509907465


In [21]:
coef

array([43.00196493,  6.96843473,  0.        , 82.60848709, 44.3158151 ])

In [22]:
model.predict([[1,1,1,1,1]])

array([[176.89470185]])

### Построение модели классификации

In [23]:
model = LogisticRegression()

In [24]:
model.fit(classification_data, classification_labels)

LogisticRegression()

In [25]:
model.coef_

array([[-1.27257875,  0.14133928,  1.09158098,  1.07917765,  0.41005178]])

In [26]:
print(model.coef_[0][0])
print(model.coef_[0][1])
print(model.coef_[0][2])
print(model.coef_[0][3])
print(model.coef_[0][4])

-1.2725787495313632
0.14133927753322814
1.0915809800274316
1.0791776477235466
0.41005178447339485


In [27]:
classification_data

array([[-3.67566532,  1.43280426, -3.2429289 ,  0.03384957,  0.21445597],
       [-1.88805125,  0.34579464, -1.12421301, -2.02034321, -1.27646763],
       [-1.1171786 ,  1.03383845, -2.72285658,  3.12372892, -1.25783655],
       ...,
       [-0.22826457, -0.33117903,  0.5864643 ,  0.82759742, -1.53438193],
       [-2.73572828, -0.11190976,  1.45247929, -2.82114298,  0.20448847],
       [-0.09801648, -1.52171115,  1.64739356,  0.14739146,  1.70819623]])

In [28]:
classification_labels

array([1, 0, 1, 1, 0, 1, 0, 0, 0, 1, 1, 1, 1, 1, 0, 1, 0, 0, 1, 1, 0, 1,
       0, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 0, 1, 0, 0, 0, 1, 1, 0, 1, 0, 1,
       1, 1, 1, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 0, 1, 0,
       0, 1, 1, 1, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0,
       0, 1, 1, 1, 0, 0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1, 0, 1,
       1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 1, 0, 1, 0, 0, 1, 1, 1, 0,
       0, 0, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1, 0, 0, 1,
       1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 1,
       0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1,
       1, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1,
       0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 1,
       0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0,
       0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 1, 1, 1,
       0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 0, 0, 1, 0,

In [29]:
model.predict([[1,1,1,1,1]])

array([1])

### Самостоятельный кейс №1

- Сгенерируйте выборку для регрессии, содержащую 15000 элементов, 5 информативных признаков, 4 неинформативных признака.
- Добавьте шум равный 1.
- Постройте модель линейной регрессии и оцените значение целевого признака для примера, содержащего только 0.
- Подумайте, на какие показатели мог повлиять добавляемый шум.