In [118]:
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.datasets import make_regression, make_classification
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix


### Генерация выборки

In [123]:
features, output, coef = make_regression(n_samples = 10000, #количество элементов
                                         n_features = 5, #количество признаков
                                         n_informative = 4, #количество информативных признаков
                                         n_targets = 1, #количество целевых признаков
                                         noise = 0, #шум
                                         coef = True)

X = pd.DataFrame(features, columns=['Фактор_1', 'Фактор_2', 'Фактор_3', 'Фактор_4', 'Фактор_5'])
y = pd.DataFrame(output, columns=['Результат'])

df = pd.concat([X, y], axis = 1)

In [112]:
classification_data, classification_labels = make_classification(n_samples=500, #количество элементов
                                                      n_features=5, #количество признаков
                                                      n_informative=4, #количество информативных признаков
                                                      n_classes=2, #количество классов
                                                      n_redundant=0, #количество избыточных признаков
                                                      random_state=23) #возможность генерировать одинаковые выборки


### Небольшое повторение

In [47]:
for index, row in df.iterrows():
    if row["Фактор_1"] >= 3:
        print(f"На строке {index} значение Фактора 1 больше или равно 3")
        
    elif row["Фактор_1"] < -3:
        print("break")
        break
        
    elif row["Фактор_1"] != 1:
        continue  
        
    else:
        pass
        print("pass")

На строке 139 значение Фактора 1 больше или равно 3
На строке 224 значение Фактора 1 больше или равно 3
break


### Предварительная обработка данных

In [58]:
df.describe()

Unnamed: 0,Фактор_1,Фактор_2,Фактор_3,Фактор_4,Фактор_5,Результат
count,10000.0,10000.0,9999.0,10000.0,10000.0,10000.0
mean,-0.003244,0.002525,0.000511,-0.01065,-0.020358,-1.327296
std,0.995994,0.995989,0.99877,0.997868,0.9897,68.849251
min,-3.604667,-3.808884,-3.641426,-4.517181,-4.071603,-287.832103
25%,-0.67553,-0.678343,-0.678133,-0.690419,-0.692561,-47.116511
50%,-0.009095,0.006445,0.005438,-0.006908,-0.017363,-0.594531
75%,0.67332,0.680937,0.678027,0.657833,0.649842,44.512219
max,4.031853,3.853466,3.765629,3.570159,4.637303,283.469405


In [57]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 6 columns):
Фактор_1     10000 non-null float64
Фактор_2     10000 non-null float64
Фактор_3     9999 non-null float64
Фактор_4     10000 non-null float64
Фактор_5     10000 non-null float64
Результат    10000 non-null float64
dtypes: float64(6)
memory usage: 468.8 KB


In [73]:
df.iloc[1,2] = np.NaN
df.iloc[1,3] = np.NaN
df.iloc[2,4] = np.NaN

In [74]:
df.head()

Unnamed: 0,Фактор_1,Фактор_2,Фактор_3,Фактор_4,Фактор_5,Результат
0,0.691776,2.041117,1.398636,-0.002241,-1.28946,208.552122
1,1.723952,-0.418888,,,-0.711142,-5.266856
2,-0.783759,1.592995,-0.120948,-0.617878,,125.434549
3,0.875023,0.497525,0.05961,-0.142673,0.070149,66.39327
4,-0.801724,1.514589,0.059846,0.459232,-0.399702,132.957621


In [75]:
df["Фактор_5"] = df["Фактор_5"].fillna(0)
df["Фактор_3"] = df["Фактор_3"].fillna(df["Фактор_3"].mean())
df["Фактор_4"] = df["Фактор_4"].fillna(df["Фактор_4"].median())

In [76]:
df.head()

Unnamed: 0,Фактор_1,Фактор_2,Фактор_3,Фактор_4,Фактор_5,Результат
0,0.691776,2.041117,1.398636,-0.002241,-1.28946,208.552122
1,1.723952,-0.418888,-0.006161,0.004909,-0.711142,-5.266856
2,-0.783759,1.592995,-0.120948,-0.617878,0.0,125.434549
3,0.875023,0.497525,0.05961,-0.142673,0.070149,66.39327
4,-0.801724,1.514589,0.059846,0.459232,-0.399702,132.957621


### Построение модели регрессии

In [129]:
model = LinearRegression()

In [130]:
model.fit(X, y)

LinearRegression()

In [131]:
model.coef_

array([[ 7.45671289e+01, -2.18653421e-03,  2.00539719e+01,
         5.09129683e+01,  9.90866056e+01]])

In [132]:
print(model.coef_[0][0])
print(model.coef_[0][1])
print(model.coef_[0][2])
print(model.coef_[0][3])
print(model.coef_[0][4])

74.56712891033067
-0.002186534210388963
20.05397192136681
50.91296828514143
99.08660561479284


In [133]:
coef

array([74.55272975,  0.        , 20.05636632, 50.92266556, 99.09216608])

In [139]:
model.predict([[1,1,1,1,1]])

array([[244.60557661]])

### Построение модели классификации

In [113]:
model = LogisticRegression()

In [114]:
model.fit(classification_data, classification_labels)

LogisticRegression()

In [115]:
model.coef_

array([[-1.27257875,  0.14133928,  1.09158098,  1.07917765,  0.41005178]])

In [116]:
print(model.coef_[0][0])
print(model.coef_[0][1])
print(model.coef_[0][2])
print(model.coef_[0][3])
print(model.coef_[0][4])

-1.2725787495313634
0.14133927753322817
1.0915809800274319
1.0791776477235469
0.41005178447339485


In [120]:
classification_data

array([[-3.67566532,  1.43280426, -3.2429289 ,  0.03384957,  0.21445597],
       [-1.88805125,  0.34579464, -1.12421301, -2.02034321, -1.27646763],
       [-1.1171786 ,  1.03383845, -2.72285658,  3.12372892, -1.25783655],
       ...,
       [-0.22826457, -0.33117903,  0.5864643 ,  0.82759742, -1.53438193],
       [-2.73572828, -0.11190976,  1.45247929, -2.82114298,  0.20448847],
       [-0.09801648, -1.52171115,  1.64739356,  0.14739146,  1.70819623]])

In [121]:
classification_labels

array([1, 0, 1, 1, 0, 1, 0, 0, 0, 1, 1, 1, 1, 1, 0, 1, 0, 0, 1, 1, 0, 1,
       0, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 0, 1, 0, 0, 0, 1, 1, 0, 1, 0, 1,
       1, 1, 1, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 0, 1, 0,
       0, 1, 1, 1, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0,
       0, 1, 1, 1, 0, 0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1, 0, 1,
       1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 1, 0, 1, 0, 0, 1, 1, 1, 0,
       0, 0, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 1, 0, 0, 1,
       1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 1,
       0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1,
       1, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1,
       0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 1,
       0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0,
       0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 1, 1, 1,
       0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 0, 0, 1, 0,

In [122]:
model.predict([[1,1,1,1,1]])

array([1])

### Самостоятельный кейс №1

- Сгенерируйте выборку для регрессии, содержащую 15000 элементов, 5 информативных признаков, 4 неинформативных признака.
- Добавьте шум равный 1.
- Постройте модель линейной регрессии и оцените значение целевого признака для примера, содержащего только 0.
- Подумайте, на какие показатели мог повлиять добавляемый шум.