In [1]:
import pandas as pd
df = pd.read_csv('sample_employee_data.csv')
print("Первые 5 строк")
print(df.head()) 
print("Последние 5 строк")
print(df.tail())  
print("Информация")
print(df.info())   
print("Количество  пропущенных значений")
print(df.isnull().sum())
print("Типы данных")
print(df.dtypes)

Первые 5 строк
    Name   Age   Salary Department Joining Date
0   John  28.0  70000.0         HR    1/15/2020
1   Jane  34.0  80000.0    Finance    8/10/2019
2  Alice  29.0      NaN         IT    6/25/2021
3    Bob   NaN  50000.0  Marketing          NaN
4    NaN  42.0  60000.0         IT   11/30/2020
Последние 5 строк
    Name   Age   Salary Department Joining Date
0   John  28.0  70000.0         HR    1/15/2020
1   Jane  34.0  80000.0    Finance    8/10/2019
2  Alice  29.0      NaN         IT    6/25/2021
3    Bob   NaN  50000.0  Marketing          NaN
4    NaN  42.0  60000.0         IT   11/30/2020
Информация
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Name          4 non-null      object 
 1   Age           4 non-null      float64
 2   Salary        4 non-null      float64
 3   Department    5 non-null      object 
 4   Joining Date  4 n

In [2]:
print("Пропущенные значения в каждом столбце:")
print(df.isnull().sum())

Пропущенные значения в каждом столбце:
Name            1
Age             1
Salary          1
Department      0
Joining Date    1
dtype: int64


In [3]:
# Удаление строк с пропущенными значениями
df_dropped = df.dropna()
print("После удаления строк с пропущенными значениями:")
print(df_dropped)

После удаления строк с пропущенными значениями:
   Name   Age   Salary Department Joining Date
0  John  28.0  70000.0         HR    1/15/2020
1  Jane  34.0  80000.0    Finance    8/10/2019


In [4]:
# Заполнение пропущенных значений средним
df_filled_mean = df.fillna({'Age': df['Age'].mean(), 'Salary': df['Salary'].mean()})
print("После заполнения пропусков средними значениями:")
print(df_filled_mean)

После заполнения пропусков средними значениями:
    Name    Age   Salary Department Joining Date
0   John  28.00  70000.0         HR    1/15/2020
1   Jane  34.00  80000.0    Finance    8/10/2019
2  Alice  29.00  65000.0         IT    6/25/2021
3    Bob  33.25  50000.0  Marketing          NaN
4    NaN  42.00  60000.0         IT   11/30/2020


In [5]:
# Прямое заполнение (forward fill)
df_ffill = df.fillna(method='ffill')
print("После прямого заполнения (ffill):")
print(df_ffill)

После прямого заполнения (ffill):
    Name   Age   Salary Department Joining Date
0   John  28.0  70000.0         HR    1/15/2020
1   Jane  34.0  80000.0    Finance    8/10/2019
2  Alice  29.0  80000.0         IT    6/25/2021
3    Bob  29.0  50000.0  Marketing    6/25/2021
4    Bob  42.0  60000.0         IT   11/30/2020


  df_ffill = df.fillna(method='ffill')


In [6]:
# Обратное заполнение (backward fill)
df_bfill = df.fillna(method='bfill')
print("После обратного заполнения (bfill):")
print(df_bfill)

После обратного заполнения (bfill):
    Name   Age   Salary Department Joining Date
0   John  28.0  70000.0         HR    1/15/2020
1   Jane  34.0  80000.0    Finance    8/10/2019
2  Alice  29.0  50000.0         IT    6/25/2021
3    Bob  42.0  50000.0  Marketing   11/30/2020
4    NaN  42.0  60000.0         IT   11/30/2020


  df_bfill = df.fillna(method='bfill')


In [10]:
from sklearn.preprocessing import MinMaxScaler, StandardScaler, OneHotEncoder

min_max_scaler = MinMaxScaler()
df[['Age_min_max', 'Salary_min_max']] = min_max_scaler.fit_transform(df[['Age', 'Salary']])

z_score_scaler = StandardScaler()
df[['Age_z_score', 'Salary_z_score']] = z_score_scaler.fit_transform(df[['Age', 'Salary']])


df_one_hot = pd.get_dummies(df, columns=['Department'], prefix='Dept')


bins = [20, 30, 40, 50, 60, 70]
labels = ['20-30', '30-40', '40-50', '50-60', '60-70']
df_one_hot['Age_binned'] = pd.cut(df_one_hot['Age'], bins=bins, labels=labels, right=False)


print(df_one_hot)


    Name   Age   Salary Joining Date  Age_min_max  Salary_min_max  \
0   John  28.0  70000.0    1/15/2020     0.000000        0.666667   
1   Jane  34.0  80000.0    8/10/2019     0.428571        1.000000   
2  Alice  29.0      NaN    6/25/2021     0.071429             NaN   
3    Bob   NaN  50000.0          NaN          NaN        0.000000   
4    NaN  42.0  60000.0   11/30/2020     1.000000        0.333333   

   Age_z_score  Salary_z_score  Dept_Finance  Dept_HR  Dept_IT  \
0    -0.947717        0.447214         False     True    False   
1     0.135388        1.341641          True    False    False   
2    -0.767199             NaN         False    False     True   
3          NaN       -1.341641         False    False    False   
4     1.579528       -0.447214         False    False     True   

   Dept_Marketing Age_binned  
0           False      20-30  
1           False      30-40  
2           False      20-30  
3            True        NaN  
4           False      40-50  


In [14]:
df['Joining Date'] = pd.to_datetime(df['Joining Date'], errors='coerce')

# Извлечение года найма
df['Hire_Year'] = df['Joining Date'].dt.year

# Извлечение месяца найма
df['Hire_Month'] = df['Joining Date'].dt.month

# Извлечение дня найма
df['Hire_Day'] = df['Joining Date'].dt.day

# Извлечение дня недели найма (0 - понедельник, 6 - воскресенье)
df['Hire_Weekday'] = df['Joining Date'].dt.weekday

# Вывод первых строк с новыми признаками
print(df[['Joining Date', 'Hire_Year', 'Hire_Month', 'Hire_Day', 'Hire_Weekday']].head())

  Joining Date  Hire_Year  Hire_Month  Hire_Day  Hire_Weekday
0   2020-01-15     2020.0         1.0      15.0           2.0
1   2019-08-10     2019.0         8.0      10.0           5.0
2   2021-06-25     2021.0         6.0      25.0           4.0
3          NaT        NaN         NaN       NaN           NaN
4   2020-11-30     2020.0        11.0      30.0           0.0


In [15]:
# Удаление дубликатов строк
df_cleaned = df.drop_duplicates()

print("После удаления дубликатов:")
print(df_cleaned)


После удаления дубликатов:
    Name   Age   Salary Department Joining Date  Age_min_max  Salary_min_max  \
0   John  28.0  70000.0         HR   2020-01-15     0.000000        0.666667   
1   Jane  34.0  80000.0    Finance   2019-08-10     0.428571        1.000000   
2  Alice  29.0      NaN         IT   2021-06-25     0.071429             NaN   
3    Bob   NaN  50000.0  Marketing          NaT          NaN        0.000000   
4    NaN  42.0  60000.0         IT   2020-11-30     1.000000        0.333333   

   Age_z_score  Salary_z_score  Hire_Year  Hire_Month  Hire_Day  Hire_Weekday  
0    -0.947717        0.447214     2020.0         1.0      15.0           2.0  
1     0.135388        1.341641     2019.0         8.0      10.0           5.0  
2    -0.767199             NaN     2021.0         6.0      25.0           4.0  
3          NaN       -1.341641        NaN         NaN       NaN           NaN  
4     1.579528       -0.447214     2020.0        11.0      30.0           0.0  


In [17]:
from sklearn.model_selection import train_test_split

# Используем исходный датафрейм df
# Предположим, что целевая переменная — это "Salary", а остальные столбцы — это признаки (фичи)
X = df.drop(columns=['Salary'])  # Признаки (фичи)
y = df['Salary']  # Целевая переменная (зарплата)

# Разделение данных на тренировочный и тестовый наборы (например, 80% на тренировку и 20% на тест)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Размер тренировочного набора: {X_train.shape}")
print(f"Размер тестового набора: {X_test.shape}")


Размер тренировочного набора: (4, 12)
Размер тестового набора: (1, 12)


In [19]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Пример данных
# Создадим искусственный набор данных
np.random.seed(42)
X = np.random.rand(100, 1) * 10  # 100 образцов, 1 признак
y = 3 * X.squeeze() + np.random.randn(100) * 2  # Линейная зависимость с шумом

# Функция для оценки модели при разных разделениях
def evaluate_model(test_size):
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=test_size, random_state=42)
    
    # Построение простой модели линейной регрессии
    model = LinearRegression()
    model.fit(X_train, y_train)
    
    # Предсказания на тестовом наборе
    y_pred = model.predict(X_test)
    
    # Оценка модели с использованием среднеквадратичной ошибки (MSE)
    mse = mean_squared_error(y_test, y_pred)
    print(f"Разделение {int((1 - test_size) * 100)}-{int(test_size * 100)}: MSE = {mse}")

# Проверка влияния разных пропорций (например, 70-30 и 80-20)
evaluate_model(0.3)  # 70% обучение, 30% тест
evaluate_model(0.2)  # 80% обучение, 20% тест



Разделение 70-30: MSE = 2.523798247135461
Разделение 80-20: MSE = 2.6147980548680105


In [20]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Создание искусственного набора данных
data = {
    'feature_numeric': [1.0, 2.0, np.nan, 4.0, 5.0, 6.0, np.nan, 8.0, 9.0, 10.0],
    'feature_categorical': ['A', 'B', 'B', 'A', np.nan, 'C', 'C', 'A', 'B', 'C'],
    'target': [1.0, 2.0, 2.5, 4.0, 5.5, 6.0, 7.5, 8.0, 9.5, 10.0]
}

df = pd.DataFrame(data)

# Определяем признаки и целевую переменную
X = df.drop('target', axis=1)
y = df['target']

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Определяем числовые и категориальные признаки
numeric_features = ['feature_numeric']
categorical_features = ['feature_categorical']

# Создаем преобразователь для предварительной обработки
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean')),  # Замена пропущенных значений средним
    ('scaler', StandardScaler())  # Масштабирование
])

categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='constant', fill_value='missing')),  # Замена пропущенных значений
    ('onehot', OneHotEncoder(handle_unknown='ignore'))  # Кодирование категориальных переменных
])

# Объединяем преобразователи
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ])

# Создаем окончательную модель с предварительной обработкой
pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('model', LinearRegression())  # Выбор модели
])

# Обучение модели
pipeline.fit(X_train, y_train)

# Прогнозирование на тестовых данных
y_pred = pipeline.predict(X_test)

# Оценка модели
mse = mean_squared_error(y_test, y_pred)
print(f'Mean Squared Error: {mse}')


Mean Squared Error: 8.187580045900676
