№2. Попередня Обробка Даних


In [3]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
import joblib

In [4]:
df = pd.read_csv('internet_service_churn.csv') 
print(f"Початкова розмірність даних: {df.shape}")
print("---")

Початкова розмірність даних: (72274, 11)
---


In [6]:
print(df.columns.tolist())

['id', 'is_tv_subscriber', 'is_movie_package_subscriber', 'subscription_age', 'bill_avg', 'reamining_contract', 'service_failure_count', 'download_avg', 'upload_avg', 'download_over_limit', 'churn']


In [7]:
df.drop('id', axis=1, inplace=True) 
print("Стовпець 'id' успішно видалено.")
print("---")

Стовпець 'id' успішно видалено.
---


In [8]:
df['churn'] = df['churn'].replace({'Yes': 1, 'No': 0})

In [9]:
binary_cols = ['is_tv_subscriber', 'is_movie_package_subscriber']

In [10]:
binary_map = {'Yes': 1, 'No': 0, 'no': 0, 'yes': 1}
for col in binary_cols:
    # Припускаємо, що ці колонки мають бінарні значення (так/ні)
    # Якщо вони вже 1/0, цей крок не змінить дані
    df[col] = df[col].replace(binary_map)

In [11]:
print("Кодування бінарних ознак завершено.")
print("---")

Кодування бінарних ознак завершено.
---


In [12]:
numerical_cols = [
    'subscription_age', 'bill_avg', 'reamining_contract', 
    'service_failure_count', 'download_avg', 'upload_avg', 
    'download_over_limit'
]

In [13]:
scaler = StandardScaler()

In [14]:
df[numerical_cols] = scaler.fit_transform(df[numerical_cols])

# Збереження об'єкта Scaler (Вимога ТЗ)
joblib.dump(scaler, 'standard_scaler.pkl')

print("Числові ознаки стандартизовано.")
print("Об'єкт 'standard_scaler.pkl' збережено.")
print("---")

Числові ознаки стандартизовано.
Об'єкт 'standard_scaler.pkl' збережено.
---


In [15]:
X = df.drop('churn', axis=1)
y = df['churn']

In [16]:
# Розділення на тренувальний та тестовий набори (стратифікація для збереження балансу класів)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

In [17]:
print(f"Фінальна кількість ознак (X): {X.shape[1]}")
print(f"Розмірність тренувального X: {X_train.shape}")
print("Попередня обробка даних повністю завершена!")

# Збереження оброблених даних для наступного кроку (моделювання)
X_train.to_csv('X_train_processed.csv', index=False)
X_test.to_csv('X_test_processed.csv', index=False)
y_train.to_csv('y_train.csv', index=False)
y_test.to_csv('y_test.csv', index=False)
print("Тренувальний та тестовий набори збережено.")

Фінальна кількість ознак (X): 9
Розмірність тренувального X: (57819, 9)
Попередня обробка даних повністю завершена!
Тренувальний та тестовий набори збережено.
