№2. Попередня Обробка Даних


In [2]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
import joblib

In [3]:
df = pd.read_csv('internet_service_churn.csv') 
print(f"Початкова розмірність даних: {df.shape}")
print("---")

Початкова розмірність даних: (72274, 11)
---


In [4]:
print(df.columns.tolist())

['id', 'is_tv_subscriber', 'is_movie_package_subscriber', 'subscription_age', 'bill_avg', 'reamining_contract', 'service_failure_count', 'download_avg', 'upload_avg', 'download_over_limit', 'churn']


In [5]:
df.drop('id', axis=1, inplace=True) 
print("Стовпець 'id' успішно видалено.")
print("---")

Стовпець 'id' успішно видалено.
---


In [6]:
df['churn'] = df['churn'].replace({'Yes': 1, 'No': 0})

In [7]:
binary_cols = ['is_tv_subscriber', 'is_movie_package_subscriber']

In [8]:
binary_map = {'Yes': 1, 'No': 0, 'no': 0, 'yes': 1}
for col in binary_cols:
    # Припускаємо, що ці колонки мають бінарні значення (так/ні)
    # Якщо вони вже 1/0, цей крок не змінить дані
    df[col] = df[col].replace(binary_map)

In [9]:
print("Кодування бінарних ознак завершено.")
print("---")

Кодування бінарних ознак завершено.
---


In [10]:
cols_to_convert = ['reamining_contract', 'download_avg', 'upload_avg']

for col in cols_to_convert:
    # Примусова конвертація в числовий тип. errors='coerce' перетворює нечислові значення на NaN
    df[col] = pd.to_numeric(df[col], errors='coerce')

# 3.1 Заповнення reamining_contract нулем (припускаємо, що пропуск означає 0 місяців)
df['reamining_contract'].fillna(0, inplace=True)

# 3.2 Заповнення download_avg та upload_avg середнім значенням
mean_download = df['download_avg'].mean()
df['download_avg'].fillna(mean_download, inplace=True)

mean_upload = df['upload_avg'].mean()
df['upload_avg'].fillna(mean_upload, inplace=True)

print("Обробка пропущених значень (NaN) завершена.")
# Перевірка, що пропусків не залишилось
print(f"Кількість NaN після обробки: {df.isnull().sum().sum()}")
print("---")

Обробка пропущених значень (NaN) завершена.
Кількість NaN після обробки: 0
---


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['reamining_contract'].fillna(0, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['download_avg'].fillna(mean_download, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are sett

In [11]:
numerical_cols = [
    'subscription_age', 'bill_avg', 'reamining_contract', 
    'service_failure_count', 'download_avg', 'upload_avg', 
    'download_over_limit'
]

In [12]:
scaler = StandardScaler()

In [13]:
df[numerical_cols] = scaler.fit_transform(df[numerical_cols])

# Збереження об'єкта Scaler (Вимога ТЗ)
joblib.dump(scaler, 'standard_scaler.pkl')

print("Числові ознаки стандартизовано.")
print("Об'єкт 'standard_scaler.pkl' збережено.")
print("---")

Числові ознаки стандартизовано.
Об'єкт 'standard_scaler.pkl' збережено.
---


In [14]:
X = df.drop('churn', axis=1)
y = df['churn']

In [15]:
# Розділення на тренувальний та тестовий набори (стратифікація для збереження балансу класів)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

In [16]:
print(f"Фінальна кількість ознак (X): {X.shape[1]}")
print(f"Розмірність тренувального X: {X_train.shape}")
print("Попередня обробка даних повністю завершена!")

# Збереження оброблених даних для наступного кроку (моделювання)
X_train.to_csv('X_train_processed.csv', index=False)
X_test.to_csv('X_test_processed.csv', index=False)
y_train.to_csv('y_train.csv', index=False)
y_test.to_csv('y_test.csv', index=False)
print("Тренувальний та тестовий набори збережено.")

Фінальна кількість ознак (X): 9
Розмірність тренувального X: (57819, 9)
Попередня обробка даних повністю завершена!
Тренувальний та тестовий набори збережено.
