In [None]:
# main.py
import sys
import pandas as pd

sys.path.append('./Modules')
from Modules import DataLoader, Visualizer, MissingValuesHandler

# Загрузка данных с сайта Kaggle
dataset_name = 'blastchar/telco-customer-churn' 
file_name = 'WA_Fn-UseC_-Telco-Customer-Churn.csv'
dataset_path = DataLoader.load_kaggle_dataset(dataset_name,file_name)
print(dataset_path)

In [None]:
 #Загрузка данных из CSV файла
churn_data = DataLoader.load_csv(dataset_path)

print(churn_data.head())
print(churn_data.info())

In [None]:
# Базовая статистика
churn_data.describe()

In [None]:
# Подсчет пустых или пропущенных значений в каждом столбце
missing_values_count = MissingValuesHandler.count_missing_values(churn_data)
print("Количество пропущенных значений в каждом столбце:")
print(missing_values_count)
print("\nВ датасете отсутствуют пропуски")

In [None]:
# Создание экземпляра класса Visualizer
viz = Visualizer()

# Добавление гистограммы
"""
Гистограммы должны показать:
- гендерное распределение среди абонентов
- основные способы оплаты
"""
viz.add_histogram(churn_data, 'gender')
print("\nВ датасете мужчин и женщин почти поровну")
viz.add_histogram(churn_data, 'PaymentMethod')
print("\nОплата электронными деньгами больше чем на 45% превышает любой другой способ пополнения")

In [None]:
# Создание новой колонки с интервалами для tenure
bins = [0, 10, 20, 30, 40, 50, 60, 70, 80]
labels = ['0-10', '10-20', '20-30', '30-40', '40-50', '50-60', '60-70', '70-80']
churn_data['tenure_bins'] = pd.cut(churn_data['tenure'], bins=bins, labels=labels, right=False)

# Добавление гистограммы для интервалов tenure
"""
Группируем абонентов в зависимости от срока владения номером
"""
viz.add_histogram(churn_data, 'tenure_bins')
print("\nСамая большая доля у абонентов, которые подключились 10 и менее месяцев назад")


In [None]:
# Добавление линейного графика для tenure и MonthlyCharges
"""
Проверка гипотезы, что чем больше абонент пользуется номером,
тем больше его ежемесячная плата
"""
viz.add_line_plot(churn_data, 'tenure', 'MonthlyCharges')
print("\nУвеличение срока пользования сим-картой ведет к повышению абонентской платы")

In [None]:
# Добавление парных диаграмм рассеивания для Churn и выбранных признаков
columns = ['tenure', 'MonthlyCharges', 'TotalCharges']
viz.add_pairplot(churn_data, columns, 'Churn')

In [None]:
#Загрузка тренировочного датасета с пропусками
file_with_gaps_path = './Data/Customer-Churn_dataset-with-gaps.csv'
churn_gaps = DataLoader.load_csv(file_with_gaps_path)

# Подсчет пустых или пропущенных значений в каждом столбце
missing_values_report = MissingValuesHandler.count_missing_values(churn_gaps)
print("Количество пропущенных значений и процент пропущенных значений в каждом столбце:")
print(missing_values_report)

In [None]:
# Вывод строк с пропущенными значениями
missing_rows = MissingValuesHandler.report_missing_values(churn_gaps)
print("\nСтроки с пропущенными значениями:")
print(missing_rows)

In [None]:
# Заполнение пропущенных значений
churn_gaps_filled = MissingValuesHandler.fill_missing_values(
    churn_gaps, 
    default_method='mean', 
    SeniorCitizen='mode', 
    tenure='median', 
    PhoneService='No'
)
# Повторный подсчет пустых или пропущенных значений в каждом столбце после заполнения
missing_values_report_after = MissingValuesHandler.count_missing_values(churn_gaps_filled)
print("\nКоличество пропущенных значений и процент пропущенных значений в каждом столбце после заполнения:") 
print(missing_values_report_after)