Автор материала: Зраев Артем.

Можно использовать в каких угодно целях.

<b> В задании нужно загрузить датасет с данными оттока и ответить на несколько вопросов (написать код). При этом сам датасет уже есть и его необязательно качать с репозитория</b>

Цель задания: проверить базовые навыки работы студентов с Pandas, умение проводить такой же базовый EDA (exploratory data analysis), делать feature engineering и обучать и валидировать модель.

Список столбцов с типами данных в датасете:

- customerID           object
- gender               object
- SeniorCitizen         int64
- Partner              object
- Dependents           object
- tenure                int64
- PhoneService         object
- MultipleLines        object
- InternetService      object
- OnlineSecurity       object
- OnlineBackup         object
- DeviceProtection     object
- TechSupport          object
- StreamingTV          object
- StreamingMovies      object
- Contract             object
- PaperlessBilling     object
- PaymentMethod        object
- MonthlyCharges      float64
- TotalCharges         object
- Churn                object

In [1]:
import pandas as pd
import numpy as np

df = pd.read_csv("./WA_Fn-UseC_-Telco-Customer-Churn.csv")
df.head(3)

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,...,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,7590-VHVEG,Female,0,Yes,No,1,No,No phone service,DSL,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,29.85,29.85,No
1,5575-GNVDE,Male,0,No,No,34,Yes,No,DSL,Yes,...,Yes,No,No,No,One year,No,Mailed check,56.95,1889.5,No
2,3668-QPYBK,Male,0,No,No,2,Yes,No,DSL,Yes,...,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15,Yes


## ЗАДАНИЕ

##### 1. Какое соотношение мужчин и женщин в представленном наборе данных?

In [3]:
gender_counts = df["gender"].value_counts()
male_count = gender_counts["Male"]
female_count = gender_counts["Female"]
male_female_ratio = male_count / female_count
male_ratio = gender_counts['Male'] / gender_counts.sum()
female_ratio = gender_counts['Female'] / gender_counts.sum()

print("Male count:", male_count)
print("Female count:", female_count)
print("Male to female ratio:", male_female_ratio)
print(f"Соотношение мужчин и женщин: Мужчины {male_ratio:.2%}, Женщины {female_ratio:.2%}")
#На выходе мы получаем количество мужчин и женщин,
#а также соотношение мужчин и женщин в виде дроби(количество мужчин / количество женщин).
#Результат выполнения кода покажет соотношение мужчин и женщин в процентном соотношении.

Male count: 3555
Female count: 3488
Male to female ratio: 1.0192087155963303
Соотношение мужчин и женщин: Мужчины 50.48%, Женщины 49.52%


##### 2. Какое количество уникальных значений у поля InternetService?

In [5]:
# Определение количества уникальных значений поля InternetService
unique_values = df['InternetService'].nunique()
Int_Serv_count = df['InternetService'].unique()
print(f"Количество уникальных значений у поля InternetService: {unique_values}")
print("Какие уникальные значения в переменной 'InternetService': ", Int_Serv_count)

Количество уникальных значений у поля InternetService: 3
Какие уникальные значения в переменной 'InternetService':  ['DSL' 'Fiber optic' 'No']


##### 3. Выведите статистики по полю TotalCharges (median, mean, std).

In [7]:
# Вывод статистик по полю TotalCharges
print(df['TotalCharges'].describe()[['50%', 'mean', 'std']])

KeyError: "None of [Index(['50%', 'mean', 'std'], dtype='object')] are in the [index]"

В чем странность того, что вы получили? (подсказка: смотреть нужно на тип данных)
Ответ:

Судя по датасету, ошибка KeyError возникает из-за того, что столбец "TotalCharges" имеет тип данных "object" (т.е. строковый),
а не числовой. В этом случае, функция describe() не может выполнить расчеты статистики для столбца "TotalCharges",
поскольку она не может определить числовые значения.
Чтобы решить эту проблему, необходимо преобразовать тип данных столбца "TotalCharges" из "object" в "float".

In [10]:
# Преобразование значения поля TotalCharges в числовой формат и заполнение пропущенных значений нулями
df['TotalCharges'] = pd.to_numeric(df['TotalCharges'], errors='coerce').fillna(0)
# Вывод статистик по полю TotalCharges
print(df['TotalCharges'].describe()[['50%', 'mean', 'std']])

50%     1394.550000
mean    2279.734304
std     2266.794470
Name: TotalCharges, dtype: float64


##### 4. Сделайте замену значений поля PhoneService  на числовые (Yes->1, No->0)

In [14]:
# Замена значений поля PhoneService на числовые (Yes->1, No->0)
df['PhoneService'] = df['PhoneService'].replace({'Yes': 1, 'No': 0})
print(df["PhoneService"].value_counts())

1    6361
0     682
Name: PhoneService, dtype: int64


##### 5. Сделайте замену пробелов в поле TotalCharges на np.nan и приведите поле к типу данных float32. Затем заполните оставшиеся пропуски значением 0 с помощью метода fillna у столбца. Снова выведите статистики и сравните с тем, что вы видели в вопросе 3

In [15]:
# Замена пробелов в поле TotalCharges на np.nan и приведение поля к типу данных float32
df['TotalCharges'] = df['TotalCharges'].replace(' ', np.nan).astype('float32')
# Заполнение пропусков значениями 0
df['TotalCharges'] = df['TotalCharges'].fillna(0)
# Вывод статистик по полю TotalCharges
print(df['TotalCharges'].describe()[['50%', 'mean', 'std']])

50%     1394.550049
mean    2279.732178
std     2266.794434
Name: TotalCharges, dtype: float64


После замены пробелов на np.nan, медиана (50%) и среднее значение (mean) могут немного отличаться от тех, которые были выведены в предыдущем вопросе, так как значения np.nan не учитываются при вычислении статистик.

##### 6. Сделайте замену значений поля Churn на числовые (Yes -> 1, No - 0)

In [16]:
# Замена значений поля Churn на числовые (Yes->1, No->0)
df['Churn'] = df['Churn'].replace({'Yes': 1, 'No': 0})
# Печать первых 5 строк измененного DataFrame
print(df.head())

   customerID  gender  SeniorCitizen Partner Dependents  tenure  PhoneService  \
0  7590-VHVEG  Female              0     Yes         No       1             0   
1  5575-GNVDE    Male              0      No         No      34             1   
2  3668-QPYBK    Male              0      No         No       2             1   
3  7795-CFOCW    Male              0      No         No      45             0   
4  9237-HQITU  Female              0      No         No       2             1   

      MultipleLines InternetService OnlineSecurity  ... DeviceProtection  \
0  No phone service             DSL             No  ...               No   
1                No             DSL            Yes  ...              Yes   
2                No             DSL            Yes  ...               No   
3  No phone service             DSL            Yes  ...              Yes   
4                No     Fiber optic             No  ...               No   

  TechSupport StreamingTV StreamingMovies        Contrac

##### 7. Сделайте замену значений полей StreamingMovies, StreamingTV, TechSupport  на числовые (Yes -> 1, No -> 0, No internet service->0)

In [24]:
cols_to_replace = ["StreamingMovies", "StreamingTV", "TechSupport"]
replace_dict = {"Yes": 1, "No": 0, "No internet service": 0}
df[cols_to_replace] = df[cols_to_replace].replace(replace_dict)
print(df[cols_to_replace].head())

   StreamingMovies  StreamingTV  TechSupport
0                0            0            0
1                0            0            0
2                0            0            0
3                0            0            1
4                0            0            0


#### 8.  Для нашего датасета оставьте только указанный ниже список полей, удалив все другие и выведите верхние 3 строки

In [25]:
columns = ['gender', 'tenure', 'PhoneService', 'TotalCharges', 
           'StreamingMovies', 'StreamingTV', 'TechSupport', 'Churn']
#Ваш код здесь
df = df.loc[:, columns]
print(df.head(3))

   gender  tenure  PhoneService  TotalCharges  StreamingMovies  StreamingTV  \
0  Female       1             0     29.850000                0            0   
1    Male      34             1   1889.500000                0            0   
2    Male       2             1    108.150002                0            0   

   TechSupport  Churn  
0            0      0  
1            0      0  
2            0      1  


In [27]:
# Список полей, которые нужно оставить
columns = ['gender', 'tenure', 'PhoneService', 'TotalCharges', 'StreamingMovies', 'StreamingTV', 'TechSupport', 'Churn']
# Оставляем только указанные поля
df = df.filter(columns)
# Выводим верхние 3 строки
print(df.head(3))

   gender  tenure  PhoneService  TotalCharges  StreamingMovies  StreamingTV  \
0  Female       1             0     29.850000                0            0   
1    Male      34             1   1889.500000                0            0   
2    Male       2             1    108.150002                0            0   

   TechSupport  Churn  
0            0      0  
1            0      0  
2            0      1  


##### 9. Разделите датасет на тренировочную и тестовую выборку (подсказка - воспользуйтесь train_test_split из sklearn.model_selection. Ссылка - https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)

In [29]:
from sklearn.model_selection import train_test_split

features = ['gender', 'tenure', 'PhoneService', 'TotalCharges', 'StreamingMovies', 'StreamingTV', 'TechSupport']
target = 'Churn'

#Ваш код здесь
df = df.loc[:, features + [target]]

X = df.drop('Churn', axis=1)
y = df['Churn']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=17)

print("Размер тренировочной выборки:", len(X_train))
print("Размер тестовой выборки:", len(X_test))

Размер тренировочной выборки: 5634
Размер тестовой выборки: 1409


Здесь мы указали только нужные признаки и целевую переменную, объединили их в один датафрейм data, а затем использовали функцию train_test_split(), передав в нее только эти данные и указав размер тестовой выборки (20%) и значение параметра random_state для воспроизводимости результатов.

Результатом будут четыре переменные: X_train и y_train - признаки и целевая переменная тренировочной выборки, X_test и y_test - признаки и целевая переменная тестовой выборки.

##### 10. соберите pipeline для поля gender (нужно разобраться и изучить https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html ) из классов ColumnSelector и OHEEncoder, которые уже написаны ниже заранее

In [30]:
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.pipeline import Pipeline

class ColumnSelector(BaseEstimator, TransformerMixin):
    """
    Transformer to select a single column from the data frame to perform additional transformations on
    """
    def __init__(self, key):
        self.key = key

    def fit(self, X, y=None):
        return self

    def transform(self, X):
        return X[self.key]
    
class NumberSelector(BaseEstimator, TransformerMixin):
    """
    Transformer to select a single column from the data frame to perform additional transformations on
    Use on numeric columns in the data
    """
    def __init__(self, key):
        self.key = key

    def fit(self, X, y=None):
        return self

    def transform(self, X):
        return X[[self.key]]
    
class OHEEncoder(BaseEstimator, TransformerMixin):
    def __init__(self, key):
        self.key = key
        self.columns = []

    def fit(self, X, y=None):
        self.columns = [col for col in pd.get_dummies(X, prefix=self.key).columns]
        return self

    def transform(self, X):
        X = pd.get_dummies(X, prefix=self.key)
        test_columns = [col for col in X.columns]
        for col_ in test_columns:
            if col_ not in self.columns:
                X[col_] = 0
        return X[self.columns]

gender = Pipeline([
                ('selector', ColumnSelector(key='gender')),
                ('ohe', OHEEncoder(key='gender'))
            ])

Создается объект класса Pipeline, которому передается список шагов трансформации данных. В данном случае:

1. Шаг с именем selector, который выбирает столбец 'gender' из исходного датафрейма с помощью ColumnSelector.
2. Шаг с именем ohe, который применяет OHEEncoder для выполнения one-hot encoding для столбца 'gender'.\

Таким образом, когда объект Pipeline будет применен к исходному датафрейму, сначала будет выбран столбец 'gender', а затем он будет преобразован в one-hot encoding.

##### 11. Вызовите метод fit_transform у пайплайна gender и передайте туда нашу тренировочную выборку (пример по ссылке из документации https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html#sklearn.pipeline.Pipeline.fit)

In [31]:
gender_transformed = gender.fit_transform(X_train)

### 12. Здесь код писать уже не нужно (все сделано за вас). К полю tenure применяем StandardScaler (нормируем и центрируем). Ссылка - https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html
Вопрос - в каких случаях это может быть полезно?

In [32]:
from sklearn.preprocessing import StandardScaler

tenure =  Pipeline([
                ('selector', NumberSelector(key='tenure')),
                ('standard', StandardScaler())
            ])

StandardScaler используется для приведения данных к стандартному нормальному распределению (среднее значение равно 0, стандартное отклонение равно 1),
путем центрирования и масштабирования.
Это может быть полезно в случаях, когда значения признаков варьируются в широком диапазоне и не находятся в одном масштабе, что может затруднять обучение модели. Применение StandardScaler может также улучшить производительность модели, если используется алгоритм, который зависит от расстояний между точками данных, например, метод k-ближайших соседей (KNN).
Нормализация и центрирование данных может быть полезно в различных случаях:
1. В задачах машинного обучения для улучшения качества модели, так как многие алгоритмы предполагают, что данные распределены нормально и с центром в 0.
2. В случаях, когда значения признаков находятся в разных диапазонах, нормализация позволяет избежать проблемы, когда алгоритмы отдадут предпочтение признакам с большими значениями.
3. В задачах, где точность чисел имеет значение, нормализация может предотвратить ошибки, которые могут возникнуть из-за больших значений признаков.

##### 13. Напишите аналогичный (как для tenure) преобразователь поля TotalCharges

In [33]:
total_charges =  Pipeline([
                ('selector', NumberSelector(key='TotalCharges')),
                ('standard', StandardScaler())
            ])

Объединение всех "кубиков" очень легко сделать таким образом

In [34]:
from sklearn.pipeline import FeatureUnion

number_features = Pipeline([
                ('selector', ColumnSelector(key=['PhoneService',
                                                 'StreamingMovies', 'StreamingTV', 
                                                 'TechSupport']))
            ])

In [35]:
feats = FeatureUnion([('tenure', tenure),
                      ('TotalCharges', total_charges),
                      ('continuos_features', number_features),
                      ('gender', gender)])
feature_processing = Pipeline([('feats', feats)])

На этом этапе что мы сделали:
1. написали преобразователь поля gender, который делает OHE кодирование
2. написали преобразователь для поля tenure, который нормирует и центрирует его 
3. повторили п. 2 для поля TotalCharges
3. для всех остальных просто взяли признаки как они есть, без изменений

У нас уже готов наш пайплайн, который преобразовывает признаки. Давайте обучим модель поверх него. В качестве модели возьмем RandomForestClassifier

In [36]:
from sklearn.ensemble import RandomForestClassifier

pipeline = Pipeline([
    ('features',feats),
    ('classifier', RandomForestClassifier(random_state = 42)),
])

pipeline.fit(X_train, y_train)

##### 14. Сделайте прогноз вероятности оттока для X_test с помощью нашего предобученного на предыдущем шаге пайплайна и убедитесь что вам возвращаются вероятности для 2 классов

In [37]:
# Делаем прогноз вероятности оттока на тестовом датасете для X_test с помощью нашего предобученного пайплайна и вывода первых 10 значений матрицы вероятностей:
y_pred_proba = pipeline.predict_proba(X_test)
# выводим результаты
print(y_pred_proba[:10])

[[0.76 0.24]
 [0.99 0.01]
 [0.96 0.04]
 [0.81 0.19]
 [0.71 0.29]
 [0.88 0.12]
 [0.28 0.72]
 [1.   0.  ]
 [1.   0.  ]
 [0.81 0.19]]


Это numpy-массив с двумя столбцами - вероятностью принадлежности к классу "0" (не отток) и "1" (отток).

In [None]:
# Обратите внимание, что y_pred_proba - это массив NumPy, а не DataFrame. Если нужно преобразовать его в DataFrame, то можно сделать это следующим образом:
y_pred_proba_df = pd.DataFrame(y_pred_proba, columns=['class_0', 'class_1'])
print(y_pred_proba_df.head(10))

##### 15. Посчитайте метрики качества получившейся модели (roc_auc, logloss)

In [38]:
from sklearn.metrics import roc_auc_score, log_loss
#Ваш код здесь

model = pipeline.fit(X_train, y_train)
# Предсказываем вероятности для тестовой выборки
y_pred_proba = model.predict_proba(X_test)[:, 1]
# Вычисляем ROC AUC
roc_auc = roc_auc_score(y_test, y_pred_proba)
print(f"ROC AUC: {roc_auc:.2f}")
# Вычисляем log loss
logloss = log_loss(y_test, y_pred_proba)
print(f"Log loss: {logloss:.2f}")

ROC AUC: 0.77
Log loss: 0.92


### Сохраним наш пайплайн

In [39]:
import dill
with open("model_RF.dill", "wb") as f:
    dill.dump(pipeline, f)