# Previsão de Rotatividade de Clientes

## Descrição do Problema

**Rotatividade de clientes** é o termo usado para descrever a perda de clientes de um negócio ou serviço. É uma métrica importante para as empresas monitorarem, pois pode ter um impacto significativo na receita e na lucratividade. 

Neste projeto, iremos prever a rotatividade de clientes para uma empresa de telecomunicações com base em vários atributos do cliente e seus padrões de uso.

## Bibliotecas

In [1]:
# Importando as bibliotecas necessárias
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

## Carregamento do Conjunto de Dados

O conjunto de dados usado para este projeto contém informações sobre clientes de uma empresa de telecomunicações. Inclui informações dos clientes, como sexo, parceiros e dependentes, bem como informações sobre a conta do cliente, como tipo de contrato, método de pagamento e cobranças mensais. 

Além disso, inclui informações sobre o uso dos serviços da empresa pelo cliente, como número de linhas telefônicas, uso da Internet e tipo de serviço. O conjunto de dados também inclui uma variável binária que indica se o cliente desistiu ou não.

O arquivo do conjunto de dados é encontrado no Kaggle neste link: <https://www.kaggle.com/datasets/blastchar/telco-customer-churn?select=WA_Fn-UseC_-Telco-Customer-Churn.csv>.

In [2]:
# Carregando os conjunto de dados
df = pd.read_csv('customer_churn.csv')

## Análise Exploratória dos Dados

Realiza uma análise exploratória dos dados para entender o relacionamento entre a variável alvo e os atributos e identificar quaisquer padrões ou tendências nos dados.

In [3]:
# Visualização do conjunto de dados
df.head()

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,...,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,7590-VHVEG,Female,0,Yes,No,1,No,No phone service,DSL,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,29.85,29.85,No
1,5575-GNVDE,Male,0,No,No,34,Yes,No,DSL,Yes,...,Yes,No,No,No,One year,No,Mailed check,56.95,1889.5,No
2,3668-QPYBK,Male,0,No,No,2,Yes,No,DSL,Yes,...,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15,Yes
3,7795-CFOCW,Male,0,No,No,45,No,No phone service,DSL,Yes,...,Yes,Yes,No,No,One year,No,Bank transfer (automatic),42.3,1840.75,No
4,9237-HQITU,Female,0,No,No,2,Yes,No,Fiber optic,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,70.7,151.65,Yes


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7043 non-null   object 
 1   gender            7043 non-null   object 
 2   SeniorCitizen     7043 non-null   int64  
 3   Partner           7043 non-null   object 
 4   Dependents        7043 non-null   object 
 5   tenure            7043 non-null   int64  
 6   PhoneService      7043 non-null   object 
 7   MultipleLines     7043 non-null   object 
 8   InternetService   7043 non-null   object 
 9   OnlineSecurity    7043 non-null   object 
 10  OnlineBackup      7043 non-null   object 
 11  DeviceProtection  7043 non-null   object 
 12  TechSupport       7043 non-null   object 
 13  StreamingTV       7043 non-null   object 
 14  StreamingMovies   7043 non-null   object 
 15  Contract          7043 non-null   object 
 16  PaperlessBilling  7043 non-null   object 


In [5]:
df.columns

Index(['customerID', 'gender', 'SeniorCitizen', 'Partner', 'Dependents',
       'tenure', 'PhoneService', 'MultipleLines', 'InternetService',
       'OnlineSecurity', 'OnlineBackup', 'DeviceProtection', 'TechSupport',
       'StreamingTV', 'StreamingMovies', 'Contract', 'PaperlessBilling',
       'PaymentMethod', 'MonthlyCharges', 'TotalCharges', 'Churn'],
      dtype='object')

## Pré Processamento dos Dados

Pré processamento dos dados para manipular valores ausentes, remover duplicatas, codificar variáveis categóricas e padronizar/escalar variáveis numéricas.

In [6]:
df = df.drop(['customerID'], axis=1)
df['TotalCharges'] = df['TotalCharges'].replace(' ', np.nan).astype(float)
df = df.dropna()
df['gender'] = df['gender'].apply(lambda x: 1 if x == 'Female' else 0)

In [7]:
lista_1 = ['Partner', 'Dependents', 'PhoneService', 'PaperlessBilling', 'Churn']

for lista in lista_1:
    df[lista] = df[lista].apply(lambda x: 1 if x == 'Yes' else 0)

In [8]:
def troca(x):
    if x == "Yes":
        return 2
    elif x == "No internet service":
        return 1
    else:
        return 0

In [9]:
lista_1 = ['OnlineSecurity', 'OnlineBackup', 'DeviceProtection', 'StreamingTV', 'StreamingMovies', 'TechSupport']

for lista in lista_1:
    df[lista] = df[lista].apply(troca)

In [10]:
def troca1(x):
    if x == "Yes":
        return 2
    elif x == "No phone service":
        return 1
    else:
        return 0

df['MultipleLines'] = df['MultipleLines'].apply(troca1)

In [11]:
def troca2(x):
    if x == "DSL":
        return 2
    elif x == "Fiber optic":
        return 1
    else:
        return 0

df['InternetService'] = df['InternetService'].apply(troca2)

In [12]:
def troca3(x):
    if x == "Month-to-month":
        return 0
    elif x == "One year":
        return 1
    else:
        return 2

df['Contract'] = df['Contract'].apply(troca3)

In [13]:
def troca4(x):
    if x == "Bank transfer (automatic)":
        return 0
    elif x == "Credit card (automatic)":
        return 1
    elif x == "Electronic check":
        return 2
    else:
        return 3

df['PaymentMethod'] = df['PaymentMethod'].apply(troca4)

In [14]:
df.head()

Unnamed: 0,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,1,0,1,0,1,0,1,2,0,2,0,0,0,0,0,1,2,29.85,29.85,0
1,0,0,0,0,34,1,0,2,2,0,2,0,0,0,1,0,3,56.95,1889.5,0
2,0,0,0,0,2,1,0,2,2,2,0,0,0,0,0,1,3,53.85,108.15,1
3,0,0,0,0,45,0,1,2,2,0,2,2,0,0,1,0,0,42.3,1840.75,0
4,1,0,0,0,2,1,0,1,0,0,0,0,0,0,0,1,2,70.7,151.65,1


In [15]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 7032 entries, 0 to 7042
Data columns (total 20 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   gender            7032 non-null   int64  
 1   SeniorCitizen     7032 non-null   int64  
 2   Partner           7032 non-null   int64  
 3   Dependents        7032 non-null   int64  
 4   tenure            7032 non-null   int64  
 5   PhoneService      7032 non-null   int64  
 6   MultipleLines     7032 non-null   int64  
 7   InternetService   7032 non-null   int64  
 8   OnlineSecurity    7032 non-null   int64  
 9   OnlineBackup      7032 non-null   int64  
 10  DeviceProtection  7032 non-null   int64  
 11  TechSupport       7032 non-null   int64  
 12  StreamingTV       7032 non-null   int64  
 13  StreamingMovies   7032 non-null   int64  
 14  Contract          7032 non-null   int64  
 15  PaperlessBilling  7032 non-null   int64  
 16  PaymentMethod     7032 non-null   int64  


## Objetivo do Projeto

O objetivo deste projeto é prever se um cliente provavelmente desistirá ou não com base em seus padrões demográficos e de uso. Ao identificar clientes com alto risco de rotatividade, a empresa pode tomar medidas proativas para retê-los e reduzir as taxas de rotatividade.