# Case - Data Preparation de um dataset para utilizá-lo na classificação de churn dos clientes

## Introdução

Uma empresa fictícia de telecomunicações dos Estados Unidos tem uma base de dados contendo diversas informações a respeito de seus clientes, desde a localização deles até com qual frequência utilizam a internet para assistir filmes. A partir disto, a empresa deseja que, após ser feita toda a limpeza e organização dados disponíveis, seja possível criar uma métrica de classificação chamada "churn", que indica o quanto a empresa perdeu de clientes. Ou seja, clientes classificados como churn são considerados "ex-clientes", não compram ou assinam mais os produtos da compania em questão.

## Objetivo do projeto

Projeto de data cleaning e data wrangling, com o objetivo de preparar uma base de dados que será utilizada para classificação de churn pela empresa.

## Settings

### Bibliotecas

Importando-se as bibliotecas necessárias para resolução deste caso.

In [5]:
import numpy as np
import pandas as pd
from ydata_profiling import ProfileReport       # lib para realizar análises automatizadas no dataset

# libs de visualização dos dados
import seaborn as sns
import matplotlib.pyplot as plt

# libs ScikitLearn para tratamento das features
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import scale, StandardScaler, OneHotEncoder, OrdinalEncoder

### Load dataset

Carregando-se o dataset da empresa,

In [6]:
customer = pd.read_excel('Telco_customer_churn.xlsx')

Exibindo o dataset,

In [7]:
display(customer)

Unnamed: 0,CustomerID,Count,Country,State,City,Zip Code,Lat Long,Latitude,Longitude,Gender,...,Contract,Paperless Billing,Payment Method,Monthly Charges,Total Charges,Churn Label,Churn Value,Churn Score,CLTV,Churn Reason
0,3668-QPYBK,1,United States,California,Los Angeles,90003,"33.964131, -118.272783",33.964131,-118.272783,Male,...,Month-to-month,Yes,Mailed check,53.85,108.15,Yes,1,86,3239,Competitor made better offer
1,9237-HQITU,1,United States,California,Los Angeles,90005,"34.059281, -118.30742",34.059281,-118.307420,Female,...,Month-to-month,Yes,Electronic check,70.70,151.65,Yes,1,67,2701,Moved
2,9305-CDSKC,1,United States,California,Los Angeles,90006,"34.048013, -118.293953",34.048013,-118.293953,Female,...,Month-to-month,Yes,Electronic check,99.65,820.5,Yes,1,86,5372,Moved
3,7892-POOKP,1,United States,California,Los Angeles,90010,"34.062125, -118.315709",34.062125,-118.315709,Female,...,Month-to-month,Yes,Electronic check,104.80,3046.05,Yes,1,84,5003,Moved
4,0280-XJGEX,1,United States,California,Los Angeles,90015,"34.039224, -118.266293",34.039224,-118.266293,Male,...,Month-to-month,Yes,Bank transfer (automatic),103.70,5036.3,Yes,1,89,5340,Competitor had better devices
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7038,2569-WGERO,1,United States,California,Landers,92285,"34.341737, -116.539416",34.341737,-116.539416,Female,...,Two year,Yes,Bank transfer (automatic),21.15,1419.4,No,0,45,5306,
7039,6840-RESVB,1,United States,California,Adelanto,92301,"34.667815, -117.536183",34.667815,-117.536183,Male,...,One year,Yes,Mailed check,84.80,1990.5,No,0,59,2140,
7040,2234-XADUH,1,United States,California,Amboy,92304,"34.559882, -115.637164",34.559882,-115.637164,Female,...,One year,Yes,Credit card (automatic),103.20,7362.9,No,0,71,5560,
7041,4801-JZAZL,1,United States,California,Angelus Oaks,92305,"34.1678, -116.86433",34.167800,-116.864330,Female,...,Month-to-month,Yes,Electronic check,29.60,346.45,No,0,59,2793,


## EDA