In [None]:
import pandas as pd
import matplotlib.pyplot as plt

## Criar DataFrames com base nos Datasets

In [None]:
# Carregar Dataframe de Clientes (Customers)
df_customers = pd.read_csv('./datasets/churn_customers.csv')

In [None]:
# Mostrar os 5 primeiros registros do DataFrame
df_customers.head(5)

In [None]:
# Mostrar os 5 últimos registros do DataFrame
df_customers.tail(5)

In [None]:
# Mostrar estrutura/schema do DataFrame
df_customers.info()

In [None]:
# Carregar Dataframe de Serviços (Services)
df_services = pd.read_csv('./datasets/churn_services.csv')

In [None]:
# Mostrar os 5 primeiros registros do DataFrame
df_services.head(5)

In [None]:
# Mostrar os 5 últimos registros do DataFrame
df_services.tail(5)

In [None]:
# Mostrar estrutura/schema do DataFrame
df_services.info()

In [None]:
# Carregar Dataframe de Contratos (Contracts)
df_contracts = pd.read_csv('./datasets/churn_contracts.csv')

In [None]:
# Mostrar os 5 primeiros registros do DataFrame
df_contracts.head(5)

In [None]:
# Mostrar os 5 últimos registros do DataFrame
df_contracts.tail(5)

In [None]:
# Mostrar estrutura/schema do DataFrame
df_contracts.info()

## Transformação de Dados

In [None]:
# Transformar coluna TotalCharges de String para Float - Abordagem 1 com astype
df_contracts['TotalCharges'] = df_contracts['TotalCharges'].astype(float)
# Pode dar erro em casos que não for possível converter 

In [None]:
# Transformar coluna TotalCharges de String para Float - Abordagem 2 (to_numeric)
df_contracts['TotalCharges'] = pd.to_numeric(df_contracts['TotalCharges'])
# Também pode dar erro em casos que não for possível converter 

In [None]:
# Transformar coluna TotalCharges de String para Float - Abordagem 3 (to_numeric com coerce)
df_contracts['TotalCharges'] = pd.to_numeric(df_contracts['TotalCharges'], errors='coerce')
# O Coerce basicamente converte o dado para null se não for possível converter, dessa maneira não gera erro

In [None]:
# Mostrar estrutura/schema do DataFrame
df_contracts.info()

Após a transformação da coluna TotalCharges do DataFrame Contracts, a coluna passou a ter 11 valores ausentes (missing values)

## Renomear Colunas

In [None]:
df_customers.info()

In [None]:
# Renomear coluna no DataFrame, usando rename e dicionário
df_customers.rename(columns={'SeniorCitizen': 'Above65yo'})

In [None]:
# não mudou no DataFrame
df_customers.info()

In [None]:
# Criar um DataFrame novo com base nas colunas renomeadas
df_customers_renamed = df_customers.rename(columns={'SeniorCitizen': 'Above65yo'})

In [None]:
# Mostrar estutura do DataFrame novo
df_customers_renamed.info()

In [None]:
# Aplicar o resultado do rename no próprio DataFrame
df_customers.rename(columns={'SeniorCitizen': 'Above65yo'}, inplace=True)

In [None]:
# Visalizar estrutura
df_customers.info()

In [None]:
# Rename usando Lista - Modificar todos os nomes de colunas
df_customers.columns = ['IDCliente', 'Genero', 'Mais65anos', 'TemParceiro', 'TemDependentes']

In [None]:
# Mostrar estrutura
df_customers.info()

## Unificar DataFrames de Customers, Services e Contracts

In [None]:
# Contar quantidade de registros por DataFrame
len(df_customers)

In [None]:
len(df_services)

In [None]:
len(df_contracts)

In [None]:
# Renomear colunas
df_services.rename(columns={'customerID': 'IDCliente'}, inplace=True)

In [None]:
df_services.info()

In [None]:
# Unificar DataFrame de Customers com Services, criando um terceiro DataFrame
df_temp = df_customers.merge(df_services, on=['IDCliente'])

In [None]:
# Mostrar estrutura dataframe temp
df_temp.info()

In [None]:
df_temp.head(5)

In [None]:
# Unificar df_temp com Contracts, usando colunas de junção com nomes distintos
df_churn_temp = df_temp.merge(df_contracts, left_on=['IDCliente'], right_on=['customerID'])

In [None]:
df_churn_temp.info()

In [None]:
# Unificar os três DataFrames ao mesmo tempo com colunas com nomes diferentes
df_churn = df_customers.merge(df_services, on=['IDCliente']).merge(df_contracts, left_on=['IDCliente'], right_on=['customerID'])

In [None]:
df_churn.info()

In [None]:
# Removendo coluna de um DataFrame
df_churn.drop(['customerID'], axis=1, inplace=True)

In [None]:
df_churn.info()

## Detecção de Valores ausentes

In [None]:
# Detectar Valores ausentes em todas as colunas de um DataFrame
df_churn.isna().sum()

In [None]:
# Detectar valores ausentes em uma coluna específica
df_churn['TotalCharges'].isna().sum()

In [None]:
# Quantas linhas tem pelo menos 1 coluna com valor ausente
df_churn[df_churn.isna().any(axis=1)]

In [None]:
# Quantas colunas tem pelo menos 1 valor ausente
df_churn.isna().any(axis=0).sum()

## Remover valores ausentes

In [None]:
# Remover de forma direta e específica a coluna que possuí valores ausentes
df_churn.drop(columns=['TotalCharges'], axis=1)

In [None]:
# Remover colunas com valores ausentes
df_churn.dropna(axis=1)

In [None]:
# Remover colunas onde todos os valores são ausentes
df_churn.dropna(axis=1, how='all')

In [None]:
# Remover linhas com valores ausentes
df_churn.dropna(axis=0)

In [None]:
# Remover linhas com todos os valores ausentes
df_churn.dropna(axis=0, how='all')

## Imputação de valores ausentes

In [None]:
# Preencher todos os valores ausentes com 0
df_churn.fillna(0)

In [None]:
# Preencher valores padrão conforme a coluna
df_churn.fillna(value={'TotalCharges': 0, 'Genero': 'Não Declarado'})

In [None]:
# Preencher todos os valores ausentes de uma coluna com a média
media_TotalCharges = df_churn['TotalCharges'].mean()

In [None]:
media_TotalCharges

In [None]:
# Bem comum substituir pela média, mediana ou moda
df_churn.fillna(value={'TotalCharges': media_TotalCharges})