# Seção 4 – Análise Exploratória dos Dados (EDA)

Nesta seção, realizo a Análise Exploratória dos Dados (EDA) com o objetivo de entender
a estrutura dos datasets, identificar padrões iniciais, possíveis inconsistências,
valores ausentes e obter insights preliminares que apoiarão análises futuras.

Os dados utilizados simulam informações de clientes, serviços e contratos relacionados
a churn (cancelamento), cenário muito comum em análises de negócio.


In [None]:
import pandas as pd

## Importação e visão geral dos dados

Nesta etapa inicial, o objetivo é conhecer os dados com os quais iremos trabalhar.
Aqui buscamos entender:
- quais informações estão disponíveis
- quantidade de registros
- tipos de variáveis
- possíveis problemas iniciais nos dados


In [None]:
df_clientes = pd.read_csv("files/churn_customers.csv")
df_clientes

In [None]:
df_clientes.head(8)

In [None]:
df_clientes.tail(7)

In [None]:
df_clientes.info()

In [None]:
df_clientes.describe()

In [None]:
df_servicos = pd.read_csv("files/churn_services.csv")

In [None]:
df_servicos

In [None]:
df_servicos.describe()

In [None]:
df_contratos = pd.read_csv("files/churn_contracts.csv")

In [None]:
df_contratos

In [None]:
df_contratos.describe()

### Primeiras observações

A partir da visualização inicial, é possível identificar a presença de variáveis
numéricas e categóricas. Também observamos que algumas colunas podem exigir
tratamento posterior, como ajustes de tipo ou valores ausentes.


## Transformação e Padronização dos Dados

Nesta etapa, realizamos ajustes nos dados para garantir consistência,
facilidade de análise e correta tipagem das variáveis.

As transformações incluem:
- conversão de variáveis numéricas
- tratamento de valores inválidos
- padronização e renomeação de colunas


In [None]:
# Verificando os tipos de dados do DataFrame de contratos
df_contratos.dtypes

In [None]:
# Convertendo a coluna TotalCharges para numérico
# Valores inválidos são convertidos para NaN
df_contratos["TotalCharges"] = pd.to_numeric(df_contratos["TotalCharges"], errors="coerce")

In [None]:
df_contratos.dtypes

In [None]:
# Conferindo o resultado após a conversão
df_contratos.info()

### Padronização dos dados de clientes

Para melhorar a legibilidade e facilitar análises futuras, realizamos a
renomeação de colunas, tornando os nomes mais descritivos e alinhados ao
contexto de negócio.


In [None]:
df_clientes.info()

In [None]:
df_clientes = df_clientes.rename(columns={"SeniorCitizen": "ElderlyPerson"})

In [None]:
df_clientes.info()

In [None]:
df_clientes.rename(columns={"Partner": "Casado(a)"}, inplace=True)

In [None]:
df_clientes.info()

In [None]:
# Renomeando colunas para nomes mais descritivos
df_clientes.rename(columns={
    "customerID": "IDCliente",
    "gender": "Genero",
    "SeniorCitizen": "PessoaIdosa",
    "Partner": "Casado(a)",
    "Dependents": "Dependentes"
}, inplace=True)

In [None]:
# Verificando a estrutura após as alterações
df_clientes.info()

## União dos DataFrames

Nesta etapa, realizamos a junção dos dados de clientes, serviços e contratos,
criando uma base única para análise de churn.

A união é feita utilizando o identificador do cliente como chave principal.


In [None]:
len(df_servicos)

In [None]:
df_servicos.head()

In [None]:
# Padronizando o nome da chave no DataFrame de serviços
df_servicos.rename(columns={"customerID":"IDCliente"}, inplace=True)

In [None]:
df_servicos.info()

In [None]:
# União entre clientes e serviços
df_temp = df_clientes.merge(df_servicos, on=["IDCliente"])

In [None]:
df_temp.info()

In [None]:
# União com o DataFrame de contratos
df_churn_temp = df_temp.merge(df_contratos, left_on=["IDCliente"], right_on=["customerID"])

In [None]:
df_churn_temp.info()

In [None]:
df_churn = df_clientes.merge(df_servicos, on=["IDCliente"]).merge(df_contratos, left_on=["IDCliente"], right_on=["customerID"])

In [None]:
df_churn

In [None]:
# Removendo coluna duplicada após o merge
df_churn.drop(["customerID"], inplace=True, axis=1) # axis=1 é relacionado a coluna

In [None]:
# Visualizando a estrutura final
df_churn.info()