<a href="https://colab.research.google.com/github/anicelysantos/minicurso-analise-de-dados/blob/main/minicurso_An%C3%A1lise_de_Dados_com_python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

*Esse minicurso é uma porta de entrada bem iniciante sobre análise de dados e foi idealizado pela Hashtag Treinamentos. Esse notebook e alguns detalhes explicativos foram feitos por Anicely Santos.*

# Desafio

Você trabalha em uma grande empresa de cartão de crédito e o diretor da empresa percebeu que o número de clientes que cancelam seus cartões tem aumentado significativamente, causando prejuizos enormes para a empresa.

O que fazer para evitar isso? Como saber as pessoas que têm maior tendência a cancelar o cartão?

# O que temos

Temos uma base de dados com informações dos clientes, tanto clientes atuais quanto clientes que cancelaram o cartão. 

Base de dados traduzida a partir dessa: https://www.kaggle.com/sakshigoyal7/credit-card-customers


Nesse tutorial estou usando [um arquivo traduzido da base de dados do Kaggle](https://drive.google.com/file/d/1JEpO9r-0Mi9INCS6NH9ygYhme9NLh1UK/view?usp=sharing). Para facilitar, criei uma pasta no meu google drive e subi os arquivos para lá. Depois inclui o código abaixo para conseguir pegar os arquivos diretamente da pasta no meu drive.</br>
Rodando o código a baixo, ele vai mostrar um link. Clique nele, autentique fazendo o login na sua conta google, pegue o código de autorização que vai gerar e cole no campo que vai gerar aqui. Dê enter e se tudo deu certo, vai aparecer a mensagem `Mounted at /content / drive`.


In [2]:
from google.colab import drive
drive.mount('/content/drive', )

Mounted at /content/drive


# Passo a passo para resolução

 - **Passo 1:** Importar a base de dados
 - **Passo 2:** Visualizar e tratar a base de dados
 - **Passo 3:** "Dar uma olhada" na base de dados
 - **Passo 4:** Construir uma análise para identificar o motivo do cancelamento:
  - Identificar qual é o motivo dos clientes estarem cancelando cartão de crédito


In [None]:
#Passo 1

import pandas as pd
cardCancel = pd.read_csv('/content/drive/MyDrive/dados_pandas/ClientesBanco.csv', encoding='latin1')
cardCancel.head()

Se tirar os parenteses do head, é possivel vê no final do dataframe a quantidade de linhas e colunas. Essa base tem **10127** linhas e 
**21** colunas. Vou usar o método `drop()` para exluir uma coluna que não vai fazer diferença na minha análise. 

In [None]:
#Passo 2
cardCancel = cardCancel.drop('CLIENTNUM', axis=1) #excluir algumas colunas para facilitar a leitura
cardCancel.head()

Precisamos saber se todos os campos estão preenchidos. Usaremos o método `info()`.

In [None]:
cardCancel.info() #Mostra informações gerais sobre o dataframe

A coluna *Categoria Cartão* está com 1 linha sem preenchimento. Iremos escluir apenas essa linha, já que não provocará alterações significativas na análise. 

In [None]:
cardCancel = cardCancel.dropna()
cardCancel.info()

Vamos vê as estatísticas gerais da tabela. Para isso usaremos o método `describe()`. Esse método só é aplicado em colunas numéricas.

In [None]:
#Passo 3
cardCancel.describe().round(1) #O método round arrendonda as casas para a quantidades de casas decimais que for passada como parametro, nesse caso é 1

Uma coisa importante de saber é quantos clientes temos e quantos cancelaram. O método `value_counts()` apresenta essa contagem.

In [None]:
qtdCategoria = cardCancel['Categoria'].value_counts()
qtdCategoria

É possivel também exibir a quantidade por porcentagem, basta passar o seguinte parametro:

In [None]:
qtdCategoriaPercent = cardCancel['Categoria'].value_counts(normalize=True)
qtdCategoriaPercent.round(2)

Existem diversas formas de descobrir o motivo de cancelamento:
- Fazendo uma comparação entre *Clientes* e *Cancelados* em cada uma das colunas da base de dados

In [12]:
import plotly.express as px #Uma biblioteca para criação de gráficos

Essa biblioteca possui muitos tipos de gráficos. Usarei o histograma e passarei como paramêtro **nome do dataframe**, **o que ficará no eixo X** e  colocarei uma **cor pra diferenciar a categoria**, já que é uma comparação. 

In [None]:
compIdade = px.histogram(cardCancel, x='Idade', color='Categoria')
compIdade.show()

Legal! Fiz isso para uma coluna. Mas eu preciso vê as comparações com todas as outras. Repetir essa etapa de código pode ser um trabalho cansativo, nesse caso vou usar a estrutura de repetição `for`. O `for` vai percorrer por toda a base de dados e criar um gráfico comparativo de cada coluna.<br> 
É importante saber que **o `for` percorre por padrão as colunas**, por isso chamei a variável que vai percorrer com esse nome. Se eu quisesse percorrer as linhas, bastava acrescentar `.index` junto ao nome da minha base de dados.

In [None]:
for coluna in cardCancel:
  compTodasColunas = px.histogram(cardCancel, x=coluna, color='Categoria')
  compTodasColunas.show()

Uma das coisas importantes sobre análise de dados é saber que o processo de análise é maior que o tempo que se leva codando. Olhando para esses gráficos, consegui chegar as seguintes conclusões:

- Quanto mais produtos contratados um cliente tem, menos a chance dele cancelar.
- Quanto mais transações e quanto maior o valor de transação, menor a chance dele cancelar.
- Quanto maior a quantidade de contatos a pessoa teve que fazer com a empresa, maior a chance de cancelamento.

Só com esses pontos é possivel perceber que talvez o caminho de uma solução esteja em criar programas de incentivo ao cliente para que ele passe a utilizar mais o cartão.
<p>Talvez seja possílvel chegar a outras conclusões, mas o objetivo aqui é apresentar uma visão geral e introdutória sobre análise de dados.