# Análise de Dados com Python

### Desafio:

Você trabalha em uma empresa de telecom e tem clientes de vários serviços diferentes, entre os principais: internet e telefone.

O problema é que, analisando o histórico dos clientes dos últimos anos, você percebeu que a empresa está com Churn de mais de 26% dos clientes.

Isso representa uma perda de milhões para a empresa.

O que a empresa precisa fazer para resolver isso?

Base de Dados: https://drive.google.com/drive/folders/1T7D0BlWkNuy_MDpUHuBG44kT80EmRYIs?usp=sharing <br>
Link Original do Kaggle: https://www.kaggle.com/radmirzosimov/telecom-users-dataset

In [None]:
import pandas as pd
# Passo 1: Importaria a base de dados
#table = pd.read_csv(r"H:\My Drive\VScode\Intensivão de Python\Aula 2\telecom_users.csv")
table = pd.read_csv("telecom_users.csv") #Não precisa do path caso o arquivo esteja no mesmo local do código, "sheets = x" ou "sheet_name = 0" vai determinar a aba escolhida
# Passo 2: Visualizer a base de dados
# axis -> 0 = Linha; axis -> 1 = coluna
table = table.drop("Unnamed: 0", axis=1)#drop vai excluir linha ou coluna
print(table)
# - Entender as informações que você tem disponível
# - Descobrir as cagadas da base de dados



In [None]:
import pandas as pd
# Passo 3: Tratamento de Dados
# Resolver os valores que estão sendo reconhecidos de forma errada
table = pd.read_csv("telecom_users.csv")
table["TotalGasto"] = pd.to_numeric(table["TotalGasto"], errors = "coerce")#ignore -> ignorar erro, raise -> mostrar erro, coerce -> forçar conversão

# resolver valores vazios

# colunas em que TODOS os valores vazios, eu vou excluir
# axis = 0 -> Linha, axis = 1 -> coluna
table = table.dropna(how = "all", axis = 1)
# Linhas que tem PELO MENOS 1 valor vazio (que possuem ALGUM valor vazio)
table = table.dropna(how = "any", axis = 0)

print(table.info())





In [None]:
import pandas as pd
# Passo 4: Análise Inicial
table = pd.read_csv("telecom_users.csv")
#Porcentagens de pessoas que cancelaram e que estão usando contratando o plano
print(table["Churn"].value_counts())
print(table["Churn"].value_counts(normalize = True).map("{:.1%}".format))

In [None]:
#pip install plotly
#pip install nbformat
import pandas as pd
import plotly.express as px

# Passo 5: Análise detalhada - descobrir as causas do cancelamento
table = pd.read_csv("telecom_users.csv")
#px.barplot #gráfico de barra
#px.pie #gráfico de pizza
### para edições nos gráficos: https://plotly.com/python/histograms/

# comparar cada coluna da base de dados com a coluna Churn
# cria o grafico
column1 = "TipoContrato"
column2 = "Aposentado"
graphic = px.histogram(table, x = column1, color = "Churn", text_auto = True)

# exibe o gráfico
graphic.show()

# para cada coluna da minha tabela, eu quero criar um gráfico
for coluna in table.columns:
    graphic = px.histogram(table, x=coluna, color="Churn", text_auto=True)
    graphic.show()







### Conclusões e Ações

Escreva aqui suas conclusões:
- Clientes com contrato mensal tem MUITO mais chance de cancelar:
    - Podemos fazer promoções para o cliente ir para o contrato anual
    
- Familias maiores tendem a cancelar menos do que famílias menores
    - Podemos fazer promoções pra pessoa pegar uma linha adicional de telefone
    
- MesesComoCliente baixos tem MUITO cancelamento. Clientes com pouco tempo como cliente tendem a cancelar muito
    - A primeira experiência do cliente na operadora pode ser ruim
    - Talvez a captação de clientes tá trazendo clientes desqualificados
    - Ideia: a gente pode criar incentivo pro cara ficar mais tempo como cliente
    
- QUanto mais serviços o cara tem, menos chance dele cancelar
    - podemos fazer promoções com mais serviços pro cliente
    
- Tem alguma coisa no nosso serviço de Fibra que tá fazendo os clientes cancelarem
    - Agir sobre a fibra
    
- Clientes no boleto tem MUITO mais chance de cancelar, então temos que fazer alguma ação para eles irem para as outras formas de pagamento 