# Análise de Dados com Python

### Desafio:

Você trabalha em uma empresa de telecom e tem clientes de vários serviços diferentes, entre os principais: internet e telefone.

O problema é que, analisando o histórico dos clientes dos últimos anos, você percebeu que a empresa está com Churn de mais de 26% dos clientes.

Isso representa uma perda de milhões para a empresa.

O que a empresa precisa fazer para resolver isso?

Base de Dados: https://drive.google.com/drive/folders/1T7D0BlWkNuy_MDpUHuBG44kT80EmRYIs?usp=sharing <br>
Link Original do Kaggle: https://www.kaggle.com/radmirzosimov/telecom-users-dataset

In [10]:
# Análise de Dados com Python

### Desafio:

# Passo a passo

# Passo 1: Importar a base de dados

import pandas as pd
import plotly.express as px

tabela=pd.read_csv('clientes.csv', encoding='latin',sep=';')
# deletar a coluna inutil (informacao que nao te ajuda, te atrapalha)
tabela=tabela.drop('Unnamed: 8',axis=1) # axis(eixo = 0 se for linha e 1 se for coluna), pode ser passado uma lista de colunas/linhas para que todas sejam deletadas no mesmo comando, elas devem estar em formato de lista



# Passo 2: Visualizar a base de dados
    # Entender as informações que você tem disponível
    # Procurar cagadas na base de dados

display(tabela)


# Passo 3: Tratamento dos dados
print(tabela.info()) # imprime as informacoes de cada coluna como numero de valores nao nulos e tipagem de cada uma da colunas

# 1- deletar as colunas inuteis(feito acima na fase de importacao de base de dados)

# 2- acertar informacoes que estao sendo reconhecidas de forma errada

tabela['Salário Anual (R$)'] = pd.to_numeric(tabela['Salário Anual (R$)'], errors="coerce") # aqui convertemos a tabela de salarios para um numerico pois ele estava como texto (object), o erros = "coerce" força a coercao em numerico, força o texto a se tornar um NaN

print(tabela.info())


# 3- corrigir informacoes vazias

# display(tabela[tabela['Profissão'].isna()]) # mostra as linhas vazias para analise (caso assim seja desejado)


tabela=tabela.dropna() # exclui as linhas que possuem valores vazios


# Passo 4: Análise Inicial -> Entender a nota dos clientes

display(tabela.describe()) # imprime diversos valores referentes à tabela em questao como max, min, media, etc

# importamos o plotly para criar grafico
# 1- criamos o grafico
grafico = px.histogram(tabela, x='Origem', y='Nota (1-100)')

# 2- exibimos o grafico
grafico.show()



# Passo 5: Análise Completa -> Entender como cada característica do cliente impacta na nota

Unnamed: 0,ClienteID,Origem,Idade,Salário Anual (R$),Nota (1-100),Profissão,Experiência Trabalho,Tamanho Família
0,1,Normal,19,15000,39,Saúde,1,4
1,2,Normal,21,35000,81,Engenheiro,3,3
2,3,Promoção,20,86000,2,Engenheiro,1,1
3,4,Promoção,23,59000,73,Advogado,0,2
4,5,Promoção,31,38000,48,Entretenimento,2,6
...,...,...,...,...,...,...,...,...
1995,1996,Promoção,71,184387,48,Artista,8,7
1996,1997,Promoção,91,73158,28,Doutor,7,7
1997,1998,Normal,87,90961,14,Saúde,9,2
1998,1999,Normal,77,182109,4,Executivo,7,2


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   ClienteID             2000 non-null   int64 
 1   Origem                2000 non-null   object
 2   Idade                 2000 non-null   int64 
 3   Salário Anual (R$)    2000 non-null   object
 4   Nota (1-100)          2000 non-null   int64 
 5   Profissão             1965 non-null   object
 6   Experiência Trabalho  2000 non-null   int64 
 7   Tamanho Família       2000 non-null   int64 
dtypes: int64(5), object(3)
memory usage: 125.1+ KB
None
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   ClienteID             2000 non-null   int64  
 1   Origem                2000 non-null   object 
 2   Idade                 

Unnamed: 0,ClienteID,Idade,Salário Anual (R$),Nota (1-100),Experiência Trabalho,Tamanho Família
count,1965.0,1965.0,1965.0,1965.0,1965.0,1965.0
mean,1000.309924,48.894656,110616.009669,52.385242,3.675318,3.757252
std,578.443714,28.414889,45833.860195,28.593269,3.909676,1.968335
min,1.0,0.0,0.0,1.0,0.0,1.0
25%,498.0,25.0,74350.0,29.0,0.0,2.0
50%,1000.0,48.0,109759.0,52.0,1.0,4.0
75%,1502.0,73.0,149095.0,77.0,7.0,5.0
max,2000.0,99.0,189974.0,100.0,17.0,9.0


ValueError: Mime type rendering requires nbformat>=4.2.0 but it is not installed

### Conclusões e Ações

Escreva aqui suas conclusões: