# Análise Exploratória

## Bibliotecas necessarias + opções de visualização do Pandas

In [6]:
import pandas as pd
import numpy as np
import json
from urllib.request import urlopen
import warnings

pd.options.display.max_columns = 100
pd.options.display.max_rows = 100
pd.options.display.max_colwidth = 100
pd.options.display.float_format = '{:,.2f}'.format
warnings.filterwarnings('ignore')

# Definindo uma seed padrao caso necessite de reproducibilidade.
myseed = 484

# Arquivos auxiliares
# from aux_files import *

## Recebendo os dados e abrindo em um DataFrame

Primeiramente, decidi por carregar o arquivo JSON em um variavel, para depois poder usar o `pandas.json_normalize()` o que ia me facilitar em nao ter que lidar com multiplas camadas das variaveis desse arquivo JSON. 

**Fonte dos dados**: [Github > alura-voz/Dados/Telco-Customer-Churn.json](https://github.com/sthemonica/alura-voz/blob/main/Dados/Telco-Customer-Churn.json).

In [2]:
# pegando os dados do github e abrindo o json
data_url = "https://github.com/sthemonica/alura-voz/blob/main/Dados/Telco-Customer-Churn.json?raw=true"
response = urlopen(data_url)
data_json = json.loads(response.read())

# carregando o dataframe com json_normalize
df = pd.json_normalize(data_json, max_level=2, sep='_')

# removendo o prefixo
df.columns = ['_'.join(cols.split('_')[1:]) if len(cols.split('_')) > 1 else cols for cols in df.columns]

## Comeco da Analise Exploratoria

In [3]:
df.head()

Unnamed: 0,customerID,Churn,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,Charges_Monthly,Charges_Total
0,0002-ORFBO,No,Female,0,Yes,Yes,9,Yes,No,DSL,No,Yes,No,Yes,Yes,No,One year,Yes,Mailed check,65.6,593.3
1,0003-MKNFE,No,Male,0,No,No,9,Yes,Yes,DSL,No,No,No,No,No,Yes,Month-to-month,No,Mailed check,59.9,542.4
2,0004-TLHLJ,Yes,Male,0,No,No,4,Yes,No,Fiber optic,No,No,Yes,No,No,No,Month-to-month,Yes,Electronic check,73.9,280.85
3,0011-IGKFF,Yes,Male,1,Yes,No,13,Yes,No,Fiber optic,No,Yes,Yes,No,Yes,Yes,Month-to-month,Yes,Electronic check,98.0,1237.85
4,0013-EXCHZ,Yes,Female,1,Yes,No,3,Yes,No,Fiber optic,No,No,No,Yes,Yes,No,Month-to-month,Yes,Mailed check,83.9,267.4


Verificando se existem linhas duplicadas

In [8]:
df.duplicated().sum()

0

> Nao existem linhas duplicadas.

Verificando as informacoes do DataFrame

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7267 entries, 0 to 7266
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7267 non-null   object 
 1   Churn             7267 non-null   object 
 2   gender            7267 non-null   object 
 3   SeniorCitizen     7267 non-null   int64  
 4   Partner           7267 non-null   object 
 5   Dependents        7267 non-null   object 
 6   tenure            7267 non-null   int64  
 7   PhoneService      7267 non-null   object 
 8   MultipleLines     7267 non-null   object 
 9   InternetService   7267 non-null   object 
 10  OnlineSecurity    7267 non-null   object 
 11  OnlineBackup      7267 non-null   object 
 12  DeviceProtection  7267 non-null   object 
 13  TechSupport       7267 non-null   object 
 14  StreamingTV       7267 non-null   object 
 15  StreamingMovies   7267 non-null   object 
 16  Contract          7267 non-null   object 


> Analisando o `DataFrame.info()`  é possível verificar que:
> * O `DataFrame` é formado de 7267 linhas (do `index` 0 ao 7266) e por 21 colunas.
> * Todas as 21 colunas possuem os 7267 valores `non-null` (não nulos)
> * A colunas `Charges_Total` da qual é esperado que o tipo dos dados sejam numéricos estão como `object` (string, texto)