# Aula 12 - Análise Exploratória & Apresentação de Insights

<br>
<center>
<img src="https://cdn-images-1.medium.com/max/1600/1*5SpR1EAjK1V7P_-V4xUt3w.jpeg" alt="drawing" width="500px"></center>

# POR ONDE COMEÇAR?
![Explo](img/explo.png "Variables specification")

# DON'T BE A HERO
<br>
<center>
<img src="https://media1.tenor.com/images/60fd8ccf954b4e12e9045b222384d0e7/tenor.gif?itemid=10262870" alt="drawing" width="500px"></center>

In [None]:
HTML('<div style="max-width:854px"><div style="position:relative;height:0;padding-bottom:56.25%"><iframe src="https://embed.ted.com/talks/hans_rosling_shows_the_best_stats_you_ve_ever_seen" width="854" height="480" style="position:absolute;left:0;top:0;width:100%;height:100%" frameborder="0" scrolling="no" allowfullscreen></iframe></div></div>')

# Leitura
![Explo](img/How%20to.png "Variables specification")

In [None]:
#-- Library
from IPython.display import HTML
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.preprocessing import Imputer
import plotly.plotly as py
import plotly.graph_objs as go
import plotly.tools as tls

In [None]:
HTML('<div style="max-width:854px"><div style="position:relative;height:0;padding-bottom:56.25%"><iframe src="https://embed.ted.com/talks/david_mccandless_the_beauty_of_data_visualization" width="854" height="480" style="position:absolute;left:0;top:0;width:100%;height:100%" frameborder="0" scrolling="no" allowfullscreen></iframe></div></div>')

## Objetivo
> Avaliar se existem fatores que influenciam na presença de uma ou mais operadora

### Contexto
> A área de vendas da sua empresa está tentando prever a quantidade de produtos que serão vendidos do próximo ano. Você faz parte da área de **Data Science** dessa empresa, e precisa encontrar alguns insights que subsidiem os números de vendas para o próximo ano.

## Conclusao
> TBD

### Updated at
> 19/out/2018 by Tera-DSC Team

### Dataset
> Dados históricos dos clientes presentes nas estruturas da empresa.

### Warning
> Não estão sendo consideradas as estruturas de outras empresas de sharing. 

> Dados abertos da Anatel podem ter um atraso em sua publicação de até 2 meses.

In [None]:
#-- Importando csv com o df principal
df = pd.read_csv("data/database.csv", sep=';', encoding="ISO-8859-1", decimal=",")
df.head()

In [None]:
#-- Verificando o tamanho do dataset
df.shape

In [None]:
#-- Verificando os tipos de cada uma das variáveis
df.dtypes

In [None]:
#-- Obtendo algumas métricas das variáveis numéricas
df.describe()

In [None]:
#-- Passando a variável Acquired Date para o tipo Data
df['Acquired Date2'] = pd.to_datetime(df['Acquired Date'], format='%d/%m/%Y', infer_datetime_format=True)
df['Acquired Date2'].head()
#type(df['Acquired Date2'])

In [None]:
#-- Alterando a variável Acquired Date2 para o formato desejado
df['Acquired Date2'].dt.strftime("%d/%m/%Y")

In [None]:
#-- dropando a coluna Acquired Date original
df = df.drop(['Acquired Date'], axis=1)
df.dtypes

In [None]:
#-- Verificando quais features tem mais missing values
(df.isnull().sum().sort_values(ascending=False)/len(df))*100

<br>
<center>
<img src="https://media1.tenor.com/images/8cf54fcc3f6d0ae0ecebf0a18cf23eec/tenor.gif?itemid=5756613" alt="drawing" width="500px"></center>

# O que podemos fazer agora?

### Sugestões?

# Gráficos de Histograma

In [None]:
#-- verificando a alteração do tipo das variáveis
df.dtypes

In [None]:
#-- transformando as variáveis em numéricas
df['Total Height'] = pd.to_numeric(df['Total Height'])
df['Structure Height'] = pd.to_numeric(df['Structure Height'])

In [None]:
#printando algumas estatísticas básicas
df.describe()

In [None]:
#-- Este gráfico irá plotar o eixo Y como %
sns.distplot(df['Total Height'])

In [None]:
#-- preenchendo missing values com valores abaixo do minimo, assim facilita a visão do que seriam os missing values nos gráficos
df['Total Height2'] = df['Total Height'].fillna(-1000)

> Plotem gráficos com as variáveis **Building Height, Building Height Asset e Structure Height**

> Preencham os valores nulos dessas variáveis com **FLAGS**

In [None]:
#-- Este gráfico irá plotar o eixo Y com valores absolutos
#data = [go.Histogram(x=df['Total Height'], nbinsx=10)]

#-- Este gráfico irá plotar o eixo Y como %
#data = [go.Histogram(x=df['Total Height'], nbinsx=10, histnorm='probability')]
#py.iplot(data, filename='basic histogram')

> O que vocês acharam?

# Boxplot

In [None]:
#-- Criando uma máscara das variáveis numéricas com mais missing values
numerical_cols = ['Total Height', 'Building Height', 'Building Height Asset', 'Structure Height']
df[numerical_cols].head()

In [None]:
#-- Plota as variáveis numéricas com mais missing values
df[numerical_cols].boxplot(figsize=(15,10))

In [None]:
#-- Criando um dataset com as features que contenham missing values
df_null = df[numerical_cols].isnull()
null_data = pd.DataFrame({
    "count": df_null.sum(),
    "mean": df_null.mean()
})
null_data

In [None]:
#-- Calculando o valor das medianas das features com missing values
class NumericalFeaturesImputer(BaseEstimator, TransformerMixin):
    """ Classe de Feature Transformer baseada em um Imputer de Mediana.
        Esse imputer mantém a entrada X como um DataFrame em vez de transformar em numpy.array.
        Estratégias possíveis: 'mean', 'median', 'most_frequent'.
    """
    
    def __init__(self, columns):
        self.imputer = Imputer(strategy="median")
        self.columns = columns
        
    def fit(self, X, y=None, **fit_params):
        self.imputer.fit(X.loc[:, self.columns])
        return self
    
    def transform(self, X):
        X_t = X.copy()
        X_t.loc[:, self.columns] = self.imputer.transform(X_t.loc[:, self.columns])
        return X_t

In [None]:
#-- Utilizando a função acima para preencher as features com missing values
numerical_imputer = NumericalFeaturesImputer(numerical_cols)
df = numerical_imputer.fit_transform(df)
df.head()

In [None]:
#-- Verificando se as colunas das features com missing values foram preenchidas
df_null = df[numerical_cols].isnull()
null_data = pd.DataFrame({
    "count": df_null.sum(),
    "mean": df_null.mean()
})
null_data

# Pergunta de Executivo?????

<br>
<center>
<img src="https://media.giphy.com/media/3oEdv22bKDUluFKkxi/giphy.gif" alt="drawing" width="500px"></center>

# Importando novo dataset

In [None]:
#-- Importando csv
df_Anatel = pd.read_csv("data/Anatel_no.csv", sep=',', engine='python')
df_Anatel.head()

In [None]:
df_Anatel.shape

In [None]:
df_Anatel.tail

In [None]:
(df_Anatel.isnull().sum().sort_values(ascending=False)/len(df_Anatel))*100

# Como poderíamos juntar as duas tabelas?

### Sugestões?

> If?


> While?

In [None]:
#-- printando o head da base result
result.head()
result.shape

In [None]:
#printando as colunas
pd.DataFrame(df.columns)

In [None]:
#-- substituindo os valores de X na coluna dos clientes
result['Cliente 1'] = result['Cliente 1'].replace('X', 1)

# ZZZZZZZ
<br>
<center>
<img src="https://media1.tenor.com/images/90349c95754d5b611e6c894ff2c7ebb6/tenor.gif?itemid=5922309" alt="drawing" width="500px"></center>

In [None]:
#-- substituindo de maneira iterativa
for y in range(1,15,1):
    result['Cliente '+ str(y)] = result['Cliente '+ str(y)].fillna(0)
    result['Cliente '+ str(y)] = result['Cliente '+ str(y)].replace('X', 1)

In [None]:
#-- criar um somatório de clientes
result['Total Clientes']= result.iloc[:, 27:40].sum(axis=1)
result['Total Clientes'].head()

In [None]:
#-- verificando os missing values
result.isnull().sum().sort_values(ascending=False)/len(result)

In [None]:
#-- criando flags
result['Site Type'] = result['Site Type'].fillna(1)
result['Non Marketable Reason'] = result['Non Marketable Reason'].fillna('NA')
result['Constructed Date'] = result['Constructed Date'].fillna('01/01/1990')
result['State'] = result['State'].fillna('TT')
result['Access Instructions'] = result['Access Instructions'].fillna('NA')
result['Acquired Date2'] = result['Acquired Date2'].fillna('01/01/1990')
result['Acquired Date'] = result['Acquired Date2'].fillna('01/01/1990')
result['DataPrimeiroLicenciamento'] = result['DataPrimeiroLicenciamento'].fillna('01/01/1990')
result['Reinforcement Flag'] = result['Reinforcement Flag'].fillna('NA')
result['Tower Extended Flag'] = result['Tower Extended Flag'].fillna('NA')

In [None]:
#-- dropando o restante de vazios
result_no = result.dropna()
result_no.head()
result_no.shape

# LET'S MOVE ON
<br>
<center>
<img src="https://media1.tenor.com/images/04107bee52787557e53f4f369271226d/tenor.gif?itemid=11534183" alt="drawing" width="500px"></center>

In [None]:
#-- plota pontos de Total Clientes X Total Height
data5 = [go.Scatter(x=result_no['Total Clientes'], y=result_no['Total Height'], mode = 'markers')]
py.iplot(data5, filename='basic histogram')

# O que acharam?

## Dados Quantitativos Contínuos e Dados Quantitativos Discretos
<br>
> Dados Contínuos: Os dados quantitativos contínuos assumem valores em um intervalo contínuo de números. Em geral, este tipo de dado é proveniente de medições de uma característica da qualidade de uma peça ou produto 
<br>
<br>
> Dados Discretos: Os dados quantitativos discretos assumem valores dentro de um conjunto com os números especificados. Por exemplo, o número de produtos produzidos por uma máquina em um determinado período de tempo.

Link: http://www.portalaction.com.br/estatistica-basica/13-exposicao-dos-dados

![Explo](img/Dados_vazio.jpg "Variables specification")

![Explo](img/Dados.jpg "Variables specification")

> Testem alguns gráficos

# Testes de Hipóteses

A hipótese que usamos como alternativa à hipótese nula, isto é, a hipótese que aceitamos quando a hipótese nula é rejeitada é chamada Hipótese Alternativa e será denotada por H1. Assim, considerando o exemplo do réu, formulamos as hipóteses: 

![Explo](img/Hip.png "Variables specification")

Link: http://www.portalaction.com.br/inferencia/51-introducao

In [None]:
#-- importando biblioteca para teste estatísticos
import scipy.stats as stats

In [None]:
#-- 
result.corr()

In [None]:
#-- teste de normalidade
#result_no['Total Height'].groupby(result_no['Total Clientes']).describe()
stats.shapiro(result_no['Total Height'][result_no['Total Clientes'] == 1])

In [None]:
stats.probplot(result_no['Total Height'][result_no['Total Clientes'] == 1], plot= plt)
plt.title("Clientes Igual a 1 Q-Q Plot")

In [None]:
#-- teste de variância
stats.levene(result_no['Total Height'][result_no['Total Clientes'] == 0], 
             result_no['Total Height'][result_no['Total Clientes'] == 1],
             result_no['Total Height'][result_no['Total Clientes'] == 2],
             result_no['Total Height'][result_no['Total Clientes'] == 3],
             result_no['Total Height'][result_no['Total Clientes'] == 4],
             result_no['Total Height'][result_no['Total Clientes'] == 5])

> O teste ANOVA one-way testa a hipótese nula de duas ou mais variáveis terem a mesma média. O tamanhos das amostras das variáveis podem variar.

> O teste ANOVA one-way tem algumas premissas:
1. As amostras são independentes.
2. Cada amostra segue uma distribuição normal.
3. O desvio padrão das amostras são iguais.

Link: http://www.portalaction.com.br/anova/11-modelo-0

In [None]:
#-- teste ANOVA (Quando as variâncias são iguais)
stats.f_oneway(result_no['Total Height'][result_no['Total Clientes'] == 0], 
             result_no['Total Height'][result_no['Total Clientes'] == 1],
             result_no['Total Height'][result_no['Total Clientes'] == 2],
             result_no['Total Height'][result_no['Total Clientes'] == 3],
             result_no['Total Height'][result_no['Total Clientes'] == 4],
             result_no['Total Height'][result_no['Total Clientes'] == 5])

> Kruskal-Wallis H-test é a versão não paramétrica da ANOVA.

In [None]:
stats.kruskal(result_no['Total Height'][result_no['Total Clientes'] == 0], 
             result_no['Total Height'][result_no['Total Clientes'] == 1],
             result_no['Total Height'][result_no['Total Clientes'] == 2],
             result_no['Total Height'][result_no['Total Clientes'] == 3],
             result_no['Total Height'][result_no['Total Clientes'] == 4],
             result_no['Total Height'][result_no['Total Clientes'] == 5])

> Qual gráfico poderíamos plotar?

In [1]:
#-- importando biblioteca para contar valores
from collections import Counter

In [None]:
#-- contando valores de estados com 3 clientes
counts = Counter(result_no['State'][result_no['Total Clientes'] == 3])
print(counts)

In [None]:
# plotando na ordem decrescente
weights, labels = zip(*sorted(((pref,genre) for genre,pref in counts.items()), reverse=True))

for i in weights:
    cumu_1 = weights[0]
    cumu_2 = weights[1] + cumu_1
    cumu_3 = weights[2] + cumu_2
    cumu_4 = weights[3] + cumu_3
    cumu_5 = weights[4] + cumu_4
    cumu_weights = [cumu_1,cumu_2, cumu_3, cumu_4, cumu_5]

print(cumu_weights)

left = np.arange(len(weights))
fig, ax = plt.subplots(1, 1)
ax.bar(left, weights, 1)
ax.set_xticks(left)
ax.set_xticklabels(labels,fontsize=10, fontweight='bold', rotation=35, color='darkblue')
ax.plot(cumu_weights)

In [None]:
#-- teste do qui quadrado
a1 = result_no['State'][result_no['Total Clientes'] == 1].value_counts()
a2 = result_no['State'][result_no['Total Clientes'] == 2].value_counts()
a3 = result_no['State'][result_no['Total Clientes'] == 3].value_counts()

chi2_stat, p_val, dof, ex = stats.chi2_contingency(np.array([a1 , a2, a3]))
print("===Chi2 Stat===")
print(chi2_stat)
print("\n")
print("===Degrees of Freedom===")
print(dof)
print("\n")
print("===P-Value===")
print(p_val)
print("\n")

> Plotem os gráficos para as outras quantidade de clientes sem a classe TT

> Realizem o teste qui quadrado para esses casos

# Média de clientes no tempo?

# Plotando Mapas

In [None]:
#-- importando bibliotecas dos mapas
from bokeh.io import output_file, output_notebook, show
from bokeh.models import ColumnDataSource, GMapOptions
from bokeh.plotting import gmap

In [None]:
#-- plotando o mapa de des_maior
#output_file("gmap.html")

map_options = GMapOptions(lat=-15.0, lng=-52.2, map_type="roadmap", zoom=4)

p = gmap("AIzaSyABImLmhfoQUZOgzz0UThAc8QwXCN3tn1k", map_options, title="Localização")

source = ColumnDataSource(
    data=dict( lat=result_no['Latitude Decimal'],
        lon=result_no['Longitude Decimal'],
        size=(result_no['Total Clientes']*3),
        color=result_no['Total Clientes'])
)

p.circle(x="lon", y="lat", size='size', fill_color ='color', fill_alpha=0.3, source=source)
output_notebook()

show(p)

# Desafio
<br>
<center>
<img src="http://4.bp.blogspot.com/-Wyybxe-VcC8/VkTwbYP4SuI/AAAAAAAAZNQ/5m0QyB4gmgU/s1600/challengeaccepted.gif" alt="drawing" width="500px"></center>
<br>
<center>

## Encontrem variáveis que possam ter alguma relação com o número de Clientes
## Plotem seus gráficos
## Validem suas hipóteses

# Acabou?
<br>
<center>
<img src="https://i.chzbgr.com/full/5156763392/h14141C08/" alt="drawing" width="500px"></center>
<br>
<center>

## Fim