___
# Análise Exploratória: Variáveis quantitativas
___

## Aula 03


**Links Úteis:**
1.	Leitura prévia necessária: Magalhães e Lima (7ª. Edição): pág. 9 a 16 – destacando para variáveis qualitativas.
2.	10 Minutes to Pandas: http://pandas.pydata.org/pandas-docs/stable/10min.html
3.	Essential Basic Functionality: http://pandas.pydata.org/pandas-docs/stable/basics.html

**Hoje:**
1. Explorar também as variáveis quantitativas do caso: Previsão de Risco de Inadimplência (Risco de Crédito) do Bank Loan. 
2. Construir tabelas de frequências e interpretar resultados considerando variáveis quantitativas de forma univariada e de forma cruzada com uma variável qualitativa. 
4. Explicar vantagens e desvantagens sobre o uso da frequência ou da densidade na construção de um histograma e saber interpretá-lo. 
5. Desenvolver contas para obtenção de mediana ou outros quantis a partir de tabelas de frequências. 
6. Fechamento do conteúdo.


**Próxima aula:**
1. Leitura prévia necessária: Magalhães e Lima (7ª. Edição): pág. 18 a 26; pág. 116 e 117 (Definição 4.4 e Exemplo 4.8). 
___


## <font color='blue'>Empresa de TV</font>

Uma empresa de TV via satélite criou recentemente dois tipos de planos de canais (A e B).

A empresa tem como objetivo estudar o perfil dos clientes que aderiram ao plano para enviar malas diretas aos potenciais clientes de cada tipo de plano.

A base de dados apresenta algumas variáveis para uma amostra de 82 clientes selecionados aleatoriamente dentre aqueles que aderiram aos planos. As variáveis têm os seguintes significados:

* CLIENTE: identificador do cliente.
* PLANO: apresenta o plano adquirido pelo cliente, A ou B. 
* EC: apresenta estado civil do cliente no momento da adesão ao plano, Casado, Solteiro e Outros.
* SATISFACAO: grau de satisfação do cliente pelo plano,  Muito satisfeito, Satisfeito, Indiferente, Insatisfeito e Muito insatisfeito.
* RENDA: renda pessoal do cliente, em milhares de reais.

O arquivo `EmpresaTV.xls` contém as variáveis descritas acima.

Faça uma análise exploratória apenas da variável quantitativa com foco no objetivo da empresa.
Desenvolver as seguintes visualizações e resultados.

1. Tabela de frequências, gráfico de colunas (bar) e histograma.
2. Refazer segmentando por Plano.
3. Calcule as medidas de posição (média, mediana e moda) a partir dos dados. 
4. Repetir item anterior obtendo a partir dos histogramas.



In [None]:
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import os
from numpy import arange
import numpy as np

In [None]:
print('Esperamos trabalhar no diretório')
print(os.getcwd())

In [None]:
dados = pd.read_excel('EmpresaTV.xlsx')

In [None]:
dados.head()

In [None]:
dados.PLANO = dados.PLANO.astype('category')
dados.EC = dados.EC.astype('category')
dados.SATISFACAO = dados.SATISFACAO.astype('category')
dados.RENDA = dados.RENDA.astype('float')

dados.PLANO.cat.categories = (['A', 'B'])
dados.EC.cat.categories = (['Casado', 'Solteiro', 'Outros'])
dados.SATISFACAO.cat.categories = (['Muito Insatisfeito', 'Insatisfeito', 'Indiferente', 'Satisfeito', 'Muito Satisfeito'])

In [None]:
dados.RENDA.value_counts().head(15)


___
## Análise da RENDA  - Amplitudes iguais

## Comparação por PLANO

In [None]:
#So PLANO A
#Selecionando variável renda 
dados.RENDA[dados.PLANO=='A'].describe()

In [None]:
#So PLANO B
#Selecionando variável renda 
dados.RENDA[dados.PLANO=='B'].describe()

In [None]:
faixa = arange(0.5,25,3.5)

In [None]:
# Tabelas univariada - PLANO A
rendaAcat = pd.cut(dados.RENDA[dados.PLANO=='A'], bins=faixa, right=False)
print('Frequências relativas:')
ut1 = (rendaAcat.value_counts(sort=False, normalize=True)*100).round(decimals=1)
print(ut1,'\n')

#### *PARA VISUALIZAR QUE AS CATEGORIAS DA RENDA FORAM CRIADAS CORRETAMENTE!*

In [None]:
pd.DataFrame([dados.RENDA[dados.PLANO=='A'],rendaAcat]).T

### NUNCA POR HIPÓTESE ALGUMA FAZER O GRÁFICO ABAIXO PARA UMA VARIÁVEL QUANTITATIVA CONTÍNUA OK!!

### POR QUÊ??

In [None]:
#ERRADO!!!!
#NUNCA POR HIPÓTESE ALGUMA FAZER UM GRÁFICO DESSES COM UMA VARIÁVEL QUANTITATIVA CONTÍNUA OK!!

plot = ut1.plot(kind='bar',title='RENDA - PLANO A',figsize=(6, 6),color=('b'))
plt.ylabel('Freq.Relativa (em %)')
plt.xlabel('renda')

In [None]:
# Gráfico de colunas com frequência absoluta
#plot = dados.RENDA[dados.PLANO=='A'].plot.hist(bins=faixa,title='´GRAFICO DE COLUNAS - PLANO A', figsize=(6, 6), alpha=0.5)
dados.RENDA[dados.PLANO=='A'].plot.hist(bins=faixa, title='´GRAFICO DE COLUNAS - PLANO A', figsize=(6,6), alpha=0.5)
plt.ylabel('Frequência absoluta')
plt.xlabel('renda (em mil reais)')
plt.show()

In [None]:
# Gráfico de colunas
from numpy import zeros_like
plot = dados.RENDA[dados.PLANO=='A'].plot.hist(bins=faixa,title='´GRAFICO DE COLUNAS - PLANO A', weights=zeros_like(dados.RENDA[dados.PLANO=='A'])+1./dados.RENDA[dados.PLANO=='A'].size*100, figsize=(6, 6), alpha=0.5)
plt.ylabel('Frequência relativa (em %)')
plt.xlabel('renda (em mil reais)')
plt.show()

In [None]:
# Histograma OBRIGATORIAMENTE PRECISA DO NORMED=1
plot = dados.RENDA[dados.PLANO=='A'].plot.hist(bins=faixa,title='HISTOGRAMA - PLANO A',figsize=(6, 6), density=True, alpha=0.5)
plt.ylabel('Densidade')
plt.xlabel('renda (em mil reais)')
plt.show()

In [None]:
#So PLANO B
#Selecionando variável renda 
dados.RENDA[dados.PLANO=='B'].describe()

In [None]:
# Tabelas univariada - PLANO B
rendaBcat = pd.cut(dados.RENDA[dados.PLANO=='B'], faixa, False)
print('Frequências relativas:')
ut2 = (rendaBcat.value_counts(sort=False, normalize=True)*100).round(decimals=1)
print(ut2,'\n')

In [None]:
# Gráfico de colunas
from numpy import zeros_like
plot = dados.RENDA[dados.PLANO=='B'].plot.hist(bins=faixa,title='GRAFICO DE COLUNAS - PLANO B', weights=zeros_like(dados.RENDA[dados.PLANO=='B'])+1./dados.RENDA[dados.PLANO=='B'].size*100, figsize=(6, 6), alpha=0.5, color='cyan')
plt.ylabel('Frequência relativa (em %)')
plt.xlabel('renda (em mil reais)')
plt.show()

In [None]:
# Histograma
plot = dados.RENDA[dados.PLANO=='B'].plot.hist(bins=faixa,title='HISTOGRAMA - PLANO B',figsize=(6, 6), density=True, alpha=0.5, color='cyan')
plt.ylabel('Densidade')
plt.xlabel('renda (em mil reais)')
plt.show()

___
## Análise da RENDA  - Amplitudes desiguais

## Comparação por PLANO

In [None]:
faixa2 = (0.5, 4.0, 7.5, 11.0, 14.5, 21.5)

In [None]:
#Plano A
rendaAcat2 = pd.cut(dados.RENDA[dados.PLANO=='A'], faixa2, right=False)

In [None]:
# Tabelas univariada - PLANO A
print('Frequências relativas:')
ut3 = (rendaAcat2.value_counts(sort=False, normalize=True)*100).round(decimals=1)
print(ut3,'\n')

In [None]:
# Gráfico de barras PLANO A
from numpy import zeros_like
plot = dados.RENDA[dados.PLANO=='A'].plot.hist(bins=faixa2, title='GRAFICO DE COLUNAS - PLANO A', weights=zeros_like(dados.RENDA[dados.PLANO=='A'])+1./dados.RENDA[dados.PLANO=='A'].size*100, figsize=(6, 6), alpha=0.5)
plt.ylabel('Frequência relativa (em %)')
plt.xlabel('renda (em mil reais)')

In [None]:
# Histograma - PLANO A
plot = dados.RENDA[dados.PLANO=='A'].plot.hist(bins=faixa2,title='HISTOGRAMA - PLANO A',figsize=(6, 6), density=True, alpha=0.5)
plt.ylabel('Densidade')
plt.xlabel('renda (em mil reais)')
plt.show()

In [None]:
#Plano B
rendaBcat2 = pd.cut(dados.RENDA[dados.PLANO=='B'], faixa2, right=False)

In [None]:
# Tabelas univariada - PLANO B
print('Frequências relativas:')
ut4 = (rendaBcat2.value_counts(sort=False, normalize=True)*100).round(decimals=1)
print(ut4,'\n')


In [None]:
# Histograma - PLANO B
plot = dados.RENDA[dados.PLANO=='B'].plot.hist(bins=faixa2,title='HISTOGRAMA - PLANO B',figsize=(6, 6), density=True, alpha=0.5, color='cyan')
plt.ylabel('Densidade')
plt.xlabel('renda (em mil reais)')
plt.show()

In [None]:
fig = plt.figure(figsize=(11, 5))
plt.subplot(121)
plot = dados.RENDA[dados.PLANO=='A'].plot.hist(bins=faixa2,title='HISTOGRAMA - PLANOS A e B', density=True, alpha=0.5)
plt.ylabel('Densidade')
plt.xlabel('renda (em mil reais)')
plt.legend(('A'))

plt.subplot(122)
plot = dados.RENDA[dados.PLANO=='B'].plot.hist(bins=faixa2, density=True, alpha=0.5, color='cyan')
plt.ylabel('Densidade')
plt.xlabel('renda (em mil reais)')
plt.legend(('B'))

plt.tight_layout()
plt.show()

---
# MÉDIA
___

___
## Média de RENDA - a partir da amostra

### *Via comando*

In [None]:
print('Renda Média:', dados.RENDA.mean())
print('Renda Mediana:', dados.RENDA.median())


___
## Média de RENDA - separando por PLANO


In [None]:
#Uma maneira para calcular
print('Renda Média do Plano A:', dados.RENDA[dados.PLANO=='A'].mean())
print('Renda Média do Plano B:', dados.RENDA[dados.PLANO=='B'].mean())

print('Renda Mediana do Plano A:', dados.RENDA[dados.PLANO=='A'].median())
print('Renda Mediana do Plano B:', dados.RENDA[dados.PLANO=='B'].median())


In [None]:
#Outra maneira para calcular MEDIA
print("Média por plano: \n", dados.RENDA.groupby(by=dados.PLANO).mean())

In [None]:
#Outra maneira para calcular MEDIANA
print("Mediana por plano: \n", dados.RENDA.groupby(by=dados.PLANO).median())

___
## Média de RENDA - separando por PLANO e SATISFACAO

### Via comando `pivot_table`

In [None]:
pd.pivot_table(data=dados, index='SATISFACAO', columns='PLANO', values='RENDA', aggfunc=np.mean)

___
## Média de RENDA - separando por PLANO e EC

### Via comando `pivot_table`

In [None]:
pd.pivot_table(data=dados, index='EC', columns='PLANO', values='RENDA', aggfunc=np.mean)