___
# Análise Exploratória de Dados: Pandas e Seleção de Variáveis
___

## Aula 02


**Links Úteis:**
1.	Tutorial disponibilizado no Blackboard e no Github.
2.	10 Minutes to Pandas: http://pandas.pydata.org/pandas-docs/stable/10min.html
3.	Essential Basic Functionality: http://pandas.pydata.org/pandas-docs/stable/basics.html

**Hoje:**
1.	Analisar variáveis qualitativas de forma uni e bivariadas utilizando tabelas de frequências e gráficos de barras e de pizza (ou setor).

**Próxima aula:**
1.	Leitura prévia necessária: Magalhães e Lima (7ª. Edição): pág. 9 a 16 – destacando para variáveis qualitativas.

___


## <font color='blue'>Empresa de TV</font>

Uma empresa de TV via satélite criou recentemente dois tipos de planos de canais (A e B).

A empresa tem como objetivo estudar o perfil dos clientes que aderiram ao plano para enviar malas diretas aos potenciais clientes de cada tipo de plano.

A base de dados apresenta algumas variáveis para uma amostra de 82 clientes selecionados aleatoriamente dentre aqueles que aderiram aos planos. As variáveis têm os seguintes significados:

* CLIENTE: identificador do cliente.
* PLANO: apresenta o plano adquirido pelo cliente – (1=A ou 2=B). 
* EC: apresenta estado civil do cliente no momento da adesão ao  plano – (1=Casado, 2=Solteiro e 3=Outros).
* SATISFACAO: grau de satisfação do cliente pelo plano – 
	(5=Muito satisfeito, 4=Satisfeito, 3=Indiferente, 2=Insatisfeito e 1=Muito insatisfeito).
* RENDA: renda pessoal do cliente, em milhares de reais.


O arquivo `EmpresaTV Cod.xls` contém as variáveis descritas acima.

Faça uma análise exploratória apenas com as variáveis qualitativas com foco no objetivo da empresa.
Desenvolver as seguintes visualizações:

1. Gráfico de colunas (bar) e setor (pie) da frequência relativa das variáveis qualitativas.
2. Tabela Cruzada entre pares de variaveis qualitativas. Montar o gráfico de colunas. Repetir o processo habilitando a opção "stacked=True".



In [59]:
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import os

In [60]:
print('Esperamos trabalhar no diretório')
print(os.getcwd())

Esperamos trabalhar no diretório
C:\Users\Dell\Documents\2A\Dados\Aula02_Exploratoria


In [61]:
dados = pd.read_excel('EmpresaTV Cod.xlsx')

___
### Visualizando o conteúdo do *dataset*:

In [62]:
dados.shape

(82, 5)

In [63]:
dados.dtypes

CLIENTE         int64
PLANO           int64
EC              int64
SATISFACAO      int64
RENDA         float64
dtype: object

In [64]:
type(dados)

pandas.core.frame.DataFrame

In [65]:
dados.columns

Index(['CLIENTE', 'PLANO', 'EC', 'SATISFACAO', 'RENDA'], dtype='object')

In [66]:
list(dados.columns)

['CLIENTE', 'PLANO', 'EC', 'SATISFACAO', 'RENDA']

In [67]:
dados.head()

Unnamed: 0,CLIENTE,PLANO,EC,SATISFACAO,RENDA
0,1,1,1,5,21.4
1,2,1,2,5,17.2
2,3,1,3,5,15.6
3,4,1,1,4,10.4
4,5,1,2,5,17.6


In [68]:
dados.tail()

Unnamed: 0,CLIENTE,PLANO,EC,SATISFACAO,RENDA
77,78,2,3,2,4.3
78,79,2,2,2,5.7
79,80,2,1,2,4.0
80,81,2,3,2,5.4
81,82,2,1,1,0.6


In [69]:
#Selecionando parte do dataframe - Apenas as variáveis qualitativas
dados.iloc[0:5,0:4]

Unnamed: 0,CLIENTE,PLANO,EC,SATISFACAO
0,1,1,1,5
1,2,1,2,5
2,3,1,3,5
3,4,1,1,4
4,5,1,2,5


In [70]:
#Selecionando parte do dataframe - Apenas a variável quantitativa
pd.DataFrame(dados.iloc[0:5,-1])

Unnamed: 0,RENDA
0,21.4
1,17.2
2,15.6
3,10.4
4,17.6


In [71]:
#Selecionando parte do dataframe - Apenas a variável quantitativa
dados.iloc[0:5,-1]

0    21.4
1    17.2
2    15.6
3    10.4
4    17.6
Name: RENDA, dtype: float64

In [72]:
#Selecionando parte do dataframe - Apenas a variável quantitativa
dados.iloc[0:5,[-1]]

Unnamed: 0,RENDA
0,21.4
1,17.2
2,15.6
3,10.4
4,17.6


### Definindo as variáveis qualitativas como categóricas:

In [79]:
dados.PLANO = dados.PLANO.astype('category')
dados.EC = dados.EC.astype('category')
dados.SATISFACAO = dados.SATISFACAO.astype('category')
dados.RENDA = dados.RENDA.astype('float')

Faça um `dtypes` no *dataset* para verificar o tipo de cada variável:

In [80]:
#DIGITE AQUI!!!
dados.dtypes

CLIENTE          int64
PLANO         category
EC            category
SATISFACAO    category
RENDA          float64
dtype: object

___
### Substituindo os códigos numéricos pelos *labels* em cada variável quanlitativa:

Relembrando:
* PLANO: apresenta o plano adquirido pelo cliente – (1=A ou 2=B). 
* EC: apresenta estado civil do cliente no momento da adesão ao  plano – (1=Casado, 2=Solteiro e 3=Outros).
* SATISFACAO: grau de satisfação do cliente pelo plano – 
	(5=Muito satisfeito, 4=Satisfeito, 3=Indiferente, 2=Insatisfeito e 1=Muito insatisfeito).


In [81]:

dados.PLANO.cat.categories = (['A', 'B'])
dados.EC.cat.categories = (['Casado', 'Solteiro', 'Outros'])
dados.SATISFACAO.cat.categories = (['Muito Insatisfeito', 'Insatisfeito', 'Indiferente', 'Satisfeito', 'Muito Satisfeito'])



In [82]:
dados.head()

Unnamed: 0,CLIENTE,PLANO,EC,SATISFACAO,RENDA
0,1,A,Casado,Muito Satisfeito,21.4
1,2,A,Solteiro,Muito Satisfeito,17.2
2,3,A,Outros,Muito Satisfeito,15.6
3,4,A,Casado,Satisfeito,10.4
4,5,A,Solteiro,Muito Satisfeito,17.6


___
### <font color='cyan'>Atenção:</font> 

Como o objetivo da empresa de TV é comparar os planos A e B, **MANTER OS DOIS PLANOS JUNTOS NO MESMO *DATASET* CERTAMENTE AJUDA MUITO NA ANÁLISE DOS DADOS VIA TABELAS E GRÁFICOS. Entenderemos isso melhor na próxima aula!!** 

## <font color='red'>A seguir, iremos criar novos *datasets* SUPONDO que façam parte do objetivo do problema!!!</font>
___


### Faça os itens a seguir: 

1) Crie um novo dataframe contendo **todas as variáveis apenas os clientes do Plano A;**


2) Crie um novo dataframe contendo **todas as variáveis apenas os clientes Satisfeito e Muito Satisfeito;**


3) Selecione **a variável RENDA apenas os clientes Insatisfeito e Muito Insatisfeito;**


4) No *dataset* `dados`, crie uma **nova variável chamada `Sentimento`** com as seguintes categorias:

        Bravo, se SATISFACAO = Insatisfeito  ou Muito Insatisfeito
        Indiferente, se SATISFACAO = Indiferente
        Feliz, se SATISFACAO = Satisfeito ou Muito Satisfeito
        
        
	

In [105]:
## 1) Crie um novo dataframe contendo todas as variáveis apenas os clientes do Plano A;
dados = pd.read_excel('EmpresaTV Cod.xlsx')

dados.PLANO = dados.PLANO.astype('category')
dados.EC = dados.EC.astype('category')
dados.SATISFACAO = dados.SATISFACAO.astype('category')

dados.EC.cat.categories = (['CABEÇA', 'OMBRO', 'JOELHO'])
dados.SATISFACAO.cat.categories = (['PE', 'OLHOS', 'OUVIDOS', 'Satisfeito', 'Muito Satisfeito'])

dados.PLANO.cat.categories = (['A', 'B'])
fon = dados[(dados.SATISFACAO == "Satisfeito") | (dados.SATISFACAO == "Muito Satisfeito")]
fon

Unnamed: 0,CLIENTE,PLANO,EC,SATISFACAO,RENDA
0,1,A,CABEÇA,Muito Satisfeito,21.4
1,2,A,OMBRO,Muito Satisfeito,17.2
2,3,A,JOELHO,Muito Satisfeito,15.6
3,4,A,CABEÇA,Satisfeito,10.4
4,5,A,OMBRO,Muito Satisfeito,17.6
5,6,A,JOELHO,Satisfeito,9.8
6,7,A,CABEÇA,Muito Satisfeito,13.5
7,8,A,OMBRO,Satisfeito,7.8
8,9,A,CABEÇA,Satisfeito,14.4
9,10,A,CABEÇA,Muito Satisfeito,11.2


In [21]:
##2) Crie um novo dataframe contendo todas as variáveis apenas os clientes Satisfeito e Muito Satisfeito;


In [22]:
##3) Selecione a variável RENDA apenas os clientes Insatisfeito e Muito Insatisfeito;


In [106]:
##4) No dataset dados, crie uma nova variável chamada Sentimento com as seguintes categorias:
#Bravo, se SATISFACAO = Insatisfeito  ou Muito Insatisfeito
#Indiferente, se SATISFACAO = Indiferente
#Feliz, se SATISFACAO = Satisfeito ou Muito Satisfeito

dados.loc[(dados.SATISFACAO=='Insatisfeito') | (dados.SATISFACAO=='Muito Insatisfeito'),'SENTIMENTO'] = 'Triste'
dados.loc[(dados.SATISFACAO=='Indiferente'),'SENTIMENTO'] = 'Indiferente'
dados.loc[(dados.SATISFACAO=='Satisfeito') | (dados.SATISFACAO=='Muito Satisfeito'),'SENTIMENTO'] = 'Feliz'

dados.loc[(dados.SATISFACAO == "Satisfeito") | (dados.SATISFACAO == "Muito Satisfeito"), 'SENTIMENTO'] = 'MEVERS'
dados.loc[(dados.SATISFACAO == 'Indiferentes'), 'Sentimento'] = 'TEVEZ'
dados


Unnamed: 0,CLIENTE,PLANO,EC,SATISFACAO,RENDA,SENTIMENTO,Sentimento
0,1,A,CABEÇA,Muito Satisfeito,21.4,MEVERS,
1,2,A,OMBRO,Muito Satisfeito,17.2,MEVERS,
2,3,A,JOELHO,Muito Satisfeito,15.6,MEVERS,
3,4,A,CABEÇA,Satisfeito,10.4,MEVERS,
4,5,A,OMBRO,Muito Satisfeito,17.6,MEVERS,
5,6,A,JOELHO,Satisfeito,9.8,MEVERS,
6,7,A,CABEÇA,Muito Satisfeito,13.5,MEVERS,
7,8,A,OMBRO,Satisfeito,7.8,MEVERS,
8,9,A,CABEÇA,Satisfeito,14.4,MEVERS,
9,10,A,CABEÇA,Muito Satisfeito,11.2,MEVERS,


In [24]:
dados

Unnamed: 0,CLIENTE,PLANO,EC,SATISFACAO,RENDA,SENTIMENTO
0,1,A,Casado,Muito Satisfeito,21.4,Feliz
1,2,A,Solteiro,Muito Satisfeito,17.2,Feliz
2,3,A,Outros,Muito Satisfeito,15.6,Feliz
3,4,A,Casado,Satisfeito,10.4,Feliz
4,5,A,Solteiro,Muito Satisfeito,17.6,Feliz
5,6,A,Outros,Satisfeito,9.8,Feliz
6,7,A,Casado,Muito Satisfeito,13.5,Feliz
7,8,A,Solteiro,Satisfeito,7.8,Feliz
8,9,A,Casado,Satisfeito,14.4,Feliz
9,10,A,Casado,Muito Satisfeito,11.2,Feliz
