___
# Análise Exploratória: Variáveis qualitativas
___

## Aula 02


**Links Úteis:**
1.	Leitura prévia necessária: Magalhães e Lima (7ª. Edição): pág. 9 a 16 – destacando para variáveis qualitativas.
2.	10 Minutes to Pandas: http://pandas.pydata.org/pandas-docs/stable/10min.html
3.	Essential Basic Functionality: http://pandas.pydata.org/pandas-docs/stable/basics.html

**Hoje:**
1.	Analisar variáveis qualitativas de forma uni e bivariadas utilizando tabelas de frequências e gráficos de barras e de setor.

**Próxima aula:**
1.	Leitura prévia necessária: Magalhães e Lima (7ª. Edição): pág. 9 a 17 – destacando para variáveis quantitativas; pág. 106 e 107 (Definição 4.1 e Exemplo 4.1).

___


O que você deve procurar aprender neste `notebook`:

* Como definir uma coluna de dados como qualitativa (categórica)
* Como trocar seus valores numéricos por rótulos  numa coluna qualitativa
* Como filtrar datasets 
* Como criar colunas derivadas de outras colunas
* Relembrar o uso de `value_counts()` e como usar o `normalize=True` para alternar entre frequências relativas ou absolutas 
* Escolher uma escala de apresentação para uma variável qualitativa  usando o método  `reindex()`
* Relembrar customização de plots usando: `ylabel`, `xlabel` e `subplots`
* Visualização de crosstabs, lembrando que crosstabs *sempre* cruzam duas colunas que deveriam ser categóricas
* Note que na tabela resultante de um *crosstab* cada célula passa a ter dois índices 
* Análise de 3 qualis simultaneamente, na verdade filtramos por uma das variáveis, estabelecendo um recorte,  e fazemos o crosstab das outras duas

## <font color='blue'>Empresa de TV</font>

Uma empresa de TV via satélite criou recentemente dois tipos de planos de canais (A e B).

A empresa tem como objetivo estudar o perfil dos clientes que aderiram ao plano para enviar malas diretas aos potenciais clientes de cada tipo de plano.

A base de dados apresenta algumas variáveis para uma amostra de 82 clientes selecionados aleatoriamente dentre aqueles que aderiram aos planos. As variáveis têm os seguintes significados:

* CLIENTE: identificador do cliente.
* PLANO: apresenta o plano adquirido pelo cliente – (1=A ou 2=B). 
* EC: apresenta estado civil do cliente no momento da adesão ao  plano – (1=Casado, 2=Solteiro e 3=Outros).
* SATISFACAO: grau de satisfação do cliente pelo plano – 
	(5=Muito satisfeito, 4=Satisfeito, 3=Indiferente, 2=Insatisfeito e 1=Muito insatisfeito).
* RENDA: renda pessoal do cliente, em milhares de reais.

O arquivo `EmpresaTV Cod.xls` contém as variáveis descritas acima.



In [None]:
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import os

# Função para a legenda ficar fora do gráfico
def legend_box():
    plt.subplots_adjust(right=0.8)
    plt.legend(bbox_to_anchor=(1.04,0.5), loc="center left", borderaxespad=0)


In [None]:
print('Esperamos trabalhar no diretório')
print(os.getcwd())

In [None]:
dados = pd.read_excel('EmpresaTV Cod.xlsx')

In [None]:
dados.head()

In [None]:
list(dados)

___
## Definindo as variáveis qualitativas como categóricas:

Retiramos os comandos a seguir do tutorial. É boa prática ajudarmos o *pandas* a saber quando as variáveis são categóricas

In [None]:
dados.PLANO = dados.PLANO.astype('category')
dados.EC = dados.EC.astype('category')
dados.SATISFACAO = dados.SATISFACAO.astype('category')
dados.RENDA = dados.RENDA.astype('float')

### Substituindo os códigos numéricos pelos *labels* em cada variável qualitativa:

Muitas vezes a análise fica mais clara se as colunas de dados apresentam os rótulos corretos das caregorias de dados

Relembrando:
* PLANO: apresenta o plano adquirido pelo cliente – (1=A ou 2=B). 
* EC: apresenta estado civil do cliente no momento da adesão ao  plano – (1=Casado, 2=Solteiro e 3=Outros).
* SATISFACAO: grau de satisfação do cliente pelo plano – 
	(5=Muito satisfeito, 4=Satisfeito, 3=Indiferente, 2=Insatisfeito e 1=Muito insatisfeito).

In [None]:
dados.PLANO.cat.categories = (['A', 'B'])
dados.EC.cat.categories = (['Casado', 'Solteiro', 'Outros'])
dados.SATISFACAO.cat.categories = (['Muito Insatisfeito', 'Insatisfeito', 'Indiferente', 'Satisfeito', 'Muito Satisfeito'])

In [None]:
dados.head()

In [None]:
pd.crosstab(dados.SATISFACAO,dados.PLANO, normalize='columns', margins=True)*100

___
# EXERCÍCIO:


A seguir, iremos criar novos datasets SUPONDO que isso faça parte do objetivo do problema!!!

Faça os itens a seguir:

**1)** Crie um novo dataframe contendo todas as variáveis (colunas) apenas dos clientes do `Plano A`;



In [None]:
## 1) Crie um novo dataframe contendo todas as variáveis apenas os clientes do Plano A;

dados[dados.PLANO=='A']

OUTRAS MANEIRAS DE FAZER FILTRO:

In [None]:
#dados.loc[dados.PLANO=='A',:]

In [None]:
#dados.loc[dados.PLANO=='A',['EC','SATISFACAO']]

**2)** Crie um novo dataframe contendo todas as variáveis apenas dos clientes `Satisfeito` e `Muito Satisfeito`;



In [None]:

dados_satisfeito = dados[(dados.SATISFACAO == 'Satisfeito') | (dados.SATISFACAO == 'Muito Satisfeito')]

#Tb funciona se fizer:
#dados.loc[(dados.SATISFACAO == 'Satisfeito') | (dados.SATISFACAO == 'Muito Satisfeito')]
#dados.loc[(dados.SATISFACAO == 'Satisfeito') | (dados.SATISFACAO == 'Muito Satisfeito'),:]
#dados.loc[(dados.SATISFACAO == 'Satisfeito') | (dados.SATISFACAO == 'Muito Satisfeito'),]

In [None]:
dados_satisfeito.head()

**3)** Selecione a variável `RENDA` apenas os clientes `Insatisfeito` e `Muito Insatisfeito`;



In [None]:
##3) Selecione a variável RENDA apenas os clientes Insatisfeito e Muito Insatisfeito;

rendaI = dados.RENDA[(dados.SATISFACAO=='Insatisfeito') | (dados.SATISFACAO=='Muito Insatisfeito')]

rendaI

#Tb funciona se fizer:
#dados.loc[(dados.SATISFACAO=='Insatisfeito') | (dados.SATISFACAO=='Muito Insatisfeito'), 'RENDA']
#dados['RENDA'][(dados.SATISFACAO=='Insatisfeito') | (dados.SATISFACAO=='Muito Insatisfeito')]

**4)** No dataset `dados`, crie uma nova variável chamada `Sentimento` com as seguintes categorias:

    Não curtiu, se `SATISFACAO = Insatisfeito`  ou `Muito Insatisfeito`
    Indiferente, se `SATISFACAO = Indiferente`
    Curtiu, se `SATISFACAO = Satisfeito` ou `Muito Satisfeito`

In [None]:
dados.loc[(dados.SATISFACAO=='Insatisfeito') | (dados.SATISFACAO=='Muito Insatisfeito'),'SENTIMENTO'] = 'Não curtiu'
dados.loc[(dados.SATISFACAO=='Indiferente'),'SENTIMENTO'] = 'Indiferente'
dados.loc[(dados.SATISFACAO=='Satisfeito') | (dados.SATISFACAO=='Muito Satisfeito'),'SENTIMENTO'] = 'Curtiu'

dados.head()

___
## Atenção:
Como o objetivo da empresa de TV é comparar os planos A e B, MANTER OS DOIS PLANOS JUNTOS NO MESMO DATASET CERTAMENTE AJUDA MUITO NA ANÁLISE DOS DADOS VIA TABELAS E GRÁFICOS. Entenderemos isso melhor na próxima aula!!
___

___
# Análise univariada das variáveis qualitativas

Faça a tabela das frequências absolutas por PLANO:

In [None]:
ut1 = dados.PLANO.value_counts(sort=False).reindex(['A', 'B'])


In [None]:
ut1

Agora faça a tabela das frequências absolutas **por estado civil** :

In [None]:
ut2 = dados.EC.value_counts(sort=False).reindex(['Casado', 'Solteiro','Outros'])
ut2


E agora, faça a tabela das frequências absolutas **por satisfação**:

In [None]:
ut3 = dados.SATISFACAO.value_counts(sort=True).reindex(['Muito Insatisfeito', 'Insatisfeito', 'Indiferente', 'Satisfeito', 'Muito Satisfeito'])
ut3

## Frequências relativas

Converta alguma das tabelas acima em frequência relativa! Converta para escala *percentual* com 1 casa decimal

Frequências relativas por `PLANO`

In [None]:
ut1 = (dados.PLANO.value_counts(sort=False, normalize=True)*100).round(decimals=1).reindex(['A', 'B'])
ut1

Frequências relativas por `ESTADO CIVIL`:

In [None]:

ut2 = (dados.EC.value_counts(sort=False, normalize=True)*100).round(decimals=1).reindex(['Casado', 'Solteiro','Outros'])
ut2



Frequências relativas por `SATISFACAO`

In [None]:
ut3 = (dados.SATISFACAO.value_counts(sort=True, normalize=True)*100).round(decimals=1).reindex(['Muito Insatisfeito', 'Insatisfeito', 'Indiferente', 'Satisfeito', 'Muito Satisfeito'])
ut3

## Gráfico de barras

Faça um *gráfico de barras* das frequências relativas por planos

In [None]:
# Gráfico de barras
plot = ut1.plot(kind='bar',title='PLANOS',figsize=(6, 6),color=('b','g'))
plt.ylabel('Freq.Relativa (em %)')
plt.xlabel('Planos')
plt.show()

Agora faça o mesmo para `ESTADO CIVIL` e `SATISFAÇÃO`: 

In [None]:
plot = ut2.plot(kind='bar',title='ESTADO CIVIL',figsize=(6, 6))#,color=('b','g','r'))
plt.ylabel('Freq.Relativa (em %)')
plt.xlabel('Estado Civil')
plt.show()

In [None]:
plot = ut3.plot(kind='bar',title='SATISFAÇÃO',figsize=(6, 6),color=('b','g','r','c','m'))
plt.ylabel('Freq.Relativa (em %)')
plt.xlabel('Satisfação')
plt.show()

## Gráfico de setor

Vamos fazer um gráfico de setor contendo as separações por `PLANOS`, `Estado Civil` e `Satisfação` como um exemplo de `subplots`

In [None]:
# Gráfico de Setor
fig = plt.figure(figsize=(13, 4))
plt.subplot(131)
plot = ut1.plot(kind='pie',title='PLANOS',autopct='%.1f')

plt.subplot(132)
plot = ut2.plot(kind='pie',title='Estado Civil',autopct='%.1f')

plt.subplot(133)
plot = ut3.plot(kind='pie',title='Satisfação',autopct='%.1f')

plt.tight_layout()
plt.show()



## Gráfico de colunas

Vamos fazer o gráfico de colunas para as 3 separações: `PLANO`, `Estado Civil` e `Satisfação`. Novamente usando subplots

In [None]:
# Gráfico de Colunas sem cores diferentes entre as colunas
fig = plt.figure(figsize=(15, 6))
plt.subplot(131)
plot = ut1.plot(kind='bar',title='PLANOS')

plt.subplot(132)
plot = ut2.plot(kind='bar',title='Estado Civil')

plt.subplot(133)
plot = ut3.plot(kind='bar',title='Satisfação')

plt.tight_layout()
plt.show()


___
# Tabela cruzada entre variáveis qualitativas

## *Análises de Estado Civil versus Plano*

Faça a análise cruzando ESTADO CIVIL e PLANO

In [None]:
#Tabela cruzada Estado Civil x Plano
print('Tabela Cruzada por total GERAL:')
ct=pd.crosstab(dados.EC, dados.PLANO, margins=True, rownames=['ESTADO CIVIL'], colnames=['PLANO'])
ct=ct.loc[['Casado','Solteiro','Outros','All']]
ct

Agora converta a tabela acima para mostrar frequências relativas em percentual

In [None]:
ct1=pd.crosstab(dados.EC, dados.PLANO, margins=True, rownames=['ESTADO CIVIL'], colnames=['PLANO'], normalize=True)*100
ct1

No exemplo acima, percebemos que as muitas casas decimais do `float` tornam a leitura um pouco difícil. A dica é usar o `round()` especificando o número de casas decimais, para que fique mais legível/apresentável

In [None]:
ct1=ct1.round(decimals=0)


Observe como a tabela abaixo fica com apresentação melhorada

In [None]:
ct1

**Visualize** a tabela cruzada (crosstab) que fez acima como gráfico de barras

In [None]:
plot = ct1.plot(kind='bar',figsize=(6, 6))
plt.ylabel('Freq.Relativa (em %)')
plt.show()

O gráfico acima contém uma linha `All`, que é a soma de todas as categorias. Para remover isto use o indexador `0:-1` no crosstab

In [None]:
#Sem a linha de 'ALL'
plot = ct1.iloc[0:-1,].plot(kind='bar',figsize=(6, 6))
plt.ylabel('Freq.Relativa (em %)')
plt.show()

In [None]:
print('Tabela Cruzada por total de COLUNAS (em %):')
ct2=(pd.crosstab(dados.EC, dados.PLANO, margins=True, rownames=['ESTADO CIVIL'], colnames=['PLANO'], normalize='columns')*100).round(decimals=0)
ct2


Transposição:  podemos usar o atributo  `.T` para ter acesso a uma versão cruzada da tabela anterior (ou poderíamos simplesmente fazer um novo crosstab invertido). 

Desta forma, teríamos ao invés de plano x estado civil, estado civil por plano

In [None]:
plot = ct2.T.plot(kind='bar', stacked=True,title='Estado Civil em cada Plano',figsize=(8, 6))
plot.set_ylim([0, 100])
plt.ylabel('Freq.Relativa (em %)')

legend_box() # Função definida no começo - tira a legenda de cima do gráfico

Tabela Cruzada por total de LINHAS (em `%`):

In [None]:
ct3=(pd.crosstab(dados.EC, dados.PLANO, margins=True, rownames=['ESTADO CIVIL'], colnames=['PLANO'], normalize='index')*100).round(decimals=0)
ct3


In [None]:
plot = ct3.plot(kind='bar', stacked=True,title='Plano em cada Estado Civil',figsize=(8,6))
plt.ylabel('Freq.Relativa (em %)')

legend_box()

# <font color='red'>É coerente fazer os gráficos apresentados a seguir?</font>

## A questão é: Consegue interpretar corretamente em qual Estado Civil há maior ou menor concentração de cada Plano?? 

`ct` é uma tabela crosstab que considera Estado Civil versus Plano - com frequências absolutas

In [None]:
ct=pd.crosstab(dados.EC,dados.PLANO,margins=True,rownames=['ESTADO CIVIL'], colnames=['PLANO'])
ct=ct.loc[['Casado','Solteiro','Outros','All']]

ct4 = ct.iloc[:,0:2]
plot = ct4.plot(kind='bar',stacked=True,figsize=(6,6))
plt.ylabel('Freq. Absoluta')
plt.show()

### A questão é: Consegue interpretar corretamente em qual Plano há maior ou menor concentração de cada Estado Civil?? 

`ct1` é uma tabela crosstab que considera Estado Civil versus Plano - com frequências relativas

In [None]:

ct1= (pd.crosstab(dados.EC, dados.PLANO, margins=True, rownames=['ESTADO CIVIL'], colnames=['PLANO'], normalize=True)*100).round(decimals=1)

ct5 = ct1.iloc[:,0:2]
plot = ct5.plot(kind='bar',stacked=True,figsize=(8,6))
plt.ylabel('Freq.Relativa (em %)')
plt.show()

## *Análise de Satisfação versus Plano*

Agora estude o grau de satisfação dos clientes segundo o plano adquiridos por eles!!
Faça interpretações dos resultados!!

Analise Satisfação x Plano


In [None]:
ct1 = (pd.crosstab(dados.SATISFACAO,dados.PLANO,margins=True,rownames=['SATISFAÇÃO'], colnames=['PLANO'], normalize = True)*100).round(decimals=1)
print(ct1)

plot = ct1.iloc[0:5,:].plot(kind='bar')
plt.ylabel('Freq.Relativa (em %)')

legend_box()

In [None]:
ct2 = (pd.crosstab(dados.SATISFACAO,dados.PLANO,margins=True,rownames=['SATISFAÇÃO'], colnames=['PLANO'], normalize='columns')*100).round(decimals=1)
print(ct2)

plot = ct2.T.plot(kind='bar', stacked=True,title='Satisfação em cada Plano')
plot.set_ylim([0, 100])
plt.ylabel('Freq.Relativa (em %)')
#Para legenda ficar fora do gráfico
legend_box()

In [None]:
ct3 = (pd.crosstab(dados.SATISFACAO,dados.PLANO,margins=True,rownames=['ESTADO CIVIL'], colnames=['PLANO'], normalize='index')*100)
print(ct3)

plot = ct3.plot(kind='bar', stacked=True,title='Plano em cada Satisfação')
plt.ylabel('Freq.Relativa (em %)')

legend_box()

___
# Exercício:


## Análise das três variáveis qualitativas simultaneamente

Analise o Grau de Satisfação versus Estado Civil separademente para cada plano!

Aqui será necessário usar um filtro em cada uma dessas variáveis selecionando, inicialmente, apenas os clientes com plano A.

Para isso, lembre-se que você pode usar o seguinte código:

* `dados.SATISFACAO[dados.PLANO=='A']`
* `dados.EC[dados.PLANO=='A']`

Faça interpretações dos gráficos/tabelas que serão feitos a seguir por você!!

## *Tabela cruzada de Satisfação versus Estado Civil - PLANO A*

## *Tabela cruzada de Satisfação versus Estado Civil - PLANO B*