___
# Análise Exploratória: Tipos de Variáveis e Medidas Resumo

## Aula 02 - Atividade
___

## Índice

- [Empresa de TV](#empresa-de-tv)
    - [Tipos de variáveis](#tipos-de-variaveis)
    - [Exercício 1](#ex1)
- [Definindo as variáveis qualitativas como categóricas](#definindo-as-variaveis-qualitativas-como-categoricas)
- [Montando tabelas de frequências](#montando-tabelas-de-frequencias)
    - [Exercício 2](#ex2)
    - [Exercício 3](#ex3)
    - [Exercício 4](#ex4)
- [Tabelas cruzadas entre variáveis qualitativas](#tabelas-cruzadas-entre-variaveis-qualitativas)
    - [Exercício 5](#ex5)
    - [Exercício 6](#ex6)
- [Medidas resumo](#medidas-resumo)
    - [Exercício 7](#ex7)
    - [Exercício 8](#ex8)
    - [Exercício 9](#ex9)
    - [Exercício 10](#ex10)
    - [Exercício 11](#ex11)
- [Lista de comandos utilizados neste notebook](#comandos)


___

<div id="empresa-de-tv"></div>

## Empresa de TV

Uma empresa de TV via satélite criou recentemente dois tipos de planos de canais (A e B).

A empresa tem como objetivo estudar o perfil dos clientes que aderiram ao plano para enviar malas diretas aos potenciais clientes de cada tipo de plano.

A base de dados apresenta algumas variáveis para uma amostra de 82 clientes selecionados aleatoriamente dentre aqueles que aderiram aos planos. As variáveis têm os seguintes significados:

* CLIENTE: identificador do cliente.
* PLANO: apresenta o plano adquirido pelo cliente – (1=A ou 2=B). 
* EC: apresenta estado civil do cliente no momento da adesão ao  plano – (1=Casado, 2=Solteiro e 3=Outros).
* SATISFACAO: grau de satisfação do cliente pelo plano – 
	(5=Muito satisfeito, 4=Satisfeito, 3=Indiferente, 2=Insatisfeito e 1=Muito insatisfeito).
* RENDA: renda pessoal do cliente, em milhares de reais.

O arquivo `EmpresaTV Cod.xlsx` contém as variáveis descritas acima.


<div id="tipos-de-variaveis"></div>

### Tipos de variáveis

Antes de olhar os dados, vamos refletir sobre os tipos de cada variável disponível. Lembrando que temos:

- Variáveis qualitativas (ou categóricas):
    - Nominal
    - Ordinal
- Variáveis quantitativas (ou numéricas):
    - Discreta
    - Contínua

<div id="ex1"></div>

### EXERCÍCIO 1:

Classifique cada uma das variáveis disponíveis <font color="red">(modifique esta célula)</font>:

- PLANO: Qualitativa Nominal
- EC: Qualitativa Nominal
- SATISFACAO: Qualitativa Ordinal
- RENDA: Quantitativa Discreta

___
Agora sim, vamos carregar os dados do arquivo:

In [188]:
%matplotlib inline
import pandas as pd
import os

In [189]:
# Listando o diretório de trabalho. Lembre-se que o arquivo com a base de dados precisa estar neste diretório.
print('Esperamos trabalhar no diretório')
print(os.getcwd())

Esperamos trabalhar no diretório
c:\Users\rodrigo\Desktop\CD21-1\aula02


In [190]:
# Carregando os dados do arquivo
dados = pd.read_excel('EmpresaTV Cod.xlsx')

In [191]:
# Visualizando as primeiras linhas
dados

Unnamed: 0,CLIENTE,PLANO,EC,SATISFACAO,RENDA,Unnamed: 5,Unnamed: 6
0,1,1,1,5,21.4,,
1,2,1,2,5,17.2,,
2,3,1,3,5,15.6,,
3,4,1,1,4,10.4,,
4,5,1,2,5,17.6,,
...,...,...,...,...,...,...,...
77,78,2,3,2,4.3,,
78,79,2,2,2,5.7,,
79,80,2,1,2,4.0,,
80,81,2,3,2,5.4,,


<div id="definindo-as-variaveis-qualitativas-como-categoricas"></div>

## Definindo as variáveis qualitativas como categóricas

No [primeiro exercício](#ex1) você deve ter identificado as variáveis PLANO, EC e SATISFACAO como qualitativas (ou categóricas). O pandas não tem como saber dessa informação ao carregar os dados, então precisamos modificar as colunas explicitamente.

<div id="astype"></div>

A função `.astype` devolve uma cópia da coluna (`Series`) convertida para o tipo desejado. Por exemplo, para transformar uma coluna em categórica devemos utilizar `.astype('category')`.

In [192]:
dados['PLANO'] = dados['PLANO'].astype('category')
dados['EC'] = dados['EC'].astype('category')
dados['SATISFACAO'] = dados['SATISFACAO'].astype('category')
# A próxima linha é desnecessária, pois a coluna já era do tipo float, mas 
# queremos mostrar que é possível utilizar outros tipos.
dados['RENDA'] = dados['RENDA'].astype('float')

O uso de códigos numéricos é útil para determinadas finalidades, mas pode dificultar a compreensão. Vamos substituir os códigos numéricos pelos respectivos nomes.

<div id="categories"></div>

Agora que transformamos as colunas qualitativas em categóricas, podemos listar as categorias com `.cat.categories`:

In [193]:
# Exemplo com a coluna SATISFACAO
dados['SATISFACAO'].cat.categories

Int64Index([1, 2, 3, 4, 5], dtype='int64')

<div id="satisfacao-categoria"></div>

Podemos substituir os códigos todos de uma vez da seguinte maneira:

In [194]:
# Exemplo com a coluna SATISFACAO
dados['SATISFACAO'].cat.categories = ['Muito Insatisfeito', 'Insatisfeito', 'Indiferente', 'Satisfeito', 'Muito Satisfeito']

# Visualizando o resultado
dados['SATISFACAO'].cat.categories

Index(['Muito Insatisfeito', 'Insatisfeito', 'Indiferente', 'Satisfeito',
       'Muito Satisfeito'],
      dtype='object')

Note que essa ação atualiza todos os valores da coluna no `DataFrame`:

In [195]:
dados['SATISFACAO']

0       Muito Satisfeito
1       Muito Satisfeito
2       Muito Satisfeito
3             Satisfeito
4       Muito Satisfeito
             ...        
77          Insatisfeito
78          Insatisfeito
79          Insatisfeito
80          Insatisfeito
81    Muito Insatisfeito
Name: SATISFACAO, Length: 82, dtype: category
Categories (5, object): ['Muito Insatisfeito', 'Insatisfeito', 'Indiferente', 'Satisfeito', 'Muito Satisfeito']

**Aplicação:** Faça o mesmo para as outras colunas qualitativas:

In [196]:
dados['PLANO'].cat.categories = ['A', 'B']
dados['PLANO'].cat.categories

Index(['A', 'B'], dtype='object')

In [197]:
dados['PLANO']

0     A
1     A
2     A
3     A
4     A
     ..
77    B
78    B
79    B
80    B
81    B
Name: PLANO, Length: 82, dtype: category
Categories (2, object): ['A', 'B']

In [198]:
dados['EC'].cat.categories = ['Casado', 'Solteiro', 'Outros']
dados['EC'].cat.categories

Index(['Casado', 'Solteiro', 'Outros'], dtype='object')

In [199]:
dados['EC']

0       Casado
1     Solteiro
2       Outros
3       Casado
4     Solteiro
        ...   
77      Outros
78    Solteiro
79      Casado
80      Outros
81      Casado
Name: EC, Length: 82, dtype: category
Categories (3, object): ['Casado', 'Solteiro', 'Outros']

---

<div id="ordered"></div>

## Nominal versus ordinal

Já definimos que as variáveis PLANO, EC e SATISFACAO são categóricas ou qualitativas. Porém, como definir no Pandas se essas variáveis são nominais (onde não existe uma ordenação natural) ou ordinais (em que existe ordenação)?

A informação de que uma variável categórica deve ser nominal ou ordinal está no atributo `.cat.ordered` da variável. Por padrão, quando definimos que uma variável é categórica o Pandas supõe que seja nominal (sem ordem). Confira:

In [200]:
dados['PLANO'].cat.ordered

False

In [201]:
dados['EC'].cat.ordered

False

In [202]:
dados['SATISFACAO'].cat.ordered

False

Contudo, a variável SATISFACAO é ordinal! Para converter esta variável de nominal para ordinal devemos usar o comando `pd.Categorical()`:

In [203]:
dados['SATISFACAO'] = pd.Categorical(dados.SATISFACAO, 
                                     categories = ['Muito Insatisfeito', 'Insatisfeito', 'Indiferente', 
                                                   'Satisfeito', 'Muito Satisfeito'], 
                                     ordered=True)

In [204]:
dados['SATISFACAO'].cat.ordered

True

In [205]:
dados['SATISFACAO']

0       Muito Satisfeito
1       Muito Satisfeito
2       Muito Satisfeito
3             Satisfeito
4       Muito Satisfeito
             ...        
77          Insatisfeito
78          Insatisfeito
79          Insatisfeito
80          Insatisfeito
81    Muito Insatisfeito
Name: SATISFACAO, Length: 82, dtype: category
Categories (5, object): ['Muito Insatisfeito' < 'Insatisfeito' < 'Indiferente' < 'Satisfeito' < 'Muito Satisfeito']

Observe que agora o relatório informa que 'Muito insatisfeito' vem antes de 'Insatisfeito', etc.

<div id="montando-tabelas-de-frequencias"></div>

___
## Montando tabelas de frequências

Agora estamos prontos para começar nossa análise. Uma primeira pergunta que podemos nos fazer é: dos 82 clientes selecionados, quantos aderiram ao plano A e quantos aderiram ao plano B? Para isso podemos utilizar uma tabela de frequências.

<div id="value_counts"></div>

A função `.value_counts` pode ser utilizada para montar a tabela de frequências **de uma coluna**.

In [206]:
dados['PLANO'].value_counts()

A    46
B    36
Name: PLANO, dtype: int64

<div id="ex2"></div>

### EXERCÍCIO 2:

Na célula acima obtivemos a tabela de frequências absoluta. Pesquise na documentação da função `value_counts` (deve ser o primeiro resultado ao buscar por "pandas value_counts" em sua engine de busca de preferência) como obter a tabela de frequências relativas.

**DICA:** Não feche a documentação da função `value_counts`. Você ainda vai precisar dela.

In [207]:
dados['PLANO'].value_counts(normalize=True)

A    0.560976
B    0.439024
Name: PLANO, dtype: float64

...

Queremos saber quantos clientes se enquadram em cada um dos graus de satisfação. Já sabemos que podemos utilizar a função `value_counts`:

In [208]:
dados['SATISFACAO'].value_counts()

Satisfeito            27
Indiferente           19
Insatisfeito          16
Muito Satisfeito      12
Muito Insatisfeito     8
Name: SATISFACAO, dtype: int64

**A seguir, algumas maneiras para obter index (rótulo das linhas) de uma tabela:**

In [209]:
dados['SATISFACAO'].value_counts().index.values

['Satisfeito', 'Indiferente', 'Insatisfeito', 'Muito Satisfeito', 'Muito Insatisfeito']
Categories (5, object): ['Muito Insatisfeito' < 'Insatisfeito' < 'Indiferente' < 'Satisfeito' < 'Muito Satisfeito']

In [210]:
dados['SATISFACAO'].value_counts().keys()

CategoricalIndex(['Satisfeito', 'Indiferente', 'Insatisfeito',
                  'Muito Satisfeito', 'Muito Insatisfeito'],
                 categories=['Muito Insatisfeito', 'Insatisfeito', 'Indiferente', 'Satisfeito', 'Muito Satisfeito'], ordered=True, dtype='category')

**Aqui, algumas maneiras para obter o index e as frequências de uma tabela:**

In [211]:
tab = dados['SATISFACAO'].value_counts(sort=False)
tab

Muito Insatisfeito     8
Insatisfeito          16
Indiferente           19
Satisfeito            27
Muito Satisfeito      12
Name: SATISFACAO, dtype: int64

In [212]:
list(tab.index)

['Muito Insatisfeito',
 'Insatisfeito',
 'Indiferente',
 'Satisfeito',
 'Muito Satisfeito']

In [213]:
list(tab.values)

[8, 16, 19, 27, 12]

In [214]:
list(tab.iteritems())

[('Muito Insatisfeito', 8),
 ('Insatisfeito', 16),
 ('Indiferente', 19),
 ('Satisfeito', 27),
 ('Muito Satisfeito', 12)]

In [215]:
for val, cnt in tab.iteritems():
    print(f'Categoria {val} foi encontrada {cnt} vezes')

Categoria Muito Insatisfeito foi encontrada 8 vezes
Categoria Insatisfeito foi encontrada 16 vezes
Categoria Indiferente foi encontrada 19 vezes
Categoria Satisfeito foi encontrada 27 vezes
Categoria Muito Satisfeito foi encontrada 12 vezes


**Ver este [link](https://stackoverflow.com/questions/36973387/accessing-first-column-of-pandas-value-counts) para mais detalhes, por exemplo**

<div id="ex3"></div>

### EXERCÍCIO 3:

A tabela de frequências absolutas acima nos dá a informação que precisamos, mas a ordem dos graus de satisfação dificulta a compreensão. Procure na documentação:

1. Por que a tabela foi apresentada nessa ordem;
1. Como fazer para não utilizar essa ordem (e utilizar a [ordem definida nas categorias](#satisfacao-categoria));
1. Escreva na célula abaixo o código que mostra a tabela de frequências **relativas** na ordem desejada.

In [216]:
dados['SATISFACAO'].value_counts(normalize=True, sort=False)

Muito Insatisfeito    0.097561
Insatisfeito          0.195122
Indiferente           0.231707
Satisfeito            0.329268
Muito Satisfeito      0.146341
Name: SATISFACAO, dtype: float64

---

Vamos ver o que acontece ao tentarmos montar a tabela de frequências da variável RENDA:

In [217]:
dados['RENDA'].value_counts()

4.9     3
4.7     2
13.2    2
5.3     2
0.8     2
       ..
11.5    1
7.7     1
21.4    1
4.2     1
9.0     1
Name: RENDA, Length: 68, dtype: int64

Deu ruim!

<div id="ex4"></div>

### EXERCÍCIO 4

Qual é o problema de tentarmos criar uma tabela de frequências para a variável RENDA?

<div id="tabelas-cruzadas-entre-variaveis-qualitativas"></div>

___
## Tabelas cruzadas entre variáveis qualitativas

Nas tabelas de frequência já vimos quantos clientes aderiram a cada plano e quantos estão em cada grau de satisfação. Mas, lembrando do propósito inicial, a empresa quer estudar o perfil dos clientes de cada plano e, até agora, não adicionamos nenhum conhecimento novo.

Vamos mudar isso tentando responder a seguinte pergunta: como a satisfação dos clientes do plano A se compara à dos clientes do plano B?

<div id="crosstab"></div>

Podemos montar uma tabela cruzada de plano versus satisfação com a função `pd.crosstab`:

In [218]:
pd.crosstab(dados['PLANO'], dados['SATISFACAO'])

SATISFACAO,Muito Insatisfeito,Insatisfeito,Indiferente,Satisfeito,Muito Satisfeito
PLANO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,2,5,7,20,12
B,6,11,12,7,0


<div id="ex5"></div>

### EXERCÍCIO 5

Sabemos que a quantidade de clientes em cada plano na nossa amostra é diferente. Por esse motivo, não podemos comparar os valores absolutos. Procure a documentação da função `pd.crosstab` (busque por "pandas crosstab") e crie uma nova tabela cruzada:

- Que apresente as frequências relativas ao invés de absolutas para cada plano (ou seja, do total de clientes do plano A, qual é a frequência relativa de muito insatisfeitos, insatisfeitos, etc. e para o plano B?);
- Armazene o resultado em uma variável chamada `plano_x_satisfacao` (é importante que você utilize exatamente esse nome para que as próximas células funcionem).

In [219]:
plano_x_satisfacao = pd.crosstab(dados['PLANO'], dados['SATISFACAO'], normalize=0)
plano_x_satisfacao

SATISFACAO,Muito Insatisfeito,Insatisfeito,Indiferente,Satisfeito,Muito Satisfeito
PLANO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,0.043478,0.108696,0.152174,0.434783,0.26087
B,0.166667,0.305556,0.333333,0.194444,0.0


Pode ser mais interessante visualizar esses dados como porcentagens. Para isso podemos multiplicar todas as frequências por 100 (por isso precisávamos guardar a tabela cruzada na variável `plano_x_satisfacao`):

In [220]:
plano_x_satisfacao_pct = plano_x_satisfacao*100
plano_x_satisfacao_pct

SATISFACAO,Muito Insatisfeito,Insatisfeito,Indiferente,Satisfeito,Muito Satisfeito
PLANO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,4.347826,10.869565,15.217391,43.478261,26.086957
B,16.666667,30.555556,33.333333,19.444444,0.0


Para deixar um pouco mais claro, vamos mostrar apenas as primeiras 2 casas decimais:

In [221]:
plano_x_satisfacao_pct = plano_x_satisfacao_pct.round(decimals=2)
print('Tabela Cruzada por total por PLANO (em %):')
plano_x_satisfacao_pct

Tabela Cruzada por total por PLANO (em %):


SATISFACAO,Muito Insatisfeito,Insatisfeito,Indiferente,Satisfeito,Muito Satisfeito
PLANO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,4.35,10.87,15.22,43.48,26.09
B,16.67,30.56,33.33,19.44,0.0


<div id="ex6"></div>

### EXERCÍCIO 6

Discuta a tabela cruzada obtida acima. Quais hipóteses você pode levantar? Por quê?

<div id="medidas-resumo"></div>

___

## Medidas resumo

Ainda não consideramos a variável RENDA em nossa análise. Vimos em aula que é possível obter diversas medidas resumo a partir de variáveis quantitativas. Vamos explorar algumas delas para tentar compreender melhor os nossos dados.

<div id="ex7"></div>

### EXERCÍCIO 7

Antes de começar nossa análise, seria interessante comparar os resultados para cada plano separadamente. Para isso, vamos começar separando nosso `DataFrame` `dados` em dois `DataFrame`s diferentes. Crie quatro variáveis:

- `dados_a` contendo somente os dados dos clientes do plano A;
- `dados_b` contendo somente os dados dos clientes do plano B;
- `renda_a` contendo somente a renda dos clientes do plano A (dica: utilize a variável `dados_a`);
- `renda_b` contendo somente a renda dos clientes do plano B (dica: utilize a variável `dados_b`);

Qual é o tipo das variáveis `renda_a` e `renda_b`? São do tipo `DataFrame` ou algum outro tipo?

In [229]:
dados_a = dados.loc[dados['PLANO'] == 'A', :]
dados_a.head(5)

Unnamed: 0,CLIENTE,PLANO,EC,SATISFACAO,RENDA,Unnamed: 5,Unnamed: 6
0,1,A,Casado,Muito Satisfeito,21.4,,
1,2,A,Solteiro,Muito Satisfeito,17.2,,
2,3,A,Outros,Muito Satisfeito,15.6,,
3,4,A,Casado,Satisfeito,10.4,,
4,5,A,Solteiro,Muito Satisfeito,17.6,,


In [230]:
dados_b = dados.loc[dados['PLANO'] == 'B', :]
dados_b.head(5)

Unnamed: 0,CLIENTE,PLANO,EC,SATISFACAO,RENDA,Unnamed: 5,Unnamed: 6
46,47,B,Solteiro,Insatisfeito,3.9,,
47,48,B,Solteiro,Insatisfeito,3.5,,
48,49,B,Outros,Insatisfeito,3.3,,
49,50,B,Solteiro,Insatisfeito,2.6,,
50,51,B,Solteiro,Insatisfeito,2.5,,


In [233]:
renda_a = dados_a['RENDA']
renda_a.head(5)

0    21.4
1    17.2
2    15.6
3    10.4
4    17.6
Name: RENDA, dtype: float64

In [249]:
renda_b = dados_b['RENDA']
renda_b.head(5)

46    3.9
47    3.5
48    3.3
49    2.6
50    2.5
Name: RENDA, dtype: float64

<div id="ex8"></div>

### EXERCÍCIO 8

<div id="mean-median-etc"></div>

O pandas disponibiliza diversas funções para o cálculo de medidas resumo. Alguns exemplos são: `mean`, `median`, `quantile`, `var`, `std`. Os nomes das funções dão uma boa dica do que elas fazem, mas, como sempre, é bom verificar a documentação do pandas para garantir que elas fazem o que você espera.

Imprima a média, o primeiro, segundo (mediana) e terceiro quartis e o desvio padrão das rendas do clientes do plano A e B, separadamente.

In [260]:
# Media
print(renda_a.mean())
# Primeiro quartil
print(renda_a.quantile(q=0.25))
# Segundo quartil (mediana)
print(renda_a.median())
# Terceiro quartil
print(renda_a.quantile(q=0.75))
# Desvio padrao
print(renda_a.std())

10.421739130434782
7.4750000000000005
10.350000000000001
13.2
4.465567677909532


In [261]:
# Media
print(renda_b.mean())
# Primeiro quartil
print(renda_b.quantile(q=0.25))
# Segundo quartil (mediana)
print(renda_b.median())
# Terceiro quartil
print(renda_b.quantile(q=0.75))
# Desvio padrao
print(renda_b.std())

5.688888888888888
4.1499999999999995
5.15
6.375
3.2934374381078135


<div id="ex9"></div>

### EXERCÍCIO 9

<div id="describe"></div>

Uma função bastante útil para a análise exploratória é `.describe()`. Utilize a função `.describe()` com as rendas dos planos A e B e compare os resultados com os obtidos na célula anterior.

In [262]:
renda_a.describe()

count    46.000000
mean     10.421739
std       4.465568
min       0.700000
25%       7.475000
50%      10.350000
75%      13.200000
max      21.400000
Name: RENDA, dtype: float64

In [263]:
renda_b.describe()

count    36.000000
mean      5.688889
std       3.293437
min       0.600000
25%       4.150000
50%       5.150000
75%       6.375000
max      19.200000
Name: RENDA, dtype: float64

<div id="ex10"></div>

### EXERCÍCIO 10

Quais hipóteses você pode formular a partir das medidas resumo da renda dos clientes dos dois planos?

<div id="ex11"></div>

### EXERCÍCIO 11

Se tentarmos executar o comando

    dados['EC'].mean()
    
vamos obter um erro. Por quê?

<div id="comandos"></div>

___

## Lista de comandos utilizados neste notebook

Os seguintes comandos foram utilizados neste jupyter notebook. Para facilitar sua consulta, escreva um resumo do que cada um deles faz:

- [`.astype`](#astype): ESCREVA AQUI O RESUMO
- [`.cat.categories`](#categories): ESCREVA AQUI O RESUMO
- [`.cat.ordered`](#ordered): ESCREVA AQUI O RESUMO
- [`.value_counts`](#value_counts): ESCREVA AQUI O RESUMO
- [`pd.crosstab`](#crosstab): ESCREVA AQUI O RESUMO
- [`.mean`](#mean-median-etc): ESCREVA AQUI O RESUMO
- [`.median`](#mean-median-etc): ESCREVA AQUI O RESUMO
- [`.quantile`](#mean-median-etc): ESCREVA AQUI O RESUMO
- [`.var`](#mean-median-etc): ESCREVA AQUI O RESUMO
- [`.std`](#mean-median-etc): ESCREVA AQUI O RESUMO
- [`.describe`](#describe): ESCREVA AQUI O RESUMO