___
# Atividade: Análise Exploratória - Tipos de Variáveis e Medidas Resumo
___

## Aula 02


<div id="indice"></div>

## Índice

- [Empresa de TV](#empresa-de-tv)
    - [Tipos de variáveis](#tipos-de-variaveis)
    - [Exercício 1](#ex1)
- [Variáveis QUALITATIVAS](#quali)
    - [Definindo as variáveis qualitativas como categóricas](#definindo-as-variaveis-qualitativas-como-categoricas)
    - [Tabelas de frequências - Variáveis Qualitativas](#tab-freq-quali)
        - [Exercício 2](#ex2)
        - [Exercício 3](#ex3)
    - [Tabelas cruzadas entre variáveis qualitativas](#tabelas-cruzadas-entre-variaveis-qualitativas)
        - [Exercício 4](#ex4)
        - [Exercício 5](#ex5)
- [Variáveis QUANTITATIVAS](#quanti)
    - [Tabelas de frequências - Variáveis Quantitativas - CUIDADO](#tab-freq-quanti)
        - [Exercício 6](#ex6)   
    - [Medidas resumo](#medidas-resumo)
        - [Exercício 7](#ex7)
        - [Exercício 8](#ex8)
        - [Exercício 9](#ex9)
        - [Exercício 10](#ex10)
        - [Exercício 11](#ex11)
- [Lista de comandos utilizados neste notebook](#comandos)


___

<div id="empresa-de-tv"></div>

# Empresa de TV

Uma empresa de TV via satélite criou recentemente dois tipos de planos de canais (A e B).

A empresa tem como objetivo estudar o perfil dos clientes que aderiram ao plano para enviar malas diretas aos potenciais clientes de cada tipo de plano.

A base de dados apresenta algumas variáveis para uma amostra de 82 clientes selecionados aleatoriamente dentre aqueles que aderiram aos planos. As variáveis têm os seguintes significados:

* CLIENTE: identificador do cliente.
* PLANO: apresenta o plano adquirido pelo cliente – (1=A ou 2=B). 
* EC: apresenta estado civil do cliente no momento da adesão ao  plano – (1=Casado, 2=Solteiro e 3=Outros).
* SATISFACAO: grau de satisfação do cliente pelo plano – 
	(Muito insatisfeito, Insatisfeito, Indiferente, Satisfeito e Muito satisfeito).
* RENDA: renda pessoal do cliente, em milhares de reais.

O arquivo `EmpresaTV_Cod.xlsx` contém as variáveis descritas acima.


<div id="tipos-de-variaveis"></div>

## Tipos de variáveis

Antes de olhar os dados, vamos refletir sobre os tipos de cada variável disponível. Lembrando que temos:

- Variáveis qualitativas (ou categóricas):
    - Nominal (pesos iguais, serve só para identificar algo, pode ser com números)
    - Ordinal (dá para colocar um peso)
- Variáveis quantitativas (ou numéricas):
    - Discreta (normalmente para números inteiros)
    - Contínua (pode assumir infinitos valores)

<div id="ex1"></div>

### EXERCÍCIO 1:

Classifique cada uma das variáveis disponíveis <font color="red">(modifique esta célula)</font>:

- PLANO: [Nominal]
- EC: [Nominal]
- SATISFACAO: [Ordinal]
- RENDA: [Contínua]

___
Agora sim, vamos carregar os dados do arquivo:

In [1]:
%matplotlib inline
import pandas as pd
import os

# Para ter melhor print
from IPython.display import display

In [2]:
# Listando o diretório de trabalho. Lembre-se que o arquivo com a base de dados precisa estar neste diretório.
print('Esperamos trabalhar no diretório')
print(os.getcwd())

Esperamos trabalhar no diretório
C:\Users\Pedro Drumond\Documents\Insper 2o semestre\CDados\GitHub_CD\CD21-2\aula02


In [3]:
# Carregando os dados do arquivo
dados = pd.read_excel('EmpresaTV_Cod.xlsx')

In [4]:
# Visualizando as primeiras linhas
dados.head(3)

Unnamed: 0,CLIENTE,PLANO,EC,SATISFACAO,RENDA
0,1,1,1,Muito Satisfeito,21.4
1,2,1,2,Muito Satisfeito,17.2
2,3,1,3,Muito Satisfeito,15.6


In [5]:
dados.EC.mean() #mean faz uma média dos números da coluna

1.7195121951219512

[Volta ao Índice](#indice)

<div id="quali"></div>

___

# Variáveis QUALITATIVAS

___

<div id="definindo-as-variaveis-qualitativas-como-categoricas"></div>

## Definindo as variáveis qualitativas como categóricas

No [primeiro exercício](#ex1) você deve ter identificado as variáveis PLANO, EC e SATISFACAO como qualitativas (ou categóricas). O pandas não tem como saber dessa informação ao carregar os dados, então precisamos modificar as colunas explicitamente.

<div id="astype"></div>

A função `.astype` devolve uma cópia da coluna (`Series`) convertida para o tipo desejado. Por exemplo, para transformar uma coluna em categórica devemos utilizar `.astype('category')`.

In [6]:
dados['PLANO'] = dados['PLANO'].astype('category')
dados['EC'] = dados['EC'].astype('category')
dados['SATISFACAO'] = dados['SATISFACAO'].astype('category')
# A próxima linha é desnecessária, pois a coluna já era do tipo float, mas 
# queremos mostrar que é possível utilizar outros tipos.
dados['RENDA'] = dados['RENDA'].astype('float')

In [7]:
dados.dtypes

CLIENTE          int64
PLANO         category
EC            category
SATISFACAO    category
RENDA          float64
dtype: object

In [8]:
dados['PLANO'].value_counts() #conta quanto tem de cada um na coluna PLANO

1    46
2    36
Name: PLANO, dtype: int64

In [9]:
dados['EC'].value_counts()

1    36
2    33
3    13
Name: EC, dtype: int64

O uso de códigos numéricos é útil para determinadas finalidades, mas pode dificultar a compreensão. Vamos substituir os códigos numéricos pelos respectivos nomes.

<div id="categories"></div>

Agora que transformamos as colunas qualitativas em categóricas, podemos listar as categorias com `.cat.categories`:

In [10]:
# Exemplo com a coluna PLANO
dados['PLANO'].cat.categories #mostra as categorias dessa coluna

Int64Index([1, 2], dtype='int64')

<div id="satisfacao-categoria"></div>

Podemos substituir os códigos todos de uma vez da seguinte maneira:

In [11]:
# Exemplo com a coluna PLANO
dados['PLANO'].cat.categories = ['A', 'B'] #substitiu as categorias


# Visualizando o resultado
dados['PLANO'].cat.categories

Index(['A', 'B'], dtype='object')

Note que essa ação atualiza todos os valores dessa coluna no `DataFrame`:

In [12]:
dados['PLANO']

0     A
1     A
2     A
3     A
4     A
     ..
77    B
78    B
79    B
80    B
81    B
Name: PLANO, Length: 82, dtype: category
Categories (2, object): [A, B]

**Aplicação:** Faça o mesmo para a coluna `EC`:

In [13]:
# ESCREVA SEU CODIGO AQUI
dados['EC'].cat.categories = ['Casado', 'Solteiro', 'Outros'] #substitiu as categorias
dados['EC'].to_frame()

Unnamed: 0,EC
0,Casado
1,Solteiro
2,Outros
3,Casado
4,Solteiro
...,...
77,Outros
78,Solteiro
79,Casado
80,Outros


In [14]:
dados['EC'].value_counts().to_frame()

Unnamed: 0,EC
Casado,36
Solteiro,33
Outros,13


In [15]:
dados['SATISFACAO'].value_counts().to_frame() #value_counts() se não colocar nada, ocorre do mais frequente para o menos

Unnamed: 0,SATISFACAO
Satisfeito,27
Indiferente,19
Insatisfeito,16
Muito Satisfeito,12
Muito Insatisfeito,8


[Volta ao Índice](#indice)

---

<div id="ordered"></div>

## Nominal versus ordinal

Já definimos que as variáveis PLANO, EC e SATISFACAO são categóricas ou qualitativas. Porém, como definir no Pandas se essas variáveis são nominais (onde não existe uma ordenação natural) ou ordinais (em que existe ordenação)?

A informação de que uma variável categórica deve ser nominal ou ordinal está no atributo `.cat.ordered` da variável. Por padrão, quando definimos que uma variável é categórica o Pandas supõe que seja nominal (sem ordem). Confira:

In [16]:
dados['PLANO'].cat.ordered

False

In [17]:
dados['EC'].cat.ordered

False

In [18]:
dados['SATISFACAO'].cat.ordered

False

Contudo, a variável SATISFACAO é ordinal! Para converter esta variável de nominal para ordinal devemos usar o comando `pd.Categorical()`:

In [19]:
dados['SATISFACAO'] = pd.Categorical(dados.SATISFACAO, 
                                     categories = ['Muito Insatisfeito', 'Insatisfeito', 'Indiferente', 
                                                   'Satisfeito', 'Muito Satisfeito'], 
                                     ordered=True) #Força a variável ser ORDINAL
dados.head(5)

Unnamed: 0,CLIENTE,PLANO,EC,SATISFACAO,RENDA
0,1,A,Casado,Muito Satisfeito,21.4
1,2,A,Solteiro,Muito Satisfeito,17.2
2,3,A,Outros,Muito Satisfeito,15.6
3,4,A,Casado,Satisfeito,10.4
4,5,A,Solteiro,Muito Satisfeito,17.6


In [20]:
dados['SATISFACAO'].cat.ordered

True

In [21]:
dados['SATISFACAO'].value_counts(sort=False)

Muito Insatisfeito     8
Insatisfeito          16
Indiferente           19
Satisfeito            27
Muito Satisfeito      12
Name: SATISFACAO, dtype: int64

Observe que agora o relatório informa que 'Muito insatisfeito' vem antes de 'Insatisfeito', etc.

[Volta ao Índice](#indice)

<div id="tab-freq-quali"></div>

___
## Tabelas de frequências - Variáveis Qualitativas

Agora estamos prontos para começar nossa análise. Uma primeira pergunta que podemos nos fazer é: dos 82 clientes selecionados, quantos aderiram ao plano A e quantos aderiram ao plano B? Para isso podemos utilizar uma tabela de frequências.

<div id="value_counts"></div>

A função `.value_counts` pode ser utilizada para montar a tabela de frequências **de uma coluna**.

In [22]:
dados['PLANO'].value_counts()

A    46
B    36
Name: PLANO, dtype: int64

<div id="ex2"></div>

### EXERCÍCIO 2:

Na célula acima obtivemos a tabela de frequências absoluta. Pesquise na documentação da função `value_counts` (deve ser o primeiro resultado ao buscar por "pandas value_counts" em sua engine de busca de preferência) como obter a tabela de frequências relativas.

**DICA:** Não feche a documentação da função `value_counts`. Você ainda vai precisar dela.

In [23]:
# ESCREVA SEU CODIGO AQUI
qualis = ['PLANO', 'EC', 'SATISFACAO']
for col in qualis:
        print(col, ':')
        print(dados[col].value_counts(normalize=True, sort=False)*100, '\n') #NORMALIZE FAZ A PORCENTAGEM

PLANO :
A    56.097561
B    43.902439
Name: PLANO, dtype: float64 

EC :
Casado      43.902439
Solteiro    40.243902
Outros      15.853659
Name: EC, dtype: float64 

SATISFACAO :
Muito Insatisfeito     9.756098
Insatisfeito          19.512195
Indiferente           23.170732
Satisfeito            32.926829
Muito Satisfeito      14.634146
Name: SATISFACAO, dtype: float64 



[Volta ao Índice](#indice)

...

Queremos saber quantos clientes se enquadram em cada um dos graus de satisfação. Já sabemos que podemos utilizar a função `value_counts`:

In [24]:
dados['SATISFACAO'].value_counts()

Satisfeito            27
Indiferente           19
Insatisfeito          16
Muito Satisfeito      12
Muito Insatisfeito     8
Name: SATISFACAO, dtype: int64

**A seguir, algumas maneiras para obter index (rótulo das linhas) de uma tabela:**

In [25]:
dados['SATISFACAO'].value_counts().index.values

[Satisfeito, Indiferente, Insatisfeito, Muito Satisfeito, Muito Insatisfeito]
Categories (5, object): [Muito Insatisfeito < Insatisfeito < Indiferente < Satisfeito < Muito Satisfeito]

In [26]:
dados['SATISFACAO'].value_counts().keys()

CategoricalIndex(['Satisfeito', 'Indiferente', 'Insatisfeito',
                  'Muito Satisfeito', 'Muito Insatisfeito'],
                 categories=['Muito Insatisfeito', 'Insatisfeito', 'Indiferente', 'Satisfeito', 'Muito Satisfeito'], ordered=True, dtype='category')

**Aqui, algumas maneiras para obter o index e as frequências de uma tabela:**

In [45]:
tab = dados['SATISFACAO'].value_counts(sort=False)
tab

Muito Insatisfeito     8
Insatisfeito          16
Indiferente           19
Satisfeito            27
Muito Satisfeito      12
Name: SATISFACAO, dtype: int64

In [46]:
list(tab.index)

['Muito Insatisfeito',
 'Insatisfeito',
 'Indiferente',
 'Satisfeito',
 'Muito Satisfeito']

In [47]:
list(tab.values)

[8, 16, 19, 27, 12]

In [48]:
list(tab.iteritems())

[('Muito Insatisfeito', 8),
 ('Insatisfeito', 16),
 ('Indiferente', 19),
 ('Satisfeito', 27),
 ('Muito Satisfeito', 12)]

In [49]:
for val, cnt in tab.iteritems():
    print(f'Categoria {val} foi encontrada {cnt} vezes')

Categoria Muito Insatisfeito foi encontrada 8 vezes
Categoria Insatisfeito foi encontrada 16 vezes
Categoria Indiferente foi encontrada 19 vezes
Categoria Satisfeito foi encontrada 27 vezes
Categoria Muito Satisfeito foi encontrada 12 vezes


**Ver este [link](https://stackoverflow.com/questions/36973387/accessing-first-column-of-pandas-value-counts) para mais detalhes, por exemplo**

[Volta ao Índice](#indice)

<div id="ex3"></div>

### EXERCÍCIO 3:

A tabela de frequências absolutas acima nos dá a informação que precisamos, mas a ordem dos graus de satisfação dificulta a compreensão. Procure na documentação:

1. Por que a tabela foi apresentada nessa ordem;
1. Como fazer para não utilizar essa ordem (e utilizar a [ordem definida nas categorias](#satisfacao-categoria));
1. Escreva na célula abaixo o código que mostra a tabela de frequências **relativas** na ordem desejada.

In [32]:
# ESCREVA SEU CODIGO AQUI

[Volta ao Índice](#indice)

<div id="tabelas-cruzadas-entre-variaveis-qualitativas"></div>

___
## Tabelas cruzadas entre variáveis qualitativas

Nas tabelas de frequência já vimos quantos clientes aderiram a cada plano e quantos estão em cada grau de satisfação. Mas, lembrando do propósito inicial, a empresa quer estudar o perfil dos clientes de cada plano e, até agora, não adicionamos nenhum conhecimento novo.

Vamos mudar isso tentando responder a seguinte pergunta: como a satisfação dos clientes do plano A se compara à dos clientes do plano B?

<div id="crosstab"></div>

Podemos montar uma tabela cruzada de plano versus satisfação com a função `pd.crosstab`:

In [33]:
pd.crosstab(dados['PLANO'], dados['SATISFACAO'], margins = True) #linha e coluna

SATISFACAO,Muito Insatisfeito,Insatisfeito,Indiferente,Satisfeito,Muito Satisfeito,All
PLANO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
A,2,5,7,20,12,46
B,6,11,12,7,0,36
All,8,16,19,27,12,82


In [34]:
pd.crosstab(dados['PLANO'], dados['EC']) #linha e coluna

EC,Casado,Solteiro,Outros
PLANO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,26,13,7
B,10,20,6


<div id="ex4"></div>

### EXERCÍCIO 4

Sabemos que a quantidade de clientes em cada plano na nossa amostra é diferente. Por esse motivo, não podemos comparar os valores absolutos. Procure a documentação da função `pd.crosstab` (busque por "pandas crosstab") e crie uma nova tabela cruzada:

- Que apresente as frequências relativas ao invés de absolutas para cada plano (ou seja, do total de clientes do plano A, qual é a frequência relativa de muito insatisfeitos, insatisfeitos, etc. e para o plano B?);
- Armazene o resultado em uma variável chamada `plano_x_satisfacao` (é importante que você utilize exatamente esse nome para que as próximas células funcionem).

In [50]:
# ESCREVA SEU CODIGO AQUI
plano_x_satisfacao = pd.crosstab(dados['PLANO'], dados['SATISFACAO'], normalize=True).round(4)*100 #round arredonda
plano_x_satisfacao

SATISFACAO,Muito Insatisfeito,Insatisfeito,Indiferente,Satisfeito,Muito Satisfeito
PLANO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,2.44,6.1,8.54,24.39,14.63
B,7.32,13.41,14.63,8.54,0.0


In [51]:
#Uso do normalize pode fazer freq. relativa por todos ou linha ou coluna
#Uso do margins adiociona o total geral por linha e/ou coluna => ALL (compreendendo a variável isolada)
plano_x_satisfacao = pd.crosstab(dados['PLANO'], dados['SATISFACAO'],normalize='index', margins = True).round(4)*100 #faz a porcentagem em relação ao total pra cada linha
plano_x_satisfacao 

SATISFACAO,Muito Insatisfeito,Insatisfeito,Indiferente,Satisfeito,Muito Satisfeito
PLANO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,4.35,10.87,15.22,43.48,26.09
B,16.67,30.56,33.33,19.44,0.0
All,9.76,19.51,23.17,32.93,14.63


Pode ser mais interessante visualizar esses dados como porcentagens. Para isso podemos multiplicar todas as frequências por 100 (por isso precisávamos guardar a tabela cruzada na variável `plano_x_satisfacao`):

In [37]:
plano_x_satisfacao_pct = plano_x_satisfacao*100
plano_x_satisfacao_pct

SATISFACAO,Muito Insatisfeito,Insatisfeito,Indiferente,Satisfeito,Muito Satisfeito
PLANO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,4.35,10.87,15.22,43.48,26.09
B,16.67,30.56,33.33,19.44,0.0
All,9.76,19.51,23.17,32.93,14.63


Para deixar um pouco mais claro, vamos mostrar apenas as primeiras 2 casas decimais:

In [59]:
plano_x_satisfacao_pct = plano_x_satisfacao_pct.round(2)
print('Tabela Cruzada por total por PLANO (em %):')
plano_x_satisfacao_pct

Tabela Cruzada por total por PLANO (em %):


SATISFACAO,Muito Insatisfeito,Insatisfeito,Indiferente,Satisfeito,Muito Satisfeito
PLANO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,4.35,10.87,15.22,43.48,26.09
B,16.67,30.56,33.33,19.44,0.0
All,9.76,19.51,23.17,32.93,14.63


<div id="ex5"></div>

### EXERCÍCIO 5

Discuta a tabela cruzada obtida acima. Quais hipóteses você pode levantar? Por quê?

[Volta ao Índice](#indice)

<div id="quanti"></div>

___

# Variáveis QUANTITATIVAS

___

<div id="tab-freq-quanti"></div>

## Tabelas de frequências - Variáveis Quantitativas - CUIDADO

Vamos ver o que acontece ao tentarmos montar a tabela de frequências da variável RENDA:

In [60]:
dados['RENDA'].value_counts()

4.9     3
5.4     2
2.5     2
13.2    2
0.8     2
       ..
14.8    1
6.8     1
4.2     1
5.7     1
13.5    1
Name: RENDA, Length: 68, dtype: int64

Deu ruim!

<div id="ex6"></div>

### EXERCÍCIO 6

Qual é o problema de tentarmos criar uma tabela de frequências para a variável RENDA?

[Volta ao Índice](#indice)

<div id="medidas-resumo"></div>

___

## Medidas resumo

Ainda não consideramos a variável RENDA em nossa análise. Vimos em aula que é possível obter diversas medidas resumo a partir de variáveis quantitativas. Vamos explorar algumas delas para tentar compreender melhor os nossos dados.

<div id="ex7"></div>

### EXERCÍCIO 7

Antes de começar nossa análise, seria interessante comparar os resultados para cada plano separadamente. Para isso, vamos começar separando nosso `DataFrame` `dados` em dois `DataFrame`s diferentes. Crie quatro variáveis:

- `dados_a` contendo somente os dados dos clientes do plano A;
- `dados_b` contendo somente os dados dos clientes do plano B;
- `renda_a` contendo somente a renda dos clientes do plano A (dica: utilize a variável `dados_a`);
- `renda_b` contendo somente a renda dos clientes do plano B (dica: utilize a variável `dados_b`);

Qual é o tipo das variáveis `renda_a` e `renda_b`? São do tipo `DataFrame` ou algum outro tipo?

In [40]:
# ESCREVA SEU CODIGO AQUI
dados_a = dados.iloc['A',]

[Volta ao Índice](#indice)

<div id="ex8"></div>

### EXERCÍCIO 8

<div id="mean-median-etc"></div>

O pandas disponibiliza diversas funções para o cálculo de medidas resumo. Alguns exemplos são: `mean`, `median`, `quantile`, `var`, `std`. Os nomes das funções dão uma boa dica do que elas fazem, mas, como sempre, é bom verificar a documentação do pandas para garantir que elas fazem o que você espera.

Imprima a média, o primeiro, segundo (mediana) e terceiro quartis e o desvio padrão das rendas do clientes do plano A e B, separadamente.

In [41]:
# ESCREVA SEU CODIGO AQUI

[Volta ao Índice](#indice)

<div id="ex9"></div>

### EXERCÍCIO 9

<div id="describe"></div>

Uma função bastante útil para a análise exploratória é `.describe()`. Utilize a função `.describe()` com as rendas dos planos A e B e compare os resultados com os obtidos na célula anterior.

In [42]:
# ESCREVA SEU CODIGO AQUI

[Volta ao Índice](#indice)

<div id="ex10"></div>

### EXERCÍCIO 10

Quais hipóteses você pode formular a partir das medidas resumo da renda dos clientes dos dois planos?

In [43]:
#ESCREVA SUA RESPOSTA AQUI

[Volta ao Índice](#indice)

<div id="ex11"></div>

### EXERCÍCIO 11

Se tentarmos executar o comando

    dados['EC'].mean()
    
vamos obter um erro. Por quê?

[Volta ao Índice](#indice)

<div id="comandos"></div>

___

## Lista de comandos utilizados neste notebook

Os seguintes comandos foram utilizados neste jupyter notebook. Para facilitar sua consulta, escreva um resumo do que cada um deles faz:

- [`.astype`](#astype): ESCREVA AQUI O RESUMO
- [`.cat.categories`](#categories): ESCREVA AQUI O RESUMO
- [`.cat.ordered`](#ordered): ESCREVA AQUI O RESUMO
- [`.value_counts`](#value_counts): ESCREVA AQUI O RESUMO
- [`pd.crosstab`](#crosstab): ESCREVA AQUI O RESUMO
- [`.mean`](#mean-median-etc): ESCREVA AQUI O RESUMO
- [`.median`](#mean-median-etc): ESCREVA AQUI O RESUMO
- [`.quantile`](#mean-median-etc): ESCREVA AQUI O RESUMO
- [`.var`](#mean-median-etc): ESCREVA AQUI O RESUMO
- [`.std`](#mean-median-etc): ESCREVA AQUI O RESUMO
- [`.describe`](#describe): ESCREVA AQUI O RESUMO