___
# Análise Exploratória: Tipos de Variáveis e Medidas Resumo

## Aula 02 - Atividade
___

## Índice

- [Empresa de TV](#empresa-de-tv)
    - [Tipos de variáveis](#tipos-de-variaveis)
    - [Exercício 1](#ex1)
- [Definindo as variáveis qualitativas como categóricas](#definindo-as-variaveis-qualitativas-como-categoricas)
- [Montando tabelas de frequências](#montando-tabelas-de-frequencias)
    - [Exercício 2](#ex2)
    - [Exercício 3](#ex3)
    - [Exercício 4](#ex4)
- [Tabelas cruzadas entre variáveis qualitativas](#tabelas-cruzadas-entre-variaveis-qualitativas)
    - [Exercício 5](#ex5)
    - [Exercício 6](#ex6)
- [Medidas resumo](#medidas-resumo)
    - [Exercício 7](#ex7)
    - [Exercício 8](#ex8)
    - [Exercício 9](#ex9)
    - [Exercício 10](#ex10)
    - [Exercício 11](#ex11)
- [Lista de comandos utilizados neste notebook](#comandos)


___

<div id="empresa-de-tv"></div>

## Empresa de TV

Uma empresa de TV via satélite criou recentemente dois tipos de planos de canais (A e B).

A empresa tem como objetivo estudar o perfil dos clientes que aderiram ao plano para enviar malas diretas aos potenciais clientes de cada tipo de plano.

A base de dados apresenta algumas variáveis para uma amostra de 82 clientes selecionados aleatoriamente dentre aqueles que aderiram aos planos. As variáveis têm os seguintes significados:

* CLIENTE: identificador do cliente.
* PLANO: apresenta o plano adquirido pelo cliente – (1=A ou 2=B). 
* EC: apresenta estado civil do cliente no momento da adesão ao  plano – (1=Casado, 2=Solteiro e 3=Outros).
* SATISFACAO: grau de satisfação do cliente pelo plano – 
	(5=Muito satisfeito, 4=Satisfeito, 3=Indiferente, 2=Insatisfeito e 1=Muito insatisfeito).
* RENDA: renda pessoal do cliente, em milhares de reais.

O arquivo `EmpresaTV Cod.xlsx` contém as variáveis descritas acima.


<div id="tipos-de-variaveis"></div>

### Tipos de variáveis

Antes de olhar os dados, vamos refletir sobre os tipos de cada variável disponível. Lembrando que temos:

- Variáveis qualitativas (ou categóricas):
    - Nominal
    - Ordinal
- Variáveis quantitativas (ou numéricas):
    - Discreta
    - Contínua

<div id="ex1"></div>

### EXERCÍCIO 1:

Classifique cada uma das variáveis disponíveis <font color="red">(modifique esta célula)</font>:

- PLANO: [Qualitativa nominal]
- EC: [Qualtaiva nominal]
- SATISFACAO: [Qualitativa ordinal]
- RENDA: [Quantitativa continua]

___
Agora sim, vamos carregar os dados do arquivo:

In [5]:
%matplotlib inline
import pandas as pd
import os

In [6]:
# Listando o diretório de trabalho. Lembre-se que o arquivo com a base de dados precisa estar neste diretório.
print('Esperamos trabalhar no diretório')
print(os.getcwd())

Esperamos trabalhar no diretório
C:\Users\Jean Silas\Desktop\Ciencia dos dados\CD20-2\aula02


In [7]:
# Carregando os dados do arquivo
dados = pd.read_excel('EmpresaTV Cod.xlsx')

In [8]:
# Visualizando as primeiras linhas
dados.head()

Unnamed: 0,CLIENTE,PLANO,EC,SATISFACAO,RENDA
0,1,1,1,5,21.4
1,2,1,2,5,17.2
2,3,1,3,5,15.6
3,4,1,1,4,10.4
4,5,1,2,5,17.6


<div id="definindo-as-variaveis-qualitativas-como-categoricas"></div>

## Definindo as variáveis qualitativas como categóricas

No [primeiro exercício](#ex1) você deve ter identificado as variáveis PLANO, EC e SATISFACAO como qualitativas (ou categóricas). O pandas não tem como saber dessa informação ao carregar os dados, então precisamos modificar as colunas explicitamente.

<div id="astype"></div>

A função `.astype` devolve uma cópia da coluna (`Series`) convertida para o tipo desejado. Por exemplo, para transformar uma coluna em categórica devemos utilizar `.astype('category')`.

In [1]:
dados['PLANO'] = dados['PLANO'].astype('category')
dados['EC'] = dados['EC'].astype('category')
dados['SATISFACAO'] = dados['SATISFACAO'].astype('category')
# A próxima linha é desnecessária, pois a coluna já era do tipo float, mas 
# queremos mostrar que é possível utilizar outros tipos.
dados['RENDA'] = dados['RENDA'].astype('float')

NameError: name 'dados' is not defined

O uso de códigos numéricos é útil para determinadas finalidades, mas pode dificultar a compreensão. Vamos substituir os códigos numéricos pelos respectivos nomes.

<div id="categories"></div>

Agora que transformamos as colunas qualitativas em categóricas, podemos listar as categorias com `.cat.categories`:

In [19]:
# Exemplo com a coluna SATISFACAO
dados['SATISFACAO'].cat.categories

Index(['Muito Insatisfeito', 'Insatisfeito', 'Indiferente', 'Satisfeito',
       'Muito Satisfeito'],
      dtype='object')

<div id="satisfacao-categoria"></div>

Podemos substituir os códigos todos de uma vez da seguinte maneira:

In [18]:
# Exemplo com a coluna SATISFACAO
dados['SATISFACAO'].cat.categories = ['Muito Insatisfeito', 'Insatisfeito', 'Indiferente', 'Satisfeito', 'Muito Satisfeito']

# Visualizando o resultado
dados['SATISFACAO'].cat.categories

Index(['Muito Insatisfeito', 'Insatisfeito', 'Indiferente', 'Satisfeito',
       'Muito Satisfeito'],
      dtype='object')

Note que essa ação atualiza todos os valores da coluna no `DataFrame`:

In [8]:
dados['SATISFACAO'].head(10)

0    Muito Satisfeito
1    Muito Satisfeito
2    Muito Satisfeito
3          Satisfeito
4    Muito Satisfeito
5          Satisfeito
6    Muito Satisfeito
7          Satisfeito
8          Satisfeito
9    Muito Satisfeito
Name: SATISFACAO, dtype: category
Categories (5, object): [Muito Insatisfeito, Insatisfeito, Indiferente, Satisfeito, Muito Satisfeito]

Vamos fazer o mesmo para as outras colunas:

In [17]:
dados['PLANO'].cat.categories = ['A', 'B']
dados['EC'].cat.categories = ['Casado', 'Solteiro', 'Outros']

# Visualizando o resultado
dados.head(10)

Unnamed: 0,CLIENTE,PLANO,EC,SATISFACAO,RENDA
0,1,A,Casado,5,21.4
1,2,A,Solteiro,5,17.2
2,3,A,Outros,5,15.6
3,4,A,Casado,4,10.4
4,5,A,Solteiro,5,17.6
5,6,A,Outros,4,9.8
6,7,A,Casado,5,13.5
7,8,A,Solteiro,4,7.8
8,9,A,Casado,4,14.4
9,10,A,Casado,5,11.2


---

<div id="ordered"></div>

## Nominal versus ordinal

Já definimos que as variáveis PLANO, EC e SATISFACAO são categóricas ou qualitativas. Porém, como definir no Pandas se essas variáveis são nominais (onde não existe uma ordenação natural) ou ordinais (em que existe ordenação)?

A informação de que uma variável categórica deve ser nominal ou ordinal está no atributo `.cat.ordered` da variável. Por padrão, quando definimos que uma variável é categórica o Pandas supõe que seja nominal (sem ordem). Confira:

In [10]:
dados['PLANO'].cat.ordered

False

In [11]:
dados['EC'].cat.ordered

False

In [12]:
dados['SATISFACAO'].cat.ordered

False

Contudo, a variável SATISFACAO é ordinal! Para converter esta variável de nominal para ordinal devemos usar o comando `.as_ordered()`:

In [11]:
dados['SATISFACAO'] = dados['SATISFACAO'].cat.as_ordered()

In [14]:
dados['SATISFACAO'].cat.ordered

True

In [15]:
dados['SATISFACAO'].head(10)

0    Muito Satisfeito
1    Muito Satisfeito
2    Muito Satisfeito
3          Satisfeito
4    Muito Satisfeito
5          Satisfeito
6    Muito Satisfeito
7          Satisfeito
8          Satisfeito
9    Muito Satisfeito
Name: SATISFACAO, dtype: category
Categories (5, object): [Muito Insatisfeito < Insatisfeito < Indiferente < Satisfeito < Muito Satisfeito]

Observe que agora nosso relatório do comando `.head()` informa que 'Muito insatisfeito' vem antes de 'Insatisfeito', etc.

<div id="montando-tabelas-de-frequencias"></div>

___
## Montando tabelas de frequências

Agora estamos prontos para começar nossa análise. Uma primeira pergunta que podemos nos fazer é: dos 82 clientes selecionados, quantos aderiram ao plano A e quantos aderiram ao plano B? Para isso podemos utilizar uma tabela de frequências.

<div id="value_counts"></div>

A função `.value_counts` pode ser utilizada para montar a tabela de frequências **de uma coluna**.

In [16]:
dados['PLANO'].value_counts()

A    46
B    36
Name: PLANO, dtype: int64

<div id="ex2"></div>

### EXERCÍCIO 2:

Na célula acima obtivemos a tabela de frequências absoluta. Pesquise na documentação da função `value_counts` (deve ser o primeiro resultado ao buscar por "pandas value_counts" em sua engine de busca de preferência) como obter a tabela de frequências relativas.

**DICA:** Não feche a documentação da função `value_counts`. Você ainda vai precisar dela.

In [12]:
# Coloque seu código aqui
(100*dados['PLANO'].value_counts(normalize=True)).round(decimals=2)

1    56.1
2    43.9
Name: PLANO, dtype: float64

...

Queremos saber quantos clientes se enquadram em cada um dos graus de satisfação. Já sabemos que podemos utilizar a função `value_counts`:

In [17]:
dados['SATISFACAO'].value_counts()

Satisfeito            27
Indiferente           19
Insatisfeito          16
Muito Satisfeito      12
Muito Insatisfeito     8
Name: SATISFACAO, dtype: int64

<div id="ex3"></div>

### EXERCÍCIO 3:

A tabela de frequências absolutas acima nos dá a informação que precisamos, mas a ordem dos graus de satisfação dificulta a compreensão. Procure na documentação:

1. Por que a tabela foi apresentada nessa ordem;
1. Como fazer para não utilizar essa ordem (e utilizar a [ordem definida nas categorias](#satisfacao-categoria));
1. Escreva na célula abaixo o código que mostra a tabela de frequências **relativas** na ordem desejada.

In [16]:
# Coloque seu código aqui
(100*dados['SATISFACAO'].value_counts(sort=False,normalize=True)).round(decimals=1)

1     9.8
2    19.5
3    23.2
4    32.9
5    14.6
Name: SATISFACAO, dtype: float64

---

Vamos ver o que acontece ao tentarmos montar a tabela de frequências da variável RENDA:

In [28]:
dados['RENDA'].value_counts()

4.9     3
5.4     2
2.5     2
13.2    2
0.8     2
       ..
14.8    1
6.8     1
4.2     1
5.7     1
13.5    1
Name: RENDA, Length: 68, dtype: int64

Deu ruim!

<div id="ex4"></div>

### EXERCÍCIO 4

Qual é o problema de tentarmos criar uma tabela de frequências para a variável RENDA?

ESCREVA SUA RESPOSTA AQUI

<div id="tabelas-cruzadas-entre-variaveis-qualitativas"></div>

___
## Tabelas cruzadas entre variáveis qualitativas

Nas tabelas de frequência já vimos quantos clientes aderiram a cada plano e quantos estão em cada grau de satisfação. Mas, lembrando do propósito inicial, a empresa quer estudar o perfil dos clientes de cada plano e, até agora, não adicionamos nenhum conhecimento novo.

Vamos mudar isso tentando responder a seguinte pergunta: como a satisfação dos clientes do plano A se compara à dos clientes do plano B?

<div id="crosstab"></div>

Podemos montar uma tabela cruzada de plano versus satisfação com a função `pd.crosstab`:

In [21]:
pd.crosstab(dados['PLANO'], dados['SATISFACAO'])

SATISFACAO,Muito Insatisfeito,Insatisfeito,Indiferente,Satisfeito,Muito Satisfeito
PLANO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,2,5,7,20,12
B,6,11,12,7,0


<div id="ex5"></div>

### EXERCÍCIO 5

Sabemos que a quantidade de clientes em cada plano na nossa amostra é diferente. Por esse motivo, não podemos comparar os valores absolutos. Procure a documentação da função `pd.crosstab` (busque por "pandas crosstab") e crie uma nova tabela cruzada:

- Que apresente as frequências relativas ao invés de absolutas para cada plano (ou seja, do total de clientes do plano A, qual é a frequência relativa de muito insatisfeitos, insatisfeitos, etc. e para o plano B?);
- Armazene o resultado em uma variável chamada `plano_x_satisfacao` (é importante que você utilize exatamente esse nome para que as próximas células funcionem).

In [22]:
# Coloque seu código aqui
plano_x_satisfacao=pd.crosstab(dados['PLANO'],dados['SATISFACAO'],normalize='index')
plano_x_satisfacao

SATISFACAO,Muito Insatisfeito,Insatisfeito,Indiferente,Satisfeito,Muito Satisfeito
PLANO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,0.043478,0.108696,0.152174,0.434783,0.26087
B,0.166667,0.305556,0.333333,0.194444,0.0


Pode ser mais interessante visualizar esses dados como porcentagens. Para isso podemos multiplicar todas as frequências por 100 (por isso precisávamos guardar a tabela cruzada na variável `plano_x_satisfacao`):

In [23]:
plano_x_satisfacao_pct = plano_x_satisfacao*100
plano_x_satisfacao_pct

SATISFACAO,Muito Insatisfeito,Insatisfeito,Indiferente,Satisfeito,Muito Satisfeito
PLANO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,4.347826,10.869565,15.217391,43.478261,26.086957
B,16.666667,30.555556,33.333333,19.444444,0.0


Para deixar um pouco mais claro, vamos mostrar apenas as primeiras 2 casas decimais:

In [24]:
plano_x_satisfacao_pct = plano_x_satisfacao_pct.round(decimals=2)
print('Tabela Cruzada por total por PLANO (em %):')
plano_x_satisfacao_pct

Tabela Cruzada por total por PLANO (em %):


SATISFACAO,Muito Insatisfeito,Insatisfeito,Indiferente,Satisfeito,Muito Satisfeito
PLANO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,4.35,10.87,15.22,43.48,26.09
B,16.67,30.56,33.33,19.44,0.0


<div id="ex6"></div>

### EXERCÍCIO 6

Discuta a tabela cruzada obtida acima. Quais hipóteses você pode levantar? Por que?

O povo está satisfeito com o plano A.

<div id="medidas-resumo"></div>

___

## Medidas resumo

Ainda não consideramos a variável RENDA em nossa análise. Vimos em aula que é possível obter diversas medidas resumo a partir de variáveis quantitativas. Vamos explorar algumas delas para tentar compreender melhor os nossos dados.

<div id="ex7"></div>

### EXERCÍCIO 7

Antes de começar nossa análise, seria interessante comparar os resultados para cada plano separadamente. Para isso, vamos começar separando nosso `DataFrame` `dados` em dois `DataFrame`s diferentes. Crie quatro variáveis:

- `dados_a` contendo somente os dados dos clientes do plano A;
- `dados_b` contendo somente os dados dos clientes do plano B;
- `renda_a` contendo somente a renda dos clientes do plano A (dica: utilize a variável `dados_a`);
- `renda_b` contendo somente a renda dos clientes do plano B (dica: utilize a variável `dados_b`);

Qual é o tipo das variáveis `renda_a` e `renda_b`? São do tipo `DataFrame` ou algum outro tipo?

In [25]:
# Coloque seu código aqui
dados_a = dados.loc[dados['PLANO']=='A',:]
dados_b = dados.loc[dados['PLANO']=='B',:]
renda_a = dados_a['RENDA']
renda_b = dados_b['RENDA']

<div id="ex8"></div>

### EXERCÍCIO 8

<div id="mean-median-etc"></div>

O pandas disponibiliza diversas funções para o cálculo de medidas resumo. Alguns exemplos são: `mean`, `median`, `quantile`, `var`, `std`. Os nomes das funções dão uma boa dica do que elas fazem, mas, como sempre, é bom verificar a documentação do pandas para garantir que elas fazem o que você espera.

Imprima a média, o primeiro, segundo (mediana) e terceiro quartis e o desvio padrão das rendas do clientes do plano A e B, separadamente.

In [36]:
# Coloque seu código aqui
print(renda_a.mean())
print(renda_a.median())
print(renda_a.quantile())
print(renda_a.std())
print(renda_b.mean())
print(renda_b.median())
print(renda_b.quantile())
print(renda_b.std())


10.421739130434778
10.350000000000001
10.350000000000001
4.465567677909532
5.688888888888889
5.15
5.15
3.2934374381078135


<div id="ex9"></div>

### EXERCÍCIO 9

<div id="describe"></div>

Uma função bastante útil para a análise exploratória é `.describe()`. Utilize a função `.describe()` com as rendas dos planos A e B e compare os resultados com os obtidos na célula anterior.

In [42]:
# Coloque seu código aqui
print(renda_a.describe())
print('')
print(renda_b.describe())

count    46.000000
mean     10.421739
std       4.465568
min       0.700000
25%       7.475000
50%      10.350000
75%      13.200000
max      21.400000
Name: RENDA, dtype: float64

count    36.000000
mean      5.688889
std       3.293437
min       0.600000
25%       4.150000
50%       5.150000
75%       6.375000
max      19.200000
Name: RENDA, dtype: float64


<div id="ex10"></div>

### EXERCÍCIO 10

Quais hipóteses você pode formular a partir das medidas resumo da renda dos clientes dos dois planos?

Os clientes do plano A possuem maior renda, em média do que os do plano B.


<div id="ex11"></div>

### EXERCÍCIO 11

Se tentarmos executar o comando

    dados['EC'].mean()
    
vamos obter um erro. Por quê?

Porque não é uma variável quantitativa, mas sim qualitativa( categórica)

<div id="comandos"></div>

___

## Lista de comandos utilizados neste notebook

Os seguintes comandos foram utilizados neste jupyter notebook. Para facilitar sua consulta, escreva um resumo do que cada um deles faz:

- [`.astype`](#astype): Ela define o tipo de variavel que vai ser
- [`.cat.categories`](#categories): Ela verifica se as variaveis são categóricas
- [`.cat.ordered`](#ordered): Ela verifica se as variáveis são ordenadas.
- [`.value_counts`](#value_counts): Ela retorna a frequência de valores de uma série.
- [`pd.crosstab`](#crosstab): Ela combina séries diferentes.
- [`.mean`](#mean-median-etc): Retorna a média aritmética de uma série
- [`.median`](#mean-median-etc): Retorna a mediana de uma série.
- [`.quantile`](#mean-median-etc): Retorna o quantil de uma série.
- [`.var`](#mean-median-etc): Retorna a variância de uma série.
- [`.std`](#mean-median-etc): Retorna o desvio-padrão de uma série.
- [`.describe`](#describe): Descreve algumas características estatísticas de uma série.