___
# Análise Exploratória: Tipos de Variáveis e Medidas Resumo

## Aula 02 - Exercícios
___

## Índice

- [Empresa de TV](#empresa-de-tv)
    - [Tipos de variáveis](#tipos-de-variaveis)
    - [Exercício 1](#ex1)
- [Indo além...](#indo-alem)
    - [Exercício 1](#exe1)
    - [Exercício 2](#exe2)
    - [Exercício 3](#exe3)
    - [Exercício 4](#exe4)
    - [Exercício 5](#exe5)
    - [Exercício 6](#exe6)
    - [Exercício 7](#exe7)
- [Lista de comandos utilizados neste notebook](#comandos)


___

<div id="empresa-de-tv"></div>

## Empresa de TV

Uma empresa de TV via satélite criou recentemente dois tipos de planos de canais (A e B).

A empresa tem como objetivo estudar o perfil dos clientes que aderiram ao plano para enviar malas diretas aos potenciais clientes de cada tipo de plano.

A base de dados apresenta algumas variáveis para uma amostra de 82 clientes selecionados aleatoriamente dentre aqueles que aderiram aos planos. As variáveis têm os seguintes significados:

* CLIENTE: identificador do cliente.
* PLANO: apresenta o plano adquirido pelo cliente – (1=A ou 2=B). 
* EC: apresenta estado civil do cliente no momento da adesão ao  plano – (1=Casado, 2=Solteiro e 3=Outros).
* SATISFACAO: grau de satisfação do cliente pelo plano – 
	(5=Muito satisfeito, 4=Satisfeito, 3=Indiferente, 2=Insatisfeito e 1=Muito insatisfeito).
* RENDA: renda pessoal do cliente, em milhares de reais.

O arquivo `EmpresaTV Cod.xlsx` contém as variáveis descritas acima.


In [1]:
%matplotlib inline
import pandas as pd
import os

In [27]:
# Listando o diretório de trabalho. Lembre-se que o arquivo com a base de dados precisa estar neste diretório.
print('Esperamos trabalhar no diretório')
print(os.getcwd())

Esperamos trabalhar no diretório
C:\Users\Jean Silas\Desktop\Ciencia dos dados\CD20-2\aula02


In [2]:
# Carregando os dados do arquivo
dados = pd.read_excel('EmpresaTV Cod.xlsx')

In [3]:
dados['PLANO'] = dados['PLANO'].astype('category')
dados['EC'] = dados['EC'].astype('category')
dados['SATISFACAO'] = dados['SATISFACAO'].astype('category')

In [4]:
dados['PLANO'].cat.categories = ['A', 'B']
dados['EC'].cat.categories = ['Casado', 'Solteiro', 'Outros']
dados['SATISFACAO'].cat.categories = ['Muito Insatisfeito', 'Insatisfeito', 'Indiferente', 'Satisfeito', 'Muito Satisfeito']

In [5]:
# Visualizando as cinco primeiras linhas
dados.head(5)

Unnamed: 0,CLIENTE,PLANO,EC,SATISFACAO,RENDA
0,1,A,Casado,Muito Satisfeito,21.4
1,2,A,Solteiro,Muito Satisfeito,17.2
2,3,A,Outros,Muito Satisfeito,15.6
3,4,A,Casado,Satisfeito,10.4
4,5,A,Solteiro,Muito Satisfeito,17.6


<div id="indo-alem"></div>

___

## Indo além...

Os exercícios a seguir integram conceitos vistos nas últimas duas aulas.

**DICA**: os exercícios marcados com &#x2605;&#x2605;&#x2605; são mais difíceis e vão exigir que você aprenda novas funções do pandas. Recomendamos que vocês tentem fazer esses exercícios mesmo depois da aula.
___

<div id="exe1"></div>

### EXERCÍCIO 1

A coluna SATISFACAO está com uma granularidade muito grande para algumas análises. Crie uma coluna `SENTIMENTO` no `DataFrame` com as seguintes categorias:

    Não curtiu, se SATISFACAO = Insatisfeito ou Muito Insatisfeito
    Indiferente, se SATISFACAO = Indiferente
    Curtiu, se SATISFACAO = Satisfeito ou Muito Satisfeito

In [6]:
# Coloque seu código aquinaocurtiu = (dados['SATISFACAO'] == 'Muito Insatisfeito')|(dados['SATISFACAO'] == 'Insatisfeito')
curtiu = (dados['SATISFACAO'] == 'Muito Satisfeito')|(dados['SATISFACAO'] == 'Satisfeito')
indiferente = (dados['SATISFACAO'] == 'Indiferente')
naocurtiu = (dados['SATISFACAO']=='Insatisfeito')|(dados['SATISFACAO']=='Muito insatisfeito')
dados.loc[naocurtiu,'SENTIMENTO'] = 'Não curtiu'
dados.loc[indiferente,'SENTIMENTO'] = 'Indiferente'
dados.loc[curtiu,'SENTIMENTO'] = 'Curtiu'

dados['SENTIMENTO'] = dados['SENTIMENTO'].astype('category')
dados['SENTIMENTO'] = pd.Categorical(dados.SENTIMENTO, 
                                     categories = ['Não curtiu', 'Indiferente', 'Curtiu'], 
                                     ordered=True)
dados['SENTIMENTO'] = dados['SENTIMENTO'].cat.as_ordered()
dados

Unnamed: 0,CLIENTE,PLANO,EC,SATISFACAO,RENDA,SENTIMENTO
0,1,A,Casado,Muito Satisfeito,21.4,Curtiu
1,2,A,Solteiro,Muito Satisfeito,17.2,Curtiu
2,3,A,Outros,Muito Satisfeito,15.6,Curtiu
3,4,A,Casado,Satisfeito,10.4,Curtiu
4,5,A,Solteiro,Muito Satisfeito,17.6,Curtiu
...,...,...,...,...,...,...
77,78,B,Outros,Insatisfeito,4.3,Não curtiu
78,79,B,Solteiro,Insatisfeito,5.7,Não curtiu
79,80,B,Casado,Insatisfeito,4.0,Não curtiu
80,81,B,Outros,Insatisfeito,5.4,Não curtiu


<div id="exe2"></div>

### EXERCÍCIO 2 &#x2605;&#x2605;&#x2605;

Monte uma tabela cruzada de sentimento versus plano e estado civil. 

**DICA 1**: a função `pd.crosstab` pode receber uma lista de `Series` (colunas de um `DataFrame`).

**DICA 2**: pesquise por "pandas crosstab multiple columns".

In [29]:
# Coloque seu código aqui
pd.crosstab(dados['SENTIMENTO'],[dados['EC'],dados['PLANO']], normalize='columns').round(decimals=2)*100

EC,Casado,Casado,Solteiro,Solteiro,Outros,Outros
PLANO,A,B,A,B,A,B
SENTIMENTO,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Não curtiu,8.0,25.0,0.0,29.0,43.0,80.0
Indiferente,12.0,25.0,23.0,53.0,14.0,20.0
Curtiu,79.0,50.0,77.0,18.0,43.0,0.0


<div id="exe3"></div>

### EXERCÍCIO 3

Que hipóteses você pode formular a partir dessa tabela?

Tanto solteiros, quanto casados optam pelo plano A.

<div id="exe4"></div>

### EXERCÍCIO 4 &#x2605;&#x2605;&#x2605;

Anteriormente, vimos que não faz sentido realizar certas operações com a variável renda devido ao seu tipo de variável. Crie uma nova coluna em `dados` chamada FAIXA_DE_RENDA. Essa nova variável deve dividir a renda de todos os clientes em 3 faixas iguais (veremos que isso não necessariamente é uma boa ideia, mas vamos começar com essa análise simplificada).

<div id="cut"></div>

**DICA**: a função `pd.cut` pode ser útil para resolver este exercício.

In [26]:
# Coloque seu código aqui
dados['FAIXA_DE_RENDA'] = pd.cut(dados['RENDA'],3)
dados

Unnamed: 0,CLIENTE,PLANO,EC,SATISFACAO,RENDA,SENTIMENTO,FAIXA_DE_RENDA
0,1,A,Casado,Muito Satisfeito,21.4,Curtiu,"(14.467, 21.4]"
1,2,A,Solteiro,Muito Satisfeito,17.2,Curtiu,"(14.467, 21.4]"
2,3,A,Outros,Muito Satisfeito,15.6,Curtiu,"(14.467, 21.4]"
3,4,A,Casado,Satisfeito,10.4,Curtiu,"(7.533, 14.467]"
4,5,A,Solteiro,Muito Satisfeito,17.6,Curtiu,"(14.467, 21.4]"
...,...,...,...,...,...,...,...
77,78,B,Outros,Insatisfeito,4.3,Não curtiu,"(0.579, 7.533]"
78,79,B,Solteiro,Insatisfeito,5.7,Não curtiu,"(0.579, 7.533]"
79,80,B,Casado,Insatisfeito,4.0,Não curtiu,"(0.579, 7.533]"
80,81,B,Outros,Insatisfeito,5.4,Não curtiu,"(0.579, 7.533]"


<div id="exe5"></div>

### EXERCÍCIO 5

Monte uma tabela cruzada de sentimento versus plano e faixa de renda.

In [31]:
# Coloque seu código aqui
pd.crosstab(dados['SENTIMENTO'],[dados['PLANO'],dados['FAIXA_DE_RENDA']])

PLANO,A,A,A,B,B,B
FAIXA_DE_RENDA,"(0.579, 7.533]","(7.533, 14.467]","(14.467, 21.4]","(0.579, 7.533]","(7.533, 14.467]","(14.467, 21.4]"
SENTIMENTO,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Não curtiu,5,0,0,11,0,0
Indiferente,4,3,0,11,1,0
Curtiu,1,24,7,0,6,1


<div id="exe6"></div>

### EXERCÍCIO 6

Por que não faria sentido montar uma tabela cruzada utilizando a variável RENDA no lugar de FAIXA_DE_RENDA?

Porque é uma variável contínua.

<div id="exe7"></div>

### EXERCÍCIO 7

<div id="groupby"></div>

Reveja a função `.groupby` e utilize-a para imprimir as medidas resumo dos planos A e B, separadamente.

**DICA**: você pode usar a função `.describe()`.

In [38]:
# Coloque seu código aqui
dados.loc[:,['PLANO','RENDA']].groupby(by='PLANO').describe()


Unnamed: 0_level_0,RENDA,RENDA,RENDA,RENDA,RENDA,RENDA,RENDA,RENDA
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
PLANO,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
A,46.0,10.421739,4.465568,0.7,7.475,10.35,13.2,21.4
B,36.0,5.688889,3.293437,0.6,4.15,5.15,6.375,19.2


<div id="comandos"></div>

___

## Lista de comandos utilizados neste notebook

Os seguintes comandos foram utilizados neste jupyter notebook. Para facilitar sua consulta, escreva um resumo do que cada um deles faz:

- [`.astype`](#astype): ESCREVA AQUI O RESUMO
- [`.cat.categories`](#categories): ESCREVA AQUI O RESUMO
- [`.value_counts`](#value_counts): ESCREVA AQUI O RESUMO
- [`pd.crosstab`](#crosstab): ESCREVA AQUI O RESUMO
- [`.mean`](#mean-median-etc): ESCREVA AQUI O RESUMO
- [`.median`](#mean-median-etc): ESCREVA AQUI O RESUMO
- [`.quantile`](#mean-median-etc): ESCREVA AQUI O RESUMO
- [`.var`](#mean-median-etc): ESCREVA AQUI O RESUMO
- [`.std`](#mean-median-etc): ESCREVA AQUI O RESUMO
- [`.describe`](#describe): ESCREVA AQUI O RESUMO
- [`pd.cut`](#cut): ESCREVA AQUI O RESUMO
- [`.groupby`](#groupby): ESCREVA AQUI O RESUMO