___
# Atividade: Análise Exploratória - Medidas Resumo e Histograma
___

## Aula 03


<div id="indice"></div>

## Índice

- [Empresa de TV](#empresa-de-tv)


- [Medidas resumo](#medidas-resumo)
    - [Revisão Exercício 7 da Aula 02](#ex7aula02)
    - [Revisão Exercício 8 da Aula 02](#ex8aula02)    
    - [Exercício 1](#ex1) 
    
    
- [HISTOGRAMA](#histograma)
    - [Exercício 2](#ex2) 
    - [Exercício 3](#ex3) 
___

<div id="empresa-de-tv"></div>

## Empresa de TV

Uma empresa de TV via satélite criou recentemente dois tipos de planos de canais (A e B).

A empresa tem como objetivo estudar o perfil dos clientes que aderiram ao plano para enviar malas diretas aos potenciais clientes de cada tipo de plano.

A base de dados apresenta algumas variáveis para uma amostra de 82 clientes selecionados aleatoriamente dentre aqueles que aderiram aos planos. As variáveis têm os seguintes significados:

* CLIENTE: identificador do cliente.
* PLANO: apresenta o plano adquirido pelo cliente – (1=A ou 2=B). 
* EC: apresenta estado civil do cliente no momento da adesão ao  plano – (1=Casado, 2=Solteiro e 3=Outros).
* SATISFACAO: grau de satisfação do cliente pelo plano – 
	(5=Muito satisfeito, 4=Satisfeito, 3=Indiferente, 2=Insatisfeito e 1=Muito insatisfeito).
* RENDA: renda pessoal do cliente, em milhares de reais.

O arquivo `EmpresaTV Cod.xlsx` contém as variáveis descritas acima.


In [None]:
%matplotlib inline
import pandas as pd
import matplotlib.pyplot as plt
import os
from numpy import arange
import numpy as np

# Para ter melhor print
from IPython.display import display

In [None]:
print('Esperamos trabalhar no diretório')
print(os.getcwd())

In [None]:
dados = pd.read_excel('EmpresaTV_Cod.xlsx')

# Definições necessárias vistas na Aula 02
dados.PLANO = dados.PLANO.astype('category')
dados.EC = dados.EC.astype('category')
dados.SATISFACAO = dados.SATISFACAO.astype('category')
dados.RENDA = dados.RENDA.astype('float')

dados.PLANO.cat.categories = (['A', 'B']) # Seguindo a ordem [1,2]
dados.EC.cat.categories = (['Casado', 'Solteiro', 'Outros']) #Seguindo a ordem [1,2,3]

# Pelo fato de SATISFACAO ser ordinal
dados.SATISFACAO = pd.Categorical(dados.SATISFACAO, 
                                  categories = ['Muito Insatisfeito', 'Insatisfeito', 'Indiferente', 
                                                   'Satisfeito', 'Muito Satisfeito'], 
                                  ordered=True)

___
<div id="medidas-resumo"></div>

## Medidas resumo

Para compreender as informações contidas em variáveis quantitativas, podemos recorrer ao cálculo de algumas medidas resumo como  por exemplo:
  * média: [pd.mean()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.mean.html)
  * percentis: [pd.quantile()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.quantile.html)
  * desvio padrão: [pd.std()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.std.html)
  * variância: [pd.var()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.var.html)
  

<div id="ex7aula02"></div>

No **Exercicio 7** do notebook da **Aula02_Atividade**, foi pedido para segmentar a base de dados por plano e criar uma variável renda para cada plano.

A seguir, temos as respostas para esse exercício:


In [None]:
# Cria dataframes apenas com clientes do plano colocado no filtro de linhas
dados_a = dados.loc[dados['PLANO'] == 'A',:]
dados_b = dados.loc[dados['PLANO'] == 'B',:]

# Cria Series considerando apenas a coluna renda com clientes de um particular plano
renda_a = dados.loc[dados['PLANO'] == 'A','RENDA']
renda_b = dados.loc[dados['PLANO'] == 'B','RENDA']
#ou
renda_a = dados_a['RENDA']
renda_b = dados_b['RENDA']

<div id="ex8aula02"></div>

Já no **Exercicio 8** do notebook da **Aula02_Atividade**, foi pedido para imprimir tamamnho amostral, média, mínimo, primeiro quartil (percentil de ordem 25%), segundo quartil (mediana), terceiro quartil (percentil de ordem 75%), máximo, desvio padrão e variância das rendas do clientes para cada plano A e B, separadamente.

A seguir, temos as respostas para esse exercício:


In [None]:
for title, var_quanti in (('Plano A', renda_a), ('Plano B', renda_b)):
    print('-' * 5 * len(title))
    print(title)
    print('-' * 5 * len(title))
    print(f'contagem               = {len(var_quanti)}')
    print(f'média                  = {var_quanti.mean():.3f}')
    print(f'mínimo                 = {var_quanti.min():.3f}')
    print(f'primeiro quartil (Q1)  = {var_quanti.quantile(q=0.25):.3f}')
    print(f'mediana          (Q2)  = {var_quanti.median():.3f}')
    print(f'terceiro quartil (Q3)  = {var_quanti.quantile(q=0.75):.3f}')
    print(f'máximo                 = {var_quanti.max():.3f}')
    print(f'variância amostral     = {var_quanti.var():.3f}')
    print(f'desvio padrão amostral = {var_quanti.std():.3f}')
    print()

Outra maneira para obter as medidas resumo da variável `RENDA` segmentadas por `PLANO` é fazendo uso dos comandos `groupby()` e `describe()`.

Vamos lembrar como fazê-lo?

In [None]:
# Coloque seu código aqui

<div id="ex1"></div>

### EXERCÍCIO 1

Observe os todos esses resultados e tire conclusões sobre a renda dos clientes (em mil reais) em cada plano. 
Destaque sua interpretação também para dentro de cada plano e não só entre planos.

In [None]:
# Coloque sua interpretação aqui

[Volta ao Índice](#indice)

___
<div id="histograma"></div>

## HISTOGRAMA

O histograma é um gráfico adequado para representar as frequências (contagem ou relativas) de variáveis OBRIGATORIAMENTE
quantitativas. 

No eixo x, tem-se a representação da grandeza da variável quantitativa que está sendo estudada.

No eixo y, o *default* considera a frequência absoluta (contagem). Entretanto, há dois importantes motivos que nos animam a utilizar a medida densidade alterando o argumento *density* para *True*, ou seja, `density=True`. Veja os motivos:
  * Considerar a densidade no eixo y, permite considerar faixas com amplitudes diferentes sem distorção de interpretação.
  * Considerar a densidade no eixo y, garante que a área do histograma seja igual a $1$ permitindo colocar curvas probabilísticas cuja área total também é $1$.

Para construí-lo considerando a biblioteca `matplotlib`, consulte [aqui](https://matplotlib.org/3.3.1/api/_as_gen/matplotlib.pyplot.hist.html).

### **AMPLITUDES IGUAIS**

Vamos considerar amplitudes iguais de tamanho $3.5$ para construir as faixas de renda. Pelo fato dessas amplitudes não serem número inteiro, nesse caso, o comando `range` não irá funcionar.

O comando `arange` do `numpy` permite que os argumentos `start`, `stop` e `step` possam ser do tipo `float`.

In [None]:
from numpy import arange

In [None]:
# faixas de AMPLITUDES IGUAIS
faixa1 = arange(0.5,22,3.5)
faixa1

In [None]:
# Histograma da variável renda considerando faixas de AMPLITUDES IGUAIS
plt.figure(figsize=(15, 5))

plt.subplot(121)
plt.hist(dados.RENDA, bins=faixa1, edgecolor='white')
plt.title('Contagem (eixo y ) e Amplitudes iguais')
plt.ylabel('frequência')

plt.subplot(122)
plt.hist(dados.RENDA, bins=faixa1, edgecolor='white', density=True)
plt.title('Densidade (eixo y ) e Amplitudes iguais')
plt.ylabel('densidade')

plt.show()

[Volta ao Índice](#indice)

### **AMPLITUDES DESIGUAIS**

In [None]:
# faixas de AMPLITUDES DESIGUAIS
faixa2 = [ 0.5, 4, 7.5, 11, 21.5]
faixa2

In [None]:
# Histograma da variável renda considerando faixas de AMPLITUDES DESIGUAIS
plt.figure(figsize=(15, 5))

plt.subplot(121)
plt.hist(dados.RENDA, bins=faixa2, edgecolor='white', color='darkorange')
plt.title('Contagem (eixo y ) e Amplitudes desiguais')
plt.ylabel('frequência')

plt.subplot(122)
plt.hist(dados.RENDA, bins=faixa2, edgecolor='white', color='darkorange', density=True)
plt.title('Densidade (eixo y ) e Amplitudes desiguais')
plt.ylabel('densidade')

plt.show()

[Volta ao Índice](#indice)

<div id="ex2"></div>

### EXERCÍCIO 2

A seguir, veja algumas possibilidades de histograma com a variável `RENDA` considerando todos os clientes.

Analise os quatro histogramas abaixo. Um deles está seguramente errado. Identifique-o e descreva o motivo.

In [None]:
plt.figure(figsize=(15, 10))

plt.subplot(221)
plt.hist(dados.RENDA, edgecolor='white')


plt.subplot(222)
plt.hist(dados.RENDA, edgecolor='white', density=True)


plt.subplot(223)
plt.hist(dados.RENDA, bins=[0.5,3.5,7,10.5,22], edgecolor='white')


plt.subplot(224)
plt.hist(dados.RENDA, bins=[0.5,3.5,7,10.5,22], edgecolor='white', density=True)


plt.show()

In [None]:
# Coloque sua interpretação aqui

[Volta ao Índice](#indice)

<div id="ex3"></div>

### EXERCÍCIO 3

Faça histograma para renda satisfazendo todas as restrições abaixo:
  * segmentar por plano
  * usar densidade no eixo y
  * faixas com amplitudes iguais de $3.5$ 
  * iniciar faixa em $0.5$
  * use o comando `arange` da biblioteca `numpy` para construir essas faixas. Busque a sintaxe desse comando no seu navegador
  * use plt.subplot() com 1 linha e 2 colunas

In [None]:
from numpy import arange

In [None]:
# Coloque se código aqui

[Volta ao Índice](#indice)