#**Challenge Teste de Hipóteses.**

##***Desafio 1 : Cosméticos.***

Suponha que você trabalha em uma empresa do ramo de cosméticos ou beleza. O
Time de produtos dessa empresa está interessado em criar novos batons com maior
durabilidade. Para isso estão testando 3 diferentes fórmulas para irem a mercado.
Com isso, a empresa fez uma pesquisa com varias voluntárias e populou a base de
dados (desafio_01_cosmeticos.csv) contendo as seguintes informacoes:

● id_produto: código identificador do produto, com a fórmula utilizada. Para
diferenciarmos se se trata do batom com a fórmula 1, 2 ou 3.

● id_voluntária: código identificador da voluntária que utilizou o produto.

● durabilidade: quanto tempo o produto durou em horas.

● idade: idade da voluntária.

● exposicao_sol: variável que indica 1 se a voluntária se expos ao sol 0 caso
contrário.

De posse dessas informações, o time de produtos solicitou aos analistas de dados da
empresa as seguintes perguntas a serem respondidas:

1 - Existe diferença estatisticamente significativa na durabilidade dos batons com formulas diferentes?

2 - Essa diferença persiste ou não quando a voluntária se expõe ao sol? E com
relacão a idade?

3- Qual fórmula de batom você indicaria para consumidores que buscam maior
durabilidade e exposicão ao sol?

Material de Apoio:

https://medium.com/rodrigo-lampier/usando-teste-de-hip%C3%B3teses-para-resp
onder-questoes-de-negócio-8a3d5ae9ebc0

**Importando Bibliotecas**

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

**Leitura dos dados**

In [2]:
df = pd.read_csv('desafio_01_cosmeticos_challenge_testehipoteses-230206-120438.csv', sep=',')

**Visualizando os Dados**

In [3]:
df.head()

Unnamed: 0,id_produto,id_voluntária,durabilidade,idade,exposicao_sol
0,1,1,12,40,1
1,2,2,5,36,0
2,1,3,19,47,0
3,1,4,14,36,1
4,1,5,17,46,1


**Verificando o tamanho do Dataset**

In [4]:
df.shape

(300, 5)

**Verificando as informações dos tipos de Dados**

In [5]:
type(df)

pandas.core.frame.DataFrame

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300 entries, 0 to 299
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype
---  ------         --------------  -----
 0   id_produto     300 non-null    int64
 1   id_voluntária  300 non-null    int64
 2   durabilidade   300 non-null    int64
 3   idade          300 non-null    int64
 4   exposicao_sol  300 non-null    int64
dtypes: int64(5)
memory usage: 11.8 KB


**1 - Existe diferença estatisticamente significativa na durabilidade dos batons com formulas diferentes?**

**Estatisticas Descritivas**

In [7]:
df.describe().round(2)

Unnamed: 0,id_produto,id_voluntária,durabilidade,idade,exposicao_sol
count,300.0,300.0,300.0,300.0,300.0
mean,2.0,150.5,17.13,36.89,0.44
std,0.82,86.75,10.94,12.63,0.5
min,1.0,1.0,5.0,18.0,0.0
25%,1.0,75.75,9.0,26.0,0.0
50%,2.0,150.5,14.0,36.0,0.0
75%,3.0,225.25,20.0,48.0,1.0
max,3.0,300.0,48.0,60.0,1.0


In [42]:
df['id_produto'].value_counts()

1    100
2    100
3    100
Name: id_produto, dtype: int64

In [9]:
df.groupby(['id_produto', 'durabilidade']).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,id_voluntária,idade,exposicao_sol
id_produto,durabilidade,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,10,10,10,10
1,11,10,10,10
1,12,10,10,10
1,13,7,7,7
1,14,7,7,7
1,15,6,6,6
1,16,6,6,6
1,17,11,11,11
1,18,14,14,14
1,19,13,13,13


In [10]:
produto1 = df[df['id_produto'] == 1].mean()
produto1 

id_produto         1.00
id_voluntária    122.67
durabilidade      15.11
idade             38.32
exposicao_sol      0.45
dtype: float64

In [11]:
produto2 = df[df['id_produto'] == 2].mean()
produto2 

id_produto         2.00
id_voluntária    143.06
durabilidade       7.77
idade             38.98
exposicao_sol      0.48
dtype: float64

In [12]:
produto3 = df[df['id_produto'] == 3].mean()
produto3

id_produto         3.00
id_voluntária    185.77
durabilidade      28.52
idade             33.36
exposicao_sol      0.39
dtype: float64

**Aplicar o Teste de normalidade - Shapiro**

In [15]:
import scipy.stats as sct

w_produto1,pvalue_produto1 = sct.shapiro(df['durabilidade'])
print('pvalue_produto1: ',pvalue_produto1) 

pvalue_produto1:  4.41521244182004e-16


In [16]:
w_produto2,pvalue_produto2 = sct.shapiro(df['durabilidade'])
print('pvalue_produto2: ',pvalue_produto2)

pvalue_produto2:  4.41521244182004e-16


In [17]:
w_produto3,pvalue_produto3 = sct.shapiro(df['durabilidade'])
print('pvalue_produto3: ',pvalue_produto3)

pvalue_produto3:  4.41521244182004e-16


Se esse valor p > 0.05 temos uma distribuição normal, caso p < 0.05 não temos uma distribuição normal.

**2 - Essa diferença persiste ou não quando a voluntária se expõe ao sol? E com relacão a idade?**

In [18]:
df.groupby(df['id_voluntária'] & df['exposicao_sol'] == 1 & df['durabilidade']).head(5)

Unnamed: 0,id_produto,id_voluntária,durabilidade,idade,exposicao_sol
0,1,1,12,40,1
1,2,2,5,36,0
2,1,3,19,47,0
3,1,4,14,36,1
4,1,5,17,46,1
5,1,6,14,56,1
6,1,7,12,29,1
7,1,8,13,52,1
8,1,9,18,27,0
11,3,12,28,26,0


In [19]:
df.groupby(df['id_voluntária'] & df['exposicao_sol'] == 1 & df['idade'] & df['durabilidade']).head(5)

Unnamed: 0,id_produto,id_voluntária,durabilidade,idade,exposicao_sol
0,1,1,12,40,1
1,2,2,5,36,0
2,1,3,19,47,0
3,1,4,14,36,1
4,1,5,17,46,1
5,1,6,14,56,1
6,1,7,12,29,1
7,1,8,13,52,1
8,1,9,18,27,0
9,2,10,7,19,1


In [20]:
voluntaria_exp = df[df['exposicao_sol'] == 1]['idade'].mean()
voluntaria_exp

39.234848484848484

In [21]:
voluntaria_nao_exp = df[df['exposicao_sol'] == 0]['idade'].mean()
voluntaria_nao_exp

35.041666666666664

**3- Qual fórmula de batom você indicaria para consumidores que buscam maior durabilidade e exposicão ao sol?**

In [45]:
df.groupby(df['id_produto'] & df['exposicao_sol'] == 1 & df['durabilidade']).max()

Unnamed: 0,id_produto,id_voluntária,durabilidade,idade,exposicao_sol
False,3,300,48,60,1
True,3,298,48,60,1


##**Desafio 2 :**

Imagine que você trabalha em uma empresa do setor alimentício, e o preço de
determinado produto, um novo picolé, tem uma distribuição normal com média igual a
R$7,85 e desvio padrão igual a R$3,32. Suspeita-se que devido ao verão, em
determinadas localidades de praia o preço do picolé esteja mais caro.
Para verificar se esse efeito é estatisticamente significativo, contactaram você, analista
de dados.
Suponha que para realizar essa análise você tenha dados de 45 lojas em cidades do
litoral, escolhidas aleatoriamente. E constatou que o preço médio do picolé nessas
cidades é de R$11,52.
1. Você pode concluir que existe diferença de preços estatisticamente
relevante com 5% de significância?
2. Qual o valor da variável teste, o intervalo de confiança e o p-valor?

In [23]:
from scipy.stats import norm

In [24]:
media_amostra1 = 7.85
media_amostra1

7.85

In [25]:
media_amostra2 = 11.52
media_amostra2

11.52

In [26]:
significancia = 0.05
significancia

0.05

In [27]:
confianca = 1 - significancia
confianca

0.95

In [28]:
probabilidade = (0.5 + (confianca / 2))
probabilidade

0.975

In [29]:
z = norm.ppf(0.975)
z

1.959963984540054

In [30]:
desvio_padrao = 3.32
desvio_padrao

3.32

In [31]:
n = 45
n

45

In [32]:
raiz_de_n = np.sqrt(n)
raiz_de_n

6.708203932499369

In [33]:
sigma = desvio_padrao / raiz_de_n
sigma

0.4949163790199534

In [34]:
e = z * sigma
e

0.9700182782380835

### Calcular o intervalo de confiança

In [35]:
intervalo = norm.interval(alpha = 0.95, loc = media_amostra1, scale = sigma / np.sqrt(n))
intervalo

  intervalo = norm.interval(alpha = 0.95, loc = media_amostra1, scale = sigma / np.sqrt(n))


(7.7053982126961555, 7.994601787303844)

In [36]:
intervalo = norm.interval(alpha = 0.95, loc = media_amostra2, scale = sigma / np.sqrt(n))
intervalo

  intervalo = norm.interval(alpha = 0.95, loc = media_amostra2, scale = sigma / np.sqrt(n))


(11.375398212696156, 11.664601787303843)

### <font>Critério do $p-valor$</font>

> ### Teste Bicaudal
> ### Rejeitar $H_0$ se o valor $p\leq\alpha$

In [37]:
p_valor = 2 * (norm.sf(z))
p_valor

0.05

In [38]:
p_valor <= significancia

True

### <font>Critério do valor crítico</font>

> ### Teste Bicaudal
> ### Rejeitar $H_0$ se $z \leq -z_{\alpha / 2}$ ou se $z \geq z_{\alpha / 2}$

In [39]:
# Calcular a variável teste 
z_alpha_2 = norm.ppf(probabilidade)
z_alpha_2

1.959963984540054

In [40]:
z <= -z_alpha_2

False

In [41]:
z >= z_alpha_2

True