# <font color='blue'>Data Science Academy</font>
# <font color='blue'>Big Data Real-Time Analytics com Python e Spark</font>

## <font color='blue'>Lab - Testes de Hipótese em Linguagem Python Para Problemas de Negócio em Telecom</font>

![title](imagens/Lab.png)

In [1]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

Versão da Linguagem Python Usada Neste Jupyter Notebook: 3.9.7


In [2]:
# Para atualizar um pacote, execute o comando abaixo no terminal ou prompt de comando:
# pip install -U nome_pacote

# Para instalar a versão exata de um pacote, execute o comando abaixo no terminal ou prompt de comando:
#!pip install nome_pacote==versão_desejada

# Depois de instalar ou atualizar o pacote, reinicie o jupyter notebook.

# Instala o pacote watermark. 
# Esse pacote é usado para gravar as versões de outros pacotes usados neste jupyter notebook.
!pip install -q -U watermark

In [3]:
# Imports
import pandas as pd
import numpy as np
import scipy.stats as stats

In [4]:
# Versões dos pacotes usados neste jupyter notebook
%reload_ext watermark
%watermark -a "Data Science Academy" --iversions

Author: Data Science Academy

numpy : 1.21.4
pandas: 1.3.4
scipy : 1.7.3



In [5]:
# Carrega os dados
df = pd.read_csv(r"dados/dataset.csv")

In [6]:
df.shape

(200, 10)

In [7]:
df.head()

Unnamed: 0,id_cliente,genero,canal_atendimento,regiao,estado_civil,segmento,consumo_medio_mensal_antes_upgrade,consumo_medio_mes_anterior_ao_upgrade,consumo_medio_primeiro_mes_apos_upgrade,consumo_medio_segundo_mes_apos_upgrade
0,70,0,4,1,1,1,57,49.2,52,57.2
1,121,1,4,2,1,3,68,63.6,59,64.9
2,86,0,4,3,1,1,44,64.8,33,36.3
3,141,0,4,3,1,3,63,56.4,44,48.4
4,172,0,4,2,1,2,47,68.4,52,57.2


In [8]:
df.columns

Index(['id_cliente', 'genero', 'canal_atendimento', 'regiao', 'estado_civil',
       'segmento', 'consumo_medio_mensal_antes_upgrade',
       'consumo_medio_mes_anterior_ao_upgrade',
       'consumo_medio_primeiro_mes_apos_upgrade',
       'consumo_medio_segundo_mes_apos_upgrade'],
      dtype='object')

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 10 columns):
 #   Column                                   Non-Null Count  Dtype  
---  ------                                   --------------  -----  
 0   id_cliente                               200 non-null    int64  
 1   genero                                   200 non-null    int64  
 2   canal_atendimento                        200 non-null    int64  
 3   regiao                                   200 non-null    int64  
 4   estado_civil                             200 non-null    int64  
 5   segmento                                 200 non-null    int64  
 6   consumo_medio_mensal_antes_upgrade       200 non-null    int64  
 7   consumo_medio_mes_anterior_ao_upgrade    200 non-null    float64
 8   consumo_medio_primeiro_mes_apos_upgrade  200 non-null    int64  
 9   consumo_medio_segundo_mes_apos_upgrade   200 non-null    float64
dtypes: float64(2), int64(8)
memory usage: 15.8 KB


In [10]:
df.describe()

Unnamed: 0,id_cliente,genero,canal_atendimento,regiao,estado_civil,segmento,consumo_medio_mensal_antes_upgrade,consumo_medio_mes_anterior_ao_upgrade,consumo_medio_primeiro_mes_apos_upgrade,consumo_medio_segundo_mes_apos_upgrade
count,200.0,200.0,200.0,200.0,200.0,200.0,200.0,200.0,200.0,200.0
mean,100.5,0.545,3.43,2.055,1.16,2.025,52.23,63.174,52.775,58.0525
std,57.879185,0.49922,1.039472,0.724291,0.367526,0.690477,10.252937,11.242137,9.478586,10.426445
min,1.0,0.0,1.0,1.0,1.0,1.0,28.0,39.6,31.0,34.1
25%,50.75,0.0,3.0,2.0,1.0,2.0,44.0,54.0,45.75,50.325
50%,100.5,1.0,4.0,2.0,1.0,2.0,50.0,62.4,54.0,59.4
75%,150.25,1.0,4.0,3.0,1.0,2.25,60.0,70.8,60.0,66.0
max,200.0,1.0,4.0,3.0,2.0,3.0,76.0,90.0,67.0,73.7


## Pergunta 1: 

### O consumo médio de largura de banda do mês anterior ao upgrade foi maior que 50?

### Neste caso usaremos um Teste t de Uma Amostra.

https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_1samp.html

Calculamos o Teste T para a média de 1 grupo. Este é um teste para a hipótese nula de que o valor esperado (média) de uma amostra de observações independentes é igual à média populacional dada, popmean.

Hipóteses:

- H0: O consumo médio de largura de banda antes do upgrade foi igual a 50.

- H1: O consumo médio de largura de banda antes do upgrade foi diferente de 50.

Se o valor-p for menor que 0,05 rejeitamos a H0. Caso contrário, falhamos em rejeitar a H0.

Se um valor-p relatado a partir de um teste t for menor que 0,05, esse resultado é considerado estatisticamente significativo. Se um valor-p for maior que 0,05, o resultado é insignificante.

Um valor-p de um teste t é a probabilidade de que os resultados de seus dados de amostra tenham ocorrido por acaso.

In [11]:
# Executa o teste
stats.ttest_1samp(a = df.consumo_medio_mes_anterior_ao_upgrade, popmean = 50)

Ttest_1sampResult(statistic=16.57233752433133, pvalue=2.4963719280931583e-39)

Como o valor-p é muito pequeno (menor que 0.05), rejeitamos a H0 e consideramos como verdadeira a H1. O consumo médio de largura de banda antes do upgrade foi diferente de 50.

In [12]:
# Conferindo a média
df.consumo_medio_mes_anterior_ao_upgrade.mean()

63.17400000000001

## Pergunta 2:  

### Houve diferença de consumo de largura de banda antes e depois do upgrade, considerando o primeiro mês após o upgrade?

### Neste caso usaremos: Teste t de Duas Amostras (Pareado).

https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_rel.html

Este teste é usado quando temos duas amostras que são relacionadas ou dependentes. Este é um teste para a hipótese nula de que duas amostras relacionadas têm valores médios (esperados) idênticos.

Hipóteses:

- H0: O consumo antes do upgrade foi igual ao consumo após o upgrade (as médias são iguais).
- H1: O consumo antes do upgrade foi diferente do consumo após o upgrade (as médias não são iguais).

Se o valor-p for menor que 0,05 rejeitamos a H0. Caso contrário, falhamos em rejeitar a H0.

In [13]:
# Executa o teste
stats.ttest_rel(a = df.consumo_medio_mensal_antes_upgrade, b = df.consumo_medio_primeiro_mes_apos_upgrade)

Ttest_relResult(statistic=-0.8673065458794775, pvalue=0.3868186820914985)

Como o valor-p é maior que 0,05, falhamos em rejeitar a hipótese nula. Logo, o consumo médio no primeiro mês após o upgrade foi similar ao consumo médio antes do upgrade.

In [14]:
print(df.consumo_medio_mensal_antes_upgrade.mean())
print(df.consumo_medio_primeiro_mes_apos_upgrade.mean())

52.23
52.775


## Pergunta 3:  
### O gênero do cliente influenciou o consumo de largura de banda no primeiro mês após o upgrade?

### Neste caso usaremos: Teste t de Duas Amostras Independentes.

https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_ind.html

Calculamos o Teste t para as médias de duas amostras independentes. Este é um teste para a hipótese nula de que 2 amostras independentes têm valores médios (esperados) idênticos. Este teste assume que as populações têm variâncias idênticas por padrão.

Hipóteses:

- H0: Consumo de clientes do sexo masculino foi igual ao consumo de clientes do sexo feminino no primeiro mês após o upgrade (consumo médio foi igual entre os gêneros).

- H1: Consumo de clientes do sexo masculino não foi igual ao consumo de clientes do sexo feminino no primeiro mês após o upgrade (consumo médio não foi igual entre os gêneros).

Se o valor-p for menor que 0,05 rejeitamos a H0. Caso contrário, falhamos em rejeitar a H0.

In [15]:
df.columns

Index(['id_cliente', 'genero', 'canal_atendimento', 'regiao', 'estado_civil',
       'segmento', 'consumo_medio_mensal_antes_upgrade',
       'consumo_medio_mes_anterior_ao_upgrade',
       'consumo_medio_primeiro_mes_apos_upgrade',
       'consumo_medio_segundo_mes_apos_upgrade'],
      dtype='object')

In [16]:
# Separamos as amostras
consumo_cliente_masculino = df.consumo_medio_primeiro_mes_apos_upgrade[df.genero == 0]
consumo_cliente_feminino = df.consumo_medio_primeiro_mes_apos_upgrade[df.genero == 1]

In [17]:
print(consumo_cliente_masculino.head())
print(consumo_cliente_feminino.head())

0    52
2    33
3    44
4    52
5    52
Name: consumo_medio_primeiro_mes_apos_upgrade, dtype: int64
1     59
92    62
93    44
94    44
95    62
Name: consumo_medio_primeiro_mes_apos_upgrade, dtype: int64


In [18]:
print(consumo_cliente_masculino.mean())
print(consumo_cliente_feminino.mean())

50.120879120879124
54.99082568807339


In [19]:
print(consumo_cliente_masculino.var())
print(consumo_cliente_feminino.var())

106.19633699633701
66.15732246007477


In [20]:
# Executa o teste
stats.ttest_ind(a = consumo_cliente_masculino, b = consumo_cliente_feminino, equal_var = False)

Ttest_indResult(statistic=-3.6564080478875276, pvalue=0.00034088493594266187)

In [21]:
# Podemos usar ANOVA também
stats.f_oneway(consumo_cliente_masculino, consumo_cliente_feminino)

F_onewayResult(statistic=13.94330754080599, pvalue=0.0002462546120354903)

Como o valor-p é menor que 0,05, rejeitamos a H0. Assim, concluímos que houve diferença entre o consumo masculino e o consumo feminino de largura de banda no primeiro mês após o upgrade.

## Pergunta 4: 

### Há alguma relação entre região e segmento do cliente?

### Neste caso usaremos: Teste do Qui-Quadrado.

https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2_contingency.html

Teste qui-quadrado de independência de variáveis é usado em uma tabela de contingência. A função calcula a estatística qui-quadrado e o valor-p para o teste de hipótese de independência das frequências observadas na tabela de contingência. As frequências esperadas são calculadas com base nas somas marginais sob o pressuposto de independência.

Hipóteses:

- H0: Não há relacionamento entre região e segmento.
- H1: Há relacionamento entre região e segmento.

Se o valor-p for menor que 0,05 rejeitamos a H0. Caso contrário, falhamos em rejeitar a H0.

In [22]:
df.head()

Unnamed: 0,id_cliente,genero,canal_atendimento,regiao,estado_civil,segmento,consumo_medio_mensal_antes_upgrade,consumo_medio_mes_anterior_ao_upgrade,consumo_medio_primeiro_mes_apos_upgrade,consumo_medio_segundo_mes_apos_upgrade
0,70,0,4,1,1,1,57,49.2,52,57.2
1,121,1,4,2,1,3,68,63.6,59,64.9
2,86,0,4,3,1,1,44,64.8,33,36.3
3,141,0,4,3,1,3,63,56.4,44,48.4
4,172,0,4,2,1,2,47,68.4,52,57.2


In [23]:
# Tabela de contingência
tabela_cont = pd.crosstab(df.segmento, df.regiao, margins = True)
tabela_cont

regiao,1,2,3,All
segmento,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,16,20,9,45
2,19,44,42,105
3,12,31,7,50
All,47,95,58,200


In [24]:
# Executa o teste
chi2, p, dof, ex = stats.chi2_contingency(observed = tabela_cont)

In [25]:
# Valor-p
p

0.055282939487992365

Com base no valor-p maior que 0.05, falhamos em rejeitar a H0 e podemos dizer que não há relação entre região e segmento do cliente.

# Fim