# <font color='blue'>Data Science Academy</font>
# <font color='blue'>Big Data Real-Time Analytics com Python e Spark</font>

# <br><br><font color='darkgreen'><center>Testes de Hipótese em Linguagem Python Para Problemas de Negócio em Telecom</center></font>

## <br><br>Contexto

- Um provedor de internet oferece diversos tipos de planos de acesso com diferentes larguras de banda. A empresa então fez um upgrade da sua infraestrutura e gostaria de validar algumas hipóteses sobre o consumo de largura de banda dos clientes.
- A empresa possuía dados do consumo médio de largura de banda antes do upgrade e registrou o consumo no primeiro mês após o upgrade, no segundo mês e no mês anterior ao upgrade. Os dados foram registrados junto com algumas características dos clientes.
- Algumas perguntas de negócio foram formuladas e agora iremos respondê-las através de **4 testes de hipótese**.
- Os dados usados são fictícios.

## <br>Objetivo

#### O objetivo deste projeto é demonstrar na pŕatica como utilizamos um Teste de Hipóteste do início ao fim.

- Iniciando com a formulação do problema.
- Escolha do teste ideal para o problema.
- Formulação das hipóteses.
- Preparação dos Dados (se necessário).
- Execução do Teste
- Interpretação do resultado do Teste.

## <br>Testes

#### Serão realizados 4 Testes diferentes para responder as 4 perguntas.

- 3 Testes para Variáveis Numéricas
- 1 Teste para Variável Categórica

## <br>Perguntas

- 1) O consumo médio de largura de banda do mês anterior ao upgrade foi maior que 50? <br>
(Neste caso usaremos um **Teste t de Uma Amostra**)<br><br>
- 2) O consumo médio de largura de banda do primeiro mês após ao upgrade foi maior que 54? <br>
(Neste caso usaremos um **Teste t de Uma Amostra**)<br><br>
- 3) Houve diferença de consumo de largura de banda antes e depois do upgrade, considerando o primeiro mês após o upgrade?<br>
(Neste caso usaremos: **Teste t de Duas Amostras (Pareado)**)<br><br>
- 4) O gênero do cliente influenciou o consumo de largura de banda no primeiro mês após o upgrade? <br>
(Neste caso usaremos: **Teste t de Duas Amostras Independentes**)<br><br>
- 5) Há alguma relação entre região e segmento do cliente?<br>
(Neste caso usaremos: **Teste do Qui-Quadrado**)<br><br><br>

In [3]:
# Imports

import pandas as pd
import numpy as np
import scipy.stats as stats

## <br><br>Carregando os Dados

In [4]:
# Carrega os dados
df = pd.read_csv(r"dados/dataset.csv")

In [5]:
# Dimensão
df.shape

(200, 10)

In [6]:
# Visualizando
df.head()

Unnamed: 0,id_cliente,genero,canal_atendimento,regiao,estado_civil,segmento,consumo_medio_mensal_antes_upgrade,consumo_medio_mes_anterior_ao_upgrade,consumo_medio_primeiro_mes_apos_upgrade,consumo_medio_segundo_mes_apos_upgrade
0,70,0,4,1,1,1,57,49.2,52,57.2
1,121,1,4,2,1,3,68,63.6,59,64.9
2,86,0,4,3,1,1,44,64.8,33,36.3
3,141,0,4,3,1,3,63,56.4,44,48.4
4,172,0,4,2,1,2,47,68.4,52,57.2


In [7]:
# Verificando Nome de Colunas
df.columns

Index(['id_cliente', 'genero', 'canal_atendimento', 'regiao', 'estado_civil',
       'segmento', 'consumo_medio_mensal_antes_upgrade',
       'consumo_medio_mes_anterior_ao_upgrade',
       'consumo_medio_primeiro_mes_apos_upgrade',
       'consumo_medio_segundo_mes_apos_upgrade'],
      dtype='object')

In [8]:
# Info
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 10 columns):
 #   Column                                   Non-Null Count  Dtype  
---  ------                                   --------------  -----  
 0   id_cliente                               200 non-null    int64  
 1   genero                                   200 non-null    int64  
 2   canal_atendimento                        200 non-null    int64  
 3   regiao                                   200 non-null    int64  
 4   estado_civil                             200 non-null    int64  
 5   segmento                                 200 non-null    int64  
 6   consumo_medio_mensal_antes_upgrade       200 non-null    int64  
 7   consumo_medio_mes_anterior_ao_upgrade    200 non-null    float64
 8   consumo_medio_primeiro_mes_apos_upgrade  200 non-null    int64  
 9   consumo_medio_segundo_mes_apos_upgrade   200 non-null    float64
dtypes: float64(2), int64(8)
memory usage: 15.8 KB


In [9]:
# Describe
df.describe()

Unnamed: 0,id_cliente,genero,canal_atendimento,regiao,estado_civil,segmento,consumo_medio_mensal_antes_upgrade,consumo_medio_mes_anterior_ao_upgrade,consumo_medio_primeiro_mes_apos_upgrade,consumo_medio_segundo_mes_apos_upgrade
count,200.0,200.0,200.0,200.0,200.0,200.0,200.0,200.0,200.0,200.0
mean,100.5,0.545,3.43,2.055,1.16,2.025,52.23,63.174,52.775,58.0525
std,57.879185,0.49922,1.039472,0.724291,0.367526,0.690477,10.252937,11.242137,9.478586,10.426445
min,1.0,0.0,1.0,1.0,1.0,1.0,28.0,39.6,31.0,34.1
25%,50.75,0.0,3.0,2.0,1.0,2.0,44.0,54.0,45.75,50.325
50%,100.5,1.0,4.0,2.0,1.0,2.0,50.0,62.4,54.0,59.4
75%,150.25,1.0,4.0,3.0,1.0,2.25,60.0,70.8,60.0,66.0
max,200.0,1.0,4.0,3.0,2.0,3.0,76.0,90.0,67.0,73.7


<br><br>
# <center>Perguntas</center><br><br>

## Pergunta 1: 

### O consumo médio de largura de banda do mês anterior ao upgrade foi maior que 50?

### Neste caso usaremos um Teste t de Uma Amostra.

https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_1samp.html

**Quando usar**: O Teste t de Uma Amostra é usado quando queremos comparar a média de uma amostra única com uma média populacional conhecida ou suposta, na ausência de informações sobre o desvio padrão da população.

**Por quê usar**: Este teste é útil quando temos uma pequena amostra (tipicamente menos que 30) e não conhecemos o desvio padrão da população. Ele nos ajuda a entender se a média da amostra é significativamente diferente da média populacional proposta.

**Motivo da escolha**: O Teste t de Uma Amostra foi escolhido para essa situação específica porque ele é adequado para avaliar a média de uma única amostra de dados contra uma média populacional conhecida ou uma média de referência específica. Neste caso, você quer testar se o consumo médio de largura de banda do mês anterior ao upgrade é significativamente diferente de 50 (um valor especificado). 

Hipóteses:

- **H0**: O consumo médio de largura de banda antes do upgrade foi igual a 50.

- **H1**: O consumo médio de largura de banda antes do upgrade foi diferente de 50.

Se o valor-p for menor que 0,05 rejeitamos a H0. Caso contrário, falhamos em rejeitar a H0.

Se um valor-p relatado a partir de um teste t for menor que 0,05, esse resultado é considerado estatisticamente significativo. Se um valor-p for maior que 0,05, o resultado é insignificante.

Um valor-p de um teste t é a probabilidade de que os resultados de seus dados de amostra tenham ocorrido por acaso.

## Pergunta 2: 

### O consumo médio de largura de banda do primeiro mês após ao upgrade foi maior que 54?

### Neste caso usaremos um Teste t de Uma Amostra.

**Motivo da escolha**: O Teste t de Uma Amostra foi escolhido para esta situação específica porque ele permite avaliar se a média do consumo de largura de banda após o upgrade difere de um valor específico, neste caso, 54. A pergunta específica busca determinar se houve um aumento significativo no consumo médio de largura de banda após o upgrade em comparação a um limiar de 54.

Hipóteses:

- **H0**: O consumo médio de largura de banda no primeiro mês após o upgrade é igual ou menor que 54. Matematicamente, isso pode ser expresso como H0: μ ≤ 54.

- **H1**: O consumo médio de largura de banda no primeiro mês após o upgrade é maior que 54. Em termos matemáticos, isso seria H1: μ > 54.

Se o valor-p for menor que 0,05 rejeitamos a H0. Caso contrário, falhamos em rejeitar a H0.

Se um valor-p relatado a partir de um teste t for menor que 0,05, esse resultado é considerado estatisticamente significativo. Se um valor-p for maior que 0,05, o resultado é insignificante.

Um valor-p de um teste t é a probabilidade de que os resultados de seus dados de amostra tenham ocorrido por acaso.