# <font color='blue'>Data Science Academy</font>
# <font color='blue'>Big Data Real-Time Analytics com Python e Spark</font>

# <br><br><font color='darkgreen'><center>Testes de Hipótese em Linguagem Python Para Problemas de Negócio em Telecom</center></font>

## <br><br>Contexto

- Um provedor de internet oferece diversos tipos de planos de acesso com diferentes larguras de banda. A empresa então fez um upgrade da sua infraestrutura e gostaria de validar algumas hipóteses sobre o consumo de largura de banda dos clientes.
- A empresa possuía dados do consumo médio de largura de banda antes do upgrade e registrou o consumo no primeiro mês após o upgrade, no segundo mês e no mês anterior ao upgrade. Os dados foram registrados junto com algumas características dos clientes.
- Algumas perguntas de negócio foram formuladas e agora iremos respondê-las através de **4 testes de hipótese**.
- Os dados usados são fictícios.

## <br>Objetivo

#### O objetivo deste projeto é demonstrar na pŕatica como utilizamos um Teste de Hipóteste do início ao fim.

- Iniciando com a formulação do problema.
- Escolha do teste ideal para o problema.
- Formulação das hipóteses.
- Preparação dos Dados (se necessário).
- Execução do Teste
- Interpretação do resultado do Teste.

## <br>Testes

#### Serão realizados 4 Testes diferentes para responder as 4 perguntas.

- 3 Testes para Variáveis Numéricas
- 1 Teste para Variável Categórica

## <br>Perguntas

- 1) O consumo médio de largura de banda do mês anterior ao upgrade foi maior que 50? <br>
(Neste caso usaremos um **Teste t de Uma Amostra**)<br><br>
- 2) O consumo médio de largura de banda do primeiro mês após ao upgrade foi maior que 54? <br>
(Neste caso usaremos um **Teste t de Uma Amostra**)<br><br>
- 3) Houve diferença de consumo de largura de banda antes e depois do upgrade, considerando o primeiro mês após o upgrade?<br>
(Neste caso usaremos: **Teste t de Duas Amostras (Pareado)**)<br><br>
- 4) O gênero do cliente influenciou o consumo de largura de banda no primeiro mês após o upgrade? <br>
(Neste caso usaremos: **Teste t de Duas Amostras Independentes**)<br><br>
- 5) Há alguma relação entre região e segmento do cliente?<br>
(Neste caso usaremos: **Teste do Qui-Quadrado**)<br><br><br><br>

- ## Novas Perguntas <br><br>

- 6) Houve melhoria significativa no consumo médio do segundo mês após o upgrade em comparação ao consumo medio mensal antes do upgrade?<br>
(Neste caso usaremos: **Teste t de Duas Amostras (Pareado)**)<br><br>
- 7) Existe diferença de uso do cartão de crédito entre homens e mulheres?<br>
(Neste caso usaremos: **Teste t de Duas Amostras Independentes**)<br><br>
- 8) Existe diferença entre os segmentos de clientes em termos de uso do cartão de crédito?<br>
(Neste caso usaremos: ****)<br><br>
- 9) Existe uma relação entre o uso do cartão no último mês e o uso pré-campanha?<br><br><br>

## <br>Suposições antes de Aplicar os Testes

Ao realizar testes estatísticos, é fundamental garantir que as condições para a validade dos testes sejam satisfeitas para obter resultados confiáveis. <br>

### Teste t de Uma Amostra
- Objetivo: Comparar a média de uma amostra com um valor específico.

**Condições a verificar:**

- Normalidade: Os dados devem ser aproximadamente normalmente distribuídos. A normalidade pode ser verificada usando testes como Shapiro-Wilk para amostras menores ou visualmente através de Q-Q plots.
- Independência: As observações devem ser independentes umas das outras.
- Outliers: Verifique a presença de outliers que podem influenciar a média de maneira significativa. Outliers podem ser tratados ou removidos conforme necessário para evitar distorções nos resultados.

### Teste t de Duas Amostras (Pareado)
- Objetivo: Comparar as médias de duas amostras relacionadas ou pareadas.

**Condições a verificar:**

- Diferenças Pareadas Normais: As diferenças entre os pares devem seguir uma distribuição aproximadamente normal.
- Pares Dependentes: Os pares devem ser dependências naturais ou lógicas, como medidas antes e depois em um mesmo sujeito ou medidas em sujeitos pareados.
- Outliers: Assim como no teste de uma amostra, avaliar e tratar outliers nas diferenças entre os pares é crucial para não distorcer as comparações.

### Teste t de Duas Amostras Independentes
- Objetivo: Comparar as médias de duas amostras independentes.

**Condições a verificar:**

- Normalidade: Ambas as amostras devem ser aproximadamente normais. Testes de normalidade devem ser aplicados separadamente a cada grupo.
- Independência: As duas amostras devem ser coletadas independentemente, sem sobreposição entre os grupos.
- Homogeneidade de Variâncias (Homocedasticidade): As variâncias dos dois grupos devem ser similares, o que pode ser testado pelo Teste de Levene ou Teste F.
- Outliers: Avaliar e potencialmente ajustar outliers em cada grupo para evitar efeitos distorcidos nas médias.

### Teste do Qui-Quadrado
- Objetivo: Avaliar a independência entre duas variáveis categóricas.

**Condições a verificar:**

- Tamanho da Amostra Adequado: Cada célula da tabela de contingência deve ter pelo menos 5 observações. Se algumas células tiverem menos de 5, considerar agrupar categorias.
- Independência das Observações: As observações devem ser coletadas de forma independente, e cada observação pode ser classificada em apenas uma célula da tabela de contingência.
- Amostra Grande o Suficiente: O teste do qui-quadrado é mais confiável quando o tamanho da amostra é grande. Se o número total de observações é muito pequeno, o teste pode não ter poder estatístico adequado.

### Para esta lista de perguntas estamos partindo do princípio que as validações foram atendidas.<br><br><br>

In [1]:
# Imports

import pandas as pd
import numpy as np
import scipy.stats as stats

## <br><br>Carregando os Dados

In [2]:
# Carrega os dados
df = pd.read_csv(r"dados/dataset.csv")

In [3]:
# Dimensão
df.shape

(200, 10)

In [4]:
# Visualizando
df.head()

Unnamed: 0,id_cliente,genero,canal_atendimento,regiao,estado_civil,segmento,consumo_medio_mensal_antes_upgrade,consumo_medio_mes_anterior_ao_upgrade,consumo_medio_primeiro_mes_apos_upgrade,consumo_medio_segundo_mes_apos_upgrade
0,70,0,4,1,1,1,57,49.2,52,57.2
1,121,1,4,2,1,3,68,63.6,59,64.9
2,86,0,4,3,1,1,44,64.8,33,36.3
3,141,0,4,3,1,3,63,56.4,44,48.4
4,172,0,4,2,1,2,47,68.4,52,57.2


In [5]:
# Verificando Nome de Colunas
df.columns

Index(['id_cliente', 'genero', 'canal_atendimento', 'regiao', 'estado_civil',
       'segmento', 'consumo_medio_mensal_antes_upgrade',
       'consumo_medio_mes_anterior_ao_upgrade',
       'consumo_medio_primeiro_mes_apos_upgrade',
       'consumo_medio_segundo_mes_apos_upgrade'],
      dtype='object')

In [6]:
# Info
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 10 columns):
 #   Column                                   Non-Null Count  Dtype  
---  ------                                   --------------  -----  
 0   id_cliente                               200 non-null    int64  
 1   genero                                   200 non-null    int64  
 2   canal_atendimento                        200 non-null    int64  
 3   regiao                                   200 non-null    int64  
 4   estado_civil                             200 non-null    int64  
 5   segmento                                 200 non-null    int64  
 6   consumo_medio_mensal_antes_upgrade       200 non-null    int64  
 7   consumo_medio_mes_anterior_ao_upgrade    200 non-null    float64
 8   consumo_medio_primeiro_mes_apos_upgrade  200 non-null    int64  
 9   consumo_medio_segundo_mes_apos_upgrade   200 non-null    float64
dtypes: float64(2), int64(8)
memory usage: 15.8 KB


In [7]:
# Describe
df.describe()

Unnamed: 0,id_cliente,genero,canal_atendimento,regiao,estado_civil,segmento,consumo_medio_mensal_antes_upgrade,consumo_medio_mes_anterior_ao_upgrade,consumo_medio_primeiro_mes_apos_upgrade,consumo_medio_segundo_mes_apos_upgrade
count,200.0,200.0,200.0,200.0,200.0,200.0,200.0,200.0,200.0,200.0
mean,100.5,0.545,3.43,2.055,1.16,2.025,52.23,63.174,52.775,58.0525
std,57.879185,0.49922,1.039472,0.724291,0.367526,0.690477,10.252937,11.242137,9.478586,10.426445
min,1.0,0.0,1.0,1.0,1.0,1.0,28.0,39.6,31.0,34.1
25%,50.75,0.0,3.0,2.0,1.0,2.0,44.0,54.0,45.75,50.325
50%,100.5,1.0,4.0,2.0,1.0,2.0,50.0,62.4,54.0,59.4
75%,150.25,1.0,4.0,3.0,1.0,2.25,60.0,70.8,60.0,66.0
max,200.0,1.0,4.0,3.0,2.0,3.0,76.0,90.0,67.0,73.7


<br><br>
# <center>Perguntas</center><br><br>

## <font color='darkgreen'>Pergunta 1</font>: 

### -> O consumo médio de largura de banda do mês anterior ao upgrade foi maior que 50?

### Neste caso usaremos um Teste t de Uma Amostra.

https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_1samp.html <br><br>

**Quando usar**: O Teste t de Uma Amostra é usado quando queremos comparar a média de uma amostra única com uma média populacional conhecida ou suposta, na ausência de informações sobre o desvio padrão da população.

**Por quê usar**: Este teste é útil quando temos uma pequena amostra (tipicamente menos que 30) e não conhecemos o desvio padrão da população. Ele nos ajuda a entender se a média da amostra é significativamente diferente da média populacional proposta.

**Motivo da escolha**: O Teste t de Uma Amostra foi escolhido para essa situação específica porque ele é adequado para avaliar a média de uma única amostra de dados contra uma média populacional conhecida ou uma média de referência específica. Neste caso, você quer testar se o consumo médio de largura de banda do mês anterior ao upgrade é significativamente diferente de 50 (um valor especificado).<br><br>

<big><u>Hipóteses</u></big>:

- **H0**: O consumo médio de largura de banda antes do upgrade foi igual a 50.

- **H1**: O consumo médio de largura de banda antes do upgrade foi diferente de 50.

Se o valor-p for menor que 0,05 rejeitamos a H0. Caso contrário, falhamos em rejeitar a H0.

Se um valor-p relatado a partir de um teste t for menor que 0,05, esse resultado é considerado estatisticamente significativo. Se um valor-p for maior que 0,05, o resultado é insignificante.

Um valor-p de um teste t é a probabilidade de que os resultados de seus dados de amostra tenham ocorrido por acaso.

In [8]:
# Executa o teste (popman é a média populacional dada)
stats.ttest_1samp(a = df.consumo_medio_mes_anterior_ao_upgrade, popmean = 50)

TtestResult(statistic=16.57233752433133, pvalue=2.4963719280931583e-39, df=199)

#### Interpretando o valor de p
- Como o valor-p **2.4963719280931583e-39** é muito pequeno (menor que 0.05), rejeitamos a H0 e consideramos como verdadeira a H1.
- O consumo médio de largura de banda antes do upgrade foi diferente de 50.<br><br><br><br>

## <font color='darkgreen'>Pergunta 2</font>: 

### -> O consumo médio de largura de banda do primeiro mês após ao upgrade foi maior que 54?

### Neste caso usaremos um Teste t de Uma Amostra. <br>

**Motivo da escolha**: O Teste t de Uma Amostra foi escolhido para esta situação específica porque ele permite avaliar se a média do consumo de largura de banda após o upgrade difere de um valor específico, neste caso, 54. A pergunta específica busca determinar se houve um aumento significativo no consumo médio de largura de banda após o upgrade em comparação a um limiar de 54.<br><br>

<big><u>Hipóteses</u></big>:

- **H0**: O consumo médio de largura de banda no primeiro mês após o upgrade é igual ou menor que 54. Matematicamente, isso pode ser expresso como H0: μ ≤ 54.

- **H1**: O consumo médio de largura de banda no primeiro mês após o upgrade é maior que 54. Em termos matemáticos, isso seria H1: μ > 54.

Se o valor-p for menor que 0,05 rejeitamos a H0. Caso contrário, falhamos em rejeitar a H0.

Se um valor-p relatado a partir de um teste t for menor que 0,05, esse resultado é considerado estatisticamente significativo. Se um valor-p for maior que 0,05, o resultado é insignificante.

Um valor-p de um teste t é a probabilidade de que os resultados de seus dados de amostra tenham ocorrido por acaso.

In [9]:
# Verifica nome das colunas
df.columns

Index(['id_cliente', 'genero', 'canal_atendimento', 'regiao', 'estado_civil',
       'segmento', 'consumo_medio_mensal_antes_upgrade',
       'consumo_medio_mes_anterior_ao_upgrade',
       'consumo_medio_primeiro_mes_apos_upgrade',
       'consumo_medio_segundo_mes_apos_upgrade'],
      dtype='object')

In [10]:
# Executa o teste (popman é a média populacional dada)
stats.ttest_1samp(a = df.consumo_medio_primeiro_mes_apos_upgrade, popmean = 54)

TtestResult(statistic=-1.827711021452149, pvalue=0.06909045807247792, df=199)

#### Interpretando o valor de p
- Como o valor-p **0.06909045807247792** é maior que 0.05, falhamos em rejeitar a H0 e consideramos como falsa a H1.
- Isso significa que não temos evidências suficientes para afirmar que o consumo médio de largura de banda no primeiro mês após o upgrade é maior que 54. Em outras palavras, o aumento observado no consumo de largura de banda não é estatisticamente significativo ao nível de 5% de significância.<br><br><br><br>

## <font color='darkgreen'>Pergunta 3</font>:  

### -> Houve diferença de consumo de largura de banda antes e depois do upgrade, considerando o primeiro mês após o upgrade?

### Neste caso usaremos: Teste t de Duas Amostras (Pareado).

https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_rel.html

Este teste é usado quando temos duas amostras que são relacionadas ou dependentes. Este é um teste para a hipótese nula de que duas amostras relacionadas têm valores médios (esperados) idênticos. <br><br>

**Quando usar**: Este teste é utilizado quando as medições são feitas em pares correlacionados, ou seja, quando duas amostras estão relacionadas de alguma maneira (antes e depois, por exemplo).

**Por quê usar**: O Teste t Pareado é útil para reduzir a variabilidade entre as amostras que poderia ser causada por variáveis não controladas, focando na diferença dentro dos pares. Isso é especialmente útil em estudos longitudinais ou estudos que envolvem medições repetidas.

**Motivo da escolha**: O Teste t Pareado foi escolhido porque é especificamente projetado para comparar duas amostras relacionadas, que neste caso são as medidas de consumo de largura de banda antes e depois do upgrade para os mesmos clientes. Esse teste é ideal para avaliar a diferença significativa causada pelo upgrade, controlando as variáveis inerentes aos indivíduos que não mudam com o tempo. Ele fornece uma análise direta e eficaz da mudança induzida pelo upgrade ao focar nas diferenças dentro dos mesmos sujeitos, aumentando assim a precisão e a relevância dos resultados estatísticos para a pergunta de pesquisa.<br><br>

<big><u>Hipóteses</u></big>:

- H0: O consumo antes do upgrade foi igual ao consumo após o upgrade (as médias são iguais).
- H1: O consumo antes do upgrade foi diferente do consumo após o upgrade (as médias não são iguais).

Se o valor-p for menor que 0,05 rejeitamos a H0. Caso contrário, falhamos em rejeitar a H0.

In [11]:
# Verificando Nome das Colunas
df.columns

Index(['id_cliente', 'genero', 'canal_atendimento', 'regiao', 'estado_civil',
       'segmento', 'consumo_medio_mensal_antes_upgrade',
       'consumo_medio_mes_anterior_ao_upgrade',
       'consumo_medio_primeiro_mes_apos_upgrade',
       'consumo_medio_segundo_mes_apos_upgrade'],
      dtype='object')

In [12]:
# Executa o teste
stats.ttest_rel(a = df.consumo_medio_mensal_antes_upgrade, b = df.consumo_medio_primeiro_mes_apos_upgrade)

TtestResult(statistic=-0.8673065458794775, pvalue=0.3868186820914985, df=199)

#### Interpretando o valor de p
- Como o valor-p **0.3868186820914985** é maior que 0,05, falhamos em rejeitar a hipótese nula. Logo, o consumo médio no primeiro mês após o upgrade foi similar ao consumo médio antes do upgrade.

<br><br><br><br>

## <font color='darkgreen'>Pergunta 4</font>:

### -> O gênero do cliente influenciou o consumo de largura de banda no primeiro mês após o upgrade?

### Neste caso usaremos: Teste t de Duas Amostras Independentes.

https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_ind.html

Calculamos o Teste t para as médias de duas amostras independentes. Este é um teste para a hipótese nula de que 2 amostras independentes têm valores médios (esperados) idênticos. Este teste assume que as populações têm variâncias idênticas por padrão. <br><br>

**Quando usar**: Este teste é aplicado quando queremos comparar as médias de duas amostras independentes de duas populações.

**Por quê usar**: Ele é útil quando duas amostras são coletadas de forma independente uma da outra e queremos avaliar se existe uma diferença estatisticamente significativa entre suas médias.

**Motivo da escolha**: O Teste t de Duas Amostras Independentes foi escolhido para analisar se há diferenças no consumo de largura de banda entre gêneros após um upgrade, porque permite comparar diretamente as médias de dois grupos independentes formados com base no gênero dos clientes. Este teste é particularmente adequado aqui, pois cada grupo (masculino e feminino) é tratado como uma amostra separada, sem dependência ou relação direta entre as observações dos dois grupos. Assim, o teste oferece um meio eficaz de verificar se as diferenças observadas no consumo médio de largura de banda são estatisticamente significativas entre homens e mulheres, ajudando a determinar se o upgrade teve impactos diferenciados baseados no gênero. <br><br>

<big><u>Hipóteses</u></big>:

- H0: Consumo de clientes do sexo masculino foi igual ao consumo de clientes do sexo feminino no primeiro mês após o upgrade (consumo médio foi igual entre os gêneros).

- H1: Consumo de clientes do sexo masculino não foi igual ao consumo de clientes do sexo feminino no primeiro mês após o upgrade (consumo médio não foi igual entre os gêneros).

Se o valor-p for menor que 0,05 rejeitamos a H0. Caso contrário, falhamos em rejeitar a H0.

In [13]:
# Verificando Nome das Colunas
df.columns

Index(['id_cliente', 'genero', 'canal_atendimento', 'regiao', 'estado_civil',
       'segmento', 'consumo_medio_mensal_antes_upgrade',
       'consumo_medio_mes_anterior_ao_upgrade',
       'consumo_medio_primeiro_mes_apos_upgrade',
       'consumo_medio_segundo_mes_apos_upgrade'],
      dtype='object')

In [14]:
# Separando as amostras em grupos
consumo_cliente_masculino = df.consumo_medio_primeiro_mes_apos_upgrade[df.genero == 0]
consumo_cliente_feminino = df.consumo_medio_primeiro_mes_apos_upgrade[df.genero == 1]

In [15]:
# Verificando primeiros resultados de cada grupo

print(consumo_cliente_feminino.head())
print(consumo_cliente_masculino.head())

1     59
92    62
93    44
94    44
95    62
Name: consumo_medio_primeiro_mes_apos_upgrade, dtype: int64
0    52
2    33
3    44
4    52
5    52
Name: consumo_medio_primeiro_mes_apos_upgrade, dtype: int64


In [16]:
# Verificando a Média de cada grupo

print(consumo_cliente_feminino.mean())
print(consumo_cliente_masculino.mean())

54.99082568807339
50.120879120879124


In [17]:
# Verificando a Variância de cada grupo

print(consumo_cliente_feminino.var())
print(consumo_cliente_masculino.var())

66.15732246007477
106.19633699633701


In [18]:
# Executa o teste
stats.ttest_ind(a = consumo_cliente_masculino, b = consumo_cliente_feminino, equal_var = False)

TtestResult(statistic=-3.656408047887528, pvalue=0.000340884935942662, df=169.7073800375754)

#### Interpretando o valor de p
- Como o valor-p **0.000340884935942662** é menor que 0,05, rejeitamos a H0. Assim, concluímos que houve diferença entre o consumo masculino e o consumo feminino de largura de banda no primeiro mês após o upgrade.

<br><br><br><br>

## <font color='darkgreen'>Pergunta 5</font>: 

### -> Há alguma relação entre região e segmento do cliente?

### Neste caso usaremos: Teste do Qui-Quadrado.

https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chi2_contingency.html

Teste qui-quadrado de independência de variáveis é usado em uma tabela de contingência. A função calcula a estatística qui-quadrado e o valor-p para o teste de hipótese de independência das frequências observadas na tabela de contingência. As frequências esperadas são calculadas com base nas somas marginais sob o pressuposto de independência.<br><br>

**Quando usar**: O teste do Qui-Quadrado é usado para avaliar se há uma associação significativa entre duas variáveis categóricas.

**Por quê usar**: É útil para determinar se as diferenças nas contagens ou frequências observadas em categorias são devidas ao acaso ou a uma associação real entre as variáveis.

**Motivo da escolha**: O Teste do Qui-Quadrado foi escolhido porque é o método padrão para investigar a independência entre duas variáveis categóricas. Neste caso, as variáveis são 'região' e 'segmento' do cliente. Este teste é ideal para determinar se as distribuições dos segmentos variam significativamente entre diferentes regiões, ou se elas são independentes uma da outra. Utilizando este teste, podemos validar estatisticamente se há ou não uma associação entre a localização geográfica dos clientes e seus segmentos de mercado, o que é crucial para entender a dinâmica do mercado e para o planejamento estratégico de marketing e vendas. <br><br>

<big><u>Hipóteses</u></big>:

- H0: Não há relacionamento entre região e segmento.
- H1: Há relacionamento entre região e segmento.

Se o valor-p for menor que 0,05 rejeitamos a H0. Caso contrário, falhamos em rejeitar a H0.

In [19]:
# Visualizando
df.head()

Unnamed: 0,id_cliente,genero,canal_atendimento,regiao,estado_civil,segmento,consumo_medio_mensal_antes_upgrade,consumo_medio_mes_anterior_ao_upgrade,consumo_medio_primeiro_mes_apos_upgrade,consumo_medio_segundo_mes_apos_upgrade
0,70,0,4,1,1,1,57,49.2,52,57.2
1,121,1,4,2,1,3,68,63.6,59,64.9
2,86,0,4,3,1,1,44,64.8,33,36.3
3,141,0,4,3,1,3,63,56.4,44,48.4
4,172,0,4,2,1,2,47,68.4,52,57.2


In [20]:
# Info (constatamos que regiao e segmento são variáveis categóricas)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 10 columns):
 #   Column                                   Non-Null Count  Dtype  
---  ------                                   --------------  -----  
 0   id_cliente                               200 non-null    int64  
 1   genero                                   200 non-null    int64  
 2   canal_atendimento                        200 non-null    int64  
 3   regiao                                   200 non-null    int64  
 4   estado_civil                             200 non-null    int64  
 5   segmento                                 200 non-null    int64  
 6   consumo_medio_mensal_antes_upgrade       200 non-null    int64  
 7   consumo_medio_mes_anterior_ao_upgrade    200 non-null    float64
 8   consumo_medio_primeiro_mes_apos_upgrade  200 non-null    int64  
 9   consumo_medio_segundo_mes_apos_upgrade   200 non-null    float64
dtypes: float64(2), int64(8)
memory usage: 15.8 KB


#### Tabeça de Contingencia com os Totais

In [21]:
# Criando Tabela de Contingência sem os totais
tabela_cont = pd.crosstab(df.segmento, df.regiao, margins = True)
tabela_cont

regiao,1,2,3,All
segmento,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,16,20,9,45
2,19,44,42,105
3,12,31,7,50
All,47,95,58,200


#### Tabeça de Contingencia sem os Totais

In [22]:
# Criando Tabela de Contingência sem os totais
tabela_cont2 = pd.crosstab(df.segmento, df.regiao)
tabela_cont2

regiao,1,2,3
segmento,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,16,20,9
2,19,44,42
3,12,31,7


#### Executa o teste com Tabela com Totais

In [23]:
# Executa o Teste na Tabela
chi2, p, dof, ex = stats.chi2_contingency(observed = tabela_cont)

In [24]:
# Verifica o valor de p
p

0.055282939487992365

#### Interpretando o valor de p (tabela com totais)
- Como o valor-p **0.055282939487992365** maior que 0.05, falhamos em rejeitar a H0 e podemos dizer que não há relação entre região e segmento do cliente.

<br><br>

#### Executa o teste com Tabela sem Totais

In [25]:
# Executa o Teste na Tabela
chi2, p, dof, ex = stats.chi2_contingency(observed = tabela_cont2)

In [26]:
# Verifica o valor de p
p

0.0023066300908054713

#### Interpretando o valor de p (tabela sem totais)
- Como o valor-p **0.0023066300908054713** menor que 0.05, rejeitamos a H0 e podemos dizer que há relação entre região e segmento do cliente.

<br><br><br><br>

## <font color='darkgreen'>Pergunta 6</font>: 

### -> Houve melhoria significativa no consumo médio do segundo mês após o upgrade em comparação ao consumo medio mensal antes do upgrade?

### Neste caso usaremos: Teste t de Duas Amostras (Pareado) <br>

**Por quê usar**: É apropriado para comparar medidas de consumo em dois momentos diferentes (antes e após o upgrade) nos mesmos indivíduos ou unidades.

**Motivo da escolha**: Esta análise pode ajudar a determinar se os efeitos do upgrade foram sustentados ao longo do tempo, ao invés de apenas uma melhoria imediata no primeiro mês. <br><br>

<big><u>Hipóteses</u></big>:

- H0: O consumo antes do upgrade foi igual ao consumo após o segundo mês após o upgrade (as médias são iguais).
- H1: O consumo antes do upgrade foi diferente do consumo após o segundo mês após o upgrade (as médias não são iguais).

Se o valor-p for menor que 0,05 rejeitamos a H0. Caso contrário, falhamos em rejeitar a H0.

In [27]:
# Verifica Nome das Colunas
df.columns

Index(['id_cliente', 'genero', 'canal_atendimento', 'regiao', 'estado_civil',
       'segmento', 'consumo_medio_mensal_antes_upgrade',
       'consumo_medio_mes_anterior_ao_upgrade',
       'consumo_medio_primeiro_mes_apos_upgrade',
       'consumo_medio_segundo_mes_apos_upgrade'],
      dtype='object')

In [28]:
# Verifica as médias
print(df.consumo_medio_mensal_antes_upgrade.mean())
print(df.consumo_medio_segundo_mes_apos_upgrade.mean())

52.23
58.0525


In [29]:
# Executa o teste
stats.ttest_rel(a = df.consumo_medio_mensal_antes_upgrade, b = df.consumo_medio_segundo_mes_apos_upgrade)

TtestResult(statistic=-8.866832246938742, pvalue=4.295733828012836e-16, df=199)

#### Interpretando o valor de p
- Como o valor-p **4.295733828012836e-16** é menor que 0,05, rejeitamos a hipótese nula. Logo, o consumo médio no segundo mês após o upgrade foi diferente do consumo médio antes do upgrade.



<br><br><br><br>

## <font color='darkgreen'>Pergunta 7</font>: 

### -> Existe diferença de uso do cartão de crédito entre homens e mulheres?

### Neste caso usaremos:  Teste t de Duas Amostras Independentes<br>

**Quando usar**: Este teste é apropriado quando queremos comparar as médias de duas amostras independentes.

**Por quê usar**: O teste é útil para avaliar se existe uma diferença estatisticamente significativa entre os dois grupos que não estão relacionados entre si, como é o caso de grupos separados por gênero.

**Motivo da escolha**: Este teste foi escolhido porque permite uma comparação direta entre os dois grupos independentes - homens e mulheres - em termos de uso do cartão de crédito medido pelo consumo médio. Ele é ideal para identificar diferenças baseadas em características demográficas nos dados.<br><br>

<big><u>Hipóteses</u></big>:

- H0: Não existe diferença no consumo médio do cartão de crédito entre homens e mulheres (as médias de consumo são iguais entre os gêneros).
- H1: Existe uma diferença no consumo médio do cartão de crédito entre homens e mulheres (as médias de consumo não são iguais entre os gêneros).

Se o valor-p for menor que 0,05 rejeitamos a H0. Caso contrário, falhamos em rejeitar a H0.

In [30]:
# Verificando Nome das Colunas
df.columns

Index(['id_cliente', 'genero', 'canal_atendimento', 'regiao', 'estado_civil',
       'segmento', 'consumo_medio_mensal_antes_upgrade',
       'consumo_medio_mes_anterior_ao_upgrade',
       'consumo_medio_primeiro_mes_apos_upgrade',
       'consumo_medio_segundo_mes_apos_upgrade'],
      dtype='object')

#### Verificando Diferença No Consumo Médio Mensal Antes do Upgrade

In [31]:
# Separando as amostras em grupos
consumo_cliente_masculino_au = df.consumo_medio_mensal_antes_upgrade[df.genero == 0]
consumo_cliente_feminino_au = df.consumo_medio_mensal_antes_upgrade[df.genero == 1]

In [32]:
# Verificando a média
print(consumo_cliente_masculino_au.mean())
print(consumo_cliente_feminino_au.mean())

52.824175824175825
51.73394495412844


In [33]:
# Executa o teste
stats.ttest_ind(a = consumo_cliente_masculino_au, b = consumo_cliente_feminino_au, equal_var = False)

TtestResult(statistic=0.7450643492281378, pvalue=0.45716095076827834, df=188.46309743766824)

#### Interpretando o valor de p
- Como o valor-p **0.45716095076827834** é maior que 0.05, falhamos em rejeitar a H0 e podemos dizer que estatisticamente não houve diferença entre o consumo masculino e o consumo feminino mensal antes do upgrade.

<br>

#### Verificando Diferença No Consumo Médio do Segundo Mês Após o Upgrade

In [34]:
# Separando as amostras em grupos
consumo_cliente_masculino_du = df.consumo_medio_segundo_mes_apos_upgrade[df.genero == 0]
consumo_cliente_feminino_du = df.consumo_medio_segundo_mes_apos_upgrade[df.genero == 1]

In [35]:
# Verificando a média
print(consumo_cliente_masculino_du.mean())
print(consumo_cliente_feminino_du.mean())

55.132967032967024
60.48990825688074


In [36]:
# Executa o teste
stats.ttest_ind(a = consumo_cliente_masculino_du, b = consumo_cliente_feminino_du, equal_var = False)

TtestResult(statistic=-3.6564080478875405, pvalue=0.0003408849359426465, df=169.70738003757546)

#### Interpretando o valor de p
- Como o valor-p **0.0003408849359426465** é menor que 0,05, rejeitamos a H0. Assim, concluímos que estatisticamente houve diferença entre o consumo masculino e o consumo feminino mensal depois do segundo mês do upgrade.
<br><br>

#### CONCLUSÃO:
- Com base nos resultados dos testes, podemos concluir que estatisticamente não houve diferença significativa no uso do cartão de crédito entre homens e mulheres antes do upgrade, mas uma diferença significativa foi observada após o upgrade no segundo mês, indicando um possível impacto diferenciado do upgrade entre os gêneros.
<br><br><br><br>

## <font color='darkgreen'>Pergunta 8</font>: 

### -> Existe diferença entre os segmentos de clientes em termos de uso do cartão de crédito?

### Neste caso usaremos:   <br>

**Quando usar**: 

**Por quê usar**:

**Motivo da escolha**:  <br><br>

<big><u>Hipóteses</u></big>:

- H0: 
- H1: 

Se o valor-p for menor que 0,05 rejeitamos a H0. Caso contrário, falhamos em rejeitar a H0.

#### Interpretando o valor de p
- Como o valor-p 

<br><br><br><br>

## <font color='darkgreen'>Pergunta 9</font>: 

### -> Existe uma relação entre o uso do cartão no último mês e o uso pré-campanha?

### Neste caso usaremos:   <br>

**Quando usar**: 

**Por quê usar**:

**Motivo da escolha**:  <br><br>

<big><u>Hipóteses</u></big>:

- H0: 
- H1: 

Se o valor-p for menor que 0,05 rejeitamos a H0. Caso contrário, falhamos em rejeitar a H0.

#### Interpretando o valor de p
- Como o valor-p 

<br><br><br><br>

<br><br>

# Sobres os <u>Testes</u><br>

### 1. Teste t de Uma Amostra

- **Quando usar**: Este teste é utilizado quando queremos comparar a média de uma amostra com um valor conhecido ou hipotético.<br><br>
- **Exemplo**: Um fabricante de bolas de tênis afirma que suas bolas têm uma pressão interna de 2 psi. Para verificar essa afirmação, um técnico mede a pressão de uma amostra de 30 bolas. O Teste t de Uma Amostra pode ser usado para determinar se a média da pressão nas bolas da amostra é significativamente diferente de 2 psi.<br><br><br>

### 2. Teste t de Duas Amostras (Pareado)

- **Quando usar**: Usado quando as medições são feitas em pares correlacionados, geralmente em situações de "antes e depois" ou onde os sujeitos são os mesmos sob duas condições diferentes.<br><br>
- **Exemplo**: Um grupo de pacientes recebe um medicamento para reduzir a pressão arterial e suas pressões são medidas antes e depois da medicação. O Teste t Pareado pode ser usado para determinar se houve uma mudança significativa na pressão arterial média antes e depois da administração do medicamento.<br><br><br>

### 3. Teste t de Duas Amostras Independentes

- **Quando usar**: Este teste é apropriado quando duas amostras são independentes uma da outra e queremos comparar suas médias.<br><br>
- **Exemplo**: Dois grupos de estudantes, um usando um novo método de ensino e outro usando o método tradicional, são testados para desempenho acadêmico. O Teste t de Duas Amostras Independentes pode ser usado para ver se há uma diferença significativa nas pontuações médias entre os dois grupos.<br><br>

### 4. Teste do Qui-Quadrado

- **Quando usar**: Este teste é usado para determinar se há uma associação significativa entre duas variáveis categóricas.<br><br>
- **Exemplo**: Um pesquisador quer saber se há uma relação entre gênero (masculino e feminino) e preferência por três diferentes marcas de refrigerante. A análise Qui-Quadrado pode ser usada para ver se a preferência por marca é independente do gênero dos consumidores.<br><br>

### 5. Teste t de Welch
- **Quando usar**: Similar ao teste t de duas amostras, mas não assume igualdade de variâncias entre as duas amostras. É útil quando as amostras podem ter variâncias diferentes.<br><br>
- **Exemplo**: Dois grupos de estudantes, um de uma escola rural e outro de uma escola urbana, fazem um teste padronizado. Devido à possibilidade de variâncias diferentes nas pontuações devido a contextos educacionais distintos, o Teste t de Welch pode ser usado para comparar as médias das pontuações de ambos os grupos.<br><br>

### 6. Teste ANOVA (Análise de Variância)

- **Quando usar**: O teste ANOVA é usado para comparar as médias de três ou mais grupos independentes para determinar se pelo menos um dos grupos difere significativamente dos outros. É especialmente útil para testar a igualdade das médias em um design onde existem múltiplas categorias ou níveis de uma variável independente.
- **Exemplo**: Suponha que um nutricionista queira avaliar a eficácia de três diferentes dietas na perda de peso. Um grupo de participantes é dividido aleatoriamente em três grupos, cada um seguindo uma das dietas. Depois de três meses, o peso perdido por cada participante é registrado. O teste ANOVA pode ser usado para analisar se há diferenças significativas na média de peso perdido entre os três grupos de dietas. Se o teste ANOVA mostrar uma diferença estatisticamente significativa, testes post-hoc (como o teste de Tukey) podem ser realizados para determinar quais grupos específicos diferem entre si.

<br><br><br>
# Fim