# <h1 align="center"><font color="red">The Chi-squared test</font></h1>

<font color="yellow">Data Scientist.: Dr. Eddy Giusepe Chirinos Isidro</font>

Link de estudo:

* [Machine Learning Mastery: PhD. Jason Brownlee](https://machinelearningmastery.com/chi-squared-ames/?utm_source=drip&utm_medium=email&utm_campaign=Garage+or+Not%3F+Housing+Insights+Through+the+Chi-Squared+Test+for+Ames%2C+Iowa&utm_content=Garage+or+Not%3F)

# <font color="gree">Contextualizando</font>

<font color="orange">`The Chi-squared test` de independência é um procedimento estatístico empregado para avaliar a relação entre duas variáveis ​​categóricas – determinando se elas são associadas ou independentes. No dinâmico mundo imobiliário, onde o apelo visual de uma propriedade muitas vezes impacta a sua avaliação, a exploração torna-se particularmente intrigante. `Mas com que frequência você associa o fascínio externo de uma casa a features funcionais como uma garagem?` Utilizando o conjunto de dados `habitacionais de Ames`, esta exploração aprofunda-se em discernir se existe uma associação `estatisticamente significativa` entre a `qualidade externa de uma casa e a presença de uma garagem`. Ao navegar pelas águas estatísticas usando o `teste qui-quadrado`, você descobre insights intrigantes que são ao mesmo tempo esclarecedores e instigantes.</font>



Este Notebook está dividido em quatro partes; eles são:

* Compreendendo o `teste qui-quadrado`

* Como funciona o `teste qui-quadrado`

* Desvendando a associação entre qualidade externa e presença na garagem

* Advertências importantes

# <font color="gree">Compreendendo o teste qui-quadrado</font>

O teste qui-quadrado ($\chi^2$) é útil devido à sua capacidade de testar associações entre `variáveis ​​categóricas` . É particularmente valioso quando se trabalha com dados `nominais` ou `ordinais`, onde as variáveis ​​são divididas em categorias ou grupos. <font color="yellow">O objetivo principal do teste Qui-quadrado é determinar se existe uma associação estatisticamente significativa entre duas variáveis ​​​​categóricas.</font> Em outras palavras, ajuda a responder perguntas como:

* <font color="red">Duas variáveis ​​​​categóricas são independentes uma da outra?</font>
 
Se as variáveis ​​forem independentes, as alterações em uma variável não estão relacionadas com as alterações na outra. Não há associação entre elas.

* <font color="red">Existe uma associação significativa entre as duas variáveis ​​categóricas?</font>

Se as variáveis ​​estiverem associadas, as alterações em uma variável estão relacionadas às alterações na outra. O `teste Qui-quadrado` ajuda a quantificar se esta associação é estatisticamente significativa.


No seu estudo, você se concentra na qualidade externa de uma casa (categorizada como `“Ótima”` (Great) ou `“Média”` (Average)) e sua relação com a `presença ou ausência de garagem`. Para que os resultados do teste Qui-quadrado sejam válidos, as seguintes condições devem ser satisfeitas:

* `Independência`: As observações devem ser independentes, ou seja, a ocorrência de um resultado não deve afetar outro. Nosso conjunto de dados satisfaz isso, pois cada entrada representa uma casa distinta.

* `Tamanho da amostra`: O conjunto de dados não deve apenas ser amostrado aleatoriamente, mas também grande o suficiente para ser representativo. Nossos dados, provenientes de `Ames`, `Iowa`, atendem a esse critério.

* `Frequência Esperada`: Cada célula da tabela de contingência deve ter uma frequência esperada de pelo menos `5`. Isto é vital para a confiabilidade do teste, pois o `teste Qui-quadrado` depende de uma grande aproximação amostral. Você demonstrará essa condição abaixo criando e visualizando as frequências esperadas.

# <font color="gree">Como funciona o teste qui-quadrado?</font>

O `teste qui-quadrado` compara as frequências observadas dos dados com as frequências esperadas das suposições.

O `teste Qui-quadrado` funciona comparando as frequências observadas das categorias em uma tabela de contingência com as frequências esperadas que seriam esperadas sob o pressuposto de independência. A tabela de contingência é uma tabulação cruzada das duas variáveis ​​categóricas, mostrando quantas observações se enquadram em cada combinação de categorias.

* <font color="yellow">Hipótese Nula</font> ($H_0$): A hipótese nula no teste Qui-quadrado pressupõe independência entre as duas variáveis, ou seja, as frequências observadas (com ou sem garagem) devem coincidir.

* <font color="yellow">Hipótese alternativa</font> ($H_1$): A hipótese alternativa sugere que existe uma associação significativa entre as duas variáveis, ou seja, as frequências observadas (com ou sem garagem) deveriam diferir em função do valor de outra variável (qualidade da casa).

<font color="yellow">A estatística do `teste Qui-quadrado` é calculada comparando as frequências observadas e esperadas em cada célula da tabela de contingência.</font> `Quanto maior a diferença entre as frequências observadas e esperadas, maior se torna a estatística Qui-quadrado.` O teste Qui-quadrado produz um `p-value`, que indica a probabilidade de observar a associação observada (ou mais extrema) sob o pressuposto de independência. Se o `valor p` estiver abaixo de um nível $\alpha$ de significância escolhido (<font color="gree">normalmente 0.05</font>), a hipótese nula de independência é rejeitada, sugerindo uma associação significativa.

# <font color="gree">Desvendando a associação entre qualidade externa e presença na garagem</font>

Usando o [Dataset habitacionais de Ames](https://raw.githubusercontent.com/Padre-Media/dataset/main/Ames.csv), você pretende determinar se existe uma associação entre a `qualidade externa de uma casa` e a `presença ou ausência de garagem`. Vamos nos aprofundar nas especificidades de nossa análise, apoiada pelo código Python correspondente.

In [1]:
# Importando as bibliotecas essenciais:
import pandas as pd
from scipy.stats import chi2_contingency
 

# Carregando nosso Dataset:
Ames = pd.read_csv('Ames.csv')
Ames.head()

Unnamed: 0,PID,GrLivArea,SalePrice,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,...,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,GeoRefNo,Prop_Addr,Latitude,Longitude
0,909176150,856,126000,30,RL,,7890,Pave,,Reg,...,,0,3,2010,WD,Normal,909176150.0,436 HAYWARD AVE,42.018564,-93.651619
1,905476230,1049,139500,120,RL,42.0,4235,Pave,,Reg,...,,0,2,2009,WD,Normal,905476230.0,3416 WEST ST,42.024855,-93.663671
2,911128020,1001,124900,30,C (all),60.0,6060,Pave,,Reg,...,,0,11,2007,WD,Normal,911128020.0,320 S 2ND ST,42.021548,-93.614068
3,535377150,1039,114000,70,RL,80.0,8146,Pave,,Reg,...,,0,5,2009,WD,Normal,535377150.0,1524 DOUGLAS AVE,42.037391,-93.612207
4,534177230,1665,227000,60,RL,70.0,8400,Pave,,Reg,...,,0,11,2009,WD,Normal,534177230.0,2304 FILLMORE AVE,42.044554,-93.631818


In [2]:
Ames.shape

(2579, 85)

In [3]:
Ames.describe()

Unnamed: 0,PID,GrLivArea,SalePrice,MSSubClass,LotFrontage,LotArea,OverallQual,OverallCond,YearBuilt,YearRemodAdd,...,EnclosedPorch,3SsnPorch,ScreenPorch,PoolArea,MiscVal,MoSold,YrSold,GeoRefNo,Latitude,Longitude
count,2579.0,2579.0,2579.0,2579.0,2117.0,2579.0,2579.0,2579.0,2579.0,2579.0,...,2579.0,2579.0,2579.0,2579.0,2579.0,2579.0,2579.0,2559.0,2482.0,2482.0
mean,714754600.0,1485.950368,178053.44242,57.694843,68.510628,10119.269484,6.04653,5.618457,1970.325708,1983.765025,...,23.223342,2.512214,16.162854,1.66266,48.750291,6.152385,2007.839085,713676200.0,42.034556,-93.642535
std,188660300.0,488.723768,75044.983207,42.810137,22.839861,8128.389882,1.3677,1.1222,29.719469,20.483428,...,64.118627,25.298791,56.803807,30.345262,498.820852,2.669913,1.312088,188628100.0,0.018058,0.026029
min,526301100.0,334.0,12789.0,20.0,21.0,1300.0,1.0,1.0,1872.0,1950.0,...,0.0,0.0,0.0,0.0,0.0,1.0,2006.0,526301100.0,41.986495,-93.692701
25%,531363000.0,1112.0,129950.0,20.0,57.0,7406.5,5.0,5.0,1953.0,1965.0,...,0.0,0.0,0.0,0.0,0.0,4.0,2007.0,528489100.0,42.022247,-93.660716
50%,535454200.0,1436.0,159900.0,50.0,68.0,9382.0,6.0,5.0,1972.0,1992.0,...,0.0,0.0,0.0,0.0,0.0,6.0,2008.0,535453200.0,42.034817,-93.640388
75%,907180600.0,1733.0,209750.0,70.0,80.0,11485.5,7.0,6.0,1999.0,2003.0,...,0.0,0.0,0.0,0.0,0.0,8.0,2009.0,907178000.0,42.049065,-93.621691
max,1007100000.0,4676.0,755000.0,190.0,313.0,215245.0,10.0,9.0,2010.0,2010.0,...,1012.0,508.0,576.0,800.0,15500.0,12.0,2010.0,1007100000.0,42.063342,-93.578327


In [4]:
Ames.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2579 entries, 0 to 2578
Data columns (total 85 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   PID            2579 non-null   int64  
 1   GrLivArea      2579 non-null   int64  
 2   SalePrice      2579 non-null   int64  
 3   MSSubClass     2579 non-null   int64  
 4   MSZoning       2579 non-null   object 
 5   LotFrontage    2117 non-null   float64
 6   LotArea        2579 non-null   int64  
 7   Street         2579 non-null   object 
 8   Alley          168 non-null    object 
 9   LotShape       2579 non-null   object 
 10  LandContour    2579 non-null   object 
 11  Utilities      2579 non-null   object 
 12  LotConfig      2579 non-null   object 
 13  LandSlope      2579 non-null   object 
 14  Neighborhood   2579 non-null   object 
 15  Condition1     2579 non-null   object 
 16  Condition2     2579 non-null   object 
 17  BldgType       2579 non-null   object 
 18  HouseSty

In [5]:
# Extraindo as colunas relevantes:
exterqual_garagefinish_data = Ames[['ExterQual', 'GarageFinish']].copy()

exterqual_garagefinish_data.head()

Unnamed: 0,ExterQual,GarageFinish
0,TA,Unf
1,Gd,Fin
2,Gd,Unf
3,Gd,Unf
4,Gd,Fin


In [6]:
exterqual_garagefinish_data.shape

(2579, 2)

In [7]:
exterqual_garagefinish_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2579 entries, 0 to 2578
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   ExterQual     2579 non-null   object
 1   GarageFinish  2450 non-null   object
dtypes: object(2)
memory usage: 40.4+ KB


In [8]:
exterqual_garagefinish_data.isna().value_counts()

ExterQual  GarageFinish
False      False           2450
           True             129
dtype: int64

In [9]:
# Preenchendo valores MISSING na coluna 'GarageFinish' com 'No Garage':
exterqual_garagefinish_data['GarageFinish'].fillna('No Garage', inplace=True)


In [10]:
# Verificando NOVAMENTE, tudo foi preenchido:
exterqual_garagefinish_data.isna().value_counts()

ExterQual  GarageFinish
False      False           2579
dtype: int64

In [11]:
# Agrupando 'GarageFinish' em 'With Garage' e 'No Garage':
exterqual_garagefinish_data['Garage Group'] \
    = exterqual_garagefinish_data['GarageFinish'] \
      .apply(lambda x: 'With Garage' if x != 'No Garage' else 'No Garage')


In [12]:
exterqual_garagefinish_data

Unnamed: 0,ExterQual,GarageFinish,Garage Group
0,TA,Unf,With Garage
1,Gd,Fin,With Garage
2,Gd,Unf,With Garage
3,Gd,Unf,With Garage
4,Gd,Fin,With Garage
...,...,...,...
2574,TA,Unf,With Garage
2575,TA,Unf,With Garage
2576,TA,Unf,With Garage
2577,Gd,Fin,With Garage


In [13]:
# Agrupando 'ExterQual' em 'Great' and 'Average':
exterqual_garagefinish_data['Quality Group'] \
    = exterqual_garagefinish_data['ExterQual'] \
      .apply(lambda x: 'Great' if x in ['Ex', 'Gd'] else 'Average')

In [14]:
exterqual_garagefinish_data

Unnamed: 0,ExterQual,GarageFinish,Garage Group,Quality Group
0,TA,Unf,With Garage,Average
1,Gd,Fin,With Garage,Great
2,Gd,Unf,With Garage,Great
3,Gd,Unf,With Garage,Great
4,Gd,Fin,With Garage,Great
...,...,...,...,...
2574,TA,Unf,With Garage,Average
2575,TA,Unf,With Garage,Average
2576,TA,Unf,With Garage,Average
2577,Gd,Fin,With Garage,Great


In [15]:
# Construindo a tabela de contingência simplificada:
simplified_contingency_table \
    = pd.crosstab(exterqual_garagefinish_data['Quality Group'],
                  exterqual_garagefinish_data['Garage Group'])


In [16]:
simplified_contingency_table

Garage Group,No Garage,With Garage
Quality Group,Unnamed: 1_level_1,Unnamed: 2_level_1
Average,121,1544
Great,8,906


In [17]:
# Vamos usar cores:
GREEN = '\033[92m'
RED = '\033[91m'
RESET = '\033[0m' # Restabelecer a cor

In [18]:
# Imprimindo a frequência observada:
print(f"{GREEN}Frequências Observadas:{RESET}")

observed_df = pd.DataFrame(simplified_contingency_table,
                           index=["Average", "Great"],
                           columns=["No Garage", "With Garage"])

observed_df

[92mFrequências Observadas:[0m


Unnamed: 0,No Garage,With Garage
Average,121,1544
Great,8,906


<font color="yellow">Realizando `The Chi-squared test`:</font>

In [19]:
from scipy.stats import chi2_contingency

chi2_stat, p_value, _, expected_freq = chi2_contingency(simplified_contingency_table)

In [20]:
# Imprimindo as frequências esperadas:

print(f"{RED}Frequências Esperadas:{RESET}")

print(pd.DataFrame(expected_freq,
                   index=["Average", "Great"],
                   columns=["No Garage", "With Garage"]).round(2))


[91mFrequências Esperadas:[0m
         No Garage  With Garage
Average      83.28      1581.72
Great        45.72       868.28


In [21]:
# Imprimindo os resultados do teste:
print(f"{GREEN}Estatística de Chi-squared:{RESET} {chi2_stat:.4f}")
print(f"{RED}p-value:{RESET} {p_value:.4e}")

[92mEstatística de Chi-squared:[0m 49.4012
[91mp-value:[0m 2.0862e-12


`Chi-squared Test:`

* Com os dados devidamente preparados, você construiu uma tabela de contingência para representar as `frequências observadas` entre as categorias recém-formadas. 

* Em seguida, você executou um teste qui-quadrado nesta tabela de contingência usando `SciPy`. O `valor p` é impresso e encontrado muito menor que o $\alpha$. <font color="yellow">O `valor p` extremamente baixo obtido no teste significa uma associação estatisticamente significativa entre a qualidade externa de uma casa e a presença de garagem neste conjunto de dados.</font>

* Uma rápida olhada nas `frequências esperadas` satisfaz a terceira condição de um teste Qui-quadrado, que requer um mínimo de 5 ocorrências em cada célula.


Através desta análise, você não apenas refinou e simplificou os dados para torná-los mais interpretáveis, mas também forneceu evidências estatísticas de uma `associação entre duas variáveis ​​categóricas de interesse`.

# <font color="yellow">Advertências importantes</font>

O teste Qui-quadrado, apesar da sua utilidade, tem as suas limitações:

* <font color="yellow">Sem causalidade</font>: embora o teste possa determinar a associação, `ele não infere causalidade`. Assim, embora exista uma ligação significativa entre a qualidade externa de uma casa e a sua presença na garagem, não se pode concluir que uma causa a outra.

* <font color="yellow">Direcionalidade</font>: O teste indica uma associação, mas não especifica sua direção. No entanto, os nossos dados sugerem que as casas rotuladas como `“Óptima”` em termos de qualidade externa têm maior probabilidade de ter garagens do que aquelas rotuladas como `“Média”`.

* <font color="yellow">Magnitude</font>: O teste não fornece insights sobre a força do relacionamento. Outras métricas, como o `V de Cramér`, seriam mais informativas a este respeito.

* <font color="yellow">Validade Externa</font>: Nossas conclusões são específicas para o conjunto de dados `Ames`. Aconselha-se cautela ao generalizar essas descobertas para outras regiões.