In [None]:
# Background:
# Mizzare Corporation has collected data on customer satisfaction levels for two types of 
# smart home devices: Smart Thermostats and Smart Lights. 
# They want to determine if there's a significant association between the type of device purchased 
# and the customer's satisfaction level.

In [3]:
import pandas as pd
import numpy as np

df = pd.read_csv("Smart_Devices.csv")
df

Unnamed: 0,Satisfaction,Smart Thermostat,Smart Light,Total
0,Very Satisfied,50,70,120
1,Satisfied,80,100,180
2,Neutral,60,90,150
3,Unsatisfied,30,50,80
4,Very Unsatisfied,20,50,70
5,Total,240,360,600


In [4]:
# Exploratory data analysis

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Satisfaction      6 non-null      object
 1   Smart Thermostat  6 non-null      int64 
 2   Smart Light       6 non-null      int64 
 3   Total             6 non-null      int64 
dtypes: int64(3), object(1)
memory usage: 320.0+ bytes


In [5]:
df.shape

(6, 4)

In [7]:
df.describe()

Unnamed: 0,Smart Thermostat,Smart Light,Total
count,6.0,6.0,6.0
mean,80.0,120.0,200.0
std,81.240384,119.331471,200.299775
min,20.0,50.0,70.0
25%,35.0,55.0,90.0
50%,55.0,80.0,135.0
75%,75.0,97.5,172.5
max,240.0,360.0,600.0


In [8]:
df.head()

Unnamed: 0,Satisfaction,Smart Thermostat,Smart Light,Total
0,Very Satisfied,50,70,120
1,Satisfied,80,100,180
2,Neutral,60,90,150
3,Unsatisfied,30,50,80
4,Very Unsatisfied,20,50,70


In [9]:
df.tail()

Unnamed: 0,Satisfaction,Smart Thermostat,Smart Light,Total
1,Satisfied,80,100,180
2,Neutral,60,90,150
3,Unsatisfied,30,50,80
4,Very Unsatisfied,20,50,70
5,Total,240,360,600


In [11]:
df.columns

Index(['Satisfaction', 'Smart Thermostat', 'Smart Light', 'Total'], dtype='object')

In [14]:
# Chisquare test for Smart Thermostat

customer_satisfaction_crosstab = pd.crosstab(df['Smart Thermostat'],df['Satisfaction'],
                               margins = True,margins_name='subtotal')
customer_satisfaction_crosstab

Satisfaction,Neutral,Satisfied,Total,Unsatisfied,Very Satisfied,Very Unsatisfied,subtotal
Smart Thermostat,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
20,0,0,0,0,0,1,1
30,0,0,0,1,0,0,1
50,0,0,0,0,1,0,1
60,1,0,0,0,0,0,1
80,0,1,0,0,0,0,1
240,0,0,1,0,0,0,1
subtotal,1,1,1,1,1,1,6


In [16]:
alpha = 0.05

from scipy.stats import chi2_contingency
chi,pi,dof,expected = chi2_contingency(customer_satisfaction_crosstab)
print(chi)
print(pi)
print(dof)
print(expected)

30.000000000000007
0.7488587520753687
36
[[0.16666667 0.16666667 0.16666667 0.16666667 0.16666667 0.16666667
  1.        ]
 [0.16666667 0.16666667 0.16666667 0.16666667 0.16666667 0.16666667
  1.        ]
 [0.16666667 0.16666667 0.16666667 0.16666667 0.16666667 0.16666667
  1.        ]
 [0.16666667 0.16666667 0.16666667 0.16666667 0.16666667 0.16666667
  1.        ]
 [0.16666667 0.16666667 0.16666667 0.16666667 0.16666667 0.16666667
  1.        ]
 [0.16666667 0.16666667 0.16666667 0.16666667 0.16666667 0.16666667
  1.        ]
 [1.         1.         1.         1.         1.         1.
  6.        ]]


In [None]:
# Chi value is greater than alpha so we accept null hypothesis

In [17]:
# Chisquare test for Smart Light

customer_satisfaction_crosstab = pd.crosstab(df['Smart Light'],df['Satisfaction'],
                               margins = True,margins_name='subtotal')
customer_satisfaction_crosstab

Satisfaction,Neutral,Satisfied,Total,Unsatisfied,Very Satisfied,Very Unsatisfied,subtotal
Smart Light,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
50,0,0,0,1,0,1,2
70,0,0,0,0,1,0,1
90,1,0,0,0,0,0,1
100,0,1,0,0,0,0,1
360,0,0,1,0,0,0,1
subtotal,1,1,1,1,1,1,6


In [18]:
alpha = 0.05

from scipy.stats import chi2_contingency
chi,pi,dof,expected = chi2_contingency(customer_satisfaction_crosstab)
print(chi)
print(pi)
print(dof)
print(expected)

24.000000000000007
0.7720245323035444
30
[[0.33333333 0.33333333 0.33333333 0.33333333 0.33333333 0.33333333
  2.        ]
 [0.16666667 0.16666667 0.16666667 0.16666667 0.16666667 0.16666667
  1.        ]
 [0.16666667 0.16666667 0.16666667 0.16666667 0.16666667 0.16666667
  1.        ]
 [0.16666667 0.16666667 0.16666667 0.16666667 0.16666667 0.16666667
  1.        ]
 [0.16666667 0.16666667 0.16666667 0.16666667 0.16666667 0.16666667
  1.        ]
 [1.         1.         1.         1.         1.         1.
  6.        ]]


In [None]:
# Chi value is greater than alpha so we accept null hypothesis

In [19]:
# Chisquare test for Smart Thermostat using critical value

customer_satisfaction_crosstab = pd.crosstab(df['Smart Thermostat'],df['Satisfaction'],
                               margins = True,margins_name='subtotal')
customer_satisfaction_crosstab

Satisfaction,Neutral,Satisfied,Total,Unsatisfied,Very Satisfied,Very Unsatisfied,subtotal
Smart Thermostat,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
20,0,0,0,0,0,1,1
30,0,0,0,1,0,0,1
50,0,0,0,0,1,0,1
60,1,0,0,0,0,0,1
80,0,1,0,0,0,0,1
240,0,0,1,0,0,0,1
subtotal,1,1,1,1,1,1,6


In [20]:
customer_satisfaction_crosstab.values

array([[0, 0, 0, 0, 0, 1, 1],
       [0, 0, 0, 1, 0, 0, 1],
       [0, 0, 0, 0, 1, 0, 1],
       [1, 0, 0, 0, 0, 0, 1],
       [0, 1, 0, 0, 0, 0, 1],
       [0, 0, 1, 0, 0, 0, 1],
       [1, 1, 1, 1, 1, 1, 6]], dtype=int64)

In [25]:
observed_values = customer_satisfaction_crosstab.values
print("Observed values:" , observed_values )

Observed values: [[0 0 0 0 0 1 1]
 [0 0 0 1 0 0 1]
 [0 0 0 0 1 0 1]
 [1 0 0 0 0 0 1]
 [0 1 0 0 0 0 1]
 [0 0 1 0 0 0 1]
 [1 1 1 1 1 1 6]]


In [38]:
val = chi2_contingency(customer_satisfaction_crosstab)
val

Chi2ContingencyResult(statistic=30.000000000000007, pvalue=0.7488587520753687, dof=36, expected_freq=array([[0.16666667, 0.16666667, 0.16666667, 0.16666667, 0.16666667,
        0.16666667, 1.        ],
       [0.16666667, 0.16666667, 0.16666667, 0.16666667, 0.16666667,
        0.16666667, 1.        ],
       [0.16666667, 0.16666667, 0.16666667, 0.16666667, 0.16666667,
        0.16666667, 1.        ],
       [0.16666667, 0.16666667, 0.16666667, 0.16666667, 0.16666667,
        0.16666667, 1.        ],
       [0.16666667, 0.16666667, 0.16666667, 0.16666667, 0.16666667,
        0.16666667, 1.        ],
       [0.16666667, 0.16666667, 0.16666667, 0.16666667, 0.16666667,
        0.16666667, 1.        ],
       [1.        , 1.        , 1.        , 1.        , 1.        ,
        1.        , 6.        ]]))

In [39]:
print(dof)

30


In [26]:
expected_values = val[3]
print("Expected values:" , expected_values )

Expected values: [[0.16666667 0.16666667 0.16666667 0.16666667 0.16666667 0.16666667
  1.        ]
 [0.16666667 0.16666667 0.16666667 0.16666667 0.16666667 0.16666667
  1.        ]
 [0.16666667 0.16666667 0.16666667 0.16666667 0.16666667 0.16666667
  1.        ]
 [0.16666667 0.16666667 0.16666667 0.16666667 0.16666667 0.16666667
  1.        ]
 [0.16666667 0.16666667 0.16666667 0.16666667 0.16666667 0.16666667
  1.        ]
 [0.16666667 0.16666667 0.16666667 0.16666667 0.16666667 0.16666667
  1.        ]
 [1.         1.         1.         1.         1.         1.
  6.        ]]


In [28]:
from scipy.stats import chi2
chi_square = sum([(o-e)**2./e for o,e in zip(observed_values,expected_values)])
chi_square

array([5., 5., 5., 5., 5., 5., 0.])

In [29]:
chi_square_statistic = chi_square[0] + chi_square[1]
chi_square_statistic

10.000000000000004

In [40]:
critical_value = chi2.ppf(q=1-alpha,df=dof)
critical_value

43.77297182574219

In [41]:
# p value
p_value = chi2.cdf(x=chi_square_statistic,df=dof)
p_value

0.00022625367617675653

In [42]:
if chi_square_statistic >= critical_value:
    print("Reject null hypothesis, There is relation between the categorical variables")
else:
    print("Retain null hypothesis, There is no relation between the categorical variables")

Retain null hypothesis, There is no relation between the categorical variables


In [43]:
if p_value <= alpha:
    print("Reject null hypothesis, There is relation between the categorical variables")
else:
    print("Retain null hypothesis, There is no relation between the categorical variables")

Reject null hypothesis, There is relation between the categorical variables


In [44]:
# Chisquare test for Smart Light using critical value

customer_satisfaction_crosstab = pd.crosstab(df['Smart Light'],df['Satisfaction'],
                               margins = True,margins_name='subtotal')
customer_satisfaction_crosstab

Satisfaction,Neutral,Satisfied,Total,Unsatisfied,Very Satisfied,Very Unsatisfied,subtotal
Smart Light,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
50,0,0,0,1,0,1,2
70,0,0,0,0,1,0,1
90,1,0,0,0,0,0,1
100,0,1,0,0,0,0,1
360,0,0,1,0,0,0,1
subtotal,1,1,1,1,1,1,6


In [45]:
customer_satisfaction_crosstab.values

array([[0, 0, 0, 1, 0, 1, 2],
       [0, 0, 0, 0, 1, 0, 1],
       [1, 0, 0, 0, 0, 0, 1],
       [0, 1, 0, 0, 0, 0, 1],
       [0, 0, 1, 0, 0, 0, 1],
       [1, 1, 1, 1, 1, 1, 6]], dtype=int64)

In [46]:
observed_values = customer_satisfaction_crosstab.values
print("Observed values:" , observed_values )

Observed values: [[0 0 0 1 0 1 2]
 [0 0 0 0 1 0 1]
 [1 0 0 0 0 0 1]
 [0 1 0 0 0 0 1]
 [0 0 1 0 0 0 1]
 [1 1 1 1 1 1 6]]


In [47]:
val = chi2_contingency(customer_satisfaction_crosstab)
val

Chi2ContingencyResult(statistic=24.000000000000007, pvalue=0.7720245323035444, dof=30, expected_freq=array([[0.33333333, 0.33333333, 0.33333333, 0.33333333, 0.33333333,
        0.33333333, 2.        ],
       [0.16666667, 0.16666667, 0.16666667, 0.16666667, 0.16666667,
        0.16666667, 1.        ],
       [0.16666667, 0.16666667, 0.16666667, 0.16666667, 0.16666667,
        0.16666667, 1.        ],
       [0.16666667, 0.16666667, 0.16666667, 0.16666667, 0.16666667,
        0.16666667, 1.        ],
       [0.16666667, 0.16666667, 0.16666667, 0.16666667, 0.16666667,
        0.16666667, 1.        ],
       [1.        , 1.        , 1.        , 1.        , 1.        ,
        1.        , 6.        ]]))

In [48]:
print(dof)

30


In [49]:
expected_values = val[3]
print("Expected values:" , expected_values )

Expected values: [[0.33333333 0.33333333 0.33333333 0.33333333 0.33333333 0.33333333
  2.        ]
 [0.16666667 0.16666667 0.16666667 0.16666667 0.16666667 0.16666667
  1.        ]
 [0.16666667 0.16666667 0.16666667 0.16666667 0.16666667 0.16666667
  1.        ]
 [0.16666667 0.16666667 0.16666667 0.16666667 0.16666667 0.16666667
  1.        ]
 [0.16666667 0.16666667 0.16666667 0.16666667 0.16666667 0.16666667
  1.        ]
 [1.         1.         1.         1.         1.         1.
  6.        ]]


In [50]:
from scipy.stats import chi2
chi_square = sum([(o-e)**2./e for o,e in zip(observed_values,expected_values)])
chi_square

array([5., 5., 5., 2., 5., 2., 0.])

In [51]:
chi_square_statistic = chi_square[0] + chi_square[1]
chi_square_statistic

10.000000000000004

In [52]:
critical_value = chi2.ppf(q=1-alpha,df=dof)
critical_value

43.77297182574219

In [53]:
# p value
p_value = chi2.cdf(x=chi_square_statistic,df=dof)
p_value

0.00022625367617675653

In [54]:
if chi_square_statistic >= critical_value:
    print("Reject null hypothesis, There is relation between the categorical variables")
else:
    print("Retain null hypothesis, There is no relation between the categorical variables")

Retain null hypothesis, There is no relation between the categorical variables


In [55]:
if p_value <= alpha:
    print("Reject null hypothesis, There is relation between the categorical variables")
else:
    print("Retain null hypothesis, There is no relation between the categorical variables")

Reject null hypothesis, There is relation between the categorical variables
