# 4. Категориальные данные

**Таблицы сопряжённости (сводные таблицы)** - показывают совместное распределение двух переменных и позволяют увидеть, есть связь между ними или нет

In [1]:
import pandas as pd
d = {'Наблюдаемые значения': ['Делают гимнастику', 'Не делают гимнастику', 'Всего'], 
     'Голова болит': [20,50,70],
     'Голова не болит': [30,25,55],
     'Всего': [50,75,125]}
df = pd.DataFrame(data = d) #, index = ['Делают гимнастику', 'Не делают гимнастику', 'Всего'])
df

Unnamed: 0,Наблюдаемые значения,Голова болит,Голова не болит,Всего
0,Делают гимнастику,20,30,50
1,Не делают гимнастику,50,25,75
2,Всего,70,55,125


Таблица сопряжённости ничего не говорит нам о том, насколько значима связь, которую мы можем предположить.

Для этого мы можем использовать **тест Хи-квадрат**, который позволяет оценить её значимость.

**Хи-квадрат**
* Тип: непараметрический.
* Применяется: когда есть предложение о связи двух переменных, выраженных с помощью категориальных шкал.
* Проверяет: существует ли статистически значимое отличие средних значений между двумя группами.
* Данные: должны состоять из двух категориальных переменных.

Определяется следующими условиями:
* переменные в группах должны быть номинальными (цвет глаз) или порядковыми («никогда», «иногда», «часто»);
* в выборке не менее 30 наблюдений;
* группы должны быть независимы друг от друга (поэтому нельзя, например, использовать тест «Хи-квадрат» для сравнения по типу «было/стало»)

Попробуем доказать, что между головной болью и гимнастикой для глаз действительно есть **отрицательная связь** (если респондент делает гимнастику, то у него скорее не болит голова).

Хи-квадрат позволяет рассчитывать частоты тех или иных ответов – как это происходит, сейчас выясним.

Добавим к таблице сопряжённости ещё одну строку: частоту (в процентах) головной боли у всех испытуемых. 
При этом мы не будем учитывать фактор гимнастики, а посмотрим просто на частоту головной боли:

In [2]:
Headache = 70 / 125 
not_Headache = 55 / 125

df.loc[len(df.index)] = ['Частота (в %) головной боли у всех испытуемых', 
                         Headache * 100, not_Headache * 100, (Headache + not_Headache)* 100]
df

Unnamed: 0,Наблюдаемые значения,Голова болит,Голова не болит,Всего
0,Делают гимнастику,20.0,30.0,50.0
1,Не делают гимнастику,50.0,25.0,75.0
2,Всего,70.0,55.0,125.0
3,Частота (в %) головной боли у всех испытуемых,56.0,44.0,100.0


In [3]:
70 / 125

0.56

In [4]:
50 * 0.56, 50 * 0.44

(28.000000000000004, 22.0)

Теперь рассчитаем ожидаемые значения – то есть те, которые были бы в случае отсутствия эффекта от гимнастики для глаз (как будто различий в группах нет).

In [5]:
import pandas as pd
d2 = {'Ожидаемые значения': ['Делают гимнастику', 'Не делают гимнастику', 'Всего'], 
     'Голова болит': [50 * Headache, 75 * Headache, 70],
     'Голова не болит': [50 * not_Headache, 75 * not_Headache,55],
     'Всего': [50, 75, 125]}
df2 = pd.DataFrame(data = d2)
df2

Unnamed: 0,Ожидаемые значения,Голова болит,Голова не болит,Всего
0,Делают гимнастику,28.0,22.0,50
1,Не делают гимнастику,42.0,33.0,75
2,Всего,70.0,55.0,125


Сравнение двух таблиц показывает эффект от гимнастики для глаз искажает ожидаемые значения. Чтобы понять, насколько серьёзно это искажение, нужно рассчитать хи-квадрат.

[Table: Chi-Square Probabilities](https://people.richland.edu/james/lecture/m170/tbl-chi.html)

In [6]:
# status = pd.Series(["single", "married", "divorced", "single", "divorced"], dtype = "category")
# print(status)

In [7]:
import scipy.stats as stats

# ожидаемые значения
stats.chisquare([28, 22, 42, 33])

Power_divergenceResult(statistic=6.872, pvalue=0.07609142575306141)

P-value составляет больше 0.05, поэтому мы не можем отвергнуть нулевую гипотезу и приходим к выводу, что между группами людей, занимающихся гимнастикой и нет, нет статистически значимых различий по уровню головной боли.

Создадим базу данных новорождённых детей: их имена, вес в граммах и гендер.

In [8]:
import pandas as pd
children = pd.DataFrame({"name" : ["Roman", "Anna", "Dmitry"],
                         "weight": [3.4, 3.5, 2.9],
                         "gender" : ["male", "female", "male"]}, dtype = "object")
print(children, '\n')
print(children.dtypes)

     name weight  gender
0   Roman    3.4    male
1    Anna    3.5  female
2  Dmitry    2.9    male 

name      object
weight    object
gender    object
dtype: object


In [9]:
# изменим на категориальный тип
children['gender'].astype('category')

# присвоить названиям категорий числовые наименования
children['gender'].replace(['male','female'], [0, 1], inplace = True)

# изменить тип переменной на числовую
children.gender.astype('int32')

print(children, '\n')
print(children.dtypes)

     name weight  gender
0   Roman    3.4       0
1    Anna    3.5       1
2  Dmitry    2.9       0 

name      object
weight    object
gender     int64
dtype: object


In [10]:
# Изменение типов float — integer
children['weight'] = children['weight'].astype(int)

print(children, '\n')
print(children.dtypes)

     name  weight  gender
0   Roman       3       0
1    Anna       3       1
2  Dmitry       2       0 

name      object
weight     int32
gender     int64
dtype: object


[Dataset - COVID-19 and its Impact on Students](https://www.kaggle.com/datasets/kunal28chaturvedi/covid19-and-its-impact-on-students) 

https://github.com/yndx-handbook/data-analysis-in-social-sciences-handbook/blob/main/04.%20Категориальные%20данные/COVID-19%20SSR.csv

In [11]:
import pandas as pd
df = pd.read_csv('data/COVID-19 SSR.csv', encoding='utf8')
df.head()

Unnamed: 0.1,Unnamed: 0,ID,Region of residence,Age of Subject,Time spent on Online Class,Rating of Online Class experience,Medium for online class,Time spent on self study,Time spent on fitness,Time spent on sleep,Time spent on social media,Prefered social media platform,Time spent on TV,Number of meals per day,Change in your weight,Health issue during lockdown,Stress busters,Time utilized,"Do you find yourself more connected with your family, close friends , relatives ?",What you miss the most
0,0,R1,Delhi-NCR,21,2.0,GOOD,Laptop/Desktop,4.0,0.0,7.0,3.0,Linkedin,1,4,Increased,NO,Cooking,YES,YES,School/college
1,1,R2,Delhi-NCR,21,0.0,EXCELLENT,Smartphone,0.0,2.0,10.0,3.0,Youtube,0,3,Decreased,NO,Scrolling through social media,YES,NO,Roaming around freely
2,2,R3,Delhi-NCR,20,7.0,VERY POOR,Laptop/Desktop,3.0,0.0,6.0,2.0,Linkedin,0,3,Remain Constant,NO,Listening to music,NO,YES,Travelling
3,3,R4,Delhi-NCR,20,3.0,VERY POOR,Smartphone,2.0,1.0,6.0,5.0,Instagram,0,3,Decreased,NO,Watching web series,NO,NO,"Friends , relatives"
4,4,R5,Delhi-NCR,21,3.0,GOOD,Laptop/Desktop,3.0,1.0,8.0,3.0,Instagram,1,4,Remain Constant,NO,Social Media,NO,NO,Travelling


In [12]:
df.dtypes

# наиболее частый тип переменных встречаемый в датасете
print(df.dtypes.value_counts().index[0])

object


In [13]:
# print(df['Rating of Online Class experience'].dtypes)
df['Rating of Online Class experience'] = df['Rating of Online Class experience'].str.title()
df['Rating of Online Class experience'].astype('category')
df['Rating of Online Class experience'][0:5]

0         Good
1    Excellent
2    Very Poor
3    Very Poor
4         Good
Name: Rating of Online Class experience, dtype: object

In [14]:
# сколько учащихся спят больше или меньше 7-8 часов в день
df = pd.read_csv('data/COVID-19 Survey Student Responses.csv', encoding='utf8')

# странно написано условие задачи
# 7 < норма < 9
norma = df[(df['Time spent on sleep'] > 7) & (df['Time spent on sleep'] < 9)].shape[0]
print(df.shape[0] - norma)

785


In [15]:
# заменить нечисловые значения на нули

# df['Time spent on TV'].value_counts()
# isinstance(1, (int, float))

df['Time spent on TV'] = df['Time spent on TV']._convert(numeric=True)
df['Time spent on TV'].replace('NaN', 0)

print(df['Time spent on TV'].dtypes)

float64


In [16]:
import pandas as pd
df = pd.read_csv('data/COVID-19 Survey Student Responses.csv', encoding='utf8')
# df = pd.read_csv('COVID-19 Survey Student Responses.csv')

df = df.assign(normal_sleep=['normal' if i >= 7 else 'not normal' for i in df['Time spent on sleep']])
df = df.assign(normal_social_media=['normal' if i < 2 else 'not normal' for i in df['Time spent on social media']])
CrossTab = pd.crosstab(df['normal_social_media'], df['normal_sleep'])

from scipy.stats import chi2_contingency
print(chi2_contingency(CrossTab))

(4.0632496096156885, 0.04382608418680551, 1, array([[356.68020305,  84.31979695],
       [599.31979695, 141.68020305]]))


In [17]:
df['Health issue during lockdown'].replace(['YES','NO'], [1, 0], inplace = True)
print(df['Health issue during lockdown'].value_counts())

0    1021
1     161
Name: Health issue during lockdown, dtype: int64


In [18]:
import pandas as pd
# df = pd.read_csv('COVID-19 Survey Student Responses.csv')
df = pd.read_csv('data/COVID-19 Survey Student Responses.csv', encoding='utf8')

df['Health issue during lockdown'].replace(['YES','NO'], [1, 0], inplace = True)

print(df['Health issue during lockdown'].value_counts())

0    1021
1     161
Name: Health issue during lockdown, dtype: int64


In [19]:
df[df['Stress busters'].str.contains('book')]['Stress busters'] # .shape[0]

18                                          Reading books
24                                          Reading books
29               sketching,reading books,meditation,songs
31                                          Reading books
36                                          Reading books
                              ...                        
1084                                        Reading books
1136                                        Reading books
1150         Listening to music and reading books both . 
1153    Poetry, writing books and novels , listening t...
1180                                        Reading books
Name: Stress busters, Length: 85, dtype: object

In [20]:
TopSocialMedia = df['Prefered social media platform'].value_counts().index[0]
MeanTime = df[df['Prefered social media platform'] == TopSocialMedia]['Time spent on social media'].mean()
MeanTime = round(MeanTime, 2)
print(MeanTime)

2.91


In [21]:
# import pandas as pd
# df = pd.read_csv('COVID-19 Survey Student Responses.csv')
top = df.groupby(['Prefered social media platform'])['Time spent on social media'].mean()
top = top.sort_values()
print(top.index[-1], f'{top[-1]:.1f}')

Talklife 10.0
