#### A: Ознакомление с датасетом
В этой и последующих задачах мы будем работать с датасетом влияния COVID-19 на образование, психическое здоровье и распорядок дня учащихся. Ознакомиться с полной версией датасета можно по ссылке: https://www.kaggle.com/datasets/kunal28chaturvedi/covid19-and-its-impact-on-students.

Датасет доступен под названием 'COVID-19 SSR.csv'

В датасете содержатся такие переменные как время на занятия, самостоятельное обучение, просмотр страниц в социальных сетях в день, а также соц-демографические характеристики учащихся (возраст, регион проживания) и другие.

Вам необходимо вывести наиболее частый тип переменных встречаемый в датасете.

In [2]:
import pandas as pd

df = pd.read_csv('COVID-19 SSR.csv')

types = df.dtypes
result = types.value_counts().idxmax()
print(result)

object


#### B: Изменяем капслок
Не всегда данные в одной колонке имеют одинаковое оформление. Например, одно значение написано буквами верхнего регистра, а другое - нижнего. Для приведения значений в категориальных переменных к одному виду существует набор функций.

title() - преобразовывает слова в формате title, где первое слово в строке начинается с символа верхнего регистра, а остальные приводятся к символам нижнего регистра (Например, "привет, студенты!" преобразуется в "Привет, студенты!").

В датасете'COVID-19 SSR.csv' в переменной 'Rating of Online Class experience' все значения записаны символами верхнего регистра (Например, "GOOD").

Вам необходимо привести значения переменной 'Rating of Online Class experience' к значению "GOOD" с помощью функции title(). Например, df('Название переменной').str.title().

В выдаче выведите пять первых значения переменной 'Rating of Online Class experience'.

Датасет доступен под названием 'COVID-19 SSR.csv'

Формат вывода
0 Good{br} 1 Very Poor{br} 2 Good{br} 3 Very Poor{br} 4 Excellent{br} Name: Rating of Online Class experience, dtype: object

In [3]:
import pandas as pd

df = pd.read_csv('COVID-19 SSR.csv')

df['Rating of Online Class experience'] = df['Rating of Online Class experience'].str.title()
result = df['Rating of Online Class experience'].head(5)

print(result)

0         Good
1    Excellent
2    Very Poor
3    Very Poor
4         Good
Name: Rating of Online Class experience, dtype: object


#### C: Сколько спят учащиеся?
В нашем датасете есть переменная, указывающая на среднее количество сна в день ['Time spent on sleep']. Для здорового человека нормально спать 7-8 часов. Но учащиеся могут спать больше или меньше необходимого времени сна. То есть они могут спать например меньше 7 (6.9 часов) и больше 8 часов. Оптимальным количеством сна является 7-8 часов сна.

Вам необходимо вывести количество учащихся, которые спят больше или меньше оптимального времени для сна. Одним из способом решения этой переменной будут следующие шаги:

Воспользоваться циклом для создания новой переменной (название которой может быть 'Sleep') по переменной['Time spent on sleep'] , где необходимо прописать следующие условия. Если ['Time spent on sleep'] меньше 9, но при этом больше 6.9, то это нормальное количество сна ('normal'), в другом случае значение переменной будет 'not normal'.
Сделать фильтр по новой переменной, таким образом, чтобы мы оставили строки со значением сна'not normal'.
Вывести количество строк отфильтрованного датасета (например, с помощью функции 'len()').
Датасет доступен под названием 'COVID-19 Survey Student Responses.csv'

Формат вывода
437

In [4]:
import pandas as pd

df = pd.read_csv('COVID-19 SSR.csv')

df = df.assign(Sleep=['normal' if 6.9 < i < 9 else 'not normal' for i in df['Time spent on sleep']])
df = df[df['Sleep'] == 'not normal']

print(len(df))

529


#### D: Часы в день
Мы обратим внимание на переменную 'Time spent on TV', которая содержит в себе не только числовые показатели, но и категориальные значения (object), такие как "N", "n", "No tv". Для анализа переменной необходимо изменить другие значения помимо числовых на "0". Далее после обработки датасета выведите тип переменной.

Датасет доступен под названием 'COVID-19 Survey Student Responses.csv'

In [5]:
import pandas as pd

df = pd.read_csv('COVID-19 SSR.csv')

df['Time spent on TV'] = pd.to_numeric(df['Time spent on TV'], errors='coerce').fillna(0)

print(df['Time spent on TV'].dtype)

float64


#### E: Взаимосвязано ли количество сна и время, проведенное в социальных сетях?
Для ответа на данный вопрос мы будем работать с двумя переменными 'Time spent on sleep' и 'Time spent on social media'. Мы хотим выяснить связано ли недосыпание учащихся с временем, проведенным ими в социальных сетях.

В начале перекодируйте переменные на бинарные категории: 'normal' и 'not normal'. Нормальное количество сна для людей – от 7 до 9 часов. Нормальное время, проведенное в сети – это меньше 2 часов в день. Перекодируйте переменные, а затем воспользуйтесь результатом Хи-теста и выведите результат Хи-квадрата.

Одним из способом решения задачи являются следующие шаги:

Воспользоваться циклом для создания новой переменной (название которой может быть 'Sleep') по переменной['Time spent on sleep'] , где необходимо прописать следующие условия. Если ['Time spent on sleep'] меньше 9, но при этом больше 6.9, то это нормальное количество сна ('normal'), в другом случае значение переменной будет 'not normal'.
Воспользоваться циклом для создания еще одной новой переменной (название которой может быть 'Media') по переменной['Time spent on social media'] , где необходимо прописать следующие условия. Если ['Time spent on social media'] меньше 2, то это нормальное количество времяпровождения в социальных сетей ('normal'), в другом случае значение переменной будет 'not normal'.
Воспользуйтесь функцией 'pd.crosstab' для подготовки данных к выдачи Хи-квадрата. crosstab() — метод, который помогает создать кросс-таблицу, показывает распределение данных по двум переменным. То есть вам необходимо применить метод  crosstab для двух, созданных вами, переменных (в качестве примера - это переменные 'Sleep' и 'Media').
Воспользуйтесь функцией 'chi2_contingency' из пакета 'stats' и выведите значение Хи-квадрата.
Датасет доступен под названием 'COVID-19 Survey Student Responses.csv'

Формат вывода
3.0194840313249611

In [6]:
import pandas as pd
from scipy.stats import chi2_contingency

df = pd.read_csv('COVID-19 SSR.csv')

df = df.assign(Sleep=['normal' if i >= 7 else 'not normal' for i in df['Time spent on sleep']])
df = df.assign(Media=['normal' if i < 2 else 'not normal' for i in df['Time spent on social media']])

crosstab = pd.crosstab(index=df['Sleep'], columns=df['Media'])

chi2, p_value, dof, expected = chi2_contingency(crosstab)

print(chi2)

4.0632496096156885


#### F: Взаимосвязано ли количество сна и время, проведенное на в социальных сетях? 2.0
Мы хотим выяснить, связано ли недосыпание учащихся с временем, проведенным ими в социальных сетях.

В начале перекодируйте переменные на бинарные категории: 'normal' и 'not normal'. Нормальное количество сна для людей – больше 7 часов. Нормальное время, проведенное в сети –это меньше 2 часов в день. Перекодируйте переменные, а затем воспользуйтесь результатом Хи-теста и выведите результат Хи-квадрата.

Напишите аналогичный код из предыдущей задачи. (Рассчитайте Хи-квадрат для переменных 'Time spent on sleep' и 'Time spent on social media') и выведите результат p-value.

Датасет доступен под названием 'COVID-19 Survey Student Responses.csv'

In [7]:
import pandas as pd
from scipy.stats import chi2_contingency

df = pd.read_csv('COVID-19 SSR.csv')

df = df.assign(Sleep=['normal' if i >= 7 else 'not normal' for i in df['Time spent on sleep']])
df = df.assign(Media=['normal' if i < 2 else 'not normal' for i in df['Time spent on social media']])

crosstab = pd.crosstab(index=df['Sleep'], columns=df['Media'])

chi2, p_value, dof, expected = chi2_contingency(crosstab)

print(p_value)

0.04382608418680551


#### G: Замена значений переменных с одних на другие
Для удобной работы категориальные переменные перекодируют в числовые. В этой задаче мы будем работать с бинарной переменной 'Health issue during lockdown'.

Перекодируйте значения переменной "YES" и "NO", на "1" и "0", соответственно.

В выдаче выведите количество значений по данной переменной.

Датасет доступен под названием 'COVID-19 Survey Student Responses.csv'

In [8]:
import pandas as pd

df = pd.read_csv('COVID-19 SSR.csv')

df['Health issue during lockdown'] = df['Health issue during lockdown'].replace(["YES", "NO"], [1, 0])

print(df['Health issue during lockdown'].value_counts())

Health issue during lockdown
0    1021
1     161
Name: count, dtype: int64


  df['Health issue during lockdown'] = df['Health issue during lockdown'].replace(["YES", "NO"], [1, 0])


#### H: Сколько читают учащиеся, справляясь со стрессом?
Чтобы понять находятся ли опеределенное слово, символ или другой показатель в значениях переменных, можно воспользоваться функцией contains(). Подробно об этой функции можно прочесть по ссылке https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.contains.html. В этой задаче вы будете работать с переменной 'Stress busters'. Выведите количество учащихся, которые используют книги в качестве профилактики борьбы со стрессом (встречаемость 'book' в значениях переменной).

Датасет доступен под названием 'COVID-19 Survey Student Responses.csv'

In [9]:
import pandas as pd

df = pd.read_csv('COVID-19 SSR.csv')

result = df['Stress busters'].str.contains('book')

print(result.sum())

85


#### I: Самая популярная платформа среди социльных сетей
Определите наиболее популярную медиаплатформу в социальных сетях. (переменная 'Prefered social media platform')

Отфильтруйте пользователей, которые используют эту платформу для социальной сети и вычислите, в среднем сколько времени в день проводят в социальных медиа (переменная 'Time spent on social media') пользователи, которые предпочитают популярную социальную платформу. Результат округлите до сотых.

Датасет доступен под названием 'COVID-19 Survey Student Responses.csv'

In [27]:
import pandas as pd

df = pd.read_csv('COVID-19 SSR.csv')

platform = df['Prefered social media platform'].mode()[0]

filtered_df = df[df['Prefered social media platform'] == platform]

result = filtered_df['Time spent on social media'].mean()

print(round(result, 2))

2.91


#### J: Кто проводит больше времени в социальных медиа?
В предыдущей задаче мы выяснили, что пользователи, которые предпочитают Инстаграм, используют социальные медиа в среднем около 2.91 часа.

Чтобы понять насколько пользователи Инстаграма отличаются от пользователей, отдающих предпочтения другой социальной сети, необходимо сделать подобную аналитику.

Определите платформу, в которой пользователи проводят больше всего времени в среднем.

Результат выведите через пробел. В начале укажите название предпочитаемой социальной сети, а затем среднее количество времени, затрачиваемое на пользование социальными сетями через пробел. Результат округлите до сотых.

Датасет доступен под названием 'COVID-19 Survey Student Responses.csv'

Формат вывода
YouTube 18.0

In [46]:
import pandas as pd

df = pd.read_csv('COVID-19 SSR.csv')

platform_stats = df.groupby('Prefered social media platform')['Time spent on social media'].mean().round(2)

max_platform = platform_stats.idxmax()
max_time = platform_stats.max()

print(max_platform, max_time)

Talklife 10.0
