In [1]:
import pandas as pd
import numpy as np
import os

pd.set_option('max_colwidth', 200)
pd.set_option('display.width', 400)

from IPython.core.display import display, HTML
display(HTML("<style>.container { width:90% !important; }</style>"))

from pprint import pprint
from pathlib import Path

In [2]:
star_wars = pd.read_csv('./Data/StarWars.csv', sep=';')
star_wars.head()

Unnamed: 0,respondentID,seen,fan,gender,age_group,income,loc,yoda,princess_leia_organa
0,3292879998,да,да,М,18-29,,Южно-Атлантический,очень нравится,очень нравится
1,3292879538,нет,,М,18-29,0 - 24.999,Юго-Западный центральный,,
2,3292765271,да,нет,М,18-29,0 - 24.999,Северо-Западный центральный,не знаю такого персонажа,нравится
3,3292763116,да,да,М,18-29,100.000 - 149.999,Северо-Западный центральный,очень нравится,очень нравится
4,3292731220,да,да,М,18-29,100.000 - 149.999,Северо-Западный центральный,нравится,нравится


# Описание данных

- respondentID — идентификационный номер респондента
- seen — ответ на вопрос, видел ли респондент хотя бы один фильм из серии «Звездных войн» (да/нет)
- fan — ответ на вопрос, считает ли респондент себя фанатом серии фильмов (да/нет)
- gender — пол респондента (М/Ж)
- age_group — возрастная группа, к которой принадлежит респондент (18-29, 30-44, 45-60, > 60)
- income — доход респондента в долларах США (0 - 24.999, 25.000 - 49.999, 50.000 - 99.999, 100.000 - 149.999, 150.000+)
- loc — регион проживания респондента (в США)
- yoda — отношение респондента к персонажу серии (Йоде)
- princess_leia_organa — отношение респондента к персонажу серии (принцессе Лее Органе)

# Задания

### К какой шкале относится переменная age_group? Выберите один верный ответ.

In [18]:
star_wars['fan'].unique()

array(['да', nan, 'нет'], dtype=object)

### Укажите, верно ли следующее утверждение: 
- все женщины 
- старше 60 лет, 
- входящие в категорию с наивысшим доходом и 
- являющиеся фанатами серии фильмов, 
    - проживают в одном регионе.

In [24]:
star_wars.loc[
    (star_wars['gender'] == 'Ж') & 
    (star_wars['age_group'] == '> 60') &
    (star_wars['income'] == '150.000+') &
    (star_wars['fan'] == 'да')
    , 'loc'].unique()

array(['Тихоокеанский', 'Северо-Западный центральный', 'Горный'],
      dtype=object)

### Какой регион проживания чаще всего встречается в данных? Выберите один верный ответ.

In [33]:
pd.DataFrame(star_wars['loc'].value_counts()).head(1)

Unnamed: 0,loc
Северо-Восточный центральный,181


### Сколько респондентов не назвали свой доход? Выберите один верный ответ.

In [41]:
star_wars.loc[star_wars['income'].isna(), 'respondentID'].count()

328

### Скольким респондентам одновременно очень нравятся Йода и принцесса Лея Органа? Выберите один верный ответ.

In [45]:
star_wars.loc[
    (star_wars['yoda'] == 'очень нравится') & 
    (star_wars['princess_leia_organa'] == 'очень нравится'), 
    'respondentID'].count()

462

### Сколько респондентов не видели ни одного фильма серии, но считают себя ее фанатами? Введите ответ в виде целого числа.

In [60]:
star_wars.loc[
    (star_wars['seen'] != 'да') & 
    (star_wars['fan'] == 'да'), 
    'respondentID'].count()

0

### Сколько респондентов не ответили ни на один вопрос? Введите ответ в виде целого числа.


In [66]:
star_wars[(star_wars['fan'].isna()) &
          (star_wars['income'].isna()) &
          (star_wars['yoda'].isna()) &
          (star_wars['princess_leia_organa'].isna())].shape

(167, 9)

### Посмотрите на мужчин, проживающих в горном районе. В ответ запишите ID респондента, входящего в категорию с наивысшим доходом при заданных условиях.

In [80]:
star_wars.loc[
    (star_wars['gender'] == 'М') &
    (star_wars['loc'] == 'Горный') &
    (star_wars['income'] == '150.000+')
    , 'respondentID'
].values

array([3291077381], dtype=int64)

### Укажите, верно ли следующее утверждение: фанатов серии фильмов в возрастной категории 45-60 меньше, чем не-фанатов в возрастной категории 18-29.

In [85]:
star_wars.loc[(star_wars['fan'] == 'да') & (star_wars['age_group'] == '45-60'), 'respondentID'].count() < \
star_wars.loc[(star_wars['fan'] == 'нет') & (star_wars['age_group'] == '18-29'), 'respondentID'].count()

False

### Сколько процентов (от общего числа респондентов) являются фанатами серии фильмов, проживают в Новой Англии и имеют доход 0 - 24.999 долларов? В ответ запишите число (процент от 0 до 100), округлите до целого.

In [107]:
round(
    star_wars.loc[(star_wars['fan'] == 'да') & (star_wars['loc'] == 'Новая Англия') & (star_wars['income'] == '0 - 24.999'), 'respondentID'].nunique() / star_wars['respondentID'].nunique() * 100
)

1