Решение оформляется только в Jupyter Notebook.
Решение оформляется в соответствии с ноутбуком-шаблоном.

Каждое задание выполняется в отдельной ячейке, выделенной под задание (в шаблоне они помечены как ваш код здесь). Не следует создавать множество ячеек для решения задачи — это создаёт неудобства при проверке.

Код для каждого задания оформляется в одной-двух jupyter-ячейках (не стоит создавать множество ячеек для решения задачи, это усложняет проверку).

Решение должно использовать только пройденный материал: переменные, основные структуры данных (списки, словари, множества), циклы, функции, библиотеки numpy, pandas, matplotlib, seaborn, plotly. Если вы думаете, что для решения необходимо воспользоваться сторонними библиотеками или инструментами (например Excel), другими языками программирования или неизученными конструкциями, вы ошибаетесь :) Все задания решаются с помощью уже знакомых методов.

Код должен быть читаемым и понятным: имена переменных и функций отражают их сущность, важно избегать многострочных конструкций и условий.

Пользуйтесь руководством PEP 8.

Графики оформляются в соответствии с теми правилами, которые мы приводили в модуле по визуализации данных.

Обязательное требование: графики должны содержать название, отражающее их суть, и подписи осей.

Выводы к графикам оформляются в формате Markdown под самим графиком в отдельной ячейке (в шаблоне они помечены как ваши выводы здесь). Выводы должны быть представлены в виде небольших связанных предложений на русском языке.

In [7]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
hh_data = pd.read_csv('data/dst-3.0_16_1_hh_database.csv',sep=';')
hh_data.head()
print(hh_data.shape)

(44744, 12)


In [2]:
hh_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 44744 entries, 0 to 44743
Data columns (total 12 columns):
 #   Column                           Non-Null Count  Dtype 
---  ------                           --------------  ----- 
 0   Пол, возраст                     44744 non-null  object
 1   ЗП                               44744 non-null  object
 2   Ищет работу на должность:        44744 non-null  object
 3   Город, переезд, командировки     44744 non-null  object
 4   Занятость                        44744 non-null  object
 5   График                           44744 non-null  object
 6   Опыт работы                      44576 non-null  object
 7   Последнее/нынешнее место работы  44743 non-null  object
 8   Последняя/нынешняя должность     44742 non-null  object
 9   Образование и ВУЗ                44744 non-null  object
 10  Обновление резюме                44744 non-null  object
 11  Авто                             44744 non-null  object
dtypes: object(12)
memory usage: 4.1+

In [5]:
hh_data['Опыт работы'].nunique()
#hh_data['Опыт работы'].value_counts()
print(hh_data['Ищет работу на должность:'].value_counts())


Системный администратор                                                  3099
Инженер                                                                   966
Аналитик                                                                  809
Менеджер проектов                                                         745
Руководитель проекта                                                      718
                                                                         ... 
Системный администратор Linux, DevOps, Разработчик Golang                   1
Инженер КИПиА,инженер АСУТП ,видеоинженер                                   1
SEO-специалист | Специалист по интернет-рекламе | Интернет-маркетолог       1
Специалист технических систем безопастности                                 1
Аналитик данных, Математик                                                  1
Name: Ищет работу на должность:, Length: 14929, dtype: int64


In [8]:
def get_edu_level(st:str):
    st = ' '.join(st.split(' ')[:3]).lower()
    if 'неоконченное высшее' in  st or 'высшее неоконченное' in st:
        return 'неоконченное высшее'
    elif 'высшее' in st:
        return 'высшее'
    elif 'среднее специальное' in st or 'средне-специальное' in st:
        return 'среднее специальное'
    elif 'среднее образование' in st:
        return 'среднее'
    return np.nan

hh_data['Образование'] = hh_data['Образование и ВУЗ'].apply(get_edu_level)
#display(hh_data[hh_data['Образование'] == 'среднее специальное'].tail(50))
hh_data['Образование'].value_counts()

высшее                 33863
среднее специальное     5765
неоконченное высшее     4557
среднее                  559
Name: Образование, dtype: int64

In [9]:
def get_education(arg):
    arg = ' '.join(arg.split(' ')[:3])
    if 'Высшее' in arg:
        return 'высшее'
    elif 'Неоконченное высшее' in arg:
        return 'неоконченное высшее'
    elif 'Среднее специальное' in arg:
        return 'среднее специальное'
    elif 'Среднее образование' in arg:
        return 'среднее'

hh_data['Образование'] = hh_data['Образование и ВУЗ'].apply(get_education)
hh_data = hh_data.drop(columns = 'Образование и ВУЗ',axis=1)
print(hh_data['Образование'].value_counts())

высшее                 33863
среднее специальное     5765
неоконченное высшее     4557
среднее                  559
Name: Образование, dtype: int64


In [10]:
error_data = hh_data.copy()
error_data['error'] = False
display(error_data.info())
for i in range(hh_data.shape[0]):
    """print (get_education(hh_data.loc[i]['Образование и ВУЗ']) != edu_level_clean(hh_data.loc[i]['Образование и ВУЗ']))
    input()"""
    if (get_education(hh_data.loc[i]['Образование и ВУЗ']) != edu_level_clean(hh_data.loc[i]['Образование и ВУЗ'])):
        error_data.loc[i,'error'] = True
error_data.info()
display(error_data[error_data['error'] == True])


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 44744 entries, 0 to 44743
Data columns (total 13 columns):
 #   Column                           Non-Null Count  Dtype 
---  ------                           --------------  ----- 
 0   Пол, возраст                     44744 non-null  object
 1   ЗП                               44744 non-null  object
 2   Ищет работу на должность:        44744 non-null  object
 3   Город, переезд, командировки     44744 non-null  object
 4   Занятость                        44744 non-null  object
 5   График                           44744 non-null  object
 6   Опыт работы                      44576 non-null  object
 7   Последнее/нынешнее место работы  44743 non-null  object
 8   Последняя/нынешняя должность     44742 non-null  object
 9   Обновление резюме                44744 non-null  object
 10  Авто                             44744 non-null  object
 11  Образование                      44744 non-null  object
 12  error                           

None

KeyError: 'Образование и ВУЗ'

In [24]:
error_data[error_data['error'] == True].to_csv('data/hh.data.csv')

In [19]:
error_data['error'].value_counts()

False    44723
True        21
Name: error, dtype: int64

In [29]:
def get_gender_age(st,key='gender'):
    st = st.split(' , ')
    # Определям пол по первому полю
    if key == 'gender':
        if st[0].lower() == 'мужчина': gender = 'М'
        elif st[0].lower() == 'женщина': gender = 'Ж'
        else: gender = np.nan
        return gender
    # Определяем возраст по первому слову второго поля
    elif key == 'age':
        try:
            age = int(st[1].split(' ')[1])
        except:
            age = np.nan
        return age
    else: return np.nan

hh_data['Пол'] = hh_data['Пол, возраст'].apply(get_gender_age, key='gender')
hh_data['Пол'] = hh_data['Пол'].astype('category')
hh_data['Возраст'] = hh_data['Пол, возраст'].apply(get_gender_age, key='age')
hh_data['Возраст'] = hh_data['Возраст'].astype(dtype = np.int16)

display(hh_data.info())
display(hh_data['Возраст'].describe())
display(hh_data['Пол'].describe())
display(hh_data['Возраст'].mean())
display(hh_data[hh_data['Пол'] == 'Ж'].shape[0]/hh_data.shape[0])



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 44744 entries, 0 to 44743
Data columns (total 14 columns):
 #   Column                           Non-Null Count  Dtype         
---  ------                           --------------  -----         
 0   Пол, возраст                     44744 non-null  object        
 1   ЗП                               44744 non-null  object        
 2   Ищет работу на должность:        44744 non-null  object        
 3   Город, переезд, командировки     44744 non-null  object        
 4   Занятость                        44744 non-null  object        
 5   График                           44744 non-null  object        
 6   Опыт работы                      44576 non-null  object        
 7   Последнее/нынешнее место работы  44743 non-null  object        
 8   Последняя/нынешняя должность     44742 non-null  object        
 9   Образование и ВУЗ                44744 non-null  object        
 10  Обновление резюме                44744 non-null  datetime6

None

count    44744.000000
mean        32.196741
std          7.929800
min         14.000000
25%         27.000000
50%         31.000000
75%         36.000000
max        100.000000
Name: Возраст, dtype: float64

count     44744
unique        2
top           М
freq      36211
Name: Пол, dtype: object

32.19674146254246

0.19070713391739674

In [11]:
try:
    print (int('w'))
except:
    print('NaN')
print(12+np.nan)

NaN
nan


In [14]:
#display(hh_data.head(50))
display(hh_data['Опыт работы'].describe())

count                                                 44576
unique                                                44413
top       Опыт работы 10 лет 8 месяцев  Апрель 2018 — по...
freq                                                      3
Name: Опыт работы, dtype: object

In [19]:
busyness_list = ['полная занятость', 'частичная занятость', 'проектная работа', 'волонтерство', 'стажировка']
shedule_list = ['полный день', 'сменный график', 'гибкий график', 'удаленная работа', 'вахтовый метод']
one_hot = pd.DataFrame(columns = busyness_list + shedule_list)
#hh_data.head()
hh_data['Обновление резюме'] = pd.to_datetime(hh_data['Обновление резюме'])
hh_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 44744 entries, 0 to 44743
Data columns (total 12 columns):
 #   Column                           Non-Null Count  Dtype         
---  ------                           --------------  -----         
 0   Пол, возраст                     44744 non-null  object        
 1   ЗП                               44744 non-null  object        
 2   Ищет работу на должность:        44744 non-null  object        
 3   Город, переезд, командировки     44744 non-null  object        
 4   Занятость                        44744 non-null  object        
 5   График                           44744 non-null  object        
 6   Опыт работы                      44576 non-null  object        
 7   Последнее/нынешнее место работы  44743 non-null  object        
 8   Последняя/нынешняя должность     44742 non-null  object        
 9   Образование и ВУЗ                44744 non-null  object        
 10  Обновление резюме                44744 non-null  datetime6

In [28]:
rates = pd.read_csv('data/ExchangeRates.csv')
rates[rates['currency']=='UZS'].head()
rates['date'] = pd.to_datetime(rates['date'])
rates.info()
rates.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5664 entries, 0 to 5663
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   currency    5664 non-null   object        
 1   per         5664 non-null   object        
 2   date        5664 non-null   datetime64[ns]
 3   time        5664 non-null   object        
 4   close       5664 non-null   float64       
 5   vol         5664 non-null   int64         
 6   proportion  5664 non-null   int64         
dtypes: datetime64[ns](1), float64(1), int64(2), object(3)
memory usage: 309.9+ KB


Unnamed: 0,currency,per,date,time,close,vol,proportion
0,USD,D,2017-12-29,00:00,57.6291,0,1
1,USD,D,2017-12-30,00:00,57.6002,0,1
2,USD,D,2017-12-31,00:00,57.6002,0,1
3,USD,D,2018-01-01,00:00,57.6002,0,1
4,USD,D,2018-02-01,00:00,57.6002,0,1


In [31]:
frame3 = pd.DataFrame(np.nan.reshape((4,4)),
index=['red', 'blue', 'yellow', 'white'],
columns=['ball', 'pen', 'pencil', 'paper'])

AttributeError: 'float' object has no attribute 'reshape'