**Проект по ТАБД**

Мы анализируем данные по численности рабочей силы в Российской Федерации, чтобы понять, как изменяется численность мужчин и женщин в различных возрастных категориях в течение времени.
Этот анализ помогает выявить тренды на рынке труда.

Данная работа реализует:
- открытие и запись файла csv
- Запись данных в словарь
- Расчет среднего
- Расчет стандартного отклонения

- Расчет медианы
- расчет минимума и максимума

Для открытия файла используется функция read_csv, которая принимает путь до файла и требуемую кодировку.

In [1]:
def read_csv(file_path, encoding):
    with open(file_path, 'r', encoding=encoding) as file:
        lines = file.readlines()
        data = [line.strip().split(',') for line in lines]
    return data

Для записи данных в словарь используется функция csv_to_dict, принимающая на вход массив данных и требуемый заголовок категории данных. Заголовки таблицы  (т.е первый элемент массива) записываются как ключ, а их данные как значение по ключу. 
Возвращаемое значение - Словарь с одной категорией, в которой данные организованы по годам. Каждый год становится ключом, а значением является вложенный словарь с данными за этот год.

In [17]:
def csv_to_dict(data, category):
    headers = data[0] 
    records = {}
    for row in data[1:]:
        year = int(row[0])
        records[year] = {
            headers[i]:  float(row[i].replace(',', '.').replace('"', '')) for i in range(1, len(headers))
        }
    return {category: records}

Вычисление среднего значения

In [3]:
def calculate_mean(values):
    return sum(values) / len(values)

Вычисление медианы

In [49]:
def calculate_median(values):
    n = len(values)
    sorted_values = sorted(values)
    return sorted_values[n // 2] if n % 2 != 0 else (sorted_values[n // 2 - 1] + sorted_values[n // 2]) / 2

Вычисление минимума

In [45]:
def calculate_min(values):
    return min(values)

Вычисление максимума

In [55]:
def calculate_max(values):
    return max(values)

Функция для вычисления стандартного отклонения

In [58]:
def calculate_stddev(values, mean):
    variance = sum((x - mean) ** 2 for x in values) / len(values)
    return variance ** 0.5

читаем файл

In [51]:
men = read_csv('RabSilaMens.csv', 'utf-8')
woman = read_csv('RabSilaWomen.csv', 'utf-8')
print(all)
print(men)
print(woman)

[['Год', 'Всего тыс. человек', '15-19', '20-24', '25-29', '30-34', '35-39', '40-44', '45-49', '50-54', '55-59', '60-64', '65-69', '70 и старше', 'Средний возраст лет'], ['2013', '75616', '686', '6972', '10779', '9927', '9508', '8634', '9173', '9914', '6553', '2606', '690', '174', '"40', '0"'], ['2014', '75582', '578', '6387', '10983', '10204', '9564', '8905', '8779', '9917', '6678', '2731', '717', '139', '"40', '2"'], ['2015', '76762', '611', '5871', '11197', '10615', '9896', '9177', '8618', '9891', '7029', '2923', '810', '124', '"40', '3"'], ['2016', '76933', '612', '5411', '11217', '10925', '10050', '9430', '8515', '9624', '7156', '3017', '848', '127', '"40', '4"'], ['2017', '76659', '540', '4779', '11103', '11081', '10324', '9565', '8611', '9148', '7291', '3011', '946', '261', '"40', '7"'], ['2018', '76630', '521', '4419', '10557', '11461', '10451', '9757', '8706', '8748', '7483', '3200', '1025', '302', '"40', '9"'], ['2019', '75880', '474', '4257', '9756', '11575', '10619', '9755',

Создаем словари

In [52]:
dictMan = csv_to_dict(men, 'men')
dictWoman = csv_to_dict(woman, 'woman')
dictWoman

{'woman': {2013: {'Всего тыс. человек': 36856.0,
   '15-19': 285.0,
   '20-24': 3063.0,
   '25-29': 4911.0,
   '30-34': 4673.0,
   '35-39': 4706.0,
   '40-44': 4361.0,
   '45-49': 4785.0,
   '50-54': 5240.0,
   '55-59': 3106.0,
   '60-64': 1257.0,
   '65-69': 369.0,
   '70 и старше': 98.0,
   'Средний возраст лет': 40.0},
  2014: {'Всего тыс. человек': 36800.0,
   '15-19': 232.0,
   '20-24': 2802.0,
   '25-29': 4984.0,
   '30-34': 4808.0,
   '35-39': 4714.0,
   '40-44': 4513.0,
   '45-49': 4579.0,
   '50-54': 5230.0,
   '55-59': 3131.0,
   '60-64': 1337.0,
   '65-69': 390.0,
   '70 и старше': 79.0,
   'Средний возраст лет': 40.0},
  2015: {'Всего тыс. человек': 37270.0,
   '15-19': 243.0,
   '20-24': 2596.0,
   '25-29': 5073.0,
   '30-34': 4950.0,
   '35-39': 4871.0,
   '40-44': 4628.0,
   '45-49': 4457.0,
   '50-54': 5215.0,
   '55-59': 3291.0,
   '60-64': 1439.0,
   '65-69': 438.0,
   '70 и старше': 70.0,
   'Средний возраст лет': 40.0},
  2016: {'Всего тыс. человек': 37354.0,
   '15

Отдельно выписаны все возрастные категории для удобства

In [54]:
age_categories = ['15-19', '20-24', '25-29', '30-34', '35-39', '40-44', '45-49', '50-54', '55-59', '60-64', '65-69', '70 и старше']

Функция для подсчета всех статистик

In [62]:
def calculate_statistics(data, key):
    for category in age_categories:
        values = [data[key][year][category] for year in range(2013, 2024)]
        mean_value = calculate_mean(values)
        median_value = calculate_median(values)
        min_value = calculate_min(values)
        max_value = calculate_max(values)
        stddev = calculate_stddev(values, mean_value)
        print(f"Категория {category}: Среднее = {mean_value}, медиана = {median_value}, минимальное = {min_value}, максимальное = {max_value}, стандартное отклонение = {stddev}")

In [63]:
print("Данные для женщин за все года")
calculate_statistics(dictWoman, 'woman')

Данные для женщин за все года
Категория 15-19: Среднее = 215.72727272727272, медиана = 215.0, минимальное = 171.0, максимальное = 285.0, стандартное отклонение = 30.91951695815476
Категория 20-24: Среднее = 2160.5454545454545, медиана = 1956.0, минимальное = 1655.0, максимальное = 3063.0, стандартное отклонение = 457.1948786073542
Категория 25-29: Среднее = 4466.0, медиана = 4860.0, минимальное = 3306.0, максимальное = 5109.0, стандартное отклонение = 659.5793425289403
Категория 30-34: Среднее = 5185.363636363636, медиана = 5194.0, минимальное = 4673.0, максимальное = 5482.0, стандартное отклонение = 263.70516343663144
Категория 35-39: Среднее = 5162.181818181818, медиана = 5133.0, минимальное = 4706.0, максимальное = 5761.0, стандартное отклонение = 332.75347636509804
Категория 40-44: Среднее = 4904.272727272727, медиана = 4953.0, минимальное = 4361.0, максимальное = 5351.0, стандартное отклонение = 304.2266173607165
Категория 45-49: Среднее = 4638.363636363636, медиана = 4579.0, мини

In [65]:
print("Данные для мужчин за все года")
calculate_statistics(dictMan, 'men')

Данные для мужчин за все года
Категория 15-19: Среднее = 318.54545454545456, медиана = 300.0, минимальное = 244.0, максимальное = 401.0, стандартное отклонение = 47.237049473640994
Категория 20-24: Среднее = 2744.181818181818, медиана = 2463.0, минимальное = 2137.0, максимальное = 3909.0, стандартное отклонение = 586.5349432637594
Категория 25-29: Среднее = 5287.363636363636, медиана = 5697.0, минимальное = 3845.0, максимальное = 6124.0, стандартное отклонение = 831.1954449878772
Категория 30-34: Среднее = 5825.272727272727, медиана = 5887.0, минимальное = 5254.0, максимальное = 6126.0, стандартное отклонение = 280.40428310471844
Категория 35-39: Среднее = 5345.727272727273, медиана = 5318.0, минимальное = 4802.0, максимальное = 6002.0, стандартное отклонение = 368.9986673809617
Категория 40-44: Среднее = 4770.0, медиана = 4791.0, минимальное = 4273.0, максимальное = 5228.0, стандартное отклонение = 285.79617657599016
Категория 45-49: Среднее = 4324.545454545455, медиана = 4302.0, мини

Функция для сортироввки и добавления ранга

In [80]:
def sort_data(data):
    sorted_and_ranked_data = {} 
    for key in data: 
        sorted_and_ranked_data[key] = {} 
        
        for year in data[key]:
            filtered_age_data = {}
            for age_category in data[key][year]:
                if age_category != 'Всего тыс. человек' and age_category != 'Средний возраст лет':
                    filtered_age_data[age_category] = data[key][year][age_category]
        
            sorted_age_data = {}
            for age_category in sorted(filtered_age_data, key=lambda x: filtered_age_data[x]):
                sorted_age_data[age_category] = filtered_age_data[age_category]
            
            ranked_age_data = {}
            rank = 1
            for age_category in sorted_age_data:
                ranked_age_data[age_category] = {"value": sorted_age_data[age_category], "rank": rank}
                rank += 1
        
            sorted_and_ranked_data[key][year] = ranked_age_data
    
    return sorted_and_ranked_data


In [85]:
sorted_data_man = sort_data(dictMan)
sorted_data_woman = sort_data(dictWoman)
sorted_data_man

{'men': {2013: {'70 и старше': {'value': 76.0, 'rank': 1},
   '65-69': {'value': 321.0, 'rank': 2},
   '15-19': {'value': 401.0, 'rank': 3},
   '60-64': {'value': 1348.0, 'rank': 4},
   '55-59': {'value': 3446.0, 'rank': 5},
   '20-24': {'value': 3909.0, 'rank': 6},
   '40-44': {'value': 4273.0, 'rank': 7},
   '45-49': {'value': 4388.0, 'rank': 8},
   '50-54': {'value': 4674.0, 'rank': 9},
   '35-39': {'value': 4802.0, 'rank': 10},
   '30-34': {'value': 5254.0, 'rank': 11},
   '25-29': {'value': 5868.0, 'rank': 12}},
  2014: {'70 и старше': {'value': 59.0, 'rank': 1},
   '65-69': {'value': 328.0, 'rank': 2},
   '15-19': {'value': 346.0, 'rank': 3},
   '60-64': {'value': 1394.0, 'rank': 4},
   '55-59': {'value': 3547.0, 'rank': 5},
   '20-24': {'value': 3586.0, 'rank': 6},
   '45-49': {'value': 4200.0, 'rank': 7},
   '40-44': {'value': 4392.0, 'rank': 8},
   '50-54': {'value': 4686.0, 'rank': 9},
   '35-39': {'value': 4850.0, 'rank': 10},
   '30-34': {'value': 5396.0, 'rank': 11},
   '2

Функция для записи данных в файл

In [84]:
def write_data_to_csv(man_data, woman_data, filename):
    with open(filename, 'w', encoding='utf-8') as file:
        file.write('Пол,Год,Возрастная категория,Значение,Рейтинг\n')

        for key, data in man_data.items():
            for year, age_data in data.items():
                for age_category, info in age_data.items():
                    value = info['value']
                    rank = info['rank']
                    file.write(f"{key},{year},{age_category},{value},{rank}\n")
        

        for key, data in woman_data.items():
            for year, age_data in data.items():
                for age_category, info in age_data.items():
                    value = info['value']
                    rank = info['rank']
                    file.write(f"{key},{year},{age_category},{value},{rank}\n")


По итогам работы функции мы получаем единый файл со всеми данные, которые отсортированы внутри каждого года для каждого гендера

In [86]:
filename = 'gender_ranked_data.csv'
write_data_to_csv(sorted_data_man, sorted_data_woman, filename)