Устанавливаем библиотеки: pandas - для работы с таблицами, pyreadstat - для чтения файлов из статистических программ (типа SPSS). Обязательно указываем версию библиотеки через ==, потому что код, работающий в одной версии, может не работать в другой.  
Документации на них:

https://pandas.pydata.org

https://ofajardo.github.io/pyreadstat_documentation/_build/html/index.html


In [1]:
!pip install pandas==1.4.2 pyreadstat==1.2.0

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pandas==1.4.2
  Downloading pandas-1.4.2-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (11.7 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m11.7/11.7 MB[0m [31m40.9 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting pyreadstat==1.2.0
  Downloading pyreadstat-1.2.0-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (2.7 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.7/2.7 MB[0m [31m43.3 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: pandas, pyreadstat
  Attempting uninstall: pandas
    Found existing installation: pandas 1.4.4
    Uninstalling pandas-1.4.4:
      Successfully uninstalled pandas-1.4.4
Successfully installed pandas-1.4.2 pyreadstat-1.2.0


Подключаем Google Disk, надо будет дать разрешение этой jupyter-notebook тетрадке на чтение/запись с него. Файлы *.sav должны быть заранее загружены на Google Disk. Если они загружены не в корень диска, а в подпапку, надо будет поменять переменные fpath (cм. ниже)

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
# импортируем библиотеку pyreadstat, 
# которая ориентирована на работу с форматами статистических (в т.ч., платных) программ.
import pyreadstat
import numpy as np

In [4]:
# В программе учебной дисциплины заявлен анализ по 2011 году, но в данных по нему нет нужных нам переменных.

# Источник данных: https://gks.ru/ .

fpath_2020 = 'drive/MyDrive/коуж/IND_OSN_2020.sav'
df_2020, meta_2020 = pyreadstat.read_file_multiprocessing(pyreadstat.read_sav, fpath_2020, num_processes=16, encoding='cp1251') 
meta_2020.column_names_to_labels

{'H00_02': 'Код субъекта РФ',
 'H00_04': 'Тип населенного пункта',
 'H00_06': 'Номер домохозяйства',
 'H01_00': 'Индивидуальный код члена домохозяйства',
 'H00_07': 'Тип населенного пункта по численности населения',
 'H01_01': 'Пол',
 'H01_02': 'Число исполнившихся лет',
 'H01_03': 'Родственное отношение',
 'H01_04': 'Семейное положение',
 'H01_05': 'C какого времени семейное положение такое',
 'H01_06': 'Индивидуальный код супруга',
 'H01_07': 'Проживание в домохозяйстве',
 'H01_08': 'Проживание на день опроса',
 'H01_09': 'Причина отсутствия на момент опроса',
 'H01_10': 'Возможность дать информацию о самом себе',
 'H01_11': 'Причина, по которой респондент не может дать сам о себе информацию',
 'H01_12': 'Код лица, ответившего за респондента',
 'H01_13': 'Тип семейной единицы',
 'H01_14': 'Порядковый номер семейной единицы в домохозяйстве',
 'I00_09': 'Число проведения опроса',
 'I00_10': 'Месяц проведения опроса',
 'I00_11': 'Год проведения опроса',
 'I00_12': 'Час начала опроса',
 

In [5]:
selection = [
    'I02_03_10', # 'Плохая организация работы общественного транспорта' 
    'I02_03_12', # 'Существуют проблемы с состоянием дорог, безопасностью дорожного движения в населенном пункте',
    'I03_01_01', # 'Регулярное использование общественного городского (пригородного) муниципального транспорта',
    'I03_01_02',# 'Регулярное использование общественного городского (пригородного) коммерческого транспорта',
    'I03_01_03', # 'Регулярное использование электропоезда, пригородного поезда',
    'I03_01_041', # 'Регулярное использование собственного автомобиля, мотоцикла (в качестве водителя)',
    'I03_01_05', #'Регулярное использование автомобиля, мотоцикла (в качестве пассажира)',
    "H00_02", # код субъекта РФ
    ] 

In [11]:
def descriptional_statistics(df, meta, selection):
    # Создадим новую таблицу (pandas DataFrame), но только с теми колонками,
    # которые используются в расчётах.
    # Так используется меньше памяти, удобнее визуализировать. Но можно пользоваться и исходной таблицей.
    selected = df[selection]
    # Используем генератор списков, чтобы переименовать служебные заголвки в читаемые.
    # для этого мы хотим "пройтись" по всем меткам в списке selection и получить новый список вместо selection.
    # Подробнее о генераторах списков: https://pythontutor.ru/lessons/lists/#section_3
    selection_names = [meta.column_names_to_labels[label] for label in selection]
    # Заменим исходные наименования колонок на наименования из получившегося списка selection_names, 
    # теперь у нас наименования колонок будет как в столбце "метки" файла sav.
    selected.columns = selection_names
    # 98 - код Республики Саха (Якутии), согласно ОКВЭДам.
    # создаем маску, чтобы получить таблицу с данными только по Якутии.
    mask = selected['Код субъекта РФ'] == '98'
    # применяем маску - используем только те строчки, где значения маски True
    region = selected[mask]
    # число наблюдений в таблице получаем через атрибут shape.
    # так как в shape находится объект типа кортеж (tuple)- структура данных, похожая на список,
    # но неизменяемая (чтобы добавить или удалить элемент, придется создавать новый объект типа кортеж в памяти).
    # из кортежа,  так же, как из списка, можно получить по порядковому индексу его элемент
    # в данном случае у нас shape[0] - количество строк, shape[1] - количество столбцов.
    # pandas DataFrame - двумерная таблица, ее размерность описывается количеством строчек и столбцов.
    # одномерная "таблица" pandas, по сути, одна колонка, размерность которой описывается только количеством строчек,
    # называется Series

    print(f"Количество наблюдений по выбранным переменным: {region.shape[0]}")
    # apply - метод pandas DataFrame, который позволяет применить функцию ко всему Series или DataFrame,
    # не прописывая цикл явно.

    # Применим функцию, который переведет служебные значения в читаемые ко всему столбцу Размер населенного пункта.

    # в python есть два способа объявить функцию - через ключевое слово def или lambda.
    # def удобно использовать, когда у функции много аргументов и/или в ней выполняется много действий
    # lambda удобно использовать, когда функция принимает 1-2 аргумента и выполняемые действия можно прописать в 
    # одну строчку

    # После ключевого слова lambda идет аргумент функции (x), двоеточие и после него прописываем действие 
    # над аргументом х

    # В данном случае необходимо из словаря variable_to_label получить значение ключа,
    # а затем по этому значению получить другое значение 
    # из словаря value_labels
    # т.е., value_labels это вложенный словарь - словарь в словаре.
    for name, variable in zip(selection_names[:-1], selection[:-1]):
        print(name)
        if region[name].dropna().shape[0] > 0: 
            if (variable != 'DEN_NA_DUSHU') and not ('(общая площадь)' in name): # доходы и вопросы с общей площадью не по номинальной шкале, так что их преобразовывать не надо
                

                possible_answers = meta.value_labels[meta.variable_to_label[variable]]
                possible_answers_str = {}
                for k, v in possible_answers.items():
                    possible_answers_str[str(k)] = v # бывает так, что в этом словаре часть ключей имеет тип данных float, а часть строка
                
                print(f"Возможные ответы: {possible_answers_str}")
                try: 
                    variable_values = region[name].apply(lambda x: possible_answers_str[str(x)] if not np.isnan(x) else x)
                except KeyError:
                    print("Варианты ответа отсутствуют в словаре возможных ответов. Посчитать осмысленные описательные статистики нельзя")
                    print(f"Варианты ответа: {region[name].unique()}")
                    print("--------------------------")
                    continue
                print(variable_values.describe())
            else:
                print(region[name].describe())
            
        else:
            print("Нет данных")
        print("--------------------------")

Что считает метод describe для нечисловых данных:

unique - количество уникальных значений

top - наиболее часто встречающееся значение

freq - частота top-а (мода)

в случае нескольких одинаковых top-ов, какой вывести, выбирается случайно

In [12]:
print("2020 ГОД")
descriptional_statistics(df_2020, meta_2020, selection)


2020 ГОД
Количество наблюдений по выбранным переменным: 1178
Плохая организация работы общественного транспорта
Возможные ответы: {'-7.0': 'Затруднились ответить', '1.0': 'Да', '2.0': 'Нет'}
count     886
unique      3
top       Нет
freq      673
Name: Плохая организация работы общественного транспорта, dtype: object
--------------------------
Существуют проблемы с состоянием дорог, безопасностью дорожного движения в населенном пункте
Возможные ответы: {'-7.0': 'Затруднились ответить', '1.0': 'Да', '2.0': 'Нет'}
count     886
unique      3
top       Нет
freq      516
Name: Существуют проблемы с состоянием дорог, безопасностью дорожного движения в населенном пункте, dtype: object
--------------------------
Регулярное использование общественного городского (пригородного) муниципального транспорта
Возможные ответы: {'1.0': 'Регулярное использование общественного городского (пригородн'}
count                                                   150
unique                                      