# ДЗ 1: Поиск юридических данных
## Тимашкова Александра Кирилловна, Караташ Вера Эндеровна, Затямин Александр Евгеньевич; 2МП-09

### 1. Выбранный набор данных
Название: Prisons and prisoners

Наименование организации: United Nations Office on Drugs and Crime

URL: https://dataunodc.un.org/sites/dataunodc.un.org/files/data_cts_prisons_and_prisoners.xlsx

Лицензия: Открытая для образовательных целей с указанием источника

Временной период: 1998-2024 гг.

География: страны ООН (+ деление на регион и субрегион)

Дата последнего обновления: 11/06/2025


### 2. Структура данных
##### До редактирования:

Количество строк (наблюдений): 84028

Количество переменных: 13

Формат данных: Excel

Размер файла: 5,28 МБ

##### После редактирования:

Количество наблюдений: 84025

Количество переменных: 13

Формат данных: csv

Размер файла: 11,4 МБ

### 3. Описание переменных
| Название переменной | Тип переменной | Описание | Пример значений |
|---------------------|----------------|----------|-----------------|
| Iso3_code | Категориальная | Код страны по iso3 | "BRB", "CRI", "DMA", ... |
| Country | Категориальная | Название страны | "Barbados", "Costa Rica", "Dominica", ... |
| Region | Категориальная | Регион | "Africa", "Americas", "Asia", "Europe", "Oceania"|
| Subregion | Категориальная | Субрегион | "Central Asia", "Latin America", "Northen Europe", ... |
| Indicator | Категориальная | Главный признак | "Mortality in prison", "Persons held", "Prisons facility and capacity", ... |
| Dimension | Категориальная | Категория Indicator | "by selected crime", "by citizenship", "by type of death", ... |
| Category | Категориальная | Категория Dimension | "Acts against property involving violence", "Deaths due to external causes", "Unsentenced", ... |
| Sex | Категориальная | Пол | "Female", "Male", "Total" |
| Age | Категориальная | Возраст | "Adult", "Juveniles", "Total" |
| Year | Числовая | Год | 1998, 1999, ..., 2024 |
| Unit of measurement | Категориальная | В чём измеряется VALUE | "Counts", "Percentage of total persons held", "Rate per 100,000 population" |
| VALUE | Числовая | Число/процент | 0, 17, 20,4500106134579, ... |
| Source | Категориальная | Источник | "CTS", "Mol", "SDG" |

### 4. Оценка качества данных

Описание данных: есть анализ данных  https://www.unodc.org/documents/data-and-analysis/briefs/Prison_brief_2024.pdf

Единицы измерения: есть столбец Unit of measurement

Названия столбцов: столбцы Indicator, Dimension, Category имеют разнородные данные, в связи с чем выделение сути их названий затруднен

Сбор данных: указаны источники (однако весьма абстрактно), из которых взята каждая строка

Очевидные проблемы: отсутвуют, однако для корректного отображения мы отредактировали данные, исключив первые 2 строки таблицы и очистив формитирование. 

### 5. Исследовательские вопросы
1. Как изменилась доля неосуждённых заключённых (unsentenced persons) в общей численности заключённых в разных странах за период 2000–2024 гг.?

2. Какие регионы мира характеризуются наибольшим числом заключённых, осуждённых за коррупционные преступления (fraud, deception or corruption)?

3. Существует ли связь между официальной вместимостью тюрем и фактическим числом заключённых в странах с высоким уровнем переполненности?

4. Как менялось количество заключённых, отбывающих наказание за умышленное убийство (intentional homicide), в России и других странах Восточной Европы с 2006 по 2023 год?

5. В каких странах доля неосуждённых, находящихся под стражей более 12 месяцев, наиболее высока, и как это соотносится с общим числом неосуждённых? 

### 6. Обоснование выбора
Мы выбрали эти данные из-за их всеобъятности, что предоставляет нам возможность сопоставить данные любых стран. Эти данные являются краеугольным камнем для анализа уголовной политики государств: количество заключенных, количество тюремных учреждений с их совместимостью etc. Таким образом, мы можем провести параллели между тем, как работает пенитенциарная система в конкретных регионах и по всему миру. Более того, этот источник характеризуется исключительной надёжностью из-за уровня межгосударственного взаимодействия между странами и ООН.

### 7. Предварительный анализ:
- Пропусков нет
- Виды значений переменных: float64(1), int64(1), object(11)

In [3]:
import pandas as pd
import numpy as np

In [9]:
#Читаем excel для последующего преобразования в csv
df_excel = pd.read_excel('data_cts_prisons_and_prisoners.xlsx', sheet_name='data_cts_prisons_and_prisoners')
print("=== Чтение из Excel ===")
print(df_excel.head())

=== Чтение из Excel ===
  Iso3_code                            Country    Region  \
0       BRB                           Barbados  Americas   
1       CRI                         Costa Rica  Americas   
2       DMA                           Dominica  Americas   
3    GBR_NI  United Kingdom (Northern Ireland)    Europe   
4       ITA                              Italy    Europe   

                         Subregion                Indicator  \
0  Latin America and the Caribbean  Persons entering prison   
1  Latin America and the Caribbean  Persons entering prison   
2  Latin America and the Caribbean  Persons entering prison   
3                  Northern Europe  Persons entering prison   
4                  Southern Europe  Persons entering prison   

           Dimension              Category    Sex    Age  Year  \
0  by selected crime  Intentional Homicide  Total  Total  2016   
1  by selected crime  Intentional Homicide  Total  Total  2016   
2  by selected crime  Intentional Homi

In [12]:
# Сохраняем в CSV с разделителем ';', поскольку в данных есть запятые
df_excel.to_csv('data_cts_prisons_and_prisoners.csv', sep=';', index=False)
print("3. Разделитель ';': output_semicolon.csv")

3. Разделитель ';': output_semicolon.csv


In [13]:
# Чтение CSV
df_1 = pd.read_csv('data_cts_prisons_and_prisoners.csv', sep=';')
print("=== CSV с разделителем ; ===")
print(df_1.head())

=== CSV с разделителем ; ===
  Iso3_code                            Country    Region  \
0       BRB                           Barbados  Americas   
1       CRI                         Costa Rica  Americas   
2       DMA                           Dominica  Americas   
3    GBR_NI  United Kingdom (Northern Ireland)    Europe   
4       ITA                              Italy    Europe   

                         Subregion                Indicator  \
0  Latin America and the Caribbean  Persons entering prison   
1  Latin America and the Caribbean  Persons entering prison   
2  Latin America and the Caribbean  Persons entering prison   
3                  Northern Europe  Persons entering prison   
4                  Southern Europe  Persons entering prison   

           Dimension              Category    Sex    Age  Year  \
0  by selected crime  Intentional Homicide  Total  Total  2016   
1  by selected crime  Intentional Homicide  Total  Total  2016   
2  by selected crime  Intentional

In [14]:
df_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 84025 entries, 0 to 84024
Data columns (total 13 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Iso3_code            84025 non-null  object 
 1   Country              84025 non-null  object 
 2   Region               84025 non-null  object 
 3   Subregion            84025 non-null  object 
 4   Indicator            84025 non-null  object 
 5   Dimension            84025 non-null  object 
 6   Category             84025 non-null  object 
 7   Sex                  84025 non-null  object 
 8   Age                  84025 non-null  object 
 9   Year                 84025 non-null  int64  
 10  Unit of measurement  84025 non-null  object 
 11  VALUE                84025 non-null  float64
 12  Source               84025 non-null  object 
dtypes: float64(1), int64(1), object(11)
memory usage: 8.3+ MB


In [16]:
df_1.isnull().sum()

Iso3_code              0
Country                0
Region                 0
Subregion              0
Indicator              0
Dimension              0
Category               0
Sex                    0
Age                    0
Year                   0
Unit of measurement    0
VALUE                  0
Source                 0
dtype: int64