# **Практика 1. Знакомство с Pandas.**

[SmartLMS](https://edu.hse.ru/mod/quiz/view.php?id=1918700)

Датасет содержит информацию о судебных делах по договорным спорам. В нем анализируются факторы, влияющие на исход судебного разбирательства.

Датасет содержит следующие признаки:
- `court_type`: Тип суда, принявшего решение, закодирован цифрами.
- `dispute_subject`: Предмет договорного спора (**construction**=договор подряда, **supply**=договор поставки, **services**=договор возмездного оказания услуг).
- `plaintiff_type`: Категория истца (**individual**=физическое лицо, **sole_proprietor**=индивидуальный предприниматель, **legal_entity**=юридическое лицо).
- `pre_trial_settlement`: Соблюдение обязательного досудебного порядка урегулирования спора (**True**=претензия направлялась, **False**=иск подан без претензии).
- `expertise_appointed`: Назначение судебной экспертизы по делу (1=экспертиза назначалась, 0=экспертиза не назначалась).
- `claim_amount_rub`: Заявленная исковая сумма в российских рублях
- `procedural_duration_days`: Фактическая продолжительность рассмотрения дела в суде первой инстанции в календарных днях (дискретная величина от 30 до 360 дней).
- `judge_experience_years`: Опыт судьи в условных категориях (1=малоопытный <5 лет, 2=опытный 5-15 лет, 3=высокоопытный >15 лет).
- `satisfaction_rate`: Степень удовлетворения исковых требований по решению суда (**fully_rejected**=иск полностью отклонен, **partially_satisfied**=иск удовлетворен частично, fully_satisfied=иск удовлетворен полностью).

In [1]:
import pandas as pd

df = pd.read_csv('data/court_contract_disputes.csv')
df.head(2)

Unnamed: 0,court_type,dispute_subject,plaintiff_type,pre_trial_settlement,expertise_appointed,claim_amount_rub,procedural_duration_days,judge_experience_years,satisfaction_rate
0,2,construction,legal_entity,False,1.0,3335629.71,187,3.0,fully_satisfied
1,2,supply,sole_proprietor,True,0.0,609000.0,79,,fully_satisfied


## **Задание 1**

Укажите количество наблюдений и признаков в данных.
- Наблюдений: 1000
- Признаков: 9

In [2]:
df.shape

(1000, 9)

---

## **Задание 2**

Укажите тип данных каждого признака.

- `dispute_subject` -  `object`
- `judge_experience_years` - `float64` 
- `claim_amount_rub` - `float64` 
- `court_type` -  `int64` 
- `satisfaction_rate` -  `object`
- `expertise_appointed` - `float64` 
- `procedural_duration_days` -  `int64` 
- `pre_trial_settlement` -  `bool` 
- `plaintiff_type` - `object`

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   court_type                1000 non-null   int64  
 1   dispute_subject           959 non-null    object 
 2   plaintiff_type            1000 non-null   object 
 3   pre_trial_settlement      1000 non-null   bool   
 4   expertise_appointed       988 non-null    float64
 5   claim_amount_rub          972 non-null    float64
 6   procedural_duration_days  1000 non-null   int64  
 7   judge_experience_years    958 non-null    float64
 8   satisfaction_rate         972 non-null    object 
dtypes: bool(1), float64(3), int64(2), object(3)
memory usage: 63.6+ KB


---

## **Задание 3**

Укажите название признака в котором больше всего пропусков.

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   court_type                1000 non-null   int64  
 1   dispute_subject           959 non-null    object 
 2   plaintiff_type            1000 non-null   object 
 3   pre_trial_settlement      1000 non-null   bool   
 4   expertise_appointed       988 non-null    float64
 5   claim_amount_rub          972 non-null    float64
 6   procedural_duration_days  1000 non-null   int64  
 7   judge_experience_years    958 non-null    float64
 8   satisfaction_rate         972 non-null    object 
dtypes: bool(1), float64(3), int64(2), object(3)
memory usage: 63.6+ KB


**Ответ**: `judge_experience_years` (меньше всего non-null)

---

## **Задание 4**

Укажите тип данных каждого признака.




- `dispute_subject` - категориальный номинальный (нет естественного порядка)
- `judge_experience_years` - категориальный ранговый (упорядочены по опытности)
- `claim_amount_rub` - количественный непрерывный 
- `court_type` - категориальный номинальный (нет естественного порядка)
- `satisfaction_rate` - категориальный ранговый (упорядочены по удовлетворенности)
- `expertise_appointed` - категориальный бинарный (только 0 и 1)
- `procedural_duration_days` - количественный дискретный (представлен **полными** днями; не может быть знака после запятой)
- `pre_trial_settlement` - категориальный бинарный (только 0 и 1)
- `plaintiff_type` - категориальный номинальный (нет естественного порядка)


---

## **Задание 5**

Укажите категорию истца (`plaintiff_type`), для дела, которое идет 11 с начала в данных.



In [10]:
df.iloc[10]['plaintiff_type']

'individual'

---

## **Задание 6**

Укажите предмет договорного спора (`dispute_subject`), для дела, которое идет 6 с конца в данных.



In [13]:
df.iloc[-6]['dispute_subject']

'supply'

---

## **Задание 7**

Укажите степень удовлетворения исковых требований (`satisfaction_rate`) для дела под индеком 867.



In [12]:
df.iloc[867]['satisfaction_rate']

'partially_satisfied'

---