# Выполнено Зверьковой Елизаветой Алексеевной

# Сессия 1

## В данной сессии нам предстоит выполнить следующее:
- выделить итоговый набор полей для одной записи
- создать структуру данных
- подготовить датасет

In [1]:
#импорты
import pandas as pd
import os
import re
import csv
path = 'C:/Users/zverk/Desktop/src_files'
import warnings
warnings.filterwarnings('ignore')

---

# 1.1. Выделение итогового набора полей для одной записи

## На данном этапе требуется:
- проанализировать данные каждого файла
- определить итоговый набор полей для создания структуры данных, в которую преобразованные записи будут импортированы. 

Проанализировав файлы с текстами жалоб, можно выделить следущие поля:
- индетификатор пользователя, то есть id
- дата получения жалобы
- текст жалобы
- причина жалобы
- категория жалобы

Далее мы создадим функцию для парсинга, которая будет находить данные для выделенных нами полей

In [2]:
#получение списка файлов из директории
comp = os.listdir('C:/Users/zverk/Desktop/src_files')

### Функция для парсинга данных из файлов
Данные будут сохраняться в следующие поля (их мы выделили выше):
- `id`- id пользователя, подавшего жалобу
- `date`- дата, когда была получена жалоба
- `petition_text` - текст с жалобой
- `reason_petition` - причина жалобы
- `category_petition` - категория жалобы

In [3]:
def parser(filename):
    result = []

    with open(filename, encoding='utf-8') as f:
        #нахождение необходимых данных с помощью шаблонов
        for line in f:
            id_petition = re.search(r'(?<={\"id\":)(?P<id>.*?)(?=\,)', line)
            date = re.search(r'(?<=\"dt\":\")(?P<date>.*?)(?=T)', line)
            text_petition = re.search(r'(?<=\"body\":\[{\"text\":\")(?P<petition1>.*?)(?=\")|(?<=\,{\"text\":\")(?P<petition2>.*?)(?=\.)', line)
            reason = re.search(r'(?<=\"reason\":{\"id\":)(.*?,)(\"name\":\")(?P<reason_p>.*?)(?=\")', line)
            category = re.search(r'(?<=\"category\":{\"id\":)(.*?,)(\"name\":\")(?P<category_p>.*?)(?=\")', line)
            
        #добавление найденных результатов в список
        result.append([
            id_petition.group(1),
            date.group(1),
            text_petition.group(1),
            reason.group(3),
            category.group(3)
            
        ])
        #сохранение полученных данных в датафрейм
        df = pd.DataFrame(result)
        df.columns = ["id", "date", "petition_text", 'reason_petition', "category_petition"]
            
    return df


## Вывод:
Здесь мы:
- определили, какие атрибуты будут входить в итоговый датасет
- создали функцию для парсинга данных, который и будет находить данные для выделенных ранее полей

# 1.2 Создание структуры данных для итогового набора полей

На данном этапе требуется создать структуру данных, которая позволит сохранить записи, состоящие из итогового набора полей

Данные будут хранится в табличной структуре данных, то есть в датафреме, так как это наиболее удобный вариант для поставленной задачи

In [4]:
#читаем все файлы в заданной директории и применяем функию парсинга, после чего полученные данные добавляем с список DF
DF= []
for c in comp:
    filepath = path+"/"+c
    try:
        df = parser(filepath)
        DF.append(df)
    except Exception:
        continue

In [11]:
#создаем итоговый датафрейм
df = pd.concat(DF, ignore_index=True)

Выходит следующий датафрейм:

In [12]:
df

Unnamed: 0,id,date,petition_text,reason_petition,category_petition
0,2947909,2020-11-13,"1й подъезд, 5 этаж. В коридоре над",Неудовлетворительное состояние парадной,Содержание МКД
1,2947918,2020-11-05,Маленькмй лифт изрисован внутри.,Неудовлетворительное состояние парадной,Содержание МКД
2,2947923,2020-11-03,реклама на светофоре,Несанкционированные надписи / объявления на те...,Благоустройство
3,2947965,2020-11-23,"1й подъезд, 5 этаж, квартирный холл. Рааботник...",Неудовлетворительное состояние парадной,Содержание МКД
4,2947973,2020-12-16,незаконная решетка на фасаде,Самовольное размещение наружн. блоков систем к...,Нарушение правил пользования общим имуществом
...,...,...,...,...,...
59884,3378848,2021-04-23,Систематическое блокирование парковки крупнога...,Мусор на внутридворовой территории,Благоустройство
59885,3378862,2021-04-23,"Ул. Маршала Захарова, д. 14/4.высокая точка за...",Неочищенные урны,Благоустройство
59886,3378863,2021-04-23,"люк выдавило, гранитное мощение вокруг люка вы...","Неудовлетворительное состояние колодца, люка",Повреждения или неисправность элементов улично...
59887,3378864,2021-04-23,Повреждён асфальт вокруг люка,"Неудовлетворительное состояние колодца, люка",Повреждения или неисправность элементов улично...


## Вывод:
В этом этапе мы сделали следующее:
- с помощью созданной ранее функции парсинга извлекли данные для выделенных полей
- создали итоговый датафрейм

# 1.3. Подготовка датасета

На данном этапе необходимо избавиться от признаков, который не оказывают влияние на целевую переменную, то есть `category_petition` - категория жалобы

дропаем столбец `id`, так как он неинформативен

In [13]:
df = df.drop('id', axis=1)

In [22]:
df.head()

Unnamed: 0,date,petition_text,reason_petition,category_petition
0,2020-11-13,"1й подъезд, 5 этаж. В коридоре над",Неудовлетворительное состояние парадной,Содержание МКД
1,2020-11-05,Маленькмй лифт изрисован внутри.,Неудовлетворительное состояние парадной,Содержание МКД
2,2020-11-03,реклама на светофоре,Несанкционированные надписи / объявления на те...,Благоустройство
3,2020-11-23,"1й подъезд, 5 этаж, квартирный холл. Рааботник...",Неудовлетворительное состояние парадной,Содержание МКД
4,2020-12-16,незаконная решетка на фасаде,Самовольное размещение наружн. блоков систем к...,Нарушение правил пользования общим имуществом


In [23]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 59835 entries, 0 to 59888
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   date               59835 non-null  object
 1   petition_text      59835 non-null  object
 2   reason_petition    59835 non-null  object
 3   category_petition  59835 non-null  object
dtypes: object(4)
memory usage: 2.3+ MB


## Вывод:
На данном этапе мы удалили неинформативный столбец, то есть столбец, который не будет иметь никакой вес при дальнейшей работе. Как итог, в нашем датафрейме содержутся 4 столбца, в каждом из которых по 59835 строк, соответственно пропусков в датасете нет 

---

# Итог:

В данной сессии мы:
- Проанализировали тексты файлов, содержащие информацию о поданных жалобах
- ВЫделили итоговый набор полей
- Извлекли необходимые данные из файлов
- Создали структуру для датасета, выделив четыре основные категории
- Подготовили датафрейм, где будут храниться извлеченные данные
- Избавились от неинформативных признаков

In [25]:
df.to_csv('df.csv') #сохранение датасета