## ЕЛЕМЕНТИ DATA CLEANING 

### ВАРІАНТ № 4 
### Загальні положення

__Мета__: 
- Опанувати деякі методи завантаження, видобутоку та очищення первинних даних
- Застосувати на практиці набуті знання та навички програмування на Python, а саме:
    - читання і запис даних у файли;
    - організація циклічної оброобки даних (for .. in ..)
    - реалізація умовної обробки (if .. elif .. else)
    - використання методів і функцій стандартної бібліотеки Python

__Вхідні дані__ : файл __aprts_data_raw.csv__, якій отримано з ресурсу _https://flatfy.lun.ua/продажа-квартир-киев_ шляхом його парсингу.

Файл має наступну структуру:

|    | Назва поля      | Очікуваний формат поля   |
| -- | :-----------     | :-------------------------|
|  1 | Ціна квартири (\$ або грн)    | дробове                  |
|  2 | Кількість кімнат | ціле
|  3 | Ціна за м² (\$ або грн)     | дробове
|  4 | Поверх та всього поверхів | ціле
| 5  | рік побудови   | ціле
| 6  | тип будинку    | текст
| 7  | Площа (загальна/житлова/кухні)| дробове
| 8  | вулиця         | текст
| 9  | номер дому     | текст

__Особливі умови__: в первиних даних деякі показники можуть бути відстутні (не распарсені) - тоді вони позначаються `*** not found`

### Теоретична частина та приклади

Вхідний файл треба зчитувати і обробляти __порядково__ -  це гарна практика роботи з великими об\`ємами даних.

Дані, що зчитуються з файлів порядково представляються у текстовому (__str__) форматі, тому доцільно використовувати [функції обробки строкових даних](https://pythonworld.ru/tipy-dannyx-v-python/stroki-funkcii-i-metody-strok.html) python:

In [None]:
# split() - дозволяє розділити текстову строку на окремі поля і помістити їх в список

stroka = "Вася Пупкін - студент 5 курсу ФІТ"
print("Розподільник: ` `")
print (stroka)
list_from_stroka = stroka.split()
print(list_from_stroka, end='\n\n')

# якщо в якості аргумента split вказати розподільник, 
# то він буде використаний при побудові списка
list_from_stroka = stroka.split('-')
print("Розподільник: `-`")
print (stroka)
print(list_from_stroka)

__Примітка:__ файли в csv-форматі мають в якості розподільника, як правило, символ `,`

In [None]:
# за допомогою метода strip() є можливість "обрізати" зліва та справа пробіли 
# (якщо параметер не вказано), або символи, які вказані в якостиі параметрів:

stroka = "     Вася Пупкін - студент 5 курсу ФІТ   "
striped_stroka = stroka.strip()
print(stroka)
print(striped_stroka)
print(striped_stroka.strip('ФІТ'))


__Конвертування строкових даних__ у чисельні здійснюється за допомогою функцій [int](https://pythoner.name/int-function) або [float](https://www.programiz.com/python-programming/methods/built-in/float), але треба мати на увазі що ці функціі викинуть виключення, якщо буде спроба конвертувати не число. Тому перед виконанням конвертування доцільно перевіряти, чи буде воно успішнім. Для цього можна викорастати функцію [isnumeric](https://pythonz.net/references/named/str.isnumeric/).

In [None]:
# 
number_str = '123.3'
print(type(number_str))
number_float = float(number_str)
print(type(number_float), end='\n\n')

# але
maybe_number_str = '123.З' # після крапки не число!
print(type(number_str))
# number_float = float(maybe_number_str) # ValueError: could not convert string to float: '123.З'

# треба
if maybe_number_str.isnumeric():
    #  True
    number_float = float(maybe_number_str)
else:
    # False
    # код який обробляє цю ситуацію
    ...

### Приклад розбору рядків, та вилучення показчиків 

In [None]:
# Припустимо, що ми маємо файл, вміст якого відображається на список:
file_content = [
    'Вася Пупкін ,  5 курс, ФІТ',
    'Петя Сидоров, 1 курс, ФТМ',
    ' Вова   Хлопов , 3 курс, ФІТ'
]
_ = [print(x) for x in file_content]

In [None]:
# треба створити новий список, який буде містити окремо ім'я та прізвище

# зарезервуєм пустий контейнер
name_and_surname = []

for line in file_content:
    list_from_line = line.split(',')
    name, surname = list_from_line[0].split()
    name_and_surname += [[name.strip(), surname.strip()]]

_ = [print(x) for x in name_and_surname]

In [None]:
# теж саме в функціональному стилі 
from functools import reduce
reduce(lambda acc, line: acc + [line.split(',')[0].split()], file_content, [])

### ЗАВДАННЯ

<p style="background-color: lightblue; padding:10px">На основі вхідного файлу <b>aprts_data_raw.csv</b> побудувати вихідний файл <b>aprt_level.txt</b> кожний рядок якого є вилучене з 4 показника та приведене до очікуваного формату значення поверху на якому розташована квартира.<br><br><i>При неможливості приведення показчика його треба замінити на 0</i></p>

_Фрагмент_ результатного файлу:

`
21
11
5
5
...
`

In [8]:
# Ваш код повинен починатися тут
import pandas as pd

spreadsheet = pd.read_csv('aprts_data_raw.csv', header = None)

with open('aprt_level.txt', 'w') as f:
    for row in spreadsheet.iloc[:, 3]:        
        line = row.split() 
        if(line[0] == "***"):
            f.write("0" + "\n")
            
        elif(line[len(line) - 1] == "дом"):
            floor = line[0].split('-')
            f.write(str(floor[0]) + "\n")
            
        else:
             f.write(str(line[0])  + "\n")  

In [6]:
spreadsheet

Unnamed: 0,0,1,2,3,4,5,6,7,8
0,115 000 $,2 комнаты,1575 $ за м²,21 из 25,год постройки2015,кирпичные,73 / 37 / 15 м²,ул. Малиновского,4в
1,75 000 $,3 комнаты,680 $ за м²,11 из 25,*** not found,*** not found,110.27 / 58 / - м²,ул. Семьи Сосниных,
2,140 000 $,3 комнаты,1400 $ за м²,5 из 18,год постройки2011,монолитно-каркасные,100 / 56 / 18 м²,просп. Лобановского (Краснозвездный),150в
3,140 000 $,2 комнаты,2414 $ за м²,5 из 5,год постройки1902,кирпичные,58 / 32 / 8 м²,ул. Руставели,36
4,160 000 $,2 комнаты,2025 $ за м²,2 из 10,год постройки2014,монолитно-каркасные,79 / 36 / 12 м²,ул. Ломоносова,71д
5,870 000 $,3 комнаты,6273 $ за м²,2 из 22,год постройки2009,монолитно-каркасные,138.7 / 77.6 / 18 м²,ул. Институтская,18а
6,14 883 863 грн,5 комнат,73 902 грн за м²,21 из 23,год постройки2018,монолитно-каркасные,201.4 / 115 / 25 м²,ул. Антоновича (Горького),74
7,220 000 $,2 комнаты,2529 $ за м²,4 из 23,год постройки2012,монолитно-каркасные,87 / 43 / 21 м²,Днепровская наб.,14б
8,133 000 $,1 комната,3325 $ за м²,6 из 20,год постройки2017,монолитно-каркасные,40 / 10 / 19 м²,ул. Предславинская,53
9,69 000 $,2 комнаты,1353 $ за м²,2 из 9,год постройки1980,кирпичные,51 / 29 / 8 м²,ул. Коперника,16б
