## ЕЛЕМЕНТИ DATA CLEANING 

### ВАРІАНТ № 1 
### Загальні положення

__Мета__: 
- Опанувати деякі методи завантаження, видобутоку та очищення первинних даних
- Застосувати на практиці набуті знання та навички програмування на Python, а саме:
    - читання і запис даних у файли;
    - організація циклічної оброобки даних (for .. in ..)
    - реалізація умовної обробки (if .. elif .. else)
    - використання методів і функцій стандартної бібліотеки Python

__Вхідні дані__ : файл __aprts_data_raw.csv__, якій отримано з ресурсу _https://flatfy.lun.ua/продажа-квартир-киев_ шляхом його парсингу.

Файл має наступну структуру:

|    | Назва поля      | Очікуваний формат поля   |
| -- | :-----------     | :-------------------------|
|  1 | Ціна квартири (\$ або грн)    | дробове                  |
|  2 | Кількість кімнат | ціле
|  3 | Ціна за м² (\$ або грн)     | дробове
|  4 | Поверх та всього поверхів | ціле
| 5  | рік побудови   | ціле
| 6  | тип будинку    | текст
| 7  | Площа (загальна/житлова/кухні)| дробове
| 8  | вулиця         | текст
| 9  | номер дому     | текст

__Особливі умови__: в первиних даних деякі показники можуть бути відстутні (не распарсені) - тоді вони позначаються `*** not found`

### Теоретична частина та приклади

Вхідний файл треба зчитувати і обробляти __порядково__ -  це гарна практика роботи з великими об\`ємами даних.

Дані, що зчитуються з файлів порядково представляються у текстовому (__str__) форматі, тому доцільно використовувати [функції обробки строкових даних](https://pythonworld.ru/tipy-dannyx-v-python/stroki-funkcii-i-metody-strok.html) python:

In [1]:
# split() - дозволяє розділити текстову строку на окремі поля і помістити їх в список

stroka = "Вася Пупкін - студент 5 курсу ФІТ"
print("Розподільник: ` `")
print (stroka)
list_from_stroka = stroka.split()
print(list_from_stroka, end='\n\n')

# якщо в якості аргумента split вказати розподільник, 
# то він буде використаний при побудові списка
list_from_stroka = stroka.split('-')
print("Розподільник: `-`")
print (stroka)
print(list_from_stroka)

Розподільник: ` `
Вася Пупкін - студент 5 курсу ФІТ
['Вася', 'Пупкін', '-', 'студент', '5', 'курсу', 'ФІТ']

Розподільник: `-`
Вася Пупкін - студент 5 курсу ФІТ
['Вася Пупкін ', ' студент 5 курсу ФІТ']


__Примітка:__ файли в csv-форматі мають в якості розподільника, як правило, символ `,`

In [1]:
# за допомогою метода strip() є можливість "обрізати" зліва та справа пробіли 
# (якщо параметер не вказано), або символи, які вказані в якостиі параметрів:

stroka = "     Вася Пупкін - студент 5 курсу ФІТ   "
striped_stroka = stroka.strip()
print(stroka)
print(striped_stroka)
print(striped_stroka.strip('ФІТ'))


     Вася Пупкін - студент 5 курсу ФІТ   
Вася Пупкін - студент 5 курсу ФІТ
Вася Пупкін - студент 5 курсу 


__Конвертування строкових даних__ у чисельні здійснюється за допомогою функцій [int](https://pythoner.name/int-function) або [float](https://www.programiz.com/python-programming/methods/built-in/float), але треба мати на увазі що ці функціі викинуть виключення, якщо буде спроба конвертувати не число. Тому перед виконанням конвертування доцільно перевіряти, чи буде воно успішнім. Для цього можна викорастати функцію [isnumeric](https://pythonz.net/references/named/str.isnumeric/).

In [2]:
# 
number_str = '123.3'
print(type(number_str))
number_float = float(number_str)
print(type(number_float), end='\n\n')

# але
maybe_number_str = '123.З' # після крапки не число!
print(type(number_str))
# number_float = float(maybe_number_str) # ValueError: could not convert string to float: '123.З'

# треба
if maybe_number_str.isnumeric():
    #  True
    number_float = float(maybe_number_str)
else:
    # False
    # код який обробляє цю ситуацію
    ...

<class 'str'>
<class 'float'>

<class 'str'>


### Приклад розбору рядків, та вилучення показчиків 

In [116]:
# Припустимо, що ми маємо файл, вміст якого відображається на список:
file_content = [
    'Вася Пупкін ,  5 курс, ФІТ',
    'Петя Сидоров, 1 курс, ФТМ',
    ' Вова   Хлопов , 3 курс, ФІТ'
]
_ = [print(x) for x in file_content]

Вася Пупкін ,  5 курс, ФІТ
Петя Сидоров, 1 курс, ФТМ
 Вова   Хлопов , 3 курс, ФІТ


In [117]:
# треба створити новий список, який буде містити окремо ім'я та прізвище

# зарезервуєм пустий контейнер
name_and_surname = []

for line in file_content:
    list_from_line = line.split(',')
    name, surname = list_from_line[0].split()
    name_and_surname += [[name.strip(), surname.strip()]]
print(name_and_surname)
_ = [print(x) for x in name_and_surname]

[['Вася', 'Пупкін'], ['Петя', 'Сидоров'], ['Вова', 'Хлопов']]
['Вася', 'Пупкін']
['Петя', 'Сидоров']
['Вова', 'Хлопов']


In [111]:
# теж саме в функціональному стилі 
from functools import reduce
reduce(lambda acc, line: acc + [line.split(',')[0].split()], file_content, [])

NameError: name 'file_content' is not defined

### ЗАВДАННЯ

<p style="background-color: lightblue; padding:10px">На основі вхідного файлу <b>aprts_data_raw.csv</b> побудувати вихідний файл <b>aprt_prices.txt</b> кожний рядок якого є вилучене з 1 показника та приведене до очікуваного формату (в \$) значення ціни квартири.<br><br><i>При неможливості приведення показчика його треба замінити на 0</i></p>

_Фрагмент_ результатного файлу:

`
115000.0
75000.0
140000.0
160000.0
...
`

In [71]:
# Ваш код повинен починатися тут
...
price_list = []
with open("./aprts_data_raw.csv", encoding='utf-8') as apr_data_raw:
    for element in apr_data_raw:
        apr_data = element.split(',', 1)
        price_list += [apr_data[0].split(' ', 1)]
file = open("./aprt_prices.txt", "w+")
for key, value in enumerate(price_list):
    price_list[key][0] = price_list[key][0].replace('\xa0','')
    if price_list[key][1] == 'грн':
        price = float(price_list[key][0])/30.25
    else:
        price = float(price_list[key][0])
    print(round(price, 2))
    file.write((str(round(price, 2))) + "\n")
               
file.close()

    


115000.0
75000.0
140000.0
140000.0
160000.0
870000.0
492028.53
220000.0
133000.0
69000.0
169999.0
212000.0
83500.0
75000.0
65000.0
82000.0
207000.0
51990.0
57999.0
57000.0
95000.0
50000.0
95000.0
46860.0
38500.0
110000.0
269000.0
65553.72
119000.0
210000.0
310000.0
93000.0
98000.0
78000.0
68000.0
77000.0
176000.0
184198.35
129000.0
136000.0
71000.0
108000.0
175000.0
45006.0
78000.0
65000.0
112264.46
68899.0
205000.0
211000.0
36500.0
105015.37
155000.0
109000.0
120000.0
55000.0
48000.0
235000.0
41000.0
143000.0
65000.0
500000.0
94000.0
280000.0
67500.0
72000.0
54000.0
74000.0
130000.0
110000.0
180000.0
69000.0
205000.0
211000.0
36500.0
105015.37
155000.0
109000.0
120000.0
55000.0
48000.0
235000.0
41000.0
143000.0
65000.0
500000.0
94000.0
280000.0
67500.0
72000.0
54000.0
74000.0
130000.0
110000.0
180000.0
69000.0
120000.0
150000.0
750000.0
75000.0
53000.0
42500.0
103000.0
650000.0
56000.0
90000.0
77000.0
115000.0
120000.0
130000.0
85000.0
140000.0
45500.0
63232.0
95000.0
55000.0
186900.0