## ЕЛЕМЕНТИ DATA CLEANING 

### ВАРІАНТ № 1 
### Загальні положення

__Мета__: 
- Опанувати деякі методи завантаження, видобутоку та очищення первинних даних
- Застосувати на практиці набуті знання та навички програмування на Python, а саме:
    - читання і запис даних у файли;
    - організація циклічної оброобки даних (for .. in ..)
    - реалізація умовної обробки (if .. elif .. else)
    - використання методів і функцій стандартної бібліотеки Python

__Вхідні дані__ : файл __aprts_data_raw.csv__, якій отримано з ресурсу _https://flatfy.lun.ua/продажа-квартир-киев_ шляхом його парсингу.

Файл має наступну структуру:

|    | Назва поля      | Очікуваний формат поля   |
| -- | :-----------     | :-------------------------|
|  1 | Ціна квартири (\$ або грн)    | дробове                  |
|  2 | Кількість кімнат | ціле
|  3 | Ціна за м² (\$ або грн)     | дробове
|  4 | Поверх та всього поверхів | ціле
| 5  | рік побудови   | ціле
| 6  | тип будинку    | текст
| 7  | Площа (загальна/житлова/кухні)| дробове
| 8  | вулиця         | текст
| 9  | номер дому     | текст

__Особливі умови__: в первиних даних деякі показники можуть бути відстутні (не распарсені) - тоді вони позначаються `*** not found`

### Теоретична частина та приклади

Вхідний файл треба зчитувати і обробляти __порядково__ -  це гарна практика роботи з великими об\`ємами даних.

Дані, що зчитуються з файлів порядково представляються у текстовому (__str__) форматі, тому доцільно використовувати [функції обробки строкових даних](https://pythonworld.ru/tipy-dannyx-v-python/stroki-funkcii-i-metody-strok.html) python:

In [1]:
# split() - дозволяє розділити текстову строку на окремі поля і помістити їх в список

stroka = "Вася Пупкін - студент 5 курсу ФІТ"
print("Розподільник: ` `")
print (stroka)
list_from_stroka = stroka.split()
print(list_from_stroka, end='\n\n')

# якщо в якості аргумента split вказати розподільник, 
# то він буде використаний при побудові списка
list_from_stroka = stroka.split('-')
print("Розподільник: `-`")
print (stroka)
print(list_from_stroka)

Розподільник: ` `
Вася Пупкін - студент 5 курсу ФІТ
['Вася', 'Пупкін', '-', 'студент', '5', 'курсу', 'ФІТ']

Розподільник: `-`
Вася Пупкін - студент 5 курсу ФІТ
['Вася Пупкін ', ' студент 5 курсу ФІТ']


__Примітка:__ файли в csv-форматі мають в якості розподільника, як правило, символ `,`

In [2]:
# за допомогою метода strip() є можливість "обрізати" зліва та справа пробіли 
# (якщо параметер не вказано), або символи, які вказані в якостиі параметрів:

stroka = "     Вася Пупкін - студент 5 курсу ФІТ   "
striped_stroka = stroka.strip()
print(stroka)
print(striped_stroka)
print(striped_stroka.strip('ФІТ'))


     Вася Пупкін - студент 5 курсу ФІТ   
Вася Пупкін - студент 5 курсу ФІТ
Вася Пупкін - студент 5 курсу 


__Конвертування строкових даних__ у чисельні здійснюється за допомогою функцій [int](https://pythoner.name/int-function) або [float](https://www.programiz.com/python-programming/methods/built-in/float), але треба мати на увазі що ці функціі викинуть виключення, якщо буде спроба конвертувати не число. Тому перед виконанням конвертування доцільно перевіряти, чи буде воно успішнім. Для цього можна викорастати функцію [isnumeric](https://pythonz.net/references/named/str.isnumeric/).

In [None]:
# 
number_str = '123.3'
print(type(number_str))
number_float = float(number_str)
print(type(number_float), end='\n\n')

# але
maybe_number_str = '123.З' # після крапки не число!
print(type(number_str))
# number_float = float(maybe_number_str) # ValueError: could not convert string to float: '123.З'

# треба
if maybe_number_str.isnumeric():
    #  True
    number_float = float(maybe_number_str)
else:
    # False
    # код який обробляє цю ситуацію
    ...

### Приклад розбору рядків, та вилучення показчиків 

In [3]:
# Припустимо, що ми маємо файл, вміст якого відображається на список:
file_content = [
    'Вася Пупкін ,  5 курс, ФІТ',
    'Петя Сидоров, 1 курс, ФТМ',
    ' Вова   Хлопов , 3 курс, ФІТ'
]
_ = [print(x) for x in file_content]

Вася Пупкін ,  5 курс, ФІТ
Петя Сидоров, 1 курс, ФТМ
 Вова   Хлопов , 3 курс, ФІТ


In [4]:
# треба створити новий список, який буде містити окремо ім'я та прізвище

# зарезервуєм пустий контейнер
name_and_surname = []

for line in file_content:
    list_from_line = line.split(',')
    name, surname = list_from_line[0].split()
    name_and_surname += [[name.strip(), surname.strip()]]

_ = [print(x) for x in name_and_surname]

['Вася', 'Пупкін']
['Петя', 'Сидоров']
['Вова', 'Хлопов']


In [5]:
# теж саме в функціональному стилі 
from functools import reduce
reduce(lambda acc, line: acc + [line.split(',')[0].split()], file_content, [])

[['Вася', 'Пупкін'], ['Петя', 'Сидоров'], ['Вова', 'Хлопов']]

### ЗАВДАННЯ

<p style="background-color: gray; padding:10px">На основі вхідного файлу <b>aprts_data_raw.csv</b> побудувати вихідний файл <b>aprt_prices.txt</b> кожний рядок якого є вилучене з 1 показника та приведене до очікуваного формату (в \$) значення ціни квартири.<br><br><i>При неможливості приведення показчика його треба замінити на 0</i></p>

_Фрагмент_ результатного файлу:

`
115000.0
75000.0
140000.0
160000.0
...
`

In [17]:
import csv
with open("aprts_data_raw.csv ", encoding='utf-8') as file, \
     open('aprt_prices.txt', 'w', encoding='utf-8') as file2:
    file_read = csv.reader(file, delimiter = ",")
    count = 0
    for line in file_read:
        if line[0] == '***':
            line[0] = '0'
            print(line[0].strip('$'))
            file2.write(f': {line[0]} . \n')
        else:
            print(line[0].strip('$'))
            file2.write(f': {line[0]}  \n')
    count += 1


115 000 
75 000 
140 000 
140 000 
160 000 
870 000 
14 883 863 грн
220 000 
133 000 
69 000 
169 999 
212 000 
83 500 
75 000 
65 000 
82 000 
207 000 
51 990 
57 999 
57 000 
95 000 
50 000 
95 000 
46 860 
38 500 
110 000 
269 000 
1 983 000 грн
119 000 
210 000 
310 000 
93 000 
98 000 
78 000 
68 000 
77 000 
176 000 
5 572 000 грн
129 000 
136 000 
71 000 
108 000 
175 000 
45 006 
78 000 
65 000 
3 396 000 грн
68 899 
205 000 
211 000 
36 500 
3 176 715 грн
155 000 
109 000 
120 000 
55 000 
48 000 
235 000 
41 000 
143 000 
65 000 
500 000 
94 000 
280 000 
67 500 
72 000 
54 000 
74 000 
130 000 
110 000 
180 000 
69 000 
205 000 
211 000 
36 500 
3 176 715 грн
155 000 
109 000 
120 000 
55 000 
48 000 
235 000 
41 000 
143 000 
65 000 
500 000 
94 000 
280 000 
67 500 
72 000 
54 000 
74 000 
130 000 
110 000 
180 000 
69 000 
120 000 
150 000 
750 000 
75 000 
53 000 
42 500 
103 000 
650 000 
56 000 
90 000 
77 000 
115 000 
120 000 
130 000 
85 000 
140 000 
45 500 
63 232