## ЕЛЕМЕНТИ DATA CLEANING 

### ВАРІАНТ № 1 
### Загальні положення

__Мета__: 
- Опанувати деякі методи завантаження, видобутоку та очищення первинних даних
- Застосувати на практиці набуті знання та навички програмування на Python, а саме:
    - читання і запис даних у файли;
    - організація циклічної оброобки даних (for .. in ..)
    - реалізація умовної обробки (if .. elif .. else)
    - використання методів і функцій стандартної бібліотеки Python

__Вхідні дані__ : файл __aprts_data_raw.csv__, якій отримано з ресурсу _https://flatfy.lun.ua/продажа-квартир-киев_ шляхом його парсингу.

Файл має наступну структуру:

|    | Назва поля      | Очікуваний формат поля   |
| -- | :-----------     | :-------------------------|
|  1 | Ціна квартири (\$ або грн)    | дробове                  |
|  2 | Кількість кімнат | ціле
|  3 | Ціна за м² (\$ або грн)     | дробове
|  4 | Поверх та всього поверхів | ціле
| 5  | рік побудови   | ціле
| 6  | тип будинку    | текст
| 7  | Площа (загальна/житлова/кухні)| дробове
| 8  | вулиця         | текст
| 9  | номер дому     | текст

__Особливі умови__: в первиних даних деякі показники можуть бути відстутні (не распарсені) - тоді вони позначаються `*** not found`

### Теоретична частина та приклади

Вхідний файл треба зчитувати і обробляти __порядково__ -  це гарна практика роботи з великими об\`ємами даних.

Дані, що зчитуються з файлів порядково представляються у текстовому (__str__) форматі, тому доцільно використовувати [функції обробки строкових даних](https://pythonworld.ru/tipy-dannyx-v-python/stroki-funkcii-i-metody-strok.html) python:

In [1]:
# split() - дозволяє розділити текстову строку на окремі поля і помістити їх в список

stroka = "Вася Пупкін - студент 5 курсу ФІТ"
print("Розподільник: ` `")
print (stroka)
list_from_stroka = stroka.split()
print(list_from_stroka, end='\n\n')

# якщо в якості аргумента split вказати розподільник, 
# то він буде використаний при побудові списка
list_from_stroka = stroka.split('-')
print("Розподільник: `-`")
print (stroka)
print(list_from_stroka)

Розподільник: ` `
Вася Пупкін - студент 5 курсу ФІТ
['Вася', 'Пупкін', '-', 'студент', '5', 'курсу', 'ФІТ']

Розподільник: `-`
Вася Пупкін - студент 5 курсу ФІТ
['Вася Пупкін ', ' студент 5 курсу ФІТ']


__Примітка:__ файли в csv-форматі мають в якості розподільника, як правило, символ `,`

In [4]:
# за допомогою метода strip() є можливість "обрізати" зліва та справа пробіли 
# (якщо параметер не вказано), або символи, які вказані в якостиі параметрів:

stroka = "     Вася Пупкін - студент 5 курсу ФІТ   "
striped_stroka = stroka.strip()
print(stroka)
print(striped_stroka)
print(striped_stroka.strip('ФІТ'))


     Вася Пупкін - студент 5 курсу ФІТ   
Вася Пупкін - студент 5 курсу ФІТ
Вася Пупкін - студент 5 курсу 


__Конвертування строкових даних__ у чисельні здійснюється за допомогою функцій [int](https://pythoner.name/int-function) або [float](https://www.programiz.com/python-programming/methods/built-in/float), але треба мати на увазі що ці функціі викинуть виключення, якщо буде спроба конвертувати не число. Тому перед виконанням конвертування доцільно перевіряти, чи буде воно успішнім. Для цього можна викорастати функцію [isnumeric](https://pythonz.net/references/named/str.isnumeric/).

In [None]:
# 
number_str = '123.3'
print(type(number_str))
number_float = float(number_str)
print(type(number_float), end='\n\n')

# але
maybe_number_str = '123.З' # після крапки не число!
print(type(number_str))
# number_float = float(maybe_number_str) # ValueError: could not convert string to float: '123.З'

# треба
if maybe_number_str.isnumeric():
    #  True
    number_float = float(maybe_number_str)
else:
    # False
    # код який обробляє цю ситуацію
    ...

### Приклад розбору рядків, та вилучення показчиків 

In [3]:
# Припустимо, що ми маємо файл, вміст якого відображається на список:
file_content = [
    'Вася Пупкін ,  5 курс, ФІТ',
    'Петя Сидоров, 1 курс, ФТМ',
    ' Вова   Хлопов , 3 курс, ФІТ'
]
_ = [print(x) for x in file_content]

Вася Пупкін ,  5 курс, ФІТ
Петя Сидоров, 1 курс, ФТМ
 Вова   Хлопов , 3 курс, ФІТ


In [4]:
# треба створити новий список, який буде містити окремо ім'я та прізвище

# зарезервуєм пустий контейнер
name_and_surname = []

for line in file_content:
    list_from_line = line.split(',')
    name, surname = list_from_line[0].split()
    name_and_surname += [[name.strip(), surname.strip()]]

_ = [print(x) for x in name_and_surname]

['Вася', 'Пупкін']
['Петя', 'Сидоров']
['Вова', 'Хлопов']


In [5]:
# теж саме в функціональному стилі 
from functools import reduce
reduce(lambda acc, line: acc + [line.split(',')[0].split()], file_content, [])

[['Вася', 'Пупкін'], ['Петя', 'Сидоров'], ['Вова', 'Хлопов']]

### ЗАВДАННЯ

<p style="background-color: lightblue; padding:10px">На основі вхідного файлу <b>aprts_data_raw.csv</b> побудувати вихідний файл <b>aprt_prices.txt</b> кожний рядок якого є вилучене з 1 показника та приведене до очікуваного формату (в \$) значення ціни квартири.<br><br><i>При неможливості приведення показчика його треба замінити на 0</i></p>

_Фрагмент_ результатного файлу:

`
115000.0
75000.0
140000.0
160000.0
...
`

In [None]:
# Ваш код повинен починатися тут
...

In [71]:
"""
price = []

my_file = open('aprts_data_raw.txt',"r", encoding="utf8")
my_file.read()

for line in my_file:
    price = line.split(',')
    price = list_from_line[0].split()
    price += [price.strip()]

_ = [print(x) for x in my_file]

my_file.close()
"""

'\nprice = []\n\nmy_file = open(\'aprts_data_raw.txt\',"r", encoding="utf8")\nmy_file.read()\n\nfor line in my_file:\n    price = line.split(\',\')\n    price = list_from_line[0].split()\n    price += [price.strip()]\n\n_ = [print(x) for x in my_file]\n\nmy_file.close()\n'

In [70]:
price = []
my_file = open('aprts_data_raw.txt',"r", encoding="utf8")

for line in my_file:
    price = line.split(',')
    price = price[0].split()
    print(my_file.readline(10)) 
my_file.close() 

75 000 $,3
140 000 $,
140 000 $,
160 000 $,
870 000 $,
14 883 863
220 000 $,
133 000 $,
69 000 $,2
169 999 $,
212 000 $,
83 500 $,2
75 000 $,2
65 000 $,1
82 000 $,3
207 000 $,
51 990 $,2
57 999 $,3
57 000 $,2
95 000 $,1
50 000 $,3
95 000 $,4
46 860 $,2
38 500 $,2
110 000 $,
269 000 $,
1 983 000 
119 000 $,
210 000 $,
310 000 $,
93 000 $,3
98 000 $,2
78 000 $,2
68 000 $,2
77 000 $,1
176 000 $,
5 572 000 
129 000 $,
136 000 $,
71 000 $,3
108 000 $,
175 000 $,
45 006 $,3
78 000 $,2
65 000 $,3
3 396 000 
68 899 $,3
205 000 $,
211 000 $,
36 500 $,1
3 176 715 
155 000 $,
109 000 $,
120 000 $,
55 000 $,2
48 000 $,2
235 000 $,
41 000 $,1
143 000 $,
65 000 $,3
500 000 $,
94 000 $,3
280 000 $,
67 500 $,1
72 000 $,2
54 000 $,1
74 000 $,2
130 000 $,
110 000 $,
180 000 $,
69 000 $,2
205 000 $,
211 000 $,
36 500 $,1
3 176 715 
155 000 $,
109 000 $,
120 000 $,
55 000 $,2
48 000 $,2
235 000 $,
41 000 $,1
143 000 $,
65 000 $,3
500 000 $,
94 000 $,3
280 000 $,
67 500 $,1
72 000 $,2
54 000 $,1
74 000 $,2