## ЕЛЕМЕНТИ DATA CLEANING 

### ВАРІАНТ № 7
### Загальні положення

__Мета__: 
- Опанувати деякі методи завантаження, видобутоку та очищення первинних даних
- Застосувати на практиці набуті знання та навички програмування на Python, а саме:
    - читання і запис даних у файли;
    - організація циклічної оброобки даних (for .. in ..)
    - реалізація умовної обробки (if .. elif .. else)
    - використання методів і функцій стандартної бібліотеки Python

__Вхідні дані__ : файл __aprts_data_raw.csv__, якій отримано з ресурсу _https://flatfy.lun.ua/продажа-квартир-киев_ шляхом його парсингу.

Файл має наступну структуру:

|   | Назва поля                     | Очікуваний формат поля |
|---|:-------------------------------|:-----------------------|
| 1 | Ціна квартири (\$ або грн)     | дробове                |
| 2 | Кількість кімнат               | ціле                   |
| 3 | Ціна за м² (\$ або грн)        | дробове                |
| 4 | Поверх та всього поверхів      | ціле                   |
| 5 | рік побудови                   | ціле                   |
| 6 | тип будинку                    | текст                  |
| 7 | Площа (загальна/житлова/кухні) | дробове                |
| 8 | вулиця                         | текст                  |
| 9 | номер дому                     | текст                  |

__Особливі умови__: в первиних даних деякі показники можуть бути відстутні (не распарсені) - тоді вони позначаються `*** not found`

### Теоретична частина та приклади

Вхідний файл треба зчитувати і обробляти __порядково__ -  це гарна практика роботи з великими об\`ємами даних.

Дані, що зчитуються з файлів порядково представляються у текстовому (__str__) форматі, тому доцільно використовувати [функції обробки строкових даних](https://pythonworld.ru/tipy-dannyx-v-python/stroki-funkcii-i-metody-strok.html) python:

In [1]:
# split() - дозволяє розділити текстову строку на окремі поля і помістити їх в список

stroka = "Вася Пупкін - студент 5 курсу ФІТ"
print("Розподільник: ` `")
print (stroka)
list_from_stroka = stroka.split()
print(list_from_stroka, end='\n\n')

# якщо в якості аргумента split вказати розподільник, 
# то він буде використаний при побудові списка
list_from_stroka = stroka.split('-')
print("Розподільник: `-`")
print (stroka)
print(list_from_stroka)

Розподільник: ` `
Вася Пупкін - студент 5 курсу ФІТ
['Вася', 'Пупкін', '-', 'студент', '5', 'курсу', 'ФІТ']

Розподільник: `-`
Вася Пупкін - студент 5 курсу ФІТ
['Вася Пупкін ', ' студент 5 курсу ФІТ']


__Примітка:__ файли в csv-форматі мають в якості розподільника, як правило, символ `,`

In [2]:
# за допомогою метода strip() є можливість "обрізати" зліва та справа пробіли 
# (якщо параметер не вказано), або символи, які вказані в якостиі параметрів:

stroka = "     Вася Пупкін - студент 5 курсу ФІТ   "
striped_stroka = stroka.strip()
print(stroka)
print(striped_stroka)
print(striped_stroka.strip('ФІТ'))


     Вася Пупкін - студент 5 курсу ФІТ   
Вася Пупкін - студент 5 курсу ФІТ
Вася Пупкін - студент 5 курсу 


__Конвертування строкових даних__ у чисельні здійснюється за допомогою функцій [int](https://pythoner.name/int-function) або [float](https://www.programiz.com/python-programming/methods/built-in/float), але треба мати на увазі що ці функціі викинуть виключення, якщо буде спроба конвертувати не число. Тому перед виконанням конвертування доцільно перевіряти, чи буде воно успішнім. Для цього можна викорастати функцію [isnumeric](https://pythonz.net/references/named/str.isnumeric/).

In [3]:
# 
number_str = '123.3'
print(type(number_str))
number_float = float(number_str)
print(type(number_float), end='\n\n')

# але
maybe_number_str = '123.З' # після крапки не число!
print(type(number_str))
# number_float = float(maybe_number_str) # ValueError: could not convert string to float: '123.З'

# треба
if maybe_number_str.isnumeric():
    #  True
    number_float = float(maybe_number_str)
else:
    # False
    # код який обробляє цю ситуацію
    ...

<class 'str'>
<class 'float'>

<class 'str'>


### Приклад розбору рядків, та вилучення показчиків 

In [4]:
# Припустимо, що ми маємо файл, вміст якого відображається на список:
file_content = [
    'Вася Пупкін ,  5 курс, ФІТ',
    'Петя Сидоров, 1 курс, ФТМ',
    ' Вова   Хлопов , 3 курс, ФІТ'
]
_ = [print(x) for x in file_content]

Вася Пупкін ,  5 курс, ФІТ
Петя Сидоров, 1 курс, ФТМ
 Вова   Хлопов , 3 курс, ФІТ


In [5]:
# треба створити новий список, який буде містити окремо ім'я та прізвище

# зарезервуєм пустий контейнер
name_and_surname = []

for line in file_content:
    list_from_line = line.split(',')
    name, surname = list_from_line[0].split()
    name_and_surname += [[name.strip(), surname.strip()]]

_ = [print(x) for x in name_and_surname]

['Вася', 'Пупкін']
['Петя', 'Сидоров']
['Вова', 'Хлопов']


In [6]:
# теж саме в функціональному стилі 
from functools import reduce
reduce(lambda acc, line: acc + [line.split(',')[0].split()], file_content, [])

[['Вася', 'Пупкін'], ['Петя', 'Сидоров'], ['Вова', 'Хлопов']]

### ЗАВДАННЯ

<p style="background-color: lightblue; padding:10px">На основі вхідного файлу <b>aprts_data_raw.csv</b> побудувати вихідний файл <b>aprt_total_area.txt</b> кожний рядок якого є вилучене з 6 показника та приведене до очікуваного формату значення загальної площі квартири.<br><br><i>При неможливості приведення показчика його треба замінити на 0</i></p>

_Фрагмент_ результатного файлу:

`
25
25
18
5
...
`

In [7]:
# Ваш код повинен починатися тут
...

lst = [] # пустий список для зберігання значень 6-го показника (до внесення змін)
gen = [] # пустий список для зберігання значень 6-го показника (після приведення формату значення загальної площі)

# відкриття вихідного CSV-файлу (для читання) для отримання даних
with open("./aprts_data_raw.csv", 'r', encoding='utf-8') as f1:
    
    # циклічний запис значень 6-го показника (до приведення формату)
    lst = [ln.split(',')[6].strip() for ln in list(f1)]

#     print(lst, end='\n\n')
    
    # циклічний запис значень 6-го показника (після приведення формату)
    for l in lst:
        # УМОВА: Якщо значення показника РІВНЕ "*** not found", то
        if l == "*** not found":
            # [True]
            gen += [0.0] # замінюємо значення на 0.0 (нуль з плаваючою точкою)
        else:
            # [False]
            gen += [float(l.rstrip('м²').split('/')[0])] # приводимо числове значення до значення з плаваючою точкою
    l = gen # запис результату
    # або так
#     l = [(0.0 if l == "*** not found" else float(l.rstrip('м²').split('/')[0])) for l in lst]
    print(l) # виведення результату

    # створення/відкриття нового TXT-файлу (для запису) для запису отриманих даних після приведення формату
    with open("./aprt_total_area.txt", 'w+', encoding='utf-8') as f2:

        # циклічний запис у текстовий файл значень 6-го показника (після приведення формату)
        for p in l:
            f2.write(str(p) + "\n") # кожен запис з нового рядка

[73.0, 110.27, 100.0, 58.0, 79.0, 138.7, 201.4, 87.0, 40.0, 51.0, 48.0, 85.0, 76.0, 56.0, 38.0, 70.0, 103.0, 56.44, 69.0, 47.39, 50.0, 64.0, 96.0, 46.0, 44.0, 100.0, 240.0, 72.1, 75.0, 78.0, 126.0, 93.0, 63.0, 44.0, 67.92, 52.0, 99.0, 96.0, 65.0, 50.0, 76.0, 45.3, 99.0, 74.7, 59.0, 73.0, 62.0, 76.0, 76.0, 210.0, 33.0, 66.8, 62.0, 102.1, 110.0, 51.0, 44.0, 91.0, 28.0, 56.0, 67.3, 100.0, 82.0, 122.0, 45.0, 75.0, 34.0, 46.0, 100.0, 99.0, 75.0, 62.0, 76.0, 210.0, 33.0, 66.8, 62.0, 102.1, 110.0, 51.0, 44.0, 91.0, 28.0, 56.0, 67.3, 100.0, 82.0, 122.0, 45.0, 75.0, 34.0, 46.0, 100.0, 99.0, 75.0, 62.0, 72.0, 116.3, 159.0, 76.0, 47.32, 44.0, 95.0, 240.0, 36.0, 50.0, 71.0, 60.51, 80.66, 123.0, 74.0, 81.0, 43.0, 84.0, 46.0, 55.0, 136.0, 21.31, 136.0, 41.0, 71.0, 57.0, 149.0, 50.0, 75.0, 92.0, 60.0, 70.99, 60.51, 55.0, 83.0, 55.0, 36.0, 65.0, 112.0, 50.0, 68.0, 85.0, 51.0, 46.0, 207.0, 130.0, 81.0, 41.0, 50.0, 54.0, 83.0, 81.0, 44.0, 90.0, 79.0, 43.0, 51.0, 126.1, 54.9, 110.0, 106.0, 72.0, 122.0, 6