# Чтение текстовых и CSV файлов

## python text


Если речь идёт о продакшн-системах машинного обучения, то данные могут приходить в форматах, мало пригодных для использования. Аналитику данных часто приходится иметь дело со слабо-структурированным текстом - например, текстовыми логами. Для открытия простых тестовых файлов (например, это может быть access-лог веб-сервера nginx) в python используются [файловые дескрипторы](https://docs.python.org/3/tutorial/inputoutput.html#reading-and-writing-files), которые рекомендуется использовать совместно с [менеджером контекста with](https://docs.python.org/3/reference/datamodel.html#context-managers). Файл, открытый на чтение предоставляет интерфейс итератора - а значит, может использоваться внутри цикла for:

In [2]:
file_path = './data/uwsgi.log'

with open(file_path, 'r') as f:
    for row in f:
        print(row)

192.168.101.4 - - [05/Feb/2019:21:36:07 +0300] "GET /movie/is_personalizable/?history_type=watch&uid=5734473158358418&master_uid=5734473158358418 HTTP/1.1" 200 75 "-" "python-requests/2.0.0 CPython/2.7.3 Linux/4.4.0-47-generic"

192.168.102.3 - - [05/Feb/2019:21:36:07 +0300] "POST /logger/content/time/ HTTP/1.1" 404 305 "-" "Mozilla/5.0 (Windows; U; en-US; rv:1.8.1.11; Gecko/20071129; Firefox/2.5.0) Maple 6.0.00067 Navi"

192.168.102.3 - - [05/Feb/2019:21:36:07 +0300] "GET /movie/collection/items/recommendations/?uid=1623029046&master_uid=1623029046&collection_id=1525&subsite=141&app_version=10924&user_ab_bucket=10679 HTTP/1.1" 200 535 "-" "python-requests/2.0.0 CPython/2.7.3 Linux/3.13.0-24-generic"

192.168.7.46 - - [05/Feb/2019:21:36:07 +0300] "GET /movie/recommendations/?uid=803285924&master_uid=803285924&iid=102751&user_ab_bucket=12493&top=30&scenario_id=ITEM_PAGE&app_version=15100&subsite=3021 HTTP/1.1" 200 1392 "-" "python-requests/2.0.0 CPython/2.7.3 Linux/3.13.0-24-generic"




Этот минималисчтичный код открывает большие возможности для процессинга строк - например, с применением [регулярных выражений](https://docs.python.org/3/library/re.html). В процесс чтения файла часто встраивают код для обработки строк. Например, распечатаем IP-адреса, с которых производился доступ

In [3]:
with open(file_path, 'r') as f:
    for row in f:
        # оператор split разделяет строку по пробелам
        parted_row = row.split(' ')
        if len(parted_row)>1:
            print("IP adress: " + parted_row[0])

IP adress: 192.168.101.4
IP adress: 192.168.102.3
IP adress: 192.168.102.3
IP adress: 192.168.7.46
