# Чтение данных из файлов

In [None]:
# открываем файл
# 'r' - прочитать файл
# 'w' - очистить файл и начать запись
# 'a' - добавить запись в конец файла
f = open('transactions.tsv', 'r')

In [None]:
# чтение файла построчно (независимо от размера)
print(f.readline())

In [None]:
# закрываем файл
f.close()

In [None]:
# аналог
with open('transactions.tsv', 'r') as f:
    print(f.readline())

### Упражнение
Дан лог покупок transactions.tsv.

Первый столбец - дата покупки, второй - сумма. Разделитель табуляция.

Необходимо посчитать:

1. Сумму покупок за все дни

2. Среднюю стоимость одной покупки

3. Посложнее - в какой день была максимальная выручка?

In [None]:
total_sum = 0

with open('transactions.tsv', 'r') as f:
    for line in f:
        date, amount = line.strip().split('\t')
        print(date, amount)

# Даты

In [1]:
import datetime

In [None]:
date_string = '09.05.2018  09:00'

In [None]:
# сейчас date_string это просто строка
type(date_string)

In [None]:
date_string[:10]

In [None]:
datetime.strptime('09.05.2018 09:00', '%d.%m.%Y %I:%M')

In [None]:
datetime.strptime('09.05.2018Z09:00', '%d.%m.%YZ%H:%M')

In [None]:
# https://docs.python.org/3/library/datetime.html

date_datetime = datetime.strptime( date_string, '%d.%m.%Y %H:%M' )
date_datetime

In [None]:
# теперь можем работать с датами
type(date_datetime)

In [None]:
date_datetime.year, date_datetime.hour

### Упражнение
С помощью метода datetime.strptime переведите строку 'May 25 2017 5:00AM' в формат datetime.

### Прибавление интервала к датам

In [None]:
from datetime import timedelta

In [None]:
start_date = '2018-01-01'
end_date = '2018-01-07'

In [None]:
type(start_date)

In [None]:
start_date_datetime = datetime.strptime(start_date, '%Y-%m-%d')
start_date_datetime

In [None]:
start_date_datetime + timedelta(days=1)

In [None]:
start_date_datetime + timedelta(days=-1)

In [None]:
start_date_datetime + timedelta(days=-7, minutes=-1)

In [None]:
start_date_datetime.weekday()

### Упражнение
Дана дата в формате '2018-09-01T09:30:00'. Прибавьте к ней 12 часов 15минут и 3 секунды.

In [None]:
date_str = '2018-09-01T09:30:00'

### Перевод обратно в строку

In [None]:
date = datetime(2018, 9, 1)
date

In [None]:
date.strftime('%Y-%m-%d')

In [None]:
date.strftime('%B %d %Y %I:%M%p')

In [None]:
# внезапно

date.strftime('%Y-%m-01')

In [None]:
start_date, end_date

In [None]:
start_date_dt = datetime.strptime(start_date, '%Y-%m-%d')
end_date_dt = datetime.strptime(end_date, '%Y-%m-%d')

print(start_date_dt, end_date_dt)

In [None]:
start_date_dt

In [None]:
i = 0

while i < 10:
    # ...
    i += 1
    print(i)

In [None]:
current_dt = start_date_dt

while current_dt <= end_date_dt:
    print(current_dt.strftime('%Y-%m-%d'))
    
    current_dt += timedelta(days=1)

### Упражнение
Напишите алгоритм, который "пробегает" период 1 до 7 сентября по часам. Формат вывода '06.01.2018 23:00:00'.

### Нагрузка на систему по часам

In [None]:
stats = {}

with open('logs.csv', 'r') as f:
    for line in f:
        line = line.strip()
        print(line)
        
        dt = datetime.strptime(line, '%Y-%m-%dT%H:%M:%SZ')
        
        # номер часа
        print(dt.hour)
        break
        
        # вычисления нагрузки на систему...
        
# результат
stats

In [None]:
# а в процентном соотношении?


###  Unixtime
Количество секунд, прошедших с 1 января 1970 года по UTC

In [None]:
import time
from datetime import date
from datetime import datetime

In [None]:
d = date(2019, 3, 11)

unixtime = time.mktime(d.timetuple())
unixtime

In [None]:
from datetime import datetime

In [None]:
datetime.fromtimestamp(1552251600)

# Обработка ошибок

In [None]:
some_num = '123'

In [None]:
float(some_num)

In [20]:
ups = '123a'

In [21]:
float(ups)

ValueError: could not convert string to float: '123a'

In [22]:
try:
    float(ups)

except:
    print('Ошибка')
    
print('Проехали')

Ошибка
Проехали


In [None]:
ups = '123fff'

In [None]:
# полная версия traceback
import traceback

try:
    float(ups)

except Exception:
    print(traceback.print_exc())
    
print('Проехали')

### Упражнение
Создайте словарь stats = {'monday': 100, 'tuesday': 200}. 

Какой тип ошибки вызовет обращение stats['wednesday']?

# Большие файлы

In [None]:
with open('unique_ids_data.csv') as f:
    for line in f:
        line = line.strip()
        print(line)

In [None]:
unique_count = 1
previous_user_id = None

with open('unique_ids_data.csv') as f:
    for line in f:
        current_user_id = line.strip()
        
        if previous_user_id and previous_user_id != current_user_id:
            unique_count += 1
            
        previous_user_id = current_user_id

print(unique_count)

### Словари и поиск
Про хэш-таблицы https://habr.com/ru/post/247843/

In [None]:
import pandas as pd

In [None]:
stats = pd.read_csv('stats.csv', names=['day_number', 'user_id', 'category', 'cost'])
stats.head()

In [None]:
stats.info()

### В чем задача
Надо по заданному значению первых трех столбцов найти значение cost

In [None]:
line_to_find = [20, 20552, 3]

**Вариант 1**

Пробуем методами pandas (лучше не делайте так перед разработчиками)

In [None]:
stats[ (stats.day_number == line_to_find[0]) & 
       (stats.user_id == line_to_find[1]) & 
       (stats.category == line_to_find[2]) ].cost


In [None]:
%%time
for i in range(10**4):
    cost = stats[ (stats.day_number == line_to_find[0]) & 
       (stats.user_id == line_to_find[1]) & 
       (stats.category == line_to_find[2]) ].cost

# выводим результат последнего "испытания"
print(cost)

**Вариант 2**

Загоняем все в список

In [None]:
stats_list = []

with open('stats.csv') as f:
    for line in f:
        line = line.strip().split(',')
        stats_list.append(line)
        
stats_list[:5]

In [None]:
# взято из середины, значение cost=39156
line_to_find = ['20', '20552', '3']

In [None]:
for line in stats_list:
    if line[:3] == line_to_find:
        print(line[3])
        break

In [None]:
%%time
for i in range(10**4):
    for line in stats_list:
        if line[:3] == line_to_find:
            cost = line[3]
            break

**Вариант 3**

Используем словари

In [None]:
stats_dict = {}

with open('stats.csv') as f:
    for line in f:
        line = line.strip().split(',')
        stats_dict[tuple(line[:3])] = line[3]

In [None]:
for key, value in stats_dict.items():
    print(key, value)
    break

In [None]:
line_to_find = ('20', '20552', '3')

In [None]:
%%time
for i in range(10**4):
    cost = stats_dict[line_to_find]
    
print(cost)

### Задание 1

In [47]:
from datetime import datetime
from datetime import timedelta
import pandas as pd
import numpy as np

In [45]:
a = input('enter start date ')
b = input('enter end date ')

def date_range (a,b):
    x =[]
    cur_date = datetime.strptime(a,'%Y-%m-%d')
    while cur_date <= datetime.strptime(b,'%Y-%m-%d'):
        x.append(cur_date.strftime('%Y-%m-%d'))
        cur_date += timedelta(days = 1)
    return x

date_range(a,b)

enter start date 2019-03-15
enter end date 2019-04-01


['2019-03-15',
 '2019-03-16',
 '2019-03-17',
 '2019-03-18',
 '2019-03-19',
 '2019-03-20',
 '2019-03-21',
 '2019-03-22',
 '2019-03-23',
 '2019-03-24',
 '2019-03-25',
 '2019-03-26',
 '2019-03-27',
 '2019-03-28',
 '2019-03-29',
 '2019-03-30',
 '2019-03-31',
 '2019-04-01']

### Задание 2

In [15]:
a = input('enter start date ')
b = input('enter end date ')

def date_range_mod (a,b):
    try:
        x = []
        cur_date = datetime.strptime(a,'%Y-%m-%d')
        while cur_date <= datetime.strptime(b,'%Y-%m-%d'):
            x.append(cur_date.strftime('%Y-%m-%d'))
            cur_date += timedelta(days = 1)
    except:
        x = []
        
    return x

date_range_mod(a,b)

enter start date2019-03-15
enter end date2019-03-11


[]

### Задание 3

In [26]:
stream = ['2018-04-02', '2018-02-29', '2018-19-02']

In [43]:
def check(a):
    for i in a:
        try:
            datetime.strptime(i,'%Y-%m-%d')
            print(True)
        except:
            print(False)

In [44]:
check(stream)

True
False
False


### Задание 4

In [56]:
def search(file):
    info = {}
    n = int(input('enter number of features '))
    for line in file:
        line = line.strip().split(',')
        info[tuple(line[:n])] = line[n]
    return info

In [59]:
with open('C:/Users/Kanris/Desktop/data/9/stats.csv') as f:
    g = search(f)
        

enter number of features 3


In [60]:
g[('20', '20552', '3')]

'39156'