# Чтение и запись в файлы

In [1]:
# Вариант 1

# 'r' - открыть файо для чтения
# 'w' - очистить файл и открыть для записи новых данных
# 'a' - добавить строчки к концу файла
f = open('../data/adult.csv', 'r')
for line in f:
    print(line)
    break
    
f.close()

age,workclass,fnlwgt,education,educational-num,marital-status,occupation,relationship,race,gender,capital-gain,capital-loss,hours-per-week,native-country,income



In [2]:
# прочитать содержимое файла в список
with open('../data/adult.csv', 'r') as f:
    content = f.readlines()

content[:5]

['age,workclass,fnlwgt,education,educational-num,marital-status,occupation,relationship,race,gender,capital-gain,capital-loss,hours-per-week,native-country,income\n',
 '25,Private,226802,11th,7,Never-married,Machine-op-inspct,Own-child,Black,Male,0,0,40,United-States,<=50K\n',
 '38,Private,89814,HS-grad,9,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,50,United-States,<=50K\n',
 '28,Local-gov,336951,Assoc-acdm,12,Married-civ-spouse,Protective-serv,Husband,White,Male,0,0,40,United-States,>50K\n',
 '44,Private,160323,Some-college,10,Married-civ-spouse,Machine-op-inspct,Husband,Black,Male,7688,0,40,United-States,>50K\n']

In [3]:
# прочитать большой файл построчно
with open('../data/adult.csv') as f:
    for line in f:
        print(line)
        
        break

age,workclass,fnlwgt,education,educational-num,marital-status,occupation,relationship,race,gender,capital-gain,capital-loss,hours-per-week,native-country,income



# Функции и классы

In [4]:
i = 0
with open('../data/adult.csv', 'r') as f:
    for line in f:
        print(line)
        
        i += 1
        if i > 5:
            break

age,workclass,fnlwgt,education,educational-num,marital-status,occupation,relationship,race,gender,capital-gain,capital-loss,hours-per-week,native-country,income

25,Private,226802,11th,7,Never-married,Machine-op-inspct,Own-child,Black,Male,0,0,40,United-States,<=50K

38,Private,89814,HS-grad,9,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,50,United-States,<=50K

28,Local-gov,336951,Assoc-acdm,12,Married-civ-spouse,Protective-serv,Husband,White,Male,0,0,40,United-States,>50K

44,Private,160323,Some-college,10,Married-civ-spouse,Machine-op-inspct,Husband,Black,Male,7688,0,40,United-States,>50K

18,?,103497,Some-college,10,Never-married,?,Own-child,White,Female,0,0,30,United-States,<=50K



Хотим классифицировать жителей в файле по возрастам:
* до 18 лет - children 
* 19-65 - young
* старше 65 - retiree

In [5]:
i = 0
with open('../data/adult.csv', 'r') as f:
    for line in f:
        age, *_ = line.strip().split(',')
        
        if i > 0:
            print(age)
        
        i += 1
        if i > 5:
            break

25
38
28
44
18


Добавим классификацию возрастов

In [6]:
i = 0
with open('../data/adult.csv', 'r') as f:
    for line in f:
        age, *_ = line.strip().split(',')
        
        if i > 0:
            if int(age) <= 18:
                age_group = 'children'

            elif int(age) <= 60:
                age_group = 'young'

            else:
                age_group = 'retiree'
                
            print(age, age_group)
        
        i += 1
        if i > 10:
            break

25 young
38 young
28 young
44 young
18 children
34 young
29 young
63 retiree
24 young
55 young


Что тут нехорошо:
* сложно потестировать все случаи (в нашем цикле нужных случаев может и не оказаться)
* наш цикл стал довольно громоздким, а мы только начали
* эта классификация может потребоваться еще в 100500 местах кода
* данные могут быть кривыми и скрипт будет падать с ошибкой

Условия вычисления возрастной группы:
1. В строке 15 столбцов
2. Столбец с возрастом первый по счету
3. Возраст должен быть целым числом в адекватных пределах
4. Могут добавиться еще требования, о которых мы пока не знаем

In [7]:
line = '25,Private,226802,11th,7,Never-married,Machine-op-inspct,Own-child,Black,Male,0,0,40,United-States,<=50K'

In [8]:
def line_is_correct(line):
    """
    Проверка строки на корректность. Проверяются условия:
    1. В строке 15 столбцов (пригодится с упражнения)
    2. Столбец с возрастом первый по счету
    3. Возраст должен быть целым числом в адекватных пределах
    """
    age = line.strip().split(',')[0]
    
    if number_of_columns(line) == 15:
        if age_is_correct(age):
            return True
    
    return False

In [9]:
def number_of_columns(line, separator=','):
    """Возвращает количество столбцов в строке line с разделителем separator"""
    
    return len(line.split(separator))

In [10]:
def age_is_correct(age, lower_age = 0, upper_age = 120):
    """
    Проверка корректности возраста age по следующим правилам:
    1. Целое число
    2. В адекватных пределах
    
    Возвращает True или False. Пример
    age_is_correct(15)
    True
    
    age_is_correct(121)
    False
    
    age_is_correct(-5)
    False
    """
    
    if str.isnumeric(age):
        if lower_age <= int(age) <= upper_age:
            return True
    
    return False

### Добавляем функции проверки в наш цикл

In [11]:
i = 0
with open('../data/adult.csv', 'r') as f:
    for line in f:
        
        if line_is_correct(line):
            age, *_ = line.strip().split(',')
            if int(age) <= 18:
                age_group = 'children'

            elif int(age) <= 60:
                age_group = 'young'

            else:
                age_group = 'retiree'

            print(age, age_group)
        
        i += 1
        if i > 10:
            break

25 young
38 young
28 young
44 young
18 children
34 young
29 young
63 retiree
24 young
55 young


### Давайте вынесем классификацию возраста в отдельную функцию

In [12]:
def age_classification(age):
    """
    Возвращает возрастную категорию для возраста age (можно передать как строку).
    Классификация категорий:
        - до 18 лет - children 
        - 19-60 - young
        - старше 65 - retiree
    
    Пример
    age_classification('18')
    'children'
    
    age_classification(65)
    'retiree'
    """
    
    if int(age) <= 18:
        return 'children'
    if int(age) <= 65:
        return 'young'
    if int(age) > 65:
        return 'retiree'
    return 'boom'

In [13]:
age_classification(61)

'young'

In [14]:
i = 0
with open('../data/adult.csv', 'r') as f:
    for line in f:
        if line_is_correct(line):
            age, *_ = line.strip().split(',')
            print(age, age_classification(age))
        
        i += 1
        if i > 10:
            break

25 young
38 young
28 young
44 young
18 children
34 young
29 young
63 young
24 young
55 young


### Упражнение

Напишите функцию, которая заменяет значения целевой переменной income с >50K и <=50K на 1 и 0.
Добавьте проверку на корректность значения income

In [16]:
def income_is_correct(income):
    """
    Проверка дохода на корректность - значение должно быть либо ">50K" либо "<=50K"
    """
    if income == ">50K" or income == "<=50K":
        return True
    return False

In [17]:
def line_is_correct(line):
    """
    Проверка строки на корректность. Проверяются условия:
    1. В строке 15 столбцов (пригодится с упражнения)
    2. Столбец с возрастом первый по счету
    3. Возраст должен быть целым числом в адекватных пределах
    4. Столбец с доходом - последний по счету
    5. Данные с доходом должны соответствовать установленным значениям
    """
    age = line.strip().split(',')[0]
    income = line.strip().split(',')[-1]
    
    if number_of_columns(line) == 15:
        if age_is_correct(age) and income_is_correct(income):
            return True
    
    return False

In [36]:
def replace_income(line):
    if line_is_correct(line):
        return ",".join(line.strip().split(',')[:-1]+[(line.strip().split(',')[-1]).replace(">50K","1").replace("<=50K","0")])

In [37]:
print(line)
print(replace_income(line))

55,Private,104996,7th-8th,4,Married-civ-spouse,Craft-repair,Husband,White,Male,0,0,10,United-States,<=50K

55,Private,104996,7th-8th,4,Married-civ-spouse,Craft-repair,Husband,White,Male,0,0,10,United-States,0


In [43]:
income_dict = {"<50K": 0, ">=50K": 1}

In [45]:
income = "<50K"
if income in income_dict:
    print(income_dict[income])
else:
    print("Error")

0


### Map и lambda-функции

In [46]:
nums = [ 1, 2, 3, 4, 5 ]

In [47]:
only_odd_numbers = lambda x: x % 2 == 0

In [48]:
[x for x in nums if only_odd_numbers(x)]

[2, 4]

In [49]:
def square(x):
    return x**2

In [50]:
for i in map(square, range(100, 10**10)):
    print(i)
    
    break

10000


In [51]:
list( map(square, nums) )

[1, 4, 9, 16, 25]

In [53]:
def cube(x):
    return x**3

In [54]:
for i in range(len(nums)):
    print(list(map(lambda x: x(nums[i]), [square, cube])))

[1, 1]
[4, 8]
[9, 27]
[16, 64]
[25, 125]


###  Упражнение
Дана статистика рекламных кампаний в формате дата - кампания - переходы.

Напишите функцию vk_campaigns, которая фильтрует список ad_stats по кампании vk. А затем функцию, вычисляющую сумму переходов по кампаниям vk.

In [55]:
ad_stats = [
    '2018-01-01,vk,43',
    '2018-01-01,fb,775',
    '2018-01-01,ya,64',
    '2018-01-02,vk,1164',
    '2018-01-02,fb,35',
    '2018-01-02,ya,254',
    '2018-01-02,ok,645',
    '2018-01-03,vk,7754',
    '2018-01-03,fb,654',
    '2018-01-03,ya,4625',
    '2018-01-03,ok,245',
]

In [56]:
print(sum([int(line.split(',')[-1]) for line in ad_stats if line.split(',')[-2] == "vk" ]))

8961


In [63]:
def vk_compaigns(line):
    if line.split(',')[-2] == "vk":
        return int(line.split(',')[-1])
    return 0

In [64]:
print(sum(list(map(vk_compaigns,ad_stats))))

8961


### Если аргументы функции заранее неизвестны

In [65]:
def api_request(*params):
    date_start = params[0]
    date_end = params[1]
    
    print(date_start, date_end)

In [66]:
api_request('2019-01-01', '2019-01-31')

2019-01-01 2019-01-31


In [67]:
def api_request(**params):
    date_start = params['date_start']
    date_end = params['date_end']
    
    print(date_start, date_end)

In [68]:
api_request(date_end='2019-01-31', date_start='2019-01-01')

2019-01-01 2019-01-31


In [69]:
def request(*args):
    return args

In [70]:
request('2019-01-01', '2019-01-31')

('2019-01-01', '2019-01-31')

In [71]:
def request(**kwargs):
    return kwargs

In [72]:
request(date_from='2019-01-01', date_to='2019-01-31')

{'date_from': '2019-01-01', 'date_to': '2019-01-31'}

### Упражнение
Необходима функция, которая составляет запрос к API в следующем формате:

https://api.service.ru/reports?date1=2018-01-01&date2=2018-01-31&accuracy=full&id=4721932

Хост https://api.service.ru постоянен, название метода 'reports' и набор параметров date1, date2, accuracy, id может меняться и задается пользователем в качестве аргументов функции. В итоге функция должна возвращать URL для запроса к API с параметрами.

In [73]:
# для перевода словаря в параметры URL можно использовать urlencode

from urllib.parse import urlencode
urlencode({'param1': 'foo', 'param2': 'bar'})

'param1=foo&param2=bar'

### Рекурсия

In [74]:
i = 10

while i >= 1:
    print(i)
    i -=1

10
9
8
7
6
5
4
3
2
1


In [75]:
def decrease_and_print_i(i):
    if i > 1:
        print(i)
        return decrease_and_print_i(i - 1)

    else:
        return 1

In [76]:
decrease_and_print_i(10)

10
9
8
7
6
5
4
3
2


1

# Немного про тесты

При необходимости функции удобно выносить в отдельные файлы. Смотрим validations.py и test_validations.py

запуск тестов из командной строки:

pytest test_validations.py

In [77]:
!pip install pytest

[33mYou are using pip version 19.0.2, however version 19.0.3 is available.
You should consider upgrading via the 'pip install --upgrade pip' command.[0m


# Классы

### Задача
Ваш скрипт использует данные по курсу евро на сегодня. Данные по курсам валют можно брать из открытых источников, например, отсюда https://www.cbr-xml-daily.ru/daily_json.js

Грядущие проблемы:

1. Аналогичный курс евро нужен еще нескольким отчетам и десятку ваших коллег

2. С упомянутым сервисом может много чего случиться:
    - временная недоступность
    - изменение URL с данными
    - изменение формата ответа
    - закрытие сервиса
    
3. Со временем могут потребоваться данные не только евро, но и других валют. Также может потребоваться курс за период

Во всех этих ситуациях формат возвращаемого курса должен оставаться постоянным, чтобы не переписывать уже написанные отчеты.

In [78]:
import requests

In [79]:
class Rate:
    def __init__(self, format='value'):
        self.format = format
    
    def exchange_rates(self):
        """
        Возвращает ответ сервиса с информацией о валютах в виде:
        
        {
            'AMD': {
                'CharCode': 'AMD',
                'ID': 'R01060',
                'Name': 'Армянских драмов',
                'Nominal': 100,
                'NumCode': '051',
                'Previous': 14.103,
                'Value': 14.0879
                },
            ...
        }
        """
        r = requests.get('https://www.cbr-xml-daily.ru/daily_json.js')
        return r.json()['Valute']
    
    def make_format(self, currency):
        """
        Возвращает информацию о валюте currency в двух вариантах:
        - полная информация о валюте при self.format = 'full':
        Rate('full').make_format('EUR')
        {
            'CharCode': 'EUR',
            'ID': 'R01239',
            'Name': 'Евро',
            'Nominal': 1,
            'NumCode': '978',
            'Previous': 79.6765,
            'Value': 79.4966
        }
        
        Rate('value').make_format('EUR')
        79.4966
        """
        response = self.exchange_rates()
        
        if currency in response:
            if self.format == 'full':
                return response[currency]
            
            if self.format == 'value':
                return response[currency]['Value']
        
        return 'Error'
    
    def eur(self):
        """Возвращает курс евро на сегодня в формате self.format"""
        return self.make_format('EUR')
    
    def usd(self):
        """Возвращает курс доллара на сегодня в формате self.format"""
        return self.make_format('USD')

In [80]:
curr = Rate()

In [81]:
curr.usd()

65.9646

In [82]:
curr.eur()

74.573

In [83]:
Rate('full').eur()

{'ID': 'R01239',
 'NumCode': '978',
 'CharCode': 'EUR',
 'Nominal': 1,
 'Name': 'Евро',
 'Value': 74.573,
 'Previous': 74.4158}

### Упражнение на дом
1. Добавьте в класс еще один формат, который возвращает название валюты (например, 'Евро').

2. Добавьте в класс параметр diff (со значениями True или False), который в случае значения True в методах eur и usd будет возвращать не курс валюты, а изменение по сравнению в прошлым значением.