# Функции и классы

In [1]:
i = 0
with open('adult.csv', 'r') as f:
    for line in f:
        print(line)
        
        i += 1
        if i > 5:
            break

age,workclass,fnlwgt,education,educational-num,marital-status,occupation,relationship,race,gender,capital-gain,capital-loss,hours-per-week,native-country,income

25,Private,226802,11th,7,Never-married,Machine-op-inspct,Own-child,Black,Male,0,0,40,United-States,<=50K

38,Private,89814,HS-grad,9,Married-civ-spouse,Farming-fishing,Husband,White,Male,0,0,50,United-States,<=50K

28,Local-gov,336951,Assoc-acdm,12,Married-civ-spouse,Protective-serv,Husband,White,Male,0,0,40,United-States,>50K

44,Private,160323,Some-college,10,Married-civ-spouse,Machine-op-inspct,Husband,Black,Male,7688,0,40,United-States,>50K

18,?,103497,Some-college,10,Never-married,?,Own-child,White,Female,0,0,30,United-States,<=50K



Хотим классифицировать жителей в файле по возрастам:
* до 18 лет - children 
* 19-60 - young
* старше 65 - retiree

In [2]:
i = 0
with open('adult.csv', 'r') as f:
    for line in f:
        age, *_ = line.strip().split(',')
        
        if i > 0:
            print(age)
        
        i += 1
        if i > 5:
            break

25
38
28
44
18


In [3]:
i = 0
with open('adult.csv', 'r') as f:
    for line in f:
        age, *_ = line.strip().split(',')
        
        if i > 0:
            if int(age) <= 18:
                age_group = 'children'

            elif int(age) <= 60:
                age_group = 'young'

            else:
                age_group = 'retiree'
                
            print(age, age_group)
        
        i += 1
        if i > 10:
            break

25 young
38 young
28 young
44 young
18 children
34 young
29 young
63 retiree
24 young
55 young


Что тут нехорошо:
* сложно потестировать все случаи (в нашем цикле нужных случаем может не оказаться)
* наш цикл стал довольно громоздким, а мы только начали
* эта классификация может потребоваться еще в 100500 местах кода
* данные могут быть кривыми и скрипт будет падать с ошибкой

Условия вычисления возрастной группы:
1. В строке 15 столбцов (пригодится с упражнения)
2. Столбец с возрастом первый по счету
3. Возраст должен быть целым числом в адекватных пределах
4. Могут добавиться еще требования, о которых мы пока не знаем

In [9]:
line = '25,Private,226802,11th,7,Never-married,Machine-op-inspct,Own-child,Black,Male,0,0,40,United-States,<=50K'

In [10]:
def line_is_correct(line):
    """
    Проверка строки на корректность. Проверяются условия:
    1. В строке 15 столбцов (пригодится с упражнения)
    2. Столбец с возрастом первый по счету
    3. Возраст должен быть целым числом в адекватных пределах
    """
    age = line.strip().split(',')[0]
    
    if number_of_columns(line) == 15:
        if age_is_correct(age):
            return True
    
    return False

In [11]:
def number_of_columns(line, separator=','):
    """Возвращает количество столбцов в строке line с разделителем separator"""
    
    return len(line.split(separator))

In [12]:
def age_is_correct(age, lower_age = 0, upper_age = 120):
    """
    Проверка корректности возраста age по следующим правилам:
    1. Целое число
    2. В адекватных пределах
    
    Возвращает True или False. Пример
    age_is_correct(15)
    True
    
    age_is_correct(121)
    False
    
    age_is_correct(-5)
    False
    """
    
    if str.isnumeric(age):
        if lower_age <= int(age) <= upper_age:
            return True
    
    return False

In [13]:
i = 0
with open('adult.csv', 'r') as f:
    for line in f:
        
        if line_is_correct(line):
            age, *_ = line.strip().split(',')
            if int(age) <= 18:
                age_group = 'children'

            elif int(age) <= 60:
                age_group = 'young'

            else:
                age_group = 'retiree'

            print(age, age_group)
        
        i += 1
        if i > 10:
            break

25 young
38 young
28 young
44 young
18 children
34 young
29 young
63 retiree
24 young
55 young


In [4]:
def age_classification(age):
    """
    Возвращает возрастную категорию для возраста age (можно передать как строку).
    Классификация категорий:
        - до 18 лет - children 
        - 19-60 - young
        - старше 65 - retiree
    
    Пример
    age_classification('18')
    'children'
    
    age_classification(65)
    'retiree'
    """
    if int(age) <= 18:
        age_group = 'children'

    elif int(age) <= 65:
        age_group = 'young'

    else:
        age_group = 'retiree'
                
    return age_group

In [None]:
i = 0
with open('adult.csv', 'r') as f:
    for line in f:
        if line_is_correct(line):
            age, *_ = line.strip().split(',')
            print(age, age_classification(age))
        
        i += 1
        if i > 10:
            break

Упражнение

Напишите функцию, которая заменяет значения целевой переменной income с >50K и <=50K на 1 и 0.

In [24]:
def replace_income (income):
        if income == ">50K" or income == "<=50K":
            if income == ">50K":
                level = 1
            if income == "<=50K":
                level = 0
            return level
        level = 2
        return(level)

### Map и lambda-функции

In [None]:
nums = [ 1, 2, 3, 4, 5 ]

In [None]:
only_odd_numbers = lambda x: x % 2 == 0

In [None]:
[x for x in nums if only_odd_numbers(x)]

In [None]:
def square( x ):
    return x**2

In [None]:
list( map(square, nums) )

In [None]:
def cube( x ):
    return x**3

In [None]:
for i in range( len( nums ) ):
    print( list( map( lambda x: x( nums[ i ] ), [ square, cube ] ) ) )

###  Упражнение
Дана статистика рекламных кампаний в формате дата - кампания - переходы.

Напишите функцию vk_campaigns, которая фильтрует список ad_stats по кампании vk. А затем функцию, вычисляющую сумму переходов по кампаниям vk.

In [25]:
ad_stats = [
    '2018-01-01,vk,43',
    '2018-01-01,fb,775',
    '2018-01-01,ya,64',
    '2018-01-02,vk,1164',
    '2018-01-02,fb,35',
    '2018-01-02,ya,254',
    '2018-01-02,ok,645',
    '2018-01-03,vk,7754',
    '2018-01-03,fb,654',
    '2018-01-03,ya,4625',
    '2018-01-03,ok,245',
]

In [29]:
def vk_campaigns(l):
    res = []
    for i in l:
        r = i.split(',')[1]
        if r == 'vk':
            res.append(i)
    return res

In [35]:
def sum_campaigns(l):
    res = 0
    for i in l:
        first, other, last = i.split(',')
        res = res + int(last)
    return res

In [36]:
sum_campaigns(vk_campaigns(ad_stats))

8961

### Если аргументы функции заранее неизвестны

Задача - посчитать уникальные элементы в столбцах большого файла

In [37]:
def request(*args):
    return args

In [38]:
request('2018-01-01', '2018-01-31')

('2018-01-01', '2018-01-31')

In [39]:
def request(**kwargs):
    return kwargs

In [40]:
request(date_from='2018-01-01', date_to='2018-01-31')

{'date_from': '2018-01-01', 'date_to': '2018-01-31'}

### Упражнение
Необходима функция, которая составляет запрос к API в следующем формате:

https://api.service.ru/reports?date1=2018-01-01&date2=2018-01-31&accuracy=full&id=4721932

Хост https://api.service.ru постоянен, название метода 'reports' и набор параметров date1, date2, accuracy, id может меняться и задается пользователем в качестве аргументов функции. В итоге функция должна возвращать URL для запроса к API с параметрами.

In [41]:
# для перевода словаря в параметры URL можно использовать urlencode

from urllib.parse import urlencode
urlencode({'param1': 'foo', 'param2': 'bar'})

'param1=foo&param2=bar'

In [44]:
def reports (**kwargs):
    line = urlencode(kwargs)
    url_line = 'https://api.service.ru/reports?'+line
    return(url_line)

In [45]:
reports(date1= '2018-01-01', date2 = '2018-01-31', accuracy = 'full', id = '4721932')

'https://api.service.ru/reports?date1=2018-01-01&date2=2018-01-31&accuracy=full&id=4721932'

### Рекурсия

In [None]:
i = 10

while i >= 1:
    print(i)
    i -=1

In [None]:
def decrease_and_print_i(i):
    if i > 1:
        print(i)
        return decrease_and_print_i(i - 1)

    else:
        return 1

In [None]:
decrease_and_print_i(10)

# Классы

### Задача
Ваш скрипт использует данные по курсу евро на сегодня. Данные по курсам валют можно брать из открытых источников, например, отсюда https://www.cbr-xml-daily.ru/daily_json.js

Грядущие проблемы:

1. Аналогичный курс евро нужен еще нескольким отчетам и десятку ваших коллег

2. С упомянутым сервисом может много чего случиться:
    - временная недоступность
    - изменение URL с данными
    - изменение формата ответа
    - закрытие сервиса
    
3. Со временем могут потребоваться данные не только евро, но и других валют. Также может потребоваться курс за период

Во всех этих ситуациях формат возвращаемого курса должен оставаться постоянным, чтобы не переписывать уже написанные отчеты.

In [None]:
import requests

In [None]:
class Rate:
    def __init__(self, format='value'):
        self.format = format
    
    def exchange_rates(self):
        """
        Возвращает ответ сервиса с информацией о валютах в виде:
        
        {
            'AMD': {
                'CharCode': 'AMD',
                'ID': 'R01060',
                'Name': 'Армянских драмов',
                'Nominal': 100,
                'NumCode': '051',
                'Previous': 14.103,
                'Value': 14.0879
                },
            ...
        }
        """
        r = requests.get('https://www.cbr-xml-daily.ru/daily_json.js')
        return r.json()['Valute']
    
    def make_format(self, currency):
        """
        Возвращает информацию о валюте currency в двух вариантах:
        - полная информация о валюте при self.format = 'full':
        Rate('full').make_format('EUR')
        {
            'CharCode': 'EUR',
            'ID': 'R01239',
            'Name': 'Евро',
            'Nominal': 1,
            'NumCode': '978',
            'Previous': 79.6765,
            'Value': 79.4966
        }
        
        Rate('value').make_format('EUR')
        79.4966
        """
        response = self.exchange_rates()
        
        if currency in response:
            if self.format == 'full':
                return response[currency]
            
            if self.format == 'value':
                return response[currency]['Value']
        
        return 'Error'
    
    def eur(self):
        """Возвращает курс евро на сегодня в формате self.format"""
        return self.make_format('EUR')
    
    def usd(self):
        """Возвращает курс доллара на сегодня в формате self.format"""
        return self.make_format('USD')

### Упражнение на дом
1. Добавьте в класс еще один формат, который возвращает название валюты (например, 'Евро').

2. Добавьте в класс параметр diff (со значениями True или False), который в случае значения True в методах eur и usd будет возвращать не курс валюты, а изменение по сравнению в прошлым значением.