Профессия Data Science  
Блок 1. Знакомство с данными. Python для анализа данных  
*PYTHON-15. Принципы ООП в Python и отладка кода

### <strong> 1. Введение </strong>

<strong> Идеология объектно-ориентированного программирования (ООП) </strong> разрабатывалась как попытка связать поведение определённой сущности (объекта) с тем, к какому классу она принадлежит. Причина задумки такого подхода в том, что нам проще воспринимать окружающий мир как объекты, которые поддаются определённой классификации (взять хотя бы разделение на живую и неживую природу).

Основу ООП составляют два понятия — <strong> классы и объекты. </strong>

Когда мы говорим о классе, мы имеем в виду то, какими свойствами и поведением будет обладать объект.

А объект — это экземпляр с собственным состоянием этих свойств, любой предмет, существо, явление. Иными словами, это всё, что называется именем существительным, о чём можно сказать «это что-то» или «это кто-то».

Oбъекты класса обладают свойствами и поведением (методами).

Cвойствам устанавливаются значения, а методам — нет. То есть методы — это определённое поведение, которым характеризуется объект, а свойства могут изменяться.


### <strong> 2. Принципы ООП </strong>
ООП, как и любой другой тип, характеризуется своими особенностями (принципами). Рассмотрим их подробнее.

<strong> 1. НАСЛЕДОВАНИЕ </strong> - этот принцип базируется на том, что новый класс описывается на основе уже существующего (родительского), то есть не только перенимает все свойства родительского класса, но ещё и получает новые.

<strong> 2. АБСТРАКЦИЯ </strong> означает выделение главных, наиболее значимых характеристик предмета и, наоборот, отбрасывание второстепенных, незначительных. 

<strong> 3. ИНКАПСУЛЯЦИЯ </strong> - это свойство системы, позволяющее объединить данные и методы, работающие с ними, в классе и скрыть детали реализации от пользователя. Инкапсуляция также означает ограничение доступа к данным и возможностям их изменения.

<strong> 4. ПОЛИМОРФИЗМ </strong> - это свойство системы, позволяющее иметь множество реализаций одного интерфейса. 

### <strong> 3. Объекты и классы </strong>

<strong> ОБЪЕКТЫ </strong>

Некоторые данные и действия над ними могут объединяться вместе в единый объект. В Python всё по сути является объектом. Объект <strong> числа </strong> хранит своё значение — данные, мы можем вызвать его методы, совершать действия. 

In [26]:
number = 2.5   
# Вызовем метод is_integer. Он скажет нам, является ли number целым числом  
print(number.is_integer())  
# => False  
  
# Давайте попробуем представить number как обыкновенную дробь  
print(number.as_integer_ratio())  
# => (5, 2)  
# Действительно 2.5 = 5/2 

False
(5, 2)


Посмотрим на <strong> список </strong>: он хранит данные своих элементов, мы можем совершать над ними действия встроенными методами.

In [27]:
people = ["Vasiliy", "Stanislav", "Alexandra", "Vasiliy"]  
  
# Посчитаем число Василиев с помощью метода count  
print(people.count("Vasiliy"))  
# => 2  
  
# Теперь отсортируем   
people.sort()  
print(people)  
# => ['Alexandra', 'Stanislav', 'Vasiliy', 'Vasiliy'] 

2
['Alexandra', 'Stanislav', 'Vasiliy', 'Vasiliy']


<strong> КЛАССЫ </strong>

У всех встроенных объектов есть свой класс. В примере для числа 2.5 мы видим класс действительных чисел (float), для списка — класс списка (list). Класс — это некая заготовка или чертёж, которая описывает общую структуру, свойства и действия для объектов.  

In [28]:
number = 2.5  
print(number.__class__)  
# => <class 'float'>  
  
people = ["Vasiliy", "Stanislav", "Alexandra", "Vasiliy"]  
print(people.__class__)  
# => <class 'list'> 

<class 'float'>
<class 'list'>


Определим пустой класс: он не делает ничего, но позволит нам посмотреть на синтаксис.

In [29]:
# Используем ключевое слово class, за которым идёт
# название класса, в примере это SalesReport  
class SalesReport():  
    pass  
  
# Сравните это с определением пустой функции  
# Команда pass не делает ничего; на её месте могли быть
# другие инструкции мы используем её только потому, что
# синтаксически python требует, чтобы там было хоть что-то  
def build_report():  
    pass  
    
# И давайте определим ещё один класс  
# Для имён классов традиционно используются имена в формате
# CamelCase, где начала слов отмечаются большими буквами  
# Это позволяет легко отличать их от функций, которые
# пишутся в формате snake_case  
class SkillfactoryStudent():  
    pass

<strong> ОБЪЕКТЫ ИЗ КЛАССОВ </strong> 

Мы написали свой первый класс — давайте создадим по нему объект. Вызываем класс и получаем новый объект аналогично тому, как вызывается функция. Получаем результат.

In [30]:
class SalesReport():  
    pass  
  
# создаём объект по классу  
report = SalesReport()  
  
# мы можем создавать множество объектов по одному классу  
report_2 = SalesReport()  
  
# Это будут разные объекты.   
print(report == report_2)  
# => False  

# Созданный таким образом объект часто называют экземпляром класса (instance).

False


### <strong> 4. Атрибуты и методы </strong>

Мы создали объект по пустому классу. Давайте добавим ему данные. Сделаем класс для отчётов по продажам SalesReport. Пусть у нас в компании есть менеджеры по продажам, которые заключают сделки, и мы хотим посчитать для них метрики общего объёма продаж.

In [31]:
# По-прежнему пока создаём пустой класс  
class SalesReport():  
    pass  
  
# Создаём первый отчёт по продажам   
report = SalesReport()  
  
# Мы добавим новый атрибут объекту.  
# Для этого через точку напишем имя атрибута и дальше как с обычной переменной  
report.amount = 10  
  
# То же самое делаем для второго отчёта.  
report_2 = SalesReport()  
report_2.amount = 20  
  
# Создадим вспомогательную функцию, она будет печатать общую сумму из отчёта  
def print_report(report):  
    print("Total amount:", report.amount)  
      
print_report(report) # => Total amount: 10  
print_report(report_2) # => Total amount: 20 

Total amount: 10
Total amount: 20


Для разных отчётов вывелись разные значения, хотя объекты создавались из одного класса. Функция print_report делает операцию над отчётом. Так как классы увязывают данные и действия над ними, положим print_report внутрь класса.

In [32]:
class SalesReport():  
    # Наш новый метод внутри класса.  
    # Мы определяем его похожим образом с обычными функциями,  
    #   но только помещаем внутрь класса и первым аргументом передаём self  
    def print_report(self):  
        print("Total amount:", self.amount)  
          
          
# Дальше мы применяем report так же, как и в примере выше   
report = SalesReport()  
report.amount = 10  
  
report_2 = SalesReport()  
report_2.amount = 20  
  
# Используем наши новые методы  
report.print_report() # => Total amount: 10  
report_2.print_report() # => Total amount: 20 

Total amount: 10
Total amount: 20


Мы определили метод внутри класса, и он стал доступен у всех экземпляров этого класса. 


### <strong> Методы в целом похожи на обычные функции, но их ключевое отличие — доступ к самому объекту.  </strong>

В методе мы первым аргументом получаем self — в нашем случае это отчёт, что позволяет использовать атрибуты объекта внутри метода, как мы сделали с amount. Self передаётся автоматически. При вызове метода мы не передавали никакие аргументы.

Давайте для примера определим ещё пару методов:

In [33]:
class SalesReport():  
    # Позволим добавлять много разных сделок   
    def add_deal(self, amount):   
        # На первой сделке создадим список для хранения всех сделок   
        if not hasattr(self, 'deals'):  
            self.deals = []  
        # Добавим текущую сделку  
        self.deals.append(amount)  
          
    # Посчитаем сумму всех сделок      
    def total_amount(self):  
        return sum(self.deals)  
      
    def print_report(self):  
        print("Total sales:", self.total_amount())  
          
# Используем наши новые возможности  
# Добавим две сделки и распечатаем отчёт  
report = SalesReport()  
report.add_deal(10_000)  
report.add_deal(30_000)  
report.print_report() # => Total sales: 40000  

Total sales: 40000


Атрибут deals, определённый в одном методе, становится доступен сразу во всех методах класса. Через self становятся доступны и остальные методы, например print_report использует метод total_amount. Это позволяет компактно упаковывать логику внутри класса: внешнее использование становится гораздо лаконичнее.

In [34]:
#Задание 4.1 (External resource)

class DepartmentReport():
       
    def add_revenue(self, amount):
        """
        Метод для добавления выручки отдела в список revenues.
        Если атрибута revenues ещё не существует, метод должен
        создавать пустой список перед добавлением выручки.
        """
        # На первой сделке создадим список для хранения всех сделок   
        if not hasattr(self, 'revenues'):  
            self.revenues = []  
        # Добавим текущую сделку  
        self.revenues.append(amount)
    
    def average_revenue(self):
        """
        Метод возвращает среднюю выручку по отделам.
        """
        return sum(self.revenues)/len(self.revenues)
        
report = DepartmentReport()
report.add_revenue(1_000_000)
report.add_revenue(400_000)
print(report.revenues)
# [1000000, 400000]
print(report.average_revenue())
# 700000.0

[1000000, 400000]
700000.0


<strong> МЕТОД _INIT_ </strong>

у классов есть метод инициализации __init__. Если мы определим метод с таким именем, код в нём вызовется при создании объекта.

In [35]:
class SalesReport():  
    def __init__(self):  
        self.deals = []  
          
    def add_deal(self, amount):   
        self.deals.append(amount)  
          
    def total_amount(self):  
        return sum(self.deals)  
      
    def print_report(self):  
        print("Total sales:", self.total_amount())  
   
report = SalesReport()  
print(report.deals)  
# => []  
report.total_amount()  
# => 0  

[]


0

__init__ — это технический метод, поэтому его имя начинается и заканчивается двумя подчёркиваниями. Он получает первым аргументом сам объект, в нём могут выполняться любые операции. Оставшиеся аргументы он получает из вызова при создании: если мы напишем report = SalesReport("Info", 20), то вторым и третьим аргументом в __init__ передадутся "Info" и 20.

In [36]:
class SalesReport():  
    # Будем принимать в __init__ ещё и имя менеджера  
    def __init__(self, manager_name):  
        self.deals = []  
        self.manager_name = manager_name  
          
    def add_deal(self, amount):   
        self.deals.append(amount)  
          
    def total_amount(self):  
        return sum(self.deals)  
      
    def print_report(self):  
        # И добавлять это имя в отчёт  
        print("Manager:", self.manager_name)  
        print("Total sales:", self.total_amount())  
          
   
report = SalesReport("Ivan Taranov")  
report.add_deal(10_000)  
report.add_deal(30_000)  
report.print_report()  
# =>   
# Manager: Ivan Taranov  
# Total sales: 40000

Manager: Ivan Taranov
Total sales: 40000


Кроме __init__ у классов можно определить ряд технических методов, которые также называют магическими. Дело в том, что они не вызываются напрямую, но позволяют реализовать операции сложения object_1 + object_2 или сравнения object_1 > object_2. 

In [1]:
#Задание 4.2 (External resource)

class DepartmentReport():
    def __init__(self, company_name):
        self.revenues=[]
        self.company=company_name

    def add_revenue(self, amount):
        if not hasattr(self, 'revenues'):
            self.revenues=[]
        self.revenues.append(amount)

    def average_revenue(self):
        average=int(round(sum(self.revenues)/len(self.revenues),0))
        return 'Average department revenue for {}: {}'.format(self.company,average)
    
report = DepartmentReport(company_name="Danon")
print(report.company)
# Danon

report.add_revenue(1_000_000)
report.add_revenue(400_500)

print(report.average_revenue())
# Average department revenue for Danon: 700000

Danon
Average department revenue for Danon: 700250


КРАТКОЕ РЕЗЮМЕ

✔️ Мы рассмотрели базовый синтаксис классов и синтаксис создания объектов.  
Давайте вспомним некоторые важные моменты:

атрибут объекта — это просто его переменная;

метод объекта — это его функция;

метод объекта автоматически получает первым аргументом сам объект под именем self;

класс описывает объект через его атрибуты и методы;

мы можем создавать множество экземпляров одного класса, и значения их атрибутов независимы друг от друга;

если определить метод __init__, то он будет выполняться при создании объекта;

всё это позволяет компактно увязывать данные и логику внутри объекта.

Чтобы продемонстрировать, что мы имеем в виду под компактностью, давайте добавим ещё метрик в отчёт. 

Допустим, теперь мы хотим получать средний размер сделки и список клиентов, из которого исключены повторения (в случае, если компания заключала несколько сделок с одним и тем же клиентом).

In [38]:
class SalesReport():  
    def __init__(self, employee_name):  
        self.deals = []  
        self.employee_name = employee_name  
      
    def add_deal(self, company, amount):   
        self.deals.append({'company': company, 'amount': amount})  
          
    def total_amount(self):  
        return sum([deal['amount'] for deal in self.deals])  
      
    def average_deal(self):  
        return self.total_amount()/len(self.deals)  
      
    def all_companies(self):  
        return list(set([deal['company'] for deal in self.deals]))  
      
    def print_report(self):  
        print("Employee: ", self.employee_name)  
        print("Total sales:", self.total_amount())  
        print("Average sales:", self.average_deal())  
        print("Companies:", self.all_companies())  
      
      
report = SalesReport("Ivan Semenov")  
  
report.add_deal("PepsiCo", 120_000)  
report.add_deal("SkyEng", 250_000)  
report.add_deal("PepsiCo", 20_000)  
  
report.print_report()  
# => Employee:  Ivan Semenov  
# Total sales: 390000  
# Average sales: 130000.0  
# Companies: ['PepsiCo', 'SkyEng'] 

Employee:  Ivan Semenov
Total sales: 390000
Average sales: 130000.0
Companies: ['PepsiCo', 'SkyEng']


### <strong> 5. Практические примеры </strong>

<strong> ОТСЛЕЖИВАНИЕ СОСТОЯНИЯ </strong>

Одно из классических предписаний для классов — у каждого из множества объектов есть некоторые меняющиеся состояния. 

Вернёмся к примеру: есть база клиентов с основной информацией; в реальном времени нам приходит информация о покупках. Запустим промокампанию, чтобы поощрить старых клиентов, которые сделали у нас много заказов, и выдать им скидку:

In [2]:
class Client():  
    # Базовые данные  
    def __init__(self, email, order_num, registration_year):  
        self.email = email  
        self.order_num = order_num  
        self.registration_year = registration_year  
        self.discount = 0  
          
    # Оформление заказа  
    def make_order(self, price):  
        self.update_discount()  
        self.order_num += 1  
        # Здесь было бы оформление заказа, но мы просто выведем его цену  
        discounted_price = price * (1 - self.discount)   
        print(f"Order price for {self.email} is {discounted_price}")  
              
    # Назначение скидки  
    def update_discount(self):   
        if self.registration_year < 2018 and self.order_num >= 5:  
            self.discount = 0.1   
              
  
# Применение  
          
# Сделаем подобие базы  
client_db = [   
    Client("max@gmail.com", 2, 2019),  
    Client("lova@yandex.ru", 10, 2015),  
    Client("german@sberbank.ru", 4, 2017)  
]  
  
  
# Сгенерируем заказы  
client_db[0].make_order(100)  
# => Order price for max@gmail.com is 100  
  
client_db[1].make_order(200)  
# => Order price for lova@yandex.ru is 180.0  
  
client_db[2].make_order(500)  
# => Order price for german@sberbank.ru is 500  
  
client_db[2].make_order(500)  
# => Order price for german@sberbank.ru is 450.0 

Order price for max@gmail.com is 100
Order price for lova@yandex.ru is 180.0
Order price for german@sberbank.ru is 500
Order price for german@sberbank.ru is 450.0


In [12]:
# Задание 5.1 (External resource)

class User():
    def __init__(self, email, password, balance):
        self.email=email
        self.password=password
        self.balance=balance
        update_balance=0
     
    def login(self, email, password):
        if self.email==email and self.password==password:
            answer=True
        else:
            answer=False
        return answer
    
    def update_balance(self, amount):
        self.balance+=amount
        return self.balance 

user = User("gosha@roskino.org", "qwerty", 20_000)
print(user.login("gosha@roskino.org", "qwerty123"))
# False
print(user.login("gosha@roskino.org", "qwerty"))
# True
user.update_balance(200)
user.update_balance(-500)
print(user.balance)
# 19700

False
True
19700


<strong> КОМБИНАЦИЯ ОПЕРАЦИЙ </strong>

Классы могут пригодиться, если вы регулярно делаете над данными одну и ту же последовательность разноплановых функций. Вы можете упаковать их в класс и в дальнейшем сразу получать результат по загруженным данным.

У нас есть численные данные из разных источников. Если они в виде строк, то нужно привести их к числам, а пропуски — заполнить значениями. Сделаем доступ к медиане, среднему значению и стандартному отклонению:

In [None]:
import statistics  
  
class DataFrame():  
    def __init__(self, column, fill_value=0):  
        # Инициализируем атрибуты  
        self.column = column  
        self.fill_value = fill_value  
        # Заполним пропуски  
        self.fill_missed()  
        # Конвертируем все элементы в числа  
        self.to_float()  
          
    def fill_missed(self):  
        for i, value in enumerate(self.column):  
            if value is None or value == '':  
                self.column[i] = self.fill_value  
                  
    def to_float(self):  
        self.column = [float(value) for value in self.column]  
      
    def median(self):  
        return statistics.median(self.column)  
      
    def mean(self):  
        return statistics.mean(self.column)  
      
    def deviation(self):  
        return statistics.stdev(self.column)  
      
  
      
# Воспользуемся классом  
df = DataFrame(["1", 17, 4, None, 8])  
  
print(df.column)  
# => [1.0, 17.0, 4.0, 0.0, 8.0]  
print(df.deviation())  
# => 6.89  
print(df.median())  
# => 4.0  

Мы получили очень лаконичный интерфейс для использования класса. В __init__ мы использовали значение по умолчанию для fill_value, а методы позволяют нам определять необязательные параметры.

In [14]:
# Задание 5.2 (External resource)

import statistics  
class IntDataFrame():
    def __init__(self, column):
        self.column=column
        self.to_int()
        
    def to_int(self):
        self.column=[int(value) for value in self.column]
    
    def count(self):
        j=0
        for i, value in enumerate(self.column):
            if value>0:
                j+=1
        return j
    
    def unique(self):
        uniq=[]
        for i, value in enumerate(self.column):
            if value in uniq:
                continue
            else:
                uniq.append(value)
        return len(uniq)
    

df = IntDataFrame([4.7, 4, 3, 0, 2.4, 0.3, 4])

print(df.column)
# [4, 4, 3, 0, 2, 0, 4]

print(df.count())
# 5

print(df.unique())
# 4

[4, 4, 3, 0, 2, 0, 4]
5
4


<strong> КЛАСС-ОБЁРТКА </strong>

Классы можно использовать тогда, когда у вас есть процесс, который требует сложной конфигурации, повторяющейся из раза в раз. Можно написать класс-обёртку, который сведёт этот процесс к одному-двум методам.

Представим, вы делаете обработку данных и в конце каждого дня сохраняете результат в архив. Вы хотите, чтобы данные каждого дня лежали в отдельном файле для этого дня, при этом можно было бы получить данные за произвольный день. 

Перед запуском кода создайте папку с названием archive там же, где находится ноутбук:

In [17]:
import pickle  
from datetime import datetime  
from os import path  
  
class Dumper():  
    def __init__(self, archive_dir="Data/archive/"):  
        self.archive_dir = archive_dir  
          
    def dump(self, data):  
        # Библиотека pickle позволяет доставать и класть объекты в файл  
        with open(self.get_file_name(), 'wb') as file:  
            pickle.dump(data, file)  
              
    def load_for_day(self, day):  
        file_name = path.join(self.archive_dir, day + ".pkl")   
        with open(file_name, 'rb') as file:  
            sets = pickle.load(file)  
        return sets  
          
    # возвращает корректное имя для файла   
    def get_file_name(self):   
        today = datetime.now().strftime("%y-%m-%d")   
        return path.join(self.archive_dir, today + ".pkl")       
      
# Пример использования  
  
data = {  
    'perfomance': [10, 20, 10],  
    'clients': {"Romashka": 10, "Vector": 34}  
}  
  
dumper = Dumper()  
  
# Сохраним данные  
dumper.dump(data)  
  
# Восстановим для сегодняшней даты  
file_name = datetime.now().strftime("%y-%m-%d")
restored_data = dumper.load_for_day(file_name)
print(restored_data)  
# => {'perfomance': [10, 20, 10], 'clients': {'Romashka': 10, 'Vector': 34}}  

FileNotFoundError: [Errno 2] No such file or directory: 'Data/archive/24-03-23.pkl'

In [18]:
# Задание 5.3 (External resource)

class OwnLogger():
    def __init__(self):
       self.logs = {"info": None, "warning": None, "error": None, "all": None}
    def log(self, message, level):
       self.logs[level] = message
       self.logs['all'] = message
    def show_last(self, level='all'):
       return self.logs[level]

logger = OwnLogger()
logger.log("System started", "info")
logger.show_last("error")
# None
# Некоторые интерпретаторы Python могут не выводить None, тогда в этой проверке у вас будет пустая строка
logger.log("Connection instable", "warning")
logger.log("Connection lost", "error")

logger.show_last()
# Connection lost
logger.show_last("info")
# System started

'System started'

<strong> ИМПОРТ И ОРГАНИЗАЦИЯ КОДА </strong>

Классы, как и библиотечные функции, можно импортировать в другие программы. Для этого нужно положить класс в отдельный файл в корне проекта и использовать ключевое слово import. 

Например, если мы положим Dumper в файл dumper.py в корне проекта, то его можно импортировать командой:

from dumper import Dumper  

Пишем from <имя файла без .py> import <имя класса>. Имя файла должно начинаться с буквы и не совпадать с именами библиотечных модулей. Если файлов с классами много, их можно складывать в папки, предварительно положив туда пустой файл __init__.py — это требование Python.

Сгруппируем классы из примеров в папке helpers. Структура файлов:

helpers
-- __init__.py
-- dumper.py
-- data_frame.py
-- client.py

Импортируем, соединяя все шаги через точку с помощью того же синтаксиса, что использовался для импорта библиотечных функций.

from helpers.dumper import Dumper  
from helpers.data_frame import DataFrame  
from helpers.client import Client  

In [21]:
class Dog():
    def __init__(self, bark, give_paw):
        self.bark=("Bark!")
        self.give_paw=("Paw")

### <strong> 7. Применение ООП для работы с файлами </strong>

<strong> ПУТЬ К ФАЙЛУ </strong>

<strong> Путь (от англ. path) </strong> — набор символов, показывающий расположение файла или каталога в файловой системе.

Существует два типа пути:

абсолютный;
относительный.

Абсолютный путь всегда считается от «корня», той папки, откуда потом «вырастают» все остальные папки. Для Windows это диск С:, D: и т. д., для Unix это “/”. Абсолютный путь всегда уникальный.

<strong> Абсолютный путь </strong> — это путь, который указывает на одно и то же место в файловой системе, вне зависимости от текущего рабочего каталога или других обстоятельств. Его ещё называют полным.

<strong> Относительный путь </strong> — это путь по отношению к текущему рабочему каталогу пользователя.