### 14. Импортирование модулей. Создание собственных модулей и их импортирование. Специализированные модули и приложения.

Импортирование модулей
Модуль — это файл (.py), содержащий определения и инструкции Python. Импортирование позволяет использовать код, написанный другими людьми или в других частях проекта.

Синтаксис	Назначение
import module_name	Импортирует модуль целиком (доступ через module_name.function()).
import module_name as alias	Импортирует с псевдонимом (например, import pandas as pd).
from module_name import function_name	Импортирует только определенную функцию или класс, делая его доступным напрямую.
Создание собственных модулей
Чтобы создать собственный модуль, достаточно сохранить код в файле с расширением .py (например, my_utils.py). Чтобы импортировать его, файл должен находиться в той же директории, что и основной скрипт, или в одной из директорий, указанных в sys.path.

Специализированные модули для анализа данных
В анализе данных используются мощные сторонние библиотеки:

NumPy: Для работы с многомерными массивами и высокопроизводительными математическими операциями.
Pandas: Для структурированного анализа данных, предоставляя объекты DataFrame (таблицы).
Matplotlib / Seaborn: Для визуализации данных.
Scikit-learn: Для машинного обучения и статистики.


In [1]:
# Импорт всего модуля с псевдонимом (стандарт для Pandas)
import pandas as pd

# Импорт конкретной функции из модуля
from math import sqrt

print(f"Квадратный корень из 16: {sqrt(16)}")

# Создание простого DataFrame с использованием псевдонима pd
data = {'A': [1, 2, 3], 'B': [4, 5, 6]}
df = pd.DataFrame(data)
print("\nDataFrame:")
print(df)

Квадратный корень из 16: 4.0

DataFrame:
   A  B
0  1  4
1  2  5
2  3  6


In [None]:
%%writefile data_operations.py
"""Модуль содержит функции для анализа данных."""

def standardize_value(value, mean, std):
    """Стандартизирует значение (Z-score)."""
    if std == 0:
        return 0
    return (value - mean) / std

def get_mean(data_list):
    """Вычисляет среднее значение списка."""
    return sum(data_list) / len(data_list)

Writing data_operations.py


### 15. Файлы и исключения. Работа с внешними источниками данных.

Работа с файлами
Процесс работы с файлом включает:

Открытие файла (open()).
Чтение или запись данных.
Закрытие файла (close()), чтобы освободить системные ресурсы.
Связь с исключениями
Исключения — это способ Python сообщить об ошибке во время выполнения программы. Ошибки, связанные с файлами, очень распространены:

FileNotFoundError: Попытка открыть файл, который не существует.
PermissionError: Нет прав на чтение/запись файла.
IOError: Общая ошибка ввода/вывода.
Обработка этих исключений необходима для создания надежных скриптов, которые не завершаются аварийно при возникновении проблем с внешними данными.

In [3]:
def safe_division(a, b):
    try:
        # 1. Попытка выполнить потенциально опасный код
        result = a / b
    except ZeroDivisionError:
        # 2. Обработка конкретного исключения
        print("Ошибка: Деление на ноль невозможно.")
        result = None
    except TypeError:
        # Обработка другого типа ошибки
        print("Ошибка: Некорректные типы операндов.")
        result = None
    except Exception as e:
        # Обработка всех остальных ошибок
        print(f"Произошла непредвиденная ошибка: {e}")
        result = None
    else:
        # Выполняется, если try прошел успешно
        print("Деление успешно выполнено.")
    finally:
        # 3. Блок, который выполняется всегда (идеально для очистки)
        print("--- Операция завершена ---\n")
    return result

# Успешный вызов
safe_division(10, 2)

# Вызов с ошибкой
safe_division(10, 0)

Деление успешно выполнено.
--- Операция завершена ---

Ошибка: Деление на ноль невозможно.
--- Операция завершена ---



### 16. Исключения, обработка исключений, вызов исключений (try-except-finally).

Обработка исключений позволяет программе корректно реагировать на ошибки, продолжая работу или выполняя очистку.

Конструкция try-except
Основной блок для обработки ошибок:

try:
    # Код, который может вызвать ошибку (Exception)
    result = 10 / 0 
except ZeroDivisionError:
    # Код, который выполняется, если произошла конкретная ошибка
    print("Невозможно делить на ноль.")
except Exception as e:
    # Общая обработка других ошибок
    print(f"Произошла общая ошибка: {e}")
else:
    # (Необязательно) Выполняется, если блок try завершился без ошибок
    print("Операция успешна.")
Блок finally
Код в блоке finally всегда выполняется, независимо от того, произошло исключение или нет. Это используется для обязательной очистки ресурсов (например, закрытие соединения с базой данных или файлом).

Вызов исключений (raise)
Вы можете вручную вызвать исключение, если обнаружили недопустимое состояние данных или нарушили логику:

def check_data(value):
    if value < 0:
        raise ValueError("Значение не может быть отрицательным.")

### 17. Утверждения (assert). Открытие, чтение, запись. (open, инструкция with).

Утверждения (assert)
Инструкция assert используется для проверки, соответствует ли некоторое условие истине. Если условие ложно, Python вызывает исключение AssertionError. Утверждения часто используются для отладки и проверки качества данных:

data = load_data()
assert len(data) > 0, "Набор данных не должен быть пустым."
В анализе данных assert полезен для проверки ожидаемых типов данных, диапазонов значений или размеров массивов перед началом сложной обработки.

Открытие, чтение, запись (open)
Базовая функция для работы с файлами:

f = open('data.txt', 'r') # 'r' - чтение
content = f.read()
f.close()
Инструкция with
Инструкция with (менеджер контекста) является предпочтительным способом работы с файлами, поскольку она автоматически гарантирует, что файл будет закрыт, даже если возникла ошибка.

with open('data.txt', 'w') as f: # 'w' - запись
    f.write("Новая строка") 
Файл f автоматически закрыт после выхода из блока with

In [4]:
# Запись в файл
with open('sample_data.txt', 'w', encoding='utf-8') as f:
    f.write("Данные первой строки.\n")
    f.write("Данные второй строки.\n")

print("Файл успешно записан и закрыт.")

# Чтение файла
with open('sample_data.txt', 'r', encoding='utf-8') as f:
    content = f.read()
    print("\nСодержимое файла:")
    print(content)

Файл успешно записан и закрыт.

Содержимое файла:
Данные первой строки.
Данные второй строки.



### 18. Работа с текстовыми файлами, xml и csv - файлами.

Текстовые файлы (Plain Text)
Самый простой формат. Чтение и запись выполняются построчно, используя методы файла (readline(), readlines(), write()).

CSV (Comma Separated Values)
Табличный формат данных, где значения разделены разделителем (чаще всего запятой или точкой с запятой).

Встроенный модуль csv: Используется для точного контроля над разделителями и кодировкой.
Pandas: В анализе данных предпочтительнее использовать pd.read_csv() и df.to_csv(), так как они быстро загружают данные в структуры DataFrame.
XML (Extensible Markup Language)
Иерархический, структурированный формат, похожий на HTML.
Для работы с XML в Python используют:

xml.etree.ElementTree (встроенный) — для парсинга и навигации по структуре.
Сторонние библиотеки (lxml) — для более сложной и быстрой обработки.


In [5]:
import pandas as pd
from io import StringIO

# Создаем фиктивный CSV-файл в памяти (для примера)
csv_data = """id,имя,город,доход
1,Анна,Москва,75000
2,Иван,СПб,62000
3,Петр,Москва,88000
"""

df_csv = pd.read_csv(StringIO(csv_data))
print("Загрузка CSV с помощью Pandas:")
print(df_csv)

# Анализ: средний доход
avg_income = df_csv['доход'].mean()
print(f"\nСредний доход: {avg_income}")

Загрузка CSV с помощью Pandas:
   id   имя   город  доход
0   1  Анна  Москва  75000
1   2  Иван     СПб  62000
2   3  Петр  Москва  88000

Средний доход: 75000.0


In [6]:
import xml.etree.ElementTree as ET

xml_string = """
<data>
    <country name="Канада">
        <rank>1</rank>
        <year>2020</year>
    </country>
    <country name="Германия">
        <rank>2</rank>
        <year>2021</year>
    </country>
</data>
"""

root = ET.fromstring(xml_string)

print("Данные стран:")
for country in root.findall('country'):
    name = country.get('name')
    rank = country.find('rank').text
    year = country.find('year').text
    print(f"Страна: {name}, Рейтинг: {rank}, Год: {year}")

Данные стран:
Страна: Канада, Рейтинг: 1, Год: 2020
Страна: Германия, Рейтинг: 2, Год: 2021


### 19. Функциональное программирование. Лямбда-функции.

Функциональное программирование (ФП)
ФП — это парадигма программирования, где вычисления рассматриваются как вычисление математических функций. Ключевые принципы:

Функции как объекты первого класса: Функции можно передавать как аргументы, возвращать из других функций и присваивать переменным.
Иммутабельность: Избегание изменения состояния (переменных) после их создания.
Чистые функции: Функции, которые всегда возвращают один и тот же результат для одних и тех же входных данных и не имеют побочных эффектов.
Лямбда-функции
Лямбда-функции — это небольшие анонимные (безымянные) функции, ограниченные одним выражением.
Синтаксис: lambda arguments: expression

Пример:

adder = lambda x, y: x + y
print(adder(5, 3)) # Вывод: 8
Использование в DA: Лямбды идеально подходят для быстрых, однострочных операций, особенно при использовании методов Pandas (.apply(), .map()):

df['new_col'] = df['old_col'].apply(lambda x: x * 10 if x > 0 else 0)

In [7]:
# Обычная функция
def power(x, p):
    return x ** p

# Эквивалентная лямбда-функция
power_lambda = lambda x, p: x ** p

print(f"4 в степени 3 (лямбда): {power_lambda(4, 3)}")

4 в степени 3 (лямбда): 64


### 20. Использование функций map, filter, reduce, zip.

map(function, iterable)
Применяет функцию к каждому элементу итерируемого объекта и возвращает новый итератор с результатами.

numbers = [1, 2, 3, 4]
squares = list(map(lambda x: x * x, numbers))
squares: [1, 4, 9, 16]
filter(function, iterable)
Создает итератор, который содержит только те элементы исходного итерируемого объекта, для которых функция возвращает True.

evens = list(filter(lambda x: x % 2 == 0, numbers))
evens: [2, 4]
reduce(function, iterable)
Применяет "свертывающую" функцию к элементам итерируемого объекта, последовательно сводя их к одному результату. Требует импорта из functools.

from functools import reduce
product = reduce(lambda x, y: x * y, [1, 2, 3, 4])
product: 24 (1*2*3*4)
zip(*iterables)
Объединяет элементы из нескольких итерируемых объектов в кортежи, пока один из них не исчерпается.

names = ['A', 'B', 'C']
scores = [90, 85, 92]
combined = list(zip(names, scores))
combined: [('A', 90), ('B', 85), ('C', 92)]

In [8]:
temperatures_c = [0, 10, 25, 30]

# Переводим Цельсий в Фаренгейт: F = C * 9/5 + 32
temps_f = list(map(lambda c: c * 9/5 + 32, temperatures_c))
print(f"Цельсий: {temperatures_c}")
print(f"Фаренгейт (map): {temps_f}")

Цельсий: [0, 10, 25, 30]
Фаренгейт (map): [32.0, 50.0, 77.0, 86.0]


In [9]:
scores = [75, 92, 88, 65, 95, 50]

# Отбираем только проходные баллы (> 80)
high_scores = list(filter(lambda s: s > 80, scores))
print(f"Все баллы: {scores}")
print(f"Высокие баллы (filter): {high_scores}")

Все баллы: [75, 92, 88, 65, 95, 50]
Высокие баллы (filter): [92, 88, 95]


In [10]:
from functools import reduce

data_list = [5, 2, 4, 1]

# Находим сумму всех элементов
sum_val = reduce(lambda x, y: x + y, data_list)
print(f"Список: {data_list}")
print(f"Сумма (reduce): {sum_val}")

Список: [5, 2, 4, 1]
Сумма (reduce): 12


In [11]:
cities = ['Москва', 'СПб', 'Казань']
population_millions = [12.6, 5.3, 1.2]

# Объединяем город и его население
city_pop = list(zip(cities, population_millions))
print(f"Объединенные данные (zip): {city_pop}")

# Часто используется для создания DataFrame
df_zip = pd.DataFrame(city_pop, columns=['Город', 'Население, млн'])
print("\nDataFrame из zip:")
print(df_zip)

Объединенные данные (zip): [('Москва', 12.6), ('СПб', 5.3), ('Казань', 1.2)]

DataFrame из zip:
    Город  Население, млн
0  Москва            12.6
1     СПб             5.3
2  Казань             1.2


### 21. Генераторы, декораторы, рекурсия.

Генератор — это особый тип итератора, который генерирует значения "на лету" (по требованию), вместо того чтобы хранить их все в памяти.
Ключевое слово: yield.
Генераторы невероятно важны при работе с огромными наборами данных, так как они экономят оперативную память.

def fibonacci_generator(n):
    a, b = 0, 1
    for _ in range(n):
        yield a 
        a, b = b, a + b

Пример использования:
for num in fibonacci_generator(5):
    print(num) # Выводит 0, 1, 1, 2, 3
Декораторы
Декоратор — это функция, которая принимает другую функцию и расширяет или изменяет ее поведение без явного изменения ее кода. Декораторы используют синтаксис @decorator_name.
Они используются для:

Логирования вызовов функций.
Измерения времени выполнения (тайминг).
Авторизации и аутентификации.
def timer(func):
    def wrapper(*args, **kwargs):
        # Добавление функциональности (измерение времени)
        import time
        start = time.time()
        result = func(*args, **kwargs)
        end = time.time()
        print(f"Функция {func.__name__} выполнилась за {end - start:.4f} с.")
        return result
    return wrapper

@timer
def analyze_data(df):
    # Долгий процесс анализа...
    pass
Рекурсия
Рекурсия — это метод решения проблемы, при котором функция вызывает сама себя. Рекурсия используется для задач, которые могут быть разбиты на меньшие, идентичные подзадачи (например, обход древовидных структур, расчет факториала).

Важное требование: Функция должна иметь базовый (выходной) случай, чтобы избежать бесконечного цикла.

def factorial(n):
    if n == 0 or n == 1: # Базовый случай
        return 1
    else:
        return n * factorial(n - 1) # Рекурсивный вызов

In [None]:
# Функция-генератор
def even_numbers_generator(n):
    """Генерирует n первых четных чисел."""
    i = 0
    count = 0
    while count < n:
        yield i
        i += 2
        count += 1

# Используем генератор (данные не хранятся в памяти одновременно)
print("Первые 10 четных чисел:")
for num in even_numbers_generator(10):
    print(num, end=' ')

Первые 10 четных чисел (генератор):
0 2 4 6 8 10 12 14 16 18 

In [13]:
import time

def execution_timer(func):
    """Декоратор для измерения времени выполнения функции."""
    def wrapper(*args, **kwargs):
        start_time = time.time()
        result = func(*args, **kwargs)
        end_time = time.time()
        print(f"\n[ЛОГ] Функция {func.__name__} выполнилась за {end_time - start_time:.4f} секунд.")
        return result
    return wrapper

# Применяем декоратор
@execution_timer
def process_data_simulation(n):
    """Симуляция долгой обработки данных."""
    sum_val = 0
    for i in range(n):
        sum_val += i
    return sum_val

# Вызов декорированной функции
data_sum = process_data_simulation(1000000)
print(f"Результат симуляции: {data_sum}")


[ЛОГ] Функция process_data_simulation выполнилась за 0.0742 секунд.
Результат симуляции: 499999500000
