# Как копировать объекты в python

Часто мы хотим скопировать какой-то объект. Рассмотрим различные случаи того, как это делается.

Если мы хотим скопировать стандартный объект, то нам достаточно просто перевызвать на него объявление этого объекта (list, dict, set, ...)

In [1]:
a = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
b = list(a)  # Копируем объект

In [2]:
print(a)
print(b)
print(id(a))
print(id(b))
a == b

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]
[[1, 2, 3], [4, 5, 6], [7, 8, 9]]
4359969664
4359638144


True

Попробуем изменить один из объектов, убедимся что другой не меняется.

In [3]:
b.append([10, 11, 12])
print(a)
print(b)

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]
[[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]]


Попробуем изменить объекты по-другому.

In [4]:
a[0][1] = 'AAA'
print(a)
print(b)

[[1, 'AAA', 3], [4, 5, 6], [7, 8, 9]]
[[1, 'AAA', 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]]


Кажется что-то пошло не так!

In [5]:
print(id(a[0]))
print(id(b[0]))

4359968704
4359968704


По умолчанию происходит просто копирование (shallow copy). При этом создается новый объект, но все содержимое не копируется, а лишь создаются ссылки на старые объекты.

Чтобы скопировать полностью (сделать глубокую копию), используется модуль copy. Копия при этом работает рекурсивно.

In [6]:
import copy

In [7]:
a = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
b = copy.deepcopy(a)
print(a)
print(b)
print(id(a))
print(id(b))

[[1, 2, 3], [4, 5, 6], [7, 8, 9]]
[[1, 2, 3], [4, 5, 6], [7, 8, 9]]
4359977856
4359976768


In [8]:
print(id(a[0]))
print(id(b[0]))
a[0][0] = 'AAA'
print(a)
print(b)

4359977024
4359976512
[['AAA', 2, 3], [4, 5, 6], [7, 8, 9]]
[[1, 2, 3], [4, 5, 6], [7, 8, 9]]


Также можно сделать shallow copy с помощью ```copy.copy()```. Это может быть полезно для копирования более сложных объектов.

In [9]:
dir(copy)

['Error',
 '__all__',
 '__builtins__',
 '__cached__',
 '__doc__',
 '__file__',
 '__loader__',
 '__name__',
 '__package__',
 '__spec__',
 '_copy_dispatch',
 '_copy_immutable',
 '_deepcopy_atomic',
 '_deepcopy_dict',
 '_deepcopy_dispatch',
 '_deepcopy_list',
 '_deepcopy_method',
 '_deepcopy_tuple',
 '_keep_alive',
 '_reconstruct',
 'copy',
 'deepcopy',
 'dispatch_table',
 'error']

In [10]:
def print_entire_obj(obj):
    print(len([name for name in dir(obj) if not name.startswith('_')]))
    print(*[name for name in dir(obj) if not name.startswith('_')], sep='\n')

In [11]:
print_entire_obj(copy)

5
Error
copy
deepcopy
dispatch_table
error


In [12]:
lst1 = list(range(0, 1000, 100))
lst = lst1[:]

In [13]:
lst[5] is lst1[5]

True

# Строки

## Как определяются строки

- одна кавычка
- две кавычки
- три кавычки
- кавычки внутри кавычек
- спец символы

Строки в Питоне можно определять 3 основными способами.

In [14]:
# способ 1
string1 = 'Это - строка!'

print(string1)

print('Длина строки:', len(string1))

Это - строка!
Длина строки: 13


In [15]:
# способ 2
string2 = "Это - строка!"

print(string2)

print('Длина строки:', len(string2))

Это - строка!
Длина строки: 13


In [16]:
# способ 3 (1)
string31 = """Это - строка!"""

print(string31)

print('Длина строки:', len(string31))

Это - строка!
Длина строки: 13


In [17]:
# способ 3 (2)
string32 = '''Это - строка!'''

print(string32)

print('Длина строки:', len(string32))

Это - строка!
Длина строки: 13


In [18]:
id(string1), id(string2), id(string31), id(string32)

(4360069552, 4360070448, 4360070704, 4360071216)

В чем основное отличие?

Почти ни в чем. Разные кавычки удобно комбинировать, когда внутри строки нужно использовать кавычку другого типа. Например.

In [19]:
# неправильный код

some_string = 'Персонаж сказал: 'Привет!''

print(some_string)

SyntaxError: invalid syntax (3211869987.py, line 3)

In [20]:
# правильный код, но грустный

some_string = 'Персонаж сказал: \'Привет!\''

print(some_string)

Персонаж сказал: 'Привет!'


In [21]:
# правильный код

some_string = "Персонаж сказал: 'Привет!'"

print(some_string)

Персонаж сказал: 'Привет!'


Если поменять местами кавычки, то тоже будет работать!

In [22]:
'Персонаж сказал: "Привет!"'

'Персонаж сказал: "Привет!"'

А что, если нужно использовать оба типа кавычек?

А вот тут можно использовать тройные!

In [23]:
# правильный код с тройными кавычками
some_string = """Персонаж сказал: "О!", 'Привет!'"""

print(some_string)

Персонаж сказал: "О!", 'Привет!'


Но это не все различия. 

Помимо того, что есть "привычные" для нас символы, в строке допускаются спецсимволы: например, новая строка или табуляция.

In [26]:
# табуляция
some_string = 'Один\tДва'
print(some_string)

Один	Два


In [27]:
# символ новой строки

some_string = (
    'Первая строка\n'
    'Вторая строка\n'
    'Третья строка'
)

print(some_string)

Первая строка
Вторая строка
Третья строка


In [24]:
'Первая строка\nВторая строка\nТретья строка'

'Первая строка\nВторая строка\nТретья строка'

In [25]:
print('Первая строка\nВторая строка\nТретья строка')

Первая строка
Вторая строка
Третья строка


In [28]:
type(some_string)

str

In [34]:
# с тройными кавычками можно и без спецсимволов

some_string = """
    Первая строка
    Вторая строка
    Третья строка
"""

print(some_string)


    Первая строка
    Вторая строка
    Третья строка



Другие типы можно перевести в строковое представление, использовав явное приведение:

In [35]:
# например, list

str([1, 2, 3])

'[1, 2, 3]'

In [36]:
print([1, 2, 3])

[1, 2, 3]


In [41]:
# например, float
str(2.31e-1)

'0.231'

In [38]:
str(True)

'True'

In [39]:
list('[1, 2, 3]')

['[', '1', ',', ' ', '2', ',', ' ', '3', ']']

## Индексация и слайсинг

По своей сути строки - это последовательность символов (а-ля массив символов).

К каждому символу можно обращаться по позиции - как к элементу списка.

In [47]:
# обращение по позиции

string = "Интересная строка"

print(string[0], string[2])

И т


In [48]:
type(string[0])

str

In [49]:
type('')

str

In [50]:
len('')

0

In [51]:
bool('')

False

И по аналогии со списком, "отрицательная" индексация тоже доступна:

In [52]:
# обращение по "отрицательному" индексу

string = "Интересная строка"

print(string[-1], string[-2])

а к


In [53]:
string[-100]

IndexError: string index out of range

Аналогии со списком не заканчиваются, слайсинг тоже доступен:

In [54]:
# пример слайсинга

string = "Интересная строка"

# как вывести каждый символ на нечетной позиции? (нумерация с 0)

print(string[1::2])

неенясрк


Но, в отличии от list, строки являются immutable.

In [55]:
# пример 

string = "Интересная строка"

string[0] = 'и'

TypeError: 'str' object does not support item assignment

Как проверить, является ли слово палиндромом?

In [56]:
def palindrom(string):
    if string == string[::-1]:
        print("Yes")
    else:
        print("No")

In [57]:
palindrom('aaa')

Yes


In [58]:
palindrom('bbbcbbb')

Yes


In [59]:
palindrom('palindrom')

No


## Операторы, функции, методы

### Конкатенация

In [60]:
'123' + ' ' + '234'

'123 234'

Неявная конкатенация:

In [61]:
'123' ' ' '234'

'123 234'

### Повторения

In [62]:
'123' * 2

'123123'

In [63]:
'123' * 0

''

In [64]:
'123' * (-42)

''

### Методы строк

Полный список тут: https://docs.python.org/3/library/stdtypes.html#string-methods

In [65]:
print_entire_obj(str)

45
capitalize
casefold
center
count
encode
endswith
expandtabs
find
format
format_map
index
isalnum
isalpha
isascii
isdecimal
isdigit
isidentifier
islower
isnumeric
isprintable
isspace
istitle
isupper
join
ljust
lower
lstrip
maketrans
partition
replace
rfind
rindex
rjust
rpartition
rsplit
rstrip
split
splitlines
startswith
strip
swapcase
title
translate
upper
zfill


Рассмотрим некоторые методы.

#### isdigit/isalpha

isdigit() - возвращает True, если все символы строки - цифры

isalpha() - возвращает True, если все символы строки - буквы

In [66]:
'0.2'.isdigit()

False

In [71]:
'0.2'.isdecimal()

False

In [67]:
'andefg'.isalpha()

True

Пользователь на вход пишет последовательность символов, нужно перевести в int:

In [69]:
# чтобы перевести в int, нужно проверить, можно ли перевести в int
number_str = input()

if number_str.isdigit():
    number_int = int(number_str)
    print("Преобразовано в int:",  number_int)
else:
    print("Невозможно преобразовать в int")

ывапопор
Невозможно преобразовать в int


In [70]:
help(str.isdecimal)

Help on method_descriptor:

isdecimal(self, /)
    Return True if the string is a decimal string, False otherwise.
    
    A string is a decimal string if all characters in the string are decimal and
    there is at least one character in the string.



#### lower/upper/capitalize

lower() - переводит строку в нижний регистр

upper() - переводит строку в вехний регистр

capitalize() - переводит в верхний регистр первую букву только самого первого слова строки

Пользователь вводит имя, а затем мы вежливо здороваемся с ним!

In [73]:
# вежливо здороваемся

name = input()

print("Привет,", name.capitalize() + '!')

Ilia
Привет, Ilia!


Полезно пользоваться этими методами, когда надо сравнивать между собой строки.

Повторяем все, что ввел пользователь, до тех пор, пока пользователь не ввел слово Стоп (в произвольном виде).

In [74]:
# повторюшка

word = input()
while word.lower() != 'стоп':
    print(word)
    word = input()

asdfgh
asdfgh
dfgbnm
dfgbnm
6rdf7
6rdf7
ugv6
ugv6
СтОп


In [75]:
while True:
    word = input()
    if word.lower() != 'стоп':
        print(word)
    else:
        break

ымсто
ымсто
стовпв
стовпв
СТОП


In [None]:
word.lower().upper()

#### split/join

split() - разбивает строку на подстроки в зависимости от разделителя

join() - объединяет строки в одну строку, вставляя между ними определенный разделитель

In [76]:
help(str.split)

Help on method_descriptor:

split(self, /, sep=None, maxsplit=-1)
    Return a list of the words in the string, using sep as the delimiter string.
    
    sep
      The delimiter according which to split the string.
      None (the default value) means split according to any whitespace,
      and discard empty strings from the result.
    maxsplit
      Maximum number of splits to do.
      -1 (the default value) means no limit.



Пользователь вводит положительные целые числа через запятую, без пробелов, нужно посчитать сумму чисел.

In [77]:
# ищем сумму чисел

numbers_str = input()

numbers_list = numbers_str.split(',')

print(numbers_list, type(numbers_list[0]))

numbers_list = [int(i) for i in numbers_list]

print("Сумма чисел:", sum(numbers_list))

1,2,3,4,5
['1', '2', '3', '4', '5'] <class 'str'>
Сумма чисел: 15


In [84]:
# в одну строчку
sum(int(word) for word in input().split(','))

1,2,3,4,5


15

In [78]:
numbers_str

'1,2,3,4,5'

In [79]:
numbers_list

[1, 2, 3, 4, 5]

In [80]:
# еще пример
lst_str = ['42', '42', '42', '42', '42']
sum(map(int, lst_str))

210

join - это операция наоборот :)

In [85]:
# пример работы join

print(" ".join(['1', '2', '3']))

print("---".join(['1', '2', '3']))

1 2 3
1---2---3


In [86]:
string = "Vvorld VVide vveb"

In [89]:
'W'.join(string.lower().split('vv'))

'World Wide Web'

In [91]:
string = "Vvorld VVide vveb"
string = 'W'.join(string.lower().split('vv'))
string == "World Wide Web"

True

In [90]:
"aojngi siuehrbgiuhsbeig\niahbwoihbsv\tkncvi sijbohsbfeuhb   \t\n".split()

['aojngi', 'siuehrbgiuhsbeig', 'iahbwoihbsv', 'kncvi', 'sijbohsbfeuhb']

In [92]:
"aojngi siuehrbgiuhsbeig\niahbwoihbsv\tkncvi sijbohsbfeuhb   \t\n".split(' ')

['aojngi',
 'siuehrbgiuhsbeig\niahbwoihbsv\tkncvi',
 'sijbohsbfeuhb',
 '',
 '',
 '\t\n']

#### find/replace

find -  возвращает индекс подстроки в строке; если подстрока не найдена, возвращается число -1

replace - заменяет в строке одну подстроку на другую

In [93]:
string = "я помню чудное мгновенье"

In [94]:
string.find("помн")

2

In [95]:
string.find('собака')

-1

In [96]:
if string.find('собака'):
    print('Хатико')
else:
    print('ждем')

Хатико


In [97]:
if string.find('я'):
    print('Хатико')
else:
    print('ждем')

ждем


In [100]:
# починим
if string.find('собака') + 1:
    print('Хатико')
else:
    print('ждем')

if string.find('я') + 1:
    print('Хатико')
else:
    print('ждем')

ждем
Хатико


In [101]:
string.replace(" ", '\n')

'я\nпомню\nчудное\nмгновенье'

In [102]:
print(string.replace(" ", '\n'))

я
помню
чудное
мгновенье


In [103]:
print(string.replace(" ", '___'))

я___помню___чудное___мгновенье


In [104]:
string.replace(" ", '___', 2)

'я___помню___чудное мгновенье'

In [105]:
# n замен справа
string[::-1].replace(" ", '___', 2)[::-1]

'я помню___чудное___мгновенье'

методы, работающие справа налево:

In [107]:
print(string)
string.rsplit(' ', 2)

я помню чудное мгновенье


['я помню', 'чудное', 'мгновенье']

##  Форматирование

In [108]:
name = "Крокодил"
age = 46

In [109]:
print("Имя =", name,
      ", возраст =", 
      age
)

Имя = Крокодил , возраст = 46


### Старый способ (%)

Этот способ очень похож на printf в C.

https://docs.python.org/3/library/stdtypes.html#old-string-formatting

In [110]:
print("Имя = %s, возраст = %s" % (name, age))

Имя = Крокодил, возраст = 46


In [111]:
print("Возраст = %(age)s, имя = %(name)s" % {'name': name , 'age': age})

Возраст = 46, имя = Крокодил


### Новый старый способ (str.format)

In [112]:
print("Имя = {}, возраст = {}".format(name, age))

Имя = Крокодил, возраст = 46


In [113]:
print("Возраст = {1}, имя = {0}".format(name, age))

Возраст = 46, имя = Крокодил


In [114]:
print("Возраст = {age}, имя = {name}".format(name=name, age=age))

Возраст = 46, имя = Крокодил


Почему эти способы не так хороши?

In [2]:
name = 'Игорь'
surname = 'Львович'
color = 'телесный'
author = 'Достоевский'

In [116]:
print (
    ("Привет, {name} {surname}. "
     "Твой любимый цвет - {color}. "
     "Твой любимый писатель - {author}.").format(name=name, surname=surname, color=color, author=author)
)

Привет, Игорь Львович. Твой любимый цвет - телесный. Твой любимый писатель - Достоевский.


Очень громоздко как-то...

### Новый способ (f-strings)

Появился в питоне версии 3.6

In [3]:
print(f"Привет, {name} {surname}.Твой любимый цвет - {color}. Твой любимый писатель - {author}")

Привет, Игорь Львович.Твой любимый цвет - телесный. Твой любимый писатель - Достоевский


In [6]:
# а вот так пишется мултилайн:
print(f"""
    Привет, {name} {surname}.
    Твой любимый цвет - {color}.
    Твой любимый писатель - {author}
    """
)


    Привет, Игорь Львович.
    Твой любимый цвет - телесный.
    Твой любимый писатель - Достоевский
    


In [120]:
# неявная конкатенация:
print(
    f"Привет, {name} {surname}."
    f"Твой любимый цвет - {color}."
    f"Твой любимый писатель - {author}"
)

Привет, Игорь Львович.
    Твой любимый цвет - телесный.
    Твой любимый писатель - Достоевский


Выражение в {} вычисляется в момент исполнения. Поэтому можно не стесняться в выражениях:

In [122]:
print(f"2 ** 10 = {2 ** 10}")

2 ** 10 = 1024


In [124]:
print(f"{2 ** 10 = }")

2 ** 10=1024


In [125]:
print(f'{lst_str = }')

lst_str = ['42', '42', '42', '42', '42']


C функциями тоже работает (и с user-defined):

In [126]:
author = "Достоевский"

print(f"{author.upper()} - лучший автор!")

ДОСТОЕВСКИЙ - лучший автор!


## Регулярные выражения

Регулярное выражение - это строка, задающая некоторый шаблон поиска подстрок в тексте.

Визуализатор регулярок: https://www.debuggex.com.

Самый простой шаблон - это любая строка (не содержащая спецсимволов).

Обозначает сам себя.

In [127]:
r'simple'  # raw

'simple'

In [128]:
print('word1\nword2')

word1
word2


In [129]:
print(r'word1\nword2')

word1\nword2


### Модуль re

Функции для работы с регулярками в питоне живут в модуле re.

In [130]:
import re  # regular expressions

In [131]:
print_entire_obj(re)

39
A
ASCII
DEBUG
DOTALL
I
IGNORECASE
L
LOCALE
M
MULTILINE
Match
Pattern
RegexFlag
S
Scanner
T
TEMPLATE
U
UNICODE
VERBOSE
X
compile
copyreg
enum
error
escape
findall
finditer
fullmatch
functools
match
purge
search
split
sre_compile
sre_parse
sub
subn
template


Перечислим некоторые полезные функции.

#### re.fullmatch

re.fullmatch(pattern, string) - проверяет, удовлетворяет ли вся строка string шаблону pattern

In [132]:
pattern = r'simple'

text = "Make it simple! Stay cool. It isn't simple. But you can try!"

In [133]:
print(re.fullmatch(pattern, text))

None


In [134]:
print(re.fullmatch(pattern, 'simple'))

<re.Match object; span=(0, 6), match='simple'>


#### re.search

`re.search(pattern, string)` - ищет первую подстроку в строке `string`, удовлетворяющего шаблону `pattern`

In [135]:
pattern = r'simple'

text = "Make it simple! Stay cool. It isn't simple. But you can try!"

In [136]:
result = re.search(pattern, text)

print(result)
print(result[0])
print(result.start())
print(result.end())

<re.Match object; span=(8, 14), match='simple'>
simple
8
14


In [137]:
print_entire_obj(result)

14
end
endpos
expand
group
groupdict
groups
lastgroup
lastindex
pos
re
regs
span
start
string


#### re.findall

`re.findall(pattern, string)` - найти в строке `string` все непересекающиеся шаблоны `pattern`

In [138]:
pattern = r'simple'

text = "Make it simple! Stay cool. It isn't simple. But you can try!"

In [139]:
result = re.findall(pattern, text)

print(result)

['simple', 'simple']


#### re.sub

`re.sub(pattern, repl, string)` - заменить в строке `string` все непересекающиеся шаблоны `pattern` на `repl`

In [140]:
pattern = r'simple'

text = "Make it simple! Stay cool. It isn't simple. But you can try!"

In [141]:
print(re.sub(pattern, 'hard', text))

Make it hard! Stay cool. It isn't hard. But you can try!


### Шаблоны

Визуализатор регулярок: https://www.debuggex.com.

Шпаргалка по регуляркам: https://www.exlab.net/files/tools/sheets/regexp/regexp.pdf

Напишем регулярное выражение, которое определяет, является ли введенная строка номером телефона (xx-xx-xx).

In [142]:
# паттерн телефона

phone_pattern = r'\d\d-\d\d-\d\d'

In [143]:
re.fullmatch(phone_pattern, '21-00-79')

<re.Match object; span=(0, 8), match='21-00-79'>

In [144]:
re.fullmatch(phone_pattern, '111111')

Диапазоны `[ ]`:

In [145]:
# новый паттерн телефона

phone_pattern = r'[0-9][0-9]-[0-9][0-9]-[0-9][0-9]'

In [146]:
re.fullmatch(phone_pattern, '21-00-79')

<re.Match object; span=(0, 8), match='21-00-79'>

In [147]:
re.fullmatch(phone_pattern, '111111')

С помощью `{ }` можно указывать количество повторений.

In [148]:
# новый паттерн телефона

phone_pattern = r'\d{2}-\d{2}-\d{2}'  # [0-9]{2}

In [149]:
re.fullmatch(phone_pattern, '21-00-79')

<re.Match object; span=(0, 8), match='21-00-79'>

In [150]:
re.fullmatch(phone_pattern, '111111')

Есть еще скобочные группы `( )`, к ним можно применять квантификаторы:

In [151]:
# новый паттерн телефона

phone_pattern = r'\d{2}(-\d{2}){2}'

In [152]:
re.fullmatch(phone_pattern, '21-00-79')

<re.Match object; span=(0, 8), match='21-00-79'>

In [153]:
re.fullmatch(phone_pattern, '21-00')

 Небольшие задачки:

1. Является ли строка номерным знаком (м000нт)

In [156]:
pattern = r'\w\d{3}\w{2}'
re.fullmatch(pattern, 'S123SA')

<re.Match object; span=(0, 6), match='S123SA'>

2. Извлечь все слова, начинающиеся на гласную

In [168]:
pattern = r'\b[aeyuio]\w+'
string = 'apple banana a avocado'

In [None]:
\w 
\W
\s
\d
\D

In [169]:
re.findall(pattern, string)

['apple', 'anana', 'avocado']

3. В исходном тексте заменить все числа на их квадрат