# Прикладное программное обеспечение
#### Python для извлечения и обработки данных


## Списки и кортежи, цикл for, функции
Социлогия | 1 курс | 3 модуль | Семинар 4

*Автор: Валентина Лебедева, НИУ ВШЭ*

## Списки (list)

Давайте представим, что при написании программы нам нужно работать, например, с большой базой данных студентов ОП "Социология". 

Если студентов несколько сотен, нет смысла создавать для каждого отдельную переменную - нам нужно научиться сохранять их всех в одной переменной. Начиная с этого семинара, мы будем изучать типы данных, которые позволяют это делать.

Начнем мы со **списков**. Если вы изучали другие языки программирования, то наверняка знакомы с аналогичным типом данных - массивами.

Давайте для начала попробуем создать список из 3 студентов.

In [12]:
students = ['Ivan Ivanov', 'Tatiana Sidorova', 'Maria Smirnova']
print(students)
print(type(students))

['Ivan Ivanov', 'Tatiana Sidorova', 'Maria Smirnova']
<class 'list'>


Пустой список можно создать двумя способами - оператором [] и функцией list().

In [8]:
print([])
print(list())

[]
[]


Список может содержать любые данные - например, числа.  
Давайте создадим список оценок студента.

In [9]:
notes = [6, 5, 7, 5, 8]
print(notes)

[6, 5, 7, 5, 8]


Список может быть даже смешанным. Например, давайте сохраним в одном списке имя студента, его год рождения, средний балл, и логическую переменную, которая будет равна True, если студент учится на бюджете.

In [10]:
student1 = ['Ivan Ivanov', 2001, 7.5, True]
print(student1)

['Ivan Ivanov', 2001, 7.5, True]


Список может даже содержать другие списки.  
Давайте создадим еще одного студента по аналогии со student1 и положим этих двух студентов в еще один список.

In [11]:
student2 = ['Maria Smirnova', 2000, 7.9, False]
students = [student1, student2]
print(students)

[['Ivan Ivanov', 2001, 7.5, True], ['Maria Smirnova', 2000, 7.9, False]]


Как и символы строк, элементы списков нумеруются, начиная с 0.  
И аналогичным образом мы можем получить доступ к элементу списка по его индексу.

In [13]:
students = ['Ivan Ivanov', 'Tatiana Sidorova', 'Maria Smirnova']
print(students[0])
print(students[1])
print(students[-1])

Ivan Ivanov
Tatiana Sidorova
Maria Smirnova


И как и в случае строки, мы можем узнать длину списка с помощью функции len().

In [14]:
print(len(students))

3


Но, в отличие от строк, список можно изменить.

In [15]:
students[1] = 'Petr Petrov'
print(students)

['Ivan Ivanov', 'Petr Petrov', 'Maria Smirnova']


## Кортежи (tuple)

Кортежи очень похожи на списки.

In [17]:
student = ('Ivan Ivanov', 2001, 7.5, True)
print(student)
print(type(student))

('Ivan Ivanov', 2001, 7.5, True)
<class 'tuple'>


Пустой кортеж можно создать с помощью оператора () либо функции tuple.

In [18]:
print(())
print(tuple())

()
()


Основное отличие кортежей от списков состоит в том, что кортежи нельзя изменять (да-да, прямо как строки).

In [19]:
student[1] = 2002

TypeError: 'tuple' object does not support item assignment

Списки и кортежи могут быть вложены друг в друга.  
Например, пусть в информации о студенте у нас будет храниться не его средний балл, а список всех его оценок.

In [21]:
student = ('Ivan Ivanov', 2001, [8, 7, 7, 9, 6], True)
print(student)

('Ivan Ivanov', 2001, [8, 7, 7, 9, 6], True)


Мы можем обратиться к элементу вложенного списка или кортежа с помощью двойной индексации.

In [22]:
print(student[2][1]) # получили вторую оценку

7


Иногда бывает полезно обезопасить себя от изменений массивов данных и использовать кортежи, но чаще всего мы все-таки будем работать со списками.

### Срезы

По аналогии со строками, у списков и кортежей можно брать срезы.

In [26]:
myList = [0, 1, 2, 3, 4, 5]
myTuple = (0, 1, 2, 3, 4, 5)

In [27]:
print(myList[1:]) # берем все, начиная с элемента с первым индексом
print(myTuple[2:])

[1, 2, 3, 4, 5]
(2, 3, 4, 5)


In [28]:
print(myList[:3]) # берем все до элемента с третьим индексом (невключительно)
print(myTuple[:-1])

[0, 1, 2]
(0, 1, 2, 3, 4)


In [33]:
print(myList[::2]) # берем все четные элементы
print(myTuple[1::2]) # берем все нечетные элементы

[0, 2, 4]
(1, 3, 5)


### Опасность работы с изменяемыми типами данных

В работе со списками есть важный момент, на который нужно обращать внимание. Давайте рассмотрим такой код:

In [37]:
a = [1, 2, 3]
b = a
b[0] = 4
print(a, b) # изменили b, но a после этого тоже изменился!

[4, 2, 3] [4, 2, 3]


Почему так происходит?  
Дело в том, что переменная a ссылается на место в памяти, где хранится список [1, 2, 3]. И когда мы пишем, что b = a, b начинает указывать на то же самое место. То есть образуется два имени для одного и того же кусочка данных. И после изменения этого кусочка через переменную b, значение переменной a тоже меняется!

Как это исправить? Нужно создать копию списка a! В этом нам поможет метод .copy()

In [35]:
a = [1, 2, 3]
b = a.copy() # теперь переменная b указывает на другой список, который хранится в другом кусочке памяти
b[0] = 4
print(a, b)

[1, 2, 3] [4, 2, 3]


Копию можно создавать и с помощью пустого среза

In [36]:
a = [1, 2, 3]
b = a[:] # по умолчанию берется срез от первого элемента до последнего, то есть копируется весь список a
b[0] = 4
print(a, b)

[1, 2, 3] [4, 2, 3]


Но не путайте изменение с присваиванием!

In [39]:
a = [1, 2, 3]
b = a
a = [4, 5, 6]
print(a, b)

[4, 5, 6] [1, 2, 3]


В примере выше переменная a была не изменена, а перезаписана, она начала указывать на другой список, хранящийся в другом месте памяти, поэтому переменная b осталась нетронута.

### Конкатенация списков и кортежей, метод .append()

На списках и кортежах определен оператор +. По аналогии со строками, он будет склеивать две части выражения.

Но складывать можно только данные одного типа, список с кортежом склеить нельзя.

In [42]:
print([1, 2] + [3, 4])
print((1, 2) + (3, 4))

[1, 2, 3, 4]
(1, 2, 3, 4)


In [44]:
print((1, 2) + [3, 4]) # а так нельзя

TypeError: can only concatenate tuple (not "list") to tuple

Но можно превратить список в кортеж, а потом сложить (или наоборот).

In [46]:
print(list((1, 2)) + [3, 4])
print((1, 2) + tuple([3, 4]))

[1, 2, 3, 4]
(1, 2, 3, 4)


Еще один способ расширить список - метод .append(), который добавляет аргумент в список в качестве последнего элемента.

In [52]:
myList = [0, 1, 2, 3, 4]

myList.append(5)
print(myList)


myList += [6] # эквивалентное append выражение
print(myList)

[0, 1, 2, 3, 4, 5]
[0, 1, 2, 3, 4, 5, 6]


## Функция range

Давайте решим задачу - на вход подается число N, нужно сгенерировать список от 1 до N. 

In [53]:
i = 1
myList = []
N = int(input())

while i <= N:
    myList.append(i)
    i += 1
    
print(myList)

5
[1, 2, 3, 4, 5]


Неплохо, но python предлагает нам готовое решение - встроенную функцию range().

range(N) возвращает диапазон чисел от 0 до N - 1.

In [55]:
myRange = range(10)
print(myRange[0], myRange[8], myRange[-1])

0 8 9


Есть одно но - range возвращает не список и не кортеж, это становится понятно, если попробовать напечатать результат.

In [56]:
print(myRange)
print(type(myRange))

range(0, 10)
<class 'range'>


Выручает старое доброе преобразование типов.

In [57]:
print(list(myRange))
print(tuple(myRange))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
(0, 1, 2, 3, 4, 5, 6, 7, 8, 9)


Функция range ведет себя очень похоже на срезы.  
range(N, M) вернет диапазон от N до M - 1.  
range(N, M, i) вернет диапазон от N до M - 1 с шагом i.

In [60]:
print(list(range(1, 5)))
print(list(range(1, 10, 2)))
print(list(range(-5, -1)))
print(list(range(-5, -10, -2)))

[1, 2, 3, 4]
[1, 3, 5, 7, 9]
[-5, -4, -3, -2]
[-5, -7, -9]


## Цикл for

Мы уже умеем писать циклы с помощью оператора while, но теперь мы готовы познакомиться с еще одним способом. 

Давайте вспомним про наш список студентов и выведем их имена по очереди. Для начала уже знакомым способом.

In [62]:
students = ['Ivan Ivanov', 'Tatiana Sidorova', 'Maria Smirnova']

i = 0
while i < len(students):
    print(students[i])
    i += 1

Ivan Ivanov
Tatiana Sidorova
Maria Smirnova


А теперь напишем то же самое с помощью цикла for.

Теперь мы будем перебирать список students, доставая из него по одному элементу.

In [63]:
students = ['Ivan Ivanov', 'Tatiana Sidorova', 'Maria Smirnova']

for student in students:
    print(student)

Ivan Ivanov
Tatiana Sidorova
Maria Smirnova


В примере выше на каждом шаге цикл for достает очередной элемент из списка students и сохраняет его в переменную student.

Обратите внимание, что переменную student нам не надо создавать заранее, она создается прямо во время работы цикла.

Получившийся код гораздо короче и проще варианта с использованием while.

Цикл for может перебирать и элементы range, это дает нам еще один способ решения задачи.

In [65]:
students = ['Ivan Ivanov', 'Tatiana Sidorova', 'Maria Smirnova']

for i in range(len(students)): # здесь не надо преобразовывать range в список или кортеж
    print(students[i])

Ivan Ivanov
Tatiana Sidorova
Maria Smirnova


Цикл for может перебирать и кортежи, и даже строки.

In [66]:
myStr = 'Hello'

for char in myStr:
    print(char)

H
e
l
l
o


## Методы .split(), .join(),  функция map(), вывод и ввод списков

При работе со списками довольно часто нам придется вводить их и выводить в отформатированном виде. Сейчас мы рассмотрим несколько методов, которые помогут сделать это в одну строку. 

### Метод .split()

Метод строки .split() получает на вход строку-разделитель и возвращает список строк, разбитый по этому разделителю.

По умолчанию метод разбивает строку по пробелу

In [69]:
print('Hello darkness my old friend'.split())
print('Hello    darkness  my old     friend'.split()) # несколько разделителей подряд? не беда, они будут прочитаны как один

['Hello', 'darkness', 'my', 'old', 'friend']
['Hello', 'darkness', 'my', 'old', 'friend']


In [70]:
print('Ночь. Улица. Фонарь. Аптека'.split('. '))

['Ночь', 'Улица', 'Фонарь', 'Аптека']


### Метод .join()

Метод .join() ведет себя с точностью до наоборот - он склеивает массив в строку, вставляя между элементами строку-разделитель.

In [72]:
print('-'.join(['8', '800', '555', '35', '35']))

8-800-555-35-35


### Функция map()

Функция map() берет функцию и список и применяет эту функцию ко всем элементам списка.

Обратите внимание, что результат работы этого метода надо дополнительно вручную преобразовать в список.

In [78]:
print(map(bool, [9, 0, 8, -288, 998, 0])) # не совсем то, что надо
print(list(map(bool, [9, 0, 8, -288, 998, 0]))) # а теперь работает, каждое число преобразовалось в логическую переменную

<map object at 0x111cb2250>
[True, False, True, True, True, False]


### Ввод и вывод списков

Теперь мы можем быстро вводить и выводить списки, содержащие разные данные через разные разделители.

In [81]:
phone = list(map(int, input().split())) # получаем строку, разбиваем по пробелу, сразу преобразуем все элементы в числа
print(phone)
print('-'.join(list(map(str, phone)))) # преобразуем массив чисел в массив строк и склеиваем через дефис

8 800 555 35 35
[8, 800, 555, 35, 35]
8-800-555-35-35


# Задачи для тренировки
Часть из этих задач мы решим в классе. Но если мы даже не успеем - попытайтесь сделать их дома сами.

## Повышенная стипендия
Студент может подать документы на повышенную стипендию, если его средний балл по итогам сессии не ниже 8.

**Формат ввода**

Вводятся оценки студента за сессию (целые числа от 1 до 10) в одну строку через пробел

**Формат вывода**

Выведите YES, если студент может подать документы на повышенную стипендию, и NO, если нет.

**Примеры**  

Тест 1  
Входные данные:  
6 8 7 6   
Вывод программы:  
NO

## Несовершеннолетние студенты
Студсовет факультета организует вечеринку, но после 23 часов им нужно отвезти в общежитие всех несовершеннолетних студентов. Несовершеннолетними считаются все студенты, родившиеся после 2001 года.

**Формат ввода**

Вводится целое неотрицательное число N <= 1000  
Далее, вводится N строк формата "Имя Фамилия; Год рождения"

**Формат вывода**

Вывести список всех несовершеннолетних студентов

**Примеры**  

Тест 1  
**Входные данные:**  
5  
Ivan Ivanov; 2001  
Petr Petrov; 2002  
Maria Smirnova; 2002  
Makar Makarov; 2002  
Tatiana Kuznetsova; 2000  
**Вывод программы:**   
Petr Petrov  
Maria Smirnova  
Makar Makarov  

## Функции 

Начиная с первого семинара, мы активно используем встроенные функции python (такие, как print, int и другие).  
Настало время научиться создавать свои.

Когда нам может понадобиться создать функцию?

* Когда какой-то блок кода потребуется переиспользовать (и не подряд, как в случае цикла, а из разных мест программы)
* Когда код становится очень большим, мы можем какие-то его части оформлять в виде функций, чтобы улучшить его читаемость

Давайте научимся создавать функции на примере функции для подсчета факториала числа.  

Напомним, что факториал целого числа n - это произведение целых чисел от 1 до n:  
4! = 1 * 2 * 3 * 4

Сначала решим эту задачу без создания функции.

In [82]:
n = int(input('Number here: '))

fact = 1 # 0! и 1! равны 1, так что наше стартовое значение факториала будет равно 1

for i in range(2, n + 1):
    fact *= i
    
print(fact)

Number here: 4
24


Теперь вынесем подсчет факториала в функцию:

In [83]:
def factorial(n): # factorial - название функции, n - ее аргумент, параметр, от которого зависит результат
    fact = 1

    for i in range(2, n + 1):
        fact *= i
    return fact # когда результат получен, его надо вернуть с помощью ключевого слова return

Теперь мы можем вызывать нашу функцию и пользоваться ей, как если бы она была встроенной.

In [85]:
n = int(input('Number here: '))
print(factorial(n))

Number here: 5
120


Функции могут иметь много аргументов/параметров. В качестве аргументов могут выступать:
* константные значения 
* переменные
* результаты вычисления выражений и исполнения других функций

Команда return завершает исполнение функции, возвращая ее значение.  

Можно прописать возвращение нескольких значений в разных местах. Например, вернемся снова к поиску минимума на двух числах:

In [86]:
def min1(a, b):
    if a < b:
        return a
    else:
        return b

In [87]:
a = int(input())
b = int(input())
print(min1(a, b))

3
5
3


Теперь с использованием этой функции можно написать поиск минимума на трех числах.

In [88]:
def min2(a, b, c):
    return min1(a, min1(b, c))

In [89]:
a = int(input())
b = int(input())
c = int(input())
print(min2(a, b, c))

4
3
5
3


Можно вернуть и несколько значений в одном месте. Например, отсортируем два числа в порядке возрастания:

In [90]:
def sort2(a, b):
    if a < b:
        return a, b
    else:
        return b, a

In [93]:
a = int(input())
b = int(input())
print(sort2(a, b))

5
3
(3, 5)


### Глобальные и локальные переменные

Если переменная задается вне тела функции - это **глобальная переменная**, она "видна" и может использоваться в любом месте программы.

Если переменная задается внутри тела функции - это **локальная переменная**, которая существует только внутри функции.

In [108]:
def f():
    x = 1


f()
print(x) # программа видит переменную x только внутри функции

NameError: name 'x' is not defined

Переменную, созданную внутри функции, можно объявить как глобальную с помощью ключевого слова global (лучше этим не злоупотреблять).

In [109]:
def f():
    global x  # объявляем переменную x - глобальной, она сохранится и вне функции.
    x = 1


f()
print(x)

1


### Распаковка и оператор * (раздел повышенного уровня сложности)

В примере выше мы увидели, что при возвращении из функции нескольких значений эти значения оборачиваются в кортеж.  
Мы можем "распаковать" этот кортеж и извлечь эти значения в отдельные переменные.

In [94]:
minimum, maximum = sort2(a, b)
print(minimum, maximum)

3 5


Распаковка работает не только с результатами вызова функции, но и с любыми кортежами и списками.

In [95]:
first, second, third = (1, 2, 3)
print(first, second, third)

1 2 3


In [96]:
first, second, third = [4, 5, 6]
print(first, second, third)

4 5 6


Мы можем извлечь из списка или кортежа несколько переменных, а остаток сохранить в новый список с помощью оператора *.

In [101]:
first, second, *newList = list(range(10))
print(first, second, newList)

0 1 [2, 3, 4, 5, 6, 7, 8, 9]


Что делает это оператор \*? Он "раскрывает" список newList и заставляет программу видеть его так, будто это не список, а просто все его элементы, записанные через запятую.

Таким образом мы можем выводить элементы списка через пробел без использования .join() и map().

In [103]:
print(*list(range(10)))

0 1 2 3 4 5 6 7 8 9


Еще один интересный эффект оператора \* - возможность создания функций с неограниченным числом параметров.  

В качестве примера можно рассмотреть функцию, которая суммирует свои аргументы.

In [104]:
def mySum(*args):
    numSum = 0
    for number in args:
        numSum += number
    return numSum

In [105]:
print(mySum(1, 2))
print(mySum(1, 2, 3, 4))

3
10


# Задачи для тренировки
Часть из этих задач мы решим в классе. Но если мы даже не успеем - попытайтесь сделать их дома сами.

## Округление списка чисел

На вход подается список чисел с плавающей точкой через пробел. Верните список, содержащий результаты округления этих чисел.  
Решите задание двумя способами - через цикл for или через функцию map.

### Вариант полегче

Решите задачу с помощью встроенной функции round  

### Вариант посложнее

Решите задачу, написав свою функцию, округляющую числа по российским правилам (дробная часть, равная 0.5, округляется вверх)

## Суммы цифр

На вход подается список целых чисел. Верните список, содержащий суммы цифр этих чисел.  
Решите задание двумя способами - через цикл for или через функцию map.


**Пример ввода**  
765 98 7 5555 13
**