# Повторение тем 1 курса

План на сегодня:

* Data structures
* JSON
* Numpy
* Pandas

<h2 id="data-structures">Data structures</h2>

### Зачем?

Структуры данных - это база питона, потому что невозможно просто хранить значения переменных в виде строки или числа, нужно как-то организовать их наборы. Выбор правильной структуры данных дает больше возможностей для использования и повышает скорость работы программы, что важно для работы с большими объемами данных

### Списки

Список, или массив (list) -- это такая структура данных, где все элементы имеют порядковый номер (индекс), по которому их можно вызвать. Элементы могут повторяться (т.е. в ячейках с разными индексами могут быть записаны переменные с одинаковым значением / одинаковые константы). В списке могут храниться данные разных типов. Записывается в [ ].

In [None]:
a = 5
b = "hello"

some_list = [4.89, a, "spam", True, "spam", b]
print(some_list)
print("some_list=" + str(some_list)) 
print(f"some_list={some_list}") # python3.6 f-strings https://www.python.org/dev/peps/pep-0498/
print(f"{some_list=}") # python3.8 updated f-strings

In [None]:
sentence = "Из этого предложения получится список"
letters = list(sentence)  # разбивает строку на минимальные элементы, т.е. посимвольно
words = sentence.split() # разбивает строку на слова по пробелам

print(words)
print(letters)

In [None]:
a = ['first', 'second', 'third']
print(a[0])
print(a[-1])
print(a[-2])
print(a[1:])

In [None]:
numbers = list(123)

Преобразование типов

In [None]:
numbers = list(str(123)) # int -> str
print(numbers)
print(int(numbers[-1])) # str -> int
print(float(numbers[-1])) # str -> float

Список может быть пустым

In [None]:
new_list = []
print(new_list)

В списке может лежать список или любой другой объект

In [None]:
a = [[3, 4, 5], [6, 7, 8], {1, 2, 3}]
a[0] = 5
print(a)

Но! Надо быть аккуратными, потому что бывает так:

In [None]:
a = [1, 2, 3]
b = [a, 1, 5, 6]
print(b)
a[0] = 9
print(b)
a = [20, 10, 11]
print(b)

Основные методы:

In [None]:
a = [1, 2, 3]
b = [4, 5, 7]

print(a + b)

a.append([4, 5, 7])
print(a)
b.extend([1, 2, 3])
print(b)

In [None]:
a = ['this', 'is', 'some', 'list']
del a[2]
print(a)

In [None]:
new_a = [x for x in a if x.endswith("is")]
new_a

### Кортежи

Кортеж (tuple) - это тип неизменяемых данных, если элемент списка можно поменять, то у tuple такой возможности нет

In [None]:
new_tuple = ()
print(new_tuple)

# непустой кортеж
siblings = ('brother', 'sister')
print(siblings)

# кортеж из списка
words = tuple(words)
print(words)

# кортеж из строки
letters = tuple(sentence) # строка разбивается на минимальные единицы, т.е. посимвольно
print(letters)

In [None]:
print(words[0])   # первый элемент кортежа
print(words[-1])  # последний элемент кортежа
print(words[2:5]) # элементы кортежа со 2 по 5 (включая 2 и не включая 5)

### Словари

Словари - это структура данных, где есть ключи - уникальные идендитикаторы и значения - соответствующие им объекты.

In [None]:
# пустой словарь
d = dict()
print(d)

# пустой словарь
d = {}
print(d)

In [None]:
d = {'a': 2}
print(d)

# ключи
print(d.keys())

# значения
print(d.values())

# пары ключ-значение
print(d.items())

Обращение по ключу

In [None]:
d = {1: 90, 2: 89, 3: 54}
d[7]

In [None]:
print(d.get(7))

Распаковка словарей

In [None]:
d1 = {1: 90, 2: 89, 3: 54}
d2 = {4: 11, 5: 10, 6: 9}
d3 = {**d1, **d2, 7:90}
d3

dict comperehension

In [None]:
{i: val for i, val in enumerate("text")}

Объединение словарей:

In [None]:
# старый вариант
d1 = {1: 90, 2: 89, 3: 54}
d2 = {3: 1000, 4: 11, 5: 10, 6: 9}
d3 = {}
d3.update(d1)
d3.update(d2)
d3

In [None]:
# удобный для записи вариант
d1 = {1: 90, 2: 89, 3: 54}
d2 = {3: 1000, 4: 11, 5: 10, 6: 9}
d3 = {**d1, **d2}
d3

In [None]:
# новый вариант с python3.9+ 
d1 = {1: 90, 2: 89, 3: 54}
d2 = {3: 1000, 4: 11, 5: 10, 6: 9}
d3 = d1 | d2 # по аналогии с set()
d3

In [None]:
# новый вариант с python3.9+ через |=
d1 = {1: 90, 2: 89, 3: 54}
d2 = {3: 1000, 4: 11, 5: 10, 6: 9}
d3 |= d1  # по аналогии c.update
d3 |= d2 
d3

### Множества
Множество (set) - это структура данных, чем-то похожая и на массив, и на словарь, но от них отличающаяся.

Как и массивы, множества содержат элементы. Но в отличие от массивов, где элементы упорядочены, в множестве они идут в "произвольном" порядке.

На словари множества похожи тем, что, как и ключи в словарях, элементы множеств неупорядочены и поэтому должны быть уникальны.

Поиск в множестве происходит быстрее, чем в массиве, потому что в массивы мы проходим каждый элемент с 1 до последнего или искомого, а во множестве другой, более быстрый алгоритм. Если вам нужно собрать какие-то данные, а потом проверять, есть ли в этих данных что-то, то целесообразно использовать именно множества. Во-вторых, преобразование в множества помогают быстро превратить набор данных в набор уникальных элементов.

In [None]:
# создаем множество из списка (массива)

sentence = "the cat is on the mat"
words = set(sentence.split())  # превращаем список, который возвращает split(), в массив
animals = set(['cat', 'dog', 'elephant', 'crocodile', 'fox', 'cat', 'elephant'])

print(words)
print(animals)

In [None]:
animals.add('tiger')
print(animals)

In [None]:
# пустое множество
new_set = set() # обратите внимание, что просто скобочек в данном случае недостаточно!
print(new_set)

In [None]:
a = set([1, 2, 3, 4, 5, 6])
b = set([4, 5, 6, 7, 8, 9])

# объединение
c = a | b
print(c)

# пересечение
c = a & b
print(c)

# разность
c = a - b
print(c)

# симметрическая разность, то есть элементы, входящие в a или в b, но не в оба множества одновременно
c = a ^ b
print(c)

### Основные функции

1. sum - сумма элементов
2. len - длина (или количество элементов)
3. sorted - сортировка
4. enumerate - проход с нумерацией

In [None]:
a = [1, 2, 3, 4, 5]
print(len(a))
print(sum(a))

In [None]:
a = [900, 45, 67, 23, 1]
print(sorted(a))
for num, value in enumerate(a):
    print(num, value)

### defaultdict

Если мы составляем частотный словарь или что-то похожее, где есть начальное значение в словаре, но мы, опять же, не хотим получать ошибку KeyError, можно использовать структуру данных defaultdict, который если нет ключа, добавляет такой ключ и ставит в качестве значения некое дефолтное

In [None]:
from collections import defaultdict

In [None]:
d = defaultdict(int) # дефолт - 0
print(d)
print(d[9])
print(d)

частотный словарь букв в строке

In [None]:
d = defaultdict(int)
some_string = 'a little less conversation, a little more action'
for letter in some_string:
    d[letter] += 1
print(d)

In [None]:
d = dict(d)
print(d)

### Counter

Counter итерируется (проходит) по списку или другому объекту и считает количество элементов, сохраняя все в словарь вида ключ - количество

In [None]:
from collections import Counter

In [None]:
some_string = 'a little less conversation, a little more action'

Counter(some_string)

In [None]:
lyrics = [
    'a little less conversation, a little more action',
    'a little more bite and a little less bark',
    'a little less fight and a little more spark'
]
c = Counter()
print(c)

for line in lyrics:
    c += Counter(line.split())
print(c)

<h2 id="json">JSON</h2>

**JSON** -- простой, основанный на использовании текста, способ хранить и передавать структурированные данные. 

JSON значит *JavaScript Object Notation.*

Его придумали для того, чтобы упростить обмен данными. 

Его предложения легко читаются и составляются как человеком, так и компьютером.

Его легко преобразовать в структуру данных для большинства языков программирования (числа, строки, логические переменные, массивы и так далее).

Многие языки программирования имеют функции и библиотеки для чтения и создания структур JSON. 

JSON обычно более компактный чем XML. 

![image.png](attachment:image.png)

### Правила json

Строка json может содержать __объект__, и тогда она начинается с `{` и заканчивается на `}`. Такой объект очень похож на питоновский *словарь*: у него есть ключи - строки, которые пишутся в кавычках, а через двоеточие пишется значение, пары ключ-значение разделяются запятыми. Например:

In [None]:
{"first_name": "Guido", "last_name":"Rossum"}

Строка json может содержать __массив__, и тогда она начинается с `[` и заканчивается на `]`. Такой массив очень похож на питоновский массив: в нем значения перечисляются через запятую. Например:

In [None]:
["Guido van Rossum", "Diana Clarke", "Naomi Ceder", "Van Lindberg", "Ewa Jodlowska"]

Значение в массиве или объекте может быть:
* Числом (целым или с плавающей точкой)
* Строкой (в двойных кавычках)
* Логическим значением (true или false)
* Другим массивом (заключенным в квадратные скобки)
* Другим объектом (заключенным в фигурные скобки)
* Значением null

Чтобы включить в строку специальные символы (например, кавычку), их нужно экранировать с помощью \, например, `\"` или `\r\n`. Наглядные правила построения json-строки можно посмотреть на официальном сайте http://www.json.org/, если захочется.

Может показаться, что это вообще-то все и так очень похоже на обычный питон. Но это не так. Во-первых, json -- это не исполняемый код, а просто текст. Во-вторых, очень часто запись валидного питоновского словаря или массива не будет являться валидной записью в формате json. Например, это не json, но при этом словарь: `{(1, 'a'): u'12345'}`. (Попробуйте придумать еще примеры.)

Вот еще пример строки json, посложнее:

## Модуль json

В питоне есть стандартный модуль `json`. В основном из этого модуля используют такие функции:

* `loads`  - превратить строку в формате JSON в объект питона - словарь или массив. У этой функции один обязательный аргумент - строка.
* `dumps`  - превратить питоновский словарь или массив в строку JSON. У этой функции один обязательный аргумент - словарь или массив.
* `load` - прочитать файл и превратить JSON, который в нем находится, в объект питона. У этой функции два обязательных аргумента - файл и объект питона.
* `dump` - превратить питоновский словарь или массив в строку JSON и записать ее в файл. У этой функции два обязательных аргумента - файл и объект питона.

Под словом "файл" в данном случае имеется в виду любой файло-подобный объект -- собственно файл, или стандартный ввод-вывод, или даже запросы, которые мы отправляем через `urllib.request`, то есть такие объекты, к которым можно применить метод `.read()`.

## Пример

Попробуем превратить нашу строку в объекты питона:

In [None]:
json_string = """{"organisation": "Python Software Foundation",
                 "officers": [
                            {"first_name": "Guido", "last_name":"Rossum", "position":"president"},
                            {"first_name": "Diana", "last_name":"Clarke", "position":"chair"},
                            {"first_name": "Naomi", "last_name":"Ceder", "position":"vice chair"},
                            {"first_name": "Van", "last_name":"Lindberg", "position":"vice chair"},
                            {"first_name": "Ewa", "last_name":"Jodlowska", "position":"director of operations"}
                            ],
                "type": "non-profit",
                "country": "USA",
                "founded": 2001,
                "members": 244,
                "budget": 750000,
                "url": "www.python.org/psf/"}"""

In [None]:
import json

data = json.loads(json_string)
print(type(data))  # распечатаем тип объекта и убедимся, что теперь это не строка, а словарь

In [None]:
from pprint import pprint

pprint(data) # посмотрим на сам этот словарь

In [None]:
# и попробуем поработать с этим словарем. например, распечатаем его ключи.
for key in data: 
    print(key, end=' ')

In [None]:
# теперь предположим, что у нас есть питоновский словарь или массив, который мы хотим сохранить в виде строки json

d = {"John": 51, "Kate": 12, "Bill": 27}
json_string = json.dumps(d)
print(type(json_string)) # убедимся, что теперь наши данные превратились в строку

In [None]:
# распечатаем эту строку
print(json_string)

In [None]:
# то же самое можно делать с массивами
arr = ['hello', 'world']
json_string = json.dumps(arr)
print(type(json_string)) 
print(json_string)

In [None]:
# убедимся, что не все питоновские правильные объекты хорошо вписываются в json
d = {("A", 21): "John"}
json_string = json.dumps(d)
print(json_string)

### Как проверить валидность json
Когда нам приходится иметь дело с большими данными, заметить ошибку в json-файле -- какую-нибудь недостающую скобочку или кавычку -- не всегда легко. Если вы видите ошибку чтения/кодирования/декодирования json, но не можете ее найти, или просто хотите подстраховаться, можно проверить текст на одном из следующих сайтов (проще всего самый первый):
* https://jsonlint.com/
* https://jsoncompare.com/ 
* http://www.jsonschemavalidator.net/
* https://jsonformatter.curiousconcept.com/#

### Зачем нужен json?

* Пересылка данных от сервера к браузеру

* Выдача результатов морфологического анлиза текста

* Выдача результатов API

* Датасеты для NLP задач

Наиболее частое распространенное использование JSON -- пересылка данных от сервера к браузеру. Например, когда сервер отправляет браузеру веб-страницу, часто к странице прикладывается json c дополнительной информацией. Иногда весь ответ браузера состоит из json.

Разберем в качестве примера github. Если отправлять на github специальные запросы по особым ссылкам, то в ответ сервер github будет присылать json-строку с информацией. Например, можно посмотреть количество фолловеров или репозиториев у пользователя.



In [None]:
import json
import urllib.request

user = "agricolamz"  # пользователь, про которого мы хотим что-то узнать
url = 'https://api.github.com/users/%s/repos' % user  
# по этой ссылке мы будем доставать джейсон, попробуйте вставить ссылку в браузер и посмотреть, что там

response = urllib.request.urlopen(url)  # посылаем серверу запрос и достаем ответ
text = response.read().decode('utf-8')  # читаем ответ в строку
data = json.loads(text) # превращаем джейсон-строку в объекты питона

print(len(data))  # можно распечатать, сколько у пользователя репозиториев
for i in data:
    print(i["name"]) # и распечатать названия всех репозиториев

## Numpy

In [None]:
import numpy as np

### Создание массива Numpy arrays

Из списка: 

In [None]:
np.array([1, 2, 3, 4, 5, '5'])

При конвертации можно задавать тип данных с помощью аргумента dtype:

In [None]:
arr = np.array([1, 2, 3, 4, 5], dtype=np.float32)
arr

In [None]:
type(arr)

Генерация Numpy Arrays:

In [None]:
np.arange(0, 5, 0.5)

In [None]:
np.zeros((2, 3))

In [None]:
np.ones((3, 2))

In [None]:
np.random.seed(123)

np.random.normal(0, np.sqrt(10), (3, 4))

Индексация:

In [None]:
array = np.arange(0, 12)

In [None]:
print(array[0])
print(array[-1])
print(array[1:-1])
print(array[1:-1:2])
print(array[::-1])

In [None]:
twod_array = np.array([[1, 2], [3, 4]])

twod_array[1][0]

Размерность:

In [None]:
array.shape

In [None]:
array = array.reshape((2, 6))
array

In [None]:
array[array >= 5]

Арифмические операции: 

In [None]:
[1, 2, 3] + [3, 4, 5]

In [None]:
x = np.array([1, 2, 3])
y = np.array([3, 4, 5])
x + y

In [None]:
x * 2

In [None]:
x @ y

## Pandas

Pandas - это библиотека для удобной работы с данными, в основном - с таблицами. В библиотеке есть много методов, которые нужны для чтения данных в разном формате, взаимодействия с базами данных и для разных манипуляций, которые часто нужны в процессе работы.

In [None]:
import pandas as pd

### Создание таблиц

Для начала, посмотрим, как выглядят таблицы (объекты) в pandas на примере небольших таблиц, созданных вручную.

Есть специальный объект типа датафрейм и мы туад передаем информацию о данных, которые у нас есть. Это может быть разный вид, например:

1. Словарь, где ключ - название будущего столбца, а значение - это список значений.
2. Список словарей, где одна запись - это отдельная строка таблицы, где ключи - это параметры (название столбца).
3. Список списков (или кортежей), где каждый элемент - это одна строка таблицы. В этом случае названия стобцов задаются отдельно.

In [None]:
data = {
    "name": ["Mary", "Jane", "Ivan", "Mark"],
    "age": [25, 14, 34, 78]
}

df = pd.DataFrame(data)
df

In [None]:
data = [
    {"name": "Mary", "age": 25}, 
    {"name": "Jane", "age": 14}, 
    {"name": "Ivan", "age": 34}, 
    {"name": "Mark", "age": 78}
]

df = pd.DataFrame(data)
df

In [None]:
data = [["Mary", 25], ["Jane", 14], ["Ivan", 34], ["Mark", 78]]

df = pd.DataFrame(data, columns=["name", "age"])
df

Метод `rename` позволяет переименовывать `indexes` и `columns`

In [None]:
df.rename(columns={"name": "col_name", "age": "col_age"})

Метод `pd.concat` дает возможность объединить два или больше датафреймов вместе.

In [None]:
pd.concat([df,df])

### Чтение данных

Рассмотрим несколько основных способов прочитать данные.

1. CSV файл (табличный формат с различными разделителями, в том числе запятая, таб, точка с запятой и др.)
2. Excel-файл
3. База данных (посмотрим, когда будем работать с базами)
4. Онлайн-таблицы (на страницах сайта)

In [None]:
df = pd.read_csv("data/example.csv", sep="\t")  # разделитель табуляция
df

In [None]:
df = pd.read_excel("data/example.xlsx", sheet_name="example")
df

In [None]:
df = pd.read_html("https://en.wikipedia.org/wiki/List_of_countries_and_dependencies_by_population")[0]
df

In [None]:
#df = pd.read_csv("https://raw.githubusercontent.com/cldf-datasets/wals/master/raw/country.csv")
df = pd.read_csv("data/country.csv")

### Полезные методы

In [None]:
df.head(3)

In [None]:
df.tail(3)

In [None]:
df.info()

С помощью property `shape` -  можно получить размеры `DataFrame`.

In [None]:
df.shape

### Сохраняем данные

Сохраняем данные в текстовом формате (csv)

In [None]:
df.to_csv("wals_country.csv", index=None)

Сохраняем данные в бинарном формате Excel (xlsx)

In [None]:
df.to_excel("wals_country.xlsx", index=None)

Данные можно сохраняться в разных форматах

Текстовые формат `csv` и бинарные форматы: `pickle`, `hdf5`, `feather`, `parquet`, `excel` (не оптимизированный формат)

Достоинства бинарных форматов: 

- быстрота сохранения\загрузки дынных, 
- небольшой размер данных на диске

[Здесь](https://towardsdatascience.com/the-best-format-to-save-pandas-data-414dca023e0d) можно посмотреть сравнение разных форматов сохранение

### Манипуляции с данными

**Фильтрация данных**

Можно удалять отдельные строки или столбцы

In [None]:
df

In [None]:
df = df.drop(["jsondata"], axis=1) # убираем столбцы

# проверяем
df.head(2) 

Можно удалять те, где есть пропуски

In [None]:
df.dropna()

Удалим столбцы, где все значения пустые

In [None]:
df.dropna(how="all", axis=1).head()

Можно выбрать нужные столбцы

In [None]:
df = df[["pk", "id", "name", "continent"]]

Фильтруем, где pk < 4

In [None]:
df[df["pk"] < 4]

Посмотрим, какие вообще есть континенты

In [None]:
df["continent"].value_counts()

In [None]:
df[df["continent"] == "North America"]

In [None]:
df[df["continent"] == "North America"].sort_values(by="id")

Допустим, мы хотим получить список стран по континентам

1. Группируем по континенту
2. Из имен составляем списки

In [None]:
df.groupby("continent").agg({"name": list})

In [None]:
def change_id(text):
    if type(text) == str:
        text = text.lower() * 2
    return text

In [None]:
df["id"].apply(change_id)

### Практика

Скачаем данные по кинопрокату [тут](https://opendata.mkrf.ru/opendata/7705851331-register_movies)

Считаем таблицу (можно прямо из zip), замените путь на путь к вашему файлу

In [None]:
your_zip = "data-7-structure-4.csv.zip"
df = pd.read_csv(your_zip)

Описательная статистика по числовым значениям (минимум, максимум, перцентили)

In [None]:
df.describe()

Покажите первые строки датафрейма

In [None]:
# YOUR CODE HERE

Покажите, какие есть столбцы в датафрейме:

In [None]:
# YOUR CODE HERE

Выберите столбцы ```["Название фильма", "Год производства", "Вид Фильма", "Продолжительность демонстрации, минуты", "Страна производства"]``

In [None]:
# YOUR CODE HERE

Сколько фильмов каждого типа в наборе данных?

In [None]:
# YOUR CODE HERE

Какая проблема есть в данных? Как можно ее исправить с помощью ```apply```?

In [None]:
def fix_film_type(text):
    
    # ваш код
    
    return new_text

In [None]:
# тестируем

text = ""

fix_film_type(text)

In [None]:
# YOUR CODE HERE

Заменим длинные названия столбцов на более короткие на латинице

In [None]:
# YOUR CODE HERE

Какова средняя или медианная продолжительность фильмов по странам? И сколько фильмов?

In [None]:
# YOUR CODE HERE