# Уровень Шрэк

## Кортежи и множества

Есть еще два типа данных, которые мы пока не изучили.

Кортеж (tuple) очень похож на список, но записывается в круглых скобках. Его особенность в том, что после создания его нельзя изменять.

In [9]:
a = (1, 3, 'cucumber')

type(a)

tuple

Множество (set) тоже чем-то похоже на список, только состоит из уникальных элементов. Записывается в фигурных скобках.

In [10]:
my_list = [1, 4, 6, 3, 5, 2, 4, 6, 2, 4, 6, 2]

set(my_list)

{1, 2, 3, 4, 5, 6}

На кортежах и множествах работает вызов элемента по индексу, а элементы могут быть данными любого типа.

## JSON

JSON (JavaScript Object Notation) – простой, основанный на использовании текста, способ хранить и передавать структурированные данные.

Его придумали для того, чтобы упростить обмен данными.

Его предложения легко читаются и составляются как человеком, так и компьютером.

Его легко преобразовать в структуру данных для большинства языков программирования (числа, строки, логические переменные, массивы и так далее).

Многие языки программирования имеют функции и библиотеки для чтения и создания структур JSON.

Строка JSON может содержать объект, и тогда она начинается с `{` и заканчивается на `}`. Такой объект очень похож на питоновский словарь: у него есть ключи – строки, которые пишутся в кавычках, а через двоеточие пишется значение, пары ключ-значение разделяются запятыми.

NB! Если ключом в питоновском словаре может быть и число, и булевая переменная, и т.д. (не делайте так...), то при переводе подобного словаря в JSON-объект все ключи станут строками.

Строка JSON может содержать массив, и тогда она начинается с `[` и заканчивается на `]`. Такой массив очень похож на питоновский массив: в нем значения перечисляются через запятую.

Значение в массиве или объекте может быть:

* Числом (целым или с плавающей точкой)
* Строкой (в двойных кавычках)
* Логическим значением (true или false)
* Другим массивом (заключенным в квадратные скобки)
* Другим объектом (заключенным в фигурные скобки)
* Значением null

Удобный вариант хранения данных в JSON - массив объектов или, если говорить на языке питона, список словарей.

### Модуль json

**Чтение:**

Для чтения в модуле json есть два метода:

* json.load() – метод считывает **файл** в формате JSON и возвращает объекты Python. У этой функции один обязательный аргумент – файл.
* json.loads() – метод считывает **строку** в формате JSON и возвращает объекты Python. У этой функции один обязательный аргумент – строка.

**Запись:**

Для записи информации в формате JSON в модуле json также два метода:

* json.dump() – метод записывает объект Python в **файл** в формате JSON. У этой функции два обязательных аргумента – файл и объект питона.
* json.dumps() – превращает питоновский словарь или массив **в строку** JSON. У этой функции один обязательный аргумент – словарь или массив.

### Дополнительные параметры методов записи

* `indent` – уровень отступа (может быть равен числу или строке). Он позволяет сделать так, чтобы данные записывались в файл с человекопонятным форматированием. Тогда файл можно будет открыть текстовым редактором и посмотреть глазами, что там внутри.
* `sort_keys` - сортирует ключи словаря

Углубляться в использование чистого JSON мы не будем, а как способ хранения данных он кажется достаточно понятным. Поэтому отдельных задач по нему не будет, но он может нам пригодиться как инструмент работы с другими библиотеками.

## pandas

In [1]:
import pandas as pd

Основная сущность, с котрой работает библиотека - это датафрейм (DataFrame). На человеческом - таблица. Каждый датафрейм состоит из столбцов типа Series (одномерных массивов, которые могут хранить значения любого типа данных). Датафремй можно получить различными способами, но основных два:

* создать из словаря, списка или чего-то похожего

In [2]:
dct = {
    'age': [12, 5, 15, 25],
    'height': [140, 110, 165, 180]
}
pd.DataFrame(dct)

Unnamed: 0,age,height
0,12,140
1,5,110
2,15,165
3,25,180


In [3]:
lst = [
    [12, 140],
    [5, 110],
    [15, 165],
    [25, 180]
]
pd.DataFrame(lst, columns=['age', 'height'])

Unnamed: 0,age,height
0,12,140
1,5,110
2,15,165
3,25,180


* загрузить из файла (csv, tsv, excel etc.)
    * **CSV**. Используется функция `read_csv()`. Аргумент file является строкой, в которой записан путь до файла с дата-сетом. Для записи данных из DataFrame в CSV-файл используется метод `to_csv(file)`.
    * **Excel**. Используется функция `read_excel()`. Для записи данных из DataFrame в Excel-файл используется метод `to_excel()`.
    * **JSON**. Используется функция `read_json()`. Для записи данных из DataFrame в JSON используется метод `to_json()`.

In [4]:
df = pd.read_csv("imdb_top_250.csv")

У таблицы есть строки и столбцы, к ним можно обращаться отдельно или чтобы выделить конкретный набор данных по условию.

Методом `.head()` можно вывести первые строки таблицы.

In [5]:
df.head(5)

Unnamed: 0.1,Unnamed: 0,Title,Year,Genre,Duration,Origin,Director,IMDB rating,Rating count,IMDB link
0,1,The Shawshank Redemption,1994,Drama,2h 22min,USA,Frank Darabont,9.3,2030817,https://www.imdb.com/title/tt0111161
1,2,The Godfather,1972,Drama | Crime,2h 55min,USA,Francis Ford Coppola,9.2,1392322,https://www.imdb.com/title/tt0068646
2,3,The Godfather: Part II,1974,Drama | Crime,3h 22min,USA,Francis Ford Coppola,9.0,964841,https://www.imdb.com/title/tt0071562
3,4,The Dark Knight,2008,Drama | Action | Thriller | Crime,2h 32min,USA | UK,Christopher Nolan,9.0,1998623,https://www.imdb.com/title/tt0468569
4,5,12 Angry Men,1957,Drama,1h 36min,USA,Sidney Lumet,8.9,571145,https://www.imdb.com/title/tt0050083


Можно смотреть не верхние строки, а случайные или нижние:

In [6]:
df.sample(2)

Unnamed: 0.1,Unnamed: 0,Title,Year,Genre,Duration,Origin,Director,IMDB rating,Rating count,IMDB link
103,104,Snatch,2000,Comedy | Crime,1h 44min,USA | UK,Guy Ritchie,8.3,701543,https://www.imdb.com/title/tt0208092
55,56,Avengers: Infinity War,2018,Adventure | Fantasy | Action,2h 29min,USA,Anthony Russo,8.5,547495,https://www.imdb.com/title/tt4154756


In [7]:
df.tail(2)

Unnamed: 0.1,Unnamed: 0,Title,Year,Genre,Duration,Origin,Director,IMDB rating,Rating count,IMDB link
248,249,Gangs of Wasseypur,2012,Comedy | Thriller | Drama | Action | Crime,5h 21min,India,Anurag Kashyap,8.2,66466,https://www.imdb.com/title/tt1954470
249,250,Drishyam,2015,Drama | Thriller | Crime,2h 43min,India,Nishikant Kamat,8.3,51251,https://www.imdb.com/title/tt4430212


Можно узнать размер таблицы:

In [8]:
df.shape  # это кортеж, можно взять элемент по индексу

(250, 10)

Или, например, набор ее столбцов:

In [11]:
df.columns

Index(['Unnamed: 0', 'Title', 'Year', 'Genre', 'Duration', 'Origin',
       'Director', 'IMDB rating', 'Rating count', 'IMDB link'],
      dtype='object')

Попробуем выбрать конкретные части датафрейма

* столбец

In [13]:
df['Title'].head(3)

0    The Shawshank Redemption
1               The Godfather
2      The Godfather: Part II
Name: Title, dtype: object

* столбцы

In [14]:
df[['Title', 'Origin', 'Director']].head(3)

Unnamed: 0,Title,Origin,Director
0,The Shawshank Redemption,USA,Frank Darabont
1,The Godfather,USA,Francis Ford Coppola
2,The Godfather: Part II,USA,Francis Ford Coppola


Можем посмотреть всякие статистики по таблице.

In [15]:
df.describe()

Unnamed: 0.1,Unnamed: 0,Year,IMDB rating,Rating count
count,250.0,250.0,250.0,250.0
mean,125.5,1985.284,8.3024,477768.7
std,72.312977,24.789138,0.228831,403252.9
min,1.0,1921.0,8.0,26345.0
25%,63.25,1966.25,8.1,138986.8
50%,125.5,1993.0,8.2,347758.5
75%,187.75,2005.0,8.4,707448.5
max,250.0,2018.0,9.3,2030817.0


pandas умеет много всего. Если понадобится какой-то определенный инструмент, можно поискать его в [документации](https://pandas.pydata.org/docs/).