### Библиотека Pandas

Вот так выглядят данные в текстовом файле с информацией:

In [None]:
1  user_id,total play,Artist,genre,track
2  BF6EA5AF,92.85138808302445,Marina Rei,pop,Musica
3  FB1E568E,282.981,Stive Morgan,ambient,Love Planet
4  FB1E568E,282.981,Stive Morgan,ambient,Love Planet
5  EF15C7BA,8.966,,dance,Loving Every Minute
6  82F52E69,193.77632653061224,Rixton,pop,Me And By Broken Heart
7  4166D680,3.007,Henry Hall & His Gleneagles Hotel Band,jazz,Home
8  F4F5677,0.1,,classicmetal,
9  386FE1ED,211.88,,electronic,Riviera
10 A5E0D927,3.161,Andrew Paul Woodworth,pop,The Name of This Next Song Is Called
11 E9E8AOCA,274.39,Pillar Point,indie,Dove
12 D2DD8D00,8.836,Steve Campbell,jazz,Morning Dew
13 596A4517,0.,David Civera,pop,Bye Bye 

Для обработки этот хаос нужно превратить в аккуратную табличку. Можно сделать это и в Excel. Но тогда инструмент ограничит ваши возможности. Чем больше данных и сложнее задача, тем хуже справляется Excel. Этих недостатков нет у Pandas — библиотеки Python.

Pandas — самая популярная библиотека Python для работы с таблицами. В виде таблицы можно представить почти любые данные: от списка покупок до карты местности.

Pandas умеет:
- извлекать данные из разных источников: от текстовых файлов до баз данных;
- устранять проблемы в данных — например, повторяющиеся и пропущенные значения;
- добавлять, удалять и менять табличные данные;
- объединять данные в группы и вычислять для них агрегированные показатели: сумму, среднее, количество значений и так далее.
- одновременно работать с данными из нескольких файлов.

Кроме того, вы всегда можете обратиться к хорошо подготовленной документации и активному сообществу.

### Подключение библиотеки


Чтобы обращаться к методам `pandas`, подключите библиотеку командой `import`:

In [1]:
import pandas 

Библиотека хранится в переменной, через которую можно вызвать её методы. Такую переменную принято называть `pd`:

In [2]:
import pandas as pd 

Эта команда означает «импортируй библиотеку pandas как pd».

### Подготовка данных


Исходные данные мы хотим превратить в таблицу. Для этого вызывают конструктор `DataFrame()`. Конструктор — это метод, который создаёт новые объекты.

`DataFrame()` принимает два аргумента:
1. список с данными;
2. названия столбцов таблицы.

Для начала возьмём данные попроще. Переменная `atlas` хранит список списков с названиями стран и столиц:

In [3]:
atlas = [  
    ['Франция','Париж'],  
    ['Россия','Москва'],  
    ['Китай','Пекин'],  
    ['Мексика','Мехико'],  
    ['Египет','Каир']  
] 

Построим таблицу с этими данными.
Для второго аргумента создадим переменную с названиями колонок `country` и `capital`:

In [4]:
geography = ['country', 'capital'] 

Два аргумента для конструктора готовы.




### Создание таблицы

Передадим конструктору `DataFrame()` данные и названия колонок:

In [5]:
world_map = pd.DataFrame(data=atlas, columns=geography) 

`DataFrame()` — конструктор из библиотеки Pandas, поэтому перед его именем стоит обращение к переменной с библиотекой — `pd`.

![Untitled_13_1607598648.png](attachment:Untitled_13_1607598648.png)

In [6]:
import pandas as pd

# подготавливаем данные и названия столбцов

atlas = [
    ['Франция','Париж'],
    ['Россия','Москва'],
    ['Китай','Пекин'],
    ['Мексика','Мехико'],
    ['Египет','Каир'],
]
geography = ['country', 'capital']

# создаём таблицу

world_map = pd.DataFrame(data=atlas , columns=geography) # создаём таблицу и сохраняем её в переменную world_map

print(world_map) # выводим таблицу на экран 

   country capital
0  Франция   Париж
1   Россия  Москва
2    Китай   Пекин
3  Мексика  Мехико
4   Египет    Каир


In [None]:
   country capital
0  Франция   Париж
1   Россия  Москва
2    Китай   Пекин
3  Мексика  Мехико
4   Египет    Каир 

Так «сырые» данные в текстовом файле стали таблицей с именованными столбцами.
Теперь попробуйте вы.

### Задача 1.

Подключите pandas так, чтобы обращаться к библиотеке через переменную pd.

### Задача 2. 


Создайте список списков `music` с четырьмя элементами. В каждом подсписке сохраните по два строковых значения, имя исполнителя и название песни:
- 'Bob Dylan' — 'Like A Rolling Stone',
- 'John Lennon' — 'Imagine',
- 'The Beatles' — 'Hey Jude',
- 'Nirvana' — 'Smells Like Teen Spirit'.

### Задача 3. 


Создайте список `entries` с названиями двух столбцов — `artist` и `track` (от англ. «исполнитель» и «композиция»).

### Задача 4.


С помощью конструктора `DataFrame()` создайте таблицу из списков `music` и `entries`. Сохраните результат в переменную `playlist` и выведите его на экран.

### Получение данных


Обычно данные хранятся в файле со своей структурой — которую нужно привести к виду таблицы.

Чаще всего вы будете работать с файлами `.csv` (англ. Comma-Separated Values), «значения, разделённые запятой».

Конструктору таблицы нужны данные и названия колонок. Файлы `.csv` дают обе составляющие:
первая строка хранит названия колонок,
каждая следующая строка соответствует строке в таблице.
Причём запятые в `.csv` разделяют значения в разных столбцах. Pandas читает такие файлы и переносит данные в таблицу:

![Untitled_14_1607599931.png](attachment:Untitled_14_1607599931.png)

### Чтение файла


Синтаксис метода `read_csv()`. В качестве аргумента он принимает путь к файлу:

In [16]:
import pandas as pd
df = pd.read_csv('music_log.csv') # аргумент — путь к файлу 

Путь к файлу — строка с именем файла и каталогами, в которые он вложен. Выглядеть путь будет по-разному, в зависимости от двух факторов:
- Операционная система диктует форму записи:
    - Обычно в Windows указывают путь через обратную косую черту: 
    'C:\catalog\file.csv'.
    - В macOS и Linux путь пишут через обычную косую черту: 
    '/catalog/files.csv'.
- Путь может быть относительным или абсолютным:
    - Абсолютный путь начинается с самого верхнего каталога в системе. В 
    Windows это название диска, например, диск «C»: 
    'C:\catalog\file.csv'. Абсолютный путь в Linux и на Mac начинается с 
    «корня», на который указывает косая черта в начале пути: 
    '/catalog/file.csv'.
    - Относительный путь называют так, потому что он показывает маршрут к файлу
    относительно места запуска программы. Например, если программа запущена в
    том же каталоге, что и файл, путь состоит только из имени файла. А если 
    программа запущена каталогом выше, в относительный путь войдёт ещё и 
    название подкаталога с файлом.

![3____1609242386.jpg](attachment:3____1609242386.jpg)

Вернёмся к вызову метода `read_csv`:

In [17]:
df = pd.read_csv('music_log.csv') # аргумент — путь к файлу 

Теперь вы знаете два способа создать датафрейм:

- прямо в коде собрать его из списков,
- прочитать файл .csv и перенести данные из файла в датафрейм.

Всё это ради встроенных возможностей датафреймов для анализа данных.

## Обзор данных



Аналитики знакомятся с данными определённым образом - на экран выводят первые строки таблицы — или, наоборот, последние.

Чтобы изменить число строк, задайте его через аргумент метода. Например, `head(10)` вернёт первые 10 строк.
Метод `tail()` ведёт себя точно так же, только возвращает не первые, а последние строки таблицы.
Методы `tail()` и `head()` помогают составить общее впечатление о данных, не распечатывая всю таблицу целиком. Однако первое впечатление будет обманчиво, если опираться на малую часть таблицы. Более глубокое понимание дадут:
знание структуры датафрейма,
доступ к документации,
атрибуты, хранящие метаданные датафрейма.

### Структура датафрейма


Датафрейм (DataFrame) — это двумерная структура данных Pandas, где у каждого элемента — две координаты, строка и столбец. Обычно к строкам обращаются по их порядковому номеру, а к столбцам — по названиям:

![Untitled_16_1607602284.png](attachment:Untitled_16_1607602284.png)

Каждая строка — это одно наблюдение, запись об объекте исследования. А столбцы — признаки объекта. Например, когда пользователь слушает трек, в таблице появляется новая строка. В каждом столбце записываются признаки нового события: какой трек слушал пользователь, как долго, кто автор трека.

### Атрибуты датафрейма


Датафрейм хранит не только сами данные, но и общую информацию об этих данных. Примеры таких атрибутов:
- dtypes — тип значений в колонках,
- columns — названия колонок,
- shape — размер таблицы.
Обращаясь к атрибутам, аналитик составляет представление обо всей таблице. В следующих темах вы увидите, как атрибуты помогают быстро найти и восполнить недостатки в датафрейме.
Синтаксис атрибутов напоминает методы датафрейма: после названия переменной ставится точка, за ней — имя атрибута. Но есть и отличие: после имени метода всегда ставят скобки, а при вызове атрибута — нет.
Типы данных в таблице. Каждая колонка может содержать значения разных типов. Об этом расскажет атрибут `dtypes`:

In [18]:
print(df.dtypes) 

  user_id      object
total play    float64
Artist         object
genre          object
track          object
dtype: object


![Untitled_17_1607602306.png](attachment:Untitled_17_1607602306.png)

Это типы данных библиотеки Pandas. Каждому из них соответствует определённый тип данных в Python:

In [None]:
_	               Тип в Python	  Тип в Pandas

Строка	                str	         object

Целые числа	            int	         int64

Вещественные числа	    float	     float64

Логический тип данных	bool	     bool

Одна деталь: `object` в Pandas может соответствовать не только строке, но и данным, которые не подходят ни под один другой тип.

Названия колонок. Атрибут `columns` содержит список с названиями столбцов таблицы:

In [20]:
print(df.columns)

Index(['  user_id', 'total play', 'Artist', 'genre', 'track'], dtype='object')


![Untitled_18_1607602407.png](attachment:Untitled_18_1607602407.png)

Атрибут `columns` вернул список с названиями столбцов. Каждое название относится к типу данных `object`.



Размер таблицы. О размерах таблицы с данными сообщает атрибут `shape`. В нём содержится кортеж, особый тип списков. Первое значение в кортеже — это количество строк, второе — столбцов:

In [21]:
print(df.shape) 

(67963, 5)


![Untitled_19_1607602439.png](attachment:Untitled_19_1607602439.png)

В таблице 67963 строки и 5 столбцов.

Кортежи похожи на списки, но
- списки пишут в квадратных скобках, а кортежи — в круглых;
- элементы списка можно менять, добавлять новые или удалять. Кортеж — неизменяемая структура.

Получить отдельное значение из кортежа так же просто, как и из списка:

In [22]:
# получаем количество строк из кортежа
rows_number = df.shape[0]

# получаем количество столбцов из кортежа
columns_number = df.shape[1] 

Запрос всех атрибутов
Вы видели, как обращаться к каждому атрибуту таблицы отдельно. Но можно запросить и все вместе. Для этого служит метод `.info()`:

In [23]:
df.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 67963 entries, 0 to 67962
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0     user_id   67963 non-null  object 
 1   total play  67399 non-null  float64
 2   Artist      59646 non-null  object 
 3   genre       64661 non-null  object 
 4   track       64804 non-null  object 
dtypes: float64(1), object(4)
memory usage: 2.6+ MB


![5_5_20_1614744901.jpg](attachment:5_5_20_1614744901.jpg)

Часто знакомство с данными начинается именно с вызова `info()`. Аналитик изучает результаты и выбирает тактику работы с таблицей.
Например, здесь в разных столбцах разное количество элементов со значениями `non-null`:
- `Artist` — `60157`,
- `genre` — `65223`,
- `track` — `65368`.

Значит, в каждой из этих колонок встречаются «нулевые», пропущенные значения. Их придётся обработать прежде, чем анализировать данные. Этот вывод не получилось бы сделать, глядя только на результат команды `head()`.

Работа с пропущенными значениями и вообще предобработка данных — одна из самых интересных в работе аналитика. Но о ней мы поговорим на следующих занятиях.

### Задача 1.


Прочитайте файл `music_log.csv` и сохраните его данные в переменной `df`. Создайте переменную `shape_table` и сохраните в ней размеры таблицы `music_log.csv`. Напечатайте на экране размер таблицы в таком виде:

Размер таблицы ...

### Задача 2.


Сохраните в `observations_table` количество строк таблицы. Для этого получите первый элемент из кортежа `shape_table`. 
Выведите результат на экран в следующем виде:
Количество наблюдений: ... 

### Задача 3.


Вызовите метод `info()`. Найдите в его выводе количество наблюдений (количество строк таблицы, вы выводили его на экран в предыдущей задаче).
Вручную присвойте это число переменной `observations_info_table`.

### Задача 4.


Надеюсь, вы ещё не запутались. Осмотритесь и заодно вспомните условные конструкции.
Поскольку в ходе работы аналитик объявляет разные переменные и сохраняет в них добытую разными способами информацию, запутаться очень легко. Поэтому необходимо проверять себя и текущие результаты. Сравните полученные результаты в переменных `observations_info_table` и `observations_table`. Если их значения совпадают, выведите количество наблюдений и сообщение:

'Решение верно, количество наблюдений равно'

Если значения переменных не совпадают, выведите сообщение:

'Решение неверно, проверьте ещё раз!' 

### Индексация в DataFrame


Теперь вы умеете составлять общее представление о данных в таблице. Часто для решения задачи нужны не все данные, а их небольшая часть. Следующим образом можно создать фильтр, чтобы посчитать офсы дешевле `190000`:

In [25]:
import pandas
realty_df = pandas.read_csv('/datasets/yandex_realty_data.csv')

filtered_objects = []

for index in range(len(realty_df)):
    if realty_df['price'][index] <= 190000:
        filtered_objects.append(realty_df['price'][index])
        
print(len(filtered_objects))

30326


Это корректное решение задачи. Но пять строчек кода вы сможете заменить всего одной:

In [26]:
import pandas
realty_df = pandas.read_csv('/datasets/yandex_realty_data.csv')

print(realty_df[realty_df['price'] <= 190000]['price'].count())

30326


Такой код лаконичнее: он избавляет от цикла, условной конструкции, пустой переменной `filtered_objects`. Вместо них остаётся один инструмент — индексация.
Поначалу индексация может показаться сложной темой. Дайте себе время потренироваться и привыкнуть к новому синтаксису.

### Индексация по координатам


К каждой ячейке таблицы можно обратиться по двум координатам: номеру строки и названию столбца. Такой способ запрашивать данные называют индексацией.
Доступ к индексации открывает атрибут `loc[строка, столбец]`.
Получим содержимое ячейки из пятой строки, колонки `genre`:

![Untitled_23_1607621006.png](attachment:Untitled_23_1607621006.png)

In [27]:
import pandas as pd

df = pd.read_csv('music_log.csv')

result = df.loc[4, 'genre']
print(result)

pop


Нумерация строк начинается с нуля — как всегда.

Через индексацию можно запросить отдельные ячейки и их группы. Например:
- все ячейки из отдельной строки,
- из нескольких строк,
- из среза строк.

![Untitled_24_1607621055.png](attachment:Untitled_24_1607621055.png)

Срезы строк в таблице похожи на срезы в списках. Через `:` вы указываете начало и конец среза, и получаете все значения между ними. Края диапазона при этом попадают в срез: запрос строк `df.loc[2:4]` вернёт строки с индексами `2`, `3` и `4`.
Индексация колонок устроена так же. Только ещё можно обращаться к списку колонок, а не только их срезу:

![Untitled_25_1607621073.png](attachment:Untitled_25_1607621073.png)

Другие примеры индексации:

In [None]:
Данные                              Индексация
Одна ячейка                         .loc[7, 'genre']
Один столбец                        .loc[:, 'genre']
Несколько столбцов                  .loc[:, ['genre', 'Artist']]
Несколько столбцов подряд (срез)	.loc[:, 'total play': 'genre']
Одна строка                     	.loc[1]
Все строки, начиная с заданной   	.loc[1:]
Все строки до заданной          	.loc[:3]
Несколько строк подряд (срез)    	.loc[2:5]

Поэкспериментируйте с индексацией в Pandas. Удалите `#`, чтобы раскомментировать любую из строк и запустите код. Индексация может занять 10-15 секунд.

In [None]:
import pandas as pd

df = pd.read_csv('music_log.csv')

# получение одной ячейки
index_res = df.loc[7, 'genre']

# срез столбца
index_res = df.loc[:, 'genre']

# срез нескольких столбцов по их названиям
index_res = df.loc[: , ['genre', 'Artist']]

# срез нескольких столбцов от одного до другого
index_res = df.loc[:, 'total play': 'genre']

# одна строка
index_res = df.loc[1]

# срез всех строк, начиная с заданной
index_res = df.loc[1:]

# срез всех строк до заданной
index_res = df.loc[:3]

# срез нескольких строк подряд
index_res = df.loc[2:5]

print(index_res)

Срезы по номерам строк и списки колонок можно сочетать:

In [None]:
Данные                                             Индексация
Срез строк в заданном диапазоне и выбор 
определённого столбца                              .loc[2:10, 'genre']
Срез нескольких столбцов подряд и выбор 
определённой строки                                .loc[5, 'total play': 'genre']
Выбор заданных столбцов и определённой строки      .loc[10, ['total play', 'Artist']]
Выбор заданных столбцов и срез нескольких строк 
подряд                                             .loc[7:10, ['total play', 'genre']]

Вспомните, как вы играли в «Морской бой». Эта игра подходит для навыков индексации. Игровое поле можно представить как таблицу:

- буквой 'Х' заполним попадания во вражеские корабли.
- знаком '-' — пустые клетки
- нулями — скрытые клетки.

![Untitled_26_1607621256.png](attachment:Untitled_26_1607621256.png)

In [13]:
import pandas as pd

data = [[0,0,0,0,0,0,0,0,0,0],
        [0,'-','-','-',0,0,0,0,0,0],
        [0,'-','X','-',0,0,'X','X','X','X'],
        [0,'-','X','-',0,0,0,0,0,0],
        [0,'-','-','-',0,0,0,0,0,0],
        [0,0,'-',0,0,0,0,0,'X',0],
        [0,'-','X','X',0,0,0,0,0,0],
        [0,0,'-','-',0,0,0,0,0,0],
        [0,0,0,0,'-','X',0,0,0,0],
        [0,0,0,0,0,0,0,0,0,0]]

columns = ['А','Б','В','Г','Д','Е','Ж','З','И','К']

battle = pd.DataFrame(data = data, columns = columns)

print(battle) 

   А  Б  В  Г  Д  Е  Ж  З  И  К
0  0  0  0  0  0  0  0  0  0  0
1  0  -  -  -  0  0  0  0  0  0
2  0  -  X  -  0  0  X  X  X  X
3  0  -  X  -  0  0  0  0  0  0
4  0  -  -  -  0  0  0  0  0  0
5  0  0  -  0  0  0  0  0  X  0
6  0  -  X  X  0  0  0  0  0  0
7  0  0  -  -  0  0  0  0  0  0
8  0  0  0  0  -  X  0  0  0  0
9  0  0  0  0  0  0  0  0  0  0


Оценим ситуацию на поле. Запросим столбец `'В'` — там уже началась атака на корабль:

In [14]:
print(battle.loc[:,'В']) 

0    0
1    -
2    X
3    X
4    -
5    -
6    X
7    -
8    0
9    0
Name: В, dtype: object


Атака уже началась в седьмой строке — то есть строке с индексом 6. Но корабль ещё не убит, а выстрелы в ячейки сверху и снизу не попали в цель. Значит, нужно оценить расположение корабля по горизонтали. Запросим седьмую строку целиком:

In [15]:
print(battle.loc[6]) 

А    0
Б    -
В    X
Г    X
Д    0
Е    0
Ж    0
З    0
И    0
К    0
Name: 6, dtype: object


Корабль ориентирован по горизонтали. В него уже попали два выстрела — они пришлись на столбцы В и Г. Оценим ситуацию вокруг корабля: посмотрим строки с 5 по 7:

In [16]:
print(battle.loc[5:7]) 

   А  Б  В  Г  Д  Е  Ж  З  И  К
5  0  0  -  0  0  0  0  0  X  0
6  0  -  X  X  0  0  0  0  0  0
7  0  0  -  -  0  0  0  0  0  0


Очевидно, что следующий выстрел нужно сделать по координате с индексом `6` и названием колонки `Д`.
Это было небольшое морское учение.

### Сокращённая запись при индексации


На практике чаще применяют сокращённую форму записи для индексации. В ней не вызывают атрибут `loc`, а сразу пишут индексы в квадратных скобках:

In [None]:
_                             Полная запись             Сокращённая запись
Один столбец                     .loc[:, 'genre']               ['genre']
Несколько столбцов               .loc[:, ['genre', 'Artist']]   df[['genre', 'Artist']]
Все строки, начиная с заданной   .loc[1:]                       df[1:]
Все строки до заданной           .loc[:3] (включая 3)           df[:3] (не включая 3)
Несколько строк подряд (срез)    .loc[2:5] (включая 5)          df[2:5] (не включая 5)
Одна ячейка                      .loc[7, 'genre']               -
Одна строка                      .loc[1]                        -
Несколько столбцов подряд (срез) .loc[:, 'total_play': 'genre'] -


Из таблицы видно, что индексация при сокращённой записи устроена немного иначе, чем при полной:
- в срезы не входит конец диапазона,
- не все запросы в полной записи можно перевести в сокращённую.

Но сокращенная запись подходит для самых частых запросов: получения одного или нескольких столбцов, среза строк.

In [33]:
import pandas as pd

df = pd.read_csv('music_log.csv')

# срез столбца
index_res = df['genre']

print(index_res)

0            pop
1        ambient
2        ambient
3          dance
4            pop
          ...   
67958        pop
67959      dance
67960      metal
67961        pop
67962        NaN
Name: genre, Length: 67963, dtype: object


In [34]:
# срез нескольких столбцов по их названиям
index_res = df[['genre', 'Artist']]

print(index_res)

         genre        Artist
0          pop    Marina Rei
1      ambient  Stive Morgan
2      ambient  Stive Morgan
3        dance           NaN
4          pop        Rixton
...        ...           ...
67958      pop  Nadine Coyle
67959    dance  Digital Hero
67960    metal       Red God
67961      pop  Less Chapell
67962      NaN           NaN

[67963 rows x 2 columns]


### Логическая индексация


Индексацию можно сделать более умной, добавив к ней логическое выражение. Вспомните, как делали фильтры и счётчики без `pandas`:
- В цикле проходили по таблице.
- В условной конструкции с if проверяли условие. Если оно выполнялось — сохраняли подходящие строки в переменную или увеличивали значение счётчика.

Этот сложный алгоритм в pandas можно записать одной строчкой. Сначала разберём фильтрацию.

Найдём все строки, где в столбце B встречается 'X':

In [17]:
battle.loc[battle.loc[:,'В'] == 'X']  

Unnamed: 0,А,Б,В,Г,Д,Е,Ж,З,И,К
2,0,-,X,-,0,0,X,X,X,X
3,0,-,X,-,0,0,0,0,0,0
6,0,-,X,X,0,0,0,0,0,0


В привычную индексацию мы добавили логическое выражение. Эта техника называется логической индексацией.
Счётчик выглядит немногим сложнее. Посчитаем ячейки в `B` со значением `'X'`. Сначала получим эти ячейки:

![untitled__63_1_1627458866.jpg](attachment:untitled__63_1_1627458866.jpg)

Чтобы посчитать получившиеся ячейки, вызовем метод `count()`:

In [18]:
print(battle.loc[battle.loc[:,'В'] == 'X']['В'].count())  

3


Конечно, считать методом `count()` попадания в «морском бое» — что стрелять из пушки по воробьям. Но в анализе таблиц с тысячами строк этот метод пригодится.
У логической индексации тоже бывает сокращённая запись. Пример выше можно записать следующим образом:

In [19]:
print(battle[battle['В'] == 'X']['В'].count()) 

3


Подобная форма логической индексации встречается намного чаще.

Здесь можно использовать логические выражения с любыми логическими операциями: `==`, `!=`, `>`, `<`, `>=`, `<=`, а также функции-предикаты, которые возвращают логическое значение.

Поэкспериментируйте с логической индексацией:

In [38]:
import pandas as pd

df = pd.read_csv('music_log.csv')

# строки датафрейма, в которых жанр — джаз (jazz)
jazz_df = df[df['genre'] == 'jazz']
jazz_df

Unnamed: 0,user_id,total play,Artist,genre,track
5,4166D680,3.007000,Henry Hall & His Gleneagles Hotel Band,jazz,Home
10,D3DD8D00,8.836000,Steve Campbell,jazz,Morning Dew
77,9AE82E5C,1.014000,Ritmo Natural,jazz,Cumbia Cha Cha
94,A2CC841A,3.204337,Walter Kemp3oh!,jazz,Intuit
126,C31591B3,2.135351,Christy Baron,jazz,The Shadow of Your Smile
...,...,...,...,...,...
67622,23D08F4A,489.874286,Cowboys From Hell,jazz,Urbi Et Orbit
67706,91B6F09B,4.470775,The Jazz Fiddlers,jazz,Co ' Long Mule!
67757,BB8802D4,17.165162,Lou Camporeale,jazz,Muy Bueno
67768,4F35388,348.000000,Larry Young,jazz,Monk's Dream


In [39]:
# строки датафрейма, в которых время прослушивания total_play больше 90
high_total_play_df = df[df['total play'] > 90] 
high_total_play_df

Unnamed: 0,user_id,total play,Artist,genre,track
0,BF6EA5AF,92.851388,Marina Rei,pop,Musica
1,FB1E568E,282.981000,Stive Morgan,ambient,Love Planet
2,FB1E568E,282.981000,Stive Morgan,ambient,Love Planet
4,82F52E69,193.776327,Rixton,pop,Me And My Broken Heart
7,386FE1ED,211.880000,,electronic,Riviera
...,...,...,...,...,...
67954,6E8E430E,139.627717,Alt & J,trance,Emotion
67955,D83CBA77,185.000000,TKN,rock,Не отступай
67957,18510741,109.000000,Steel Pulse,reggae,Chant A Psalm
67958,2E27DF51,220.551837,Nadine Coyle,pop,Girls On Fire


In [40]:
# строки датафрейма, в которых время прослушивания total_play меньше или равно 10
low_total_play_df = df[df['total play'] <= 10]
low_total_play_df

Unnamed: 0,user_id,total play,Artist,genre,track
3,EF15C7BA,8.966,,dance,Loving Every Minute
5,4166D680,3.007,Henry Hall & His Gleneagles Hotel Band,jazz,Home
6,F4F5677,0.100,,classicmetal,
8,A5E0D927,3.161,Andrew Paul Woodworth,pop,The Name of This Next Song Is Called
10,D3DD8D00,8.836,Steve Campbell,jazz,Morning Dew
...,...,...,...,...,...
67950,25A29C7,3.496,,dance,Mumbai
67951,A6E13637,1.318,Julien Mier,dance,Nearby
67953,A06381D8,2.502,Flip Grater,folk,My Old Shoes
67956,816FBC10,2.000,89ers,dance,Go Go Go


Чтобы применить несколько условий для фильтрации, сначала примените первое условие и сохраните результат. Затем вызовите логическую индексацию со вторым условием:

In [11]:
import pandas as pd

df = pd.read_csv('music_log.csv')

# выбираем строки, в которых жанр - джаз, и время воспроизведения находится в диапазоне от 80 до 130
df = df[df['total play'] >= 80]
df = df[df['total play'] <= 130]
df = df[df['genre'] == 'jazz']

df

Unnamed: 0,user_id,total play,Artist,genre,track
406,7F77F050,111.398000,,jazz,
1491,E7FD0BD8,118.992000,,jazz,
2107,C239B913,99.482217,Kaja Draksler Octet,jazz,Mirabile Mysterium / Births
2368,7EF4E404,91.414000,The Glenn Crytzer Orchestra,jazz,The 408 Special
6196,70F74E63,92.965623,Nighthawks,jazz,Still Happy
...,...,...,...,...,...
60591,DE8CC264,101.545207,Cyrus Chestnut,jazz,Caravan
61940,EDD05F4F,84.638000,Freddy Cole,jazz,Temptation
62682,AEC6E89B,107.406043,The Jazz Steppers,jazz,Something Else
66986,A4D6D142,115.991389,Pelbo,jazz,The Noise


Это последовательное применение логической индексации.

### Задача 1.


Из таблицы в переменной `df` извлеките два столбца: `genre` и `Artist`. Результат сохраните в `genre_fight`. Выведите результат на экран.

### Задача 2.


Добавьте в код подсчёт треков жанра «поп». С помощью логической индексации получите ячейки со значением `'pop'` и посчитайте их методом `count()`.

Результат сохраните в переменной `genre_pop`. Напечатайте его на экране в таком виде:

Число прослушанных треков в жанре поп равно ...

### Задача 3.


Добавьте подсчёт треков в жанре `'rock'`. Решение будет похожим: изменится только логическое выражение.

Сохраните результат в переменной `genre_rock`. Напечатайте ответ на экране в таком виде:

`Число прослушанных треков в жанре рок равно ...`

### Задача 4.


Напишите условную конструкцию, которая сравнит результаты предыдущих расчётов:
- если значение 'genre_pop' больше — выведите сообщение 'Поп-музыку слушают больше.';
- если больше 'genre_rock' — 'Рок слушают больше.'.

## Объект Series


Мы обещали объяснить, почему в сокращённой записи нельзя получить доступ к отдельным строкам и ячейкам. Чтобы в этом разобраться, нужно глубже понять устройство таблиц в `pandas`.

Если из таблицы извлечь несколько столбцов или строк, вы получите новую таблицу:

In [44]:
import pandas as pd

df = pd.read_csv('music_log.csv')
print(type(df))

part_df = df[['genre', 'Artist']]
print(type(part_df)) 

<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.frame.DataFrame'>


Но если извлечь только один столбец, результатом станет объект другого типа — `Series`.

In [45]:
part_df = df['Artist']
print(type(part_df)) 

<class 'pandas.core.series.Series'>


`Series` — это блоки, из которых состоят таблицы. Вот как это устроено.

## Таблицы и Series

![Frame_6_1637764403.png](attachment:Frame_6_1637764403.png)

Каждая колонка таблицы — отдельный объект типа `Series`. Из таблицы можно извлечь отдельные `Series`, а из `Series` — собрать новую таблицу.

В отличие от таблиц, `Series` — одномерная структура. Если в таблице вы обращались к данным по двум координатам, имени колонки и индексу, то в `Series` достаточно только индекса.

При этом имя у `Series` всё же есть. Когда из нескольких колонок собирают таблицу, имя `Series` становится названием колонки. Но для работы с отдельной Series имя обычно не нужно.

Кроме имени, у `Series` есть длина — количество ячеек.


## Индексация в Series


Индексация `Series` действует так же, как и в датафреймах. Главное отличие — отсутствие второй оси координат:

In [46]:
import pandas as pd
df = pd.read_csv('music_log.csv')

# Получаем Series из датафрейма
artist = df['Artist']

# Получаем ячейку из Series по единственной координате
print(artist[0]) 

Marina Rei


В датафреймах такой запрос ячейки привёл бы к ошибке:

In [47]:
# В сокращённой записи пытаемся получить строку
# из таблицы по единственной координате
print(df[0]) 

KeyError: 0

При сокращённой записи, в таблице нельзя обратиться к отдельной строке, не указывая в то же время название колонки. В `Series` колонка только одна, поэтому такой проблемы нет.

С похожим устройством данных вы сталкивались, когда изучали сложные структуры: списки словарей и словари списков. Там тоже доступ к данным открывался по двум координатам:
- в списке словарей сначала указывают индекс списка, а потом — ключ словаря.
- так же и в словаре списков: сначала указывают ключ, потом индекс.

Датафреймы `pandas` — можно сравнить со словарём списков. Чтобы получить данные из таблицы, нужно указать имя колонки и индекс. В этом сравнении `Series` похожи на списки, а вся таблица — на словарь списков.

В остальном индексация в `Series` похожа на индексацию в датафрейме. Здесь тоже есть полная и сокращённая запись:

In [None]:
_                                  Полная запись                	Сокращённая запись
Один элемент                    	total_play.loc[7]               	total_play[7]
Несколько элементов             	total_play.loc[[5, 7, 10]]      	total_play[[5, 7, 10]]
Несколько элементов подряд (срез)	total_play.loc[5:10] (включая 10)	total_play[5:10] (не включая 10)
Все элементы, начиная с заданного	total_play.loc[1:]              	total_play[1:]
Все элементы до заданного       	total_play.loc[:3] (включая 3)  	total_play[:3] (не включая 3)

Логическая индексация в `Series` тоже работает. Она выглядит существенно проще, чем в датафреймах. В `Series` достаточно одного логического условия — и не нужно указывать на столбец, из которого индексация должна вернуть данные:

![Frame_5_1637764427.png](attachment:Frame_5_1637764427.png)

Когда для анализа данных из всей таблицы достаточно одного столбца, лучше извлечь его в отдельную переменную. Тогда не придётся каждый раз указывать имя столбца. Несколько задач помогут в этом убедиться.

## Яндекс.Музыка: Series

Чтобы Яндекс.Музыка рекомендовала пользователям интересную музыку, алгоритм должен понимать их вкусы. Что-то пользователь расскажет сам: укажет любимых исполнителей, добавит некоторые треки в избранное. Но аналитики часто знают о пользователях больше, чем они сами.

Если пользователь перестал слушать трек после первых 10 секунд — это может означать, что такая музыка ему не подходит. Чтобы посчитать такие недослушанные треки, достаточно колонки с длительностью прослушивания и трёх инструментов:
- Series — чтобы сохранить колонку в переменную;
- логической индексации — чтобы найти треки, которые слушали меньше 10 секунд;
- метода count() — чтобы посчитать эти треки.

In [None]:
import pandas as pd
df = pd.read_csv('music_log.csv')

# сохраняем Series в отдельную переменную
total_play = df['total play']

# через логическую индексацию получаем недослушанные треки,
# и считаем их методом count()
print(total_play[total_play <= 10].count()) 

По той же схеме вы сделаете небольшое исследование. Пользователи могут чаще пропускать треки определённых жанров: например, «рок» или «поп». Сравните эти два жанра, выделив нужные данные в `Series`.

# 1.
Из df получите таблицу только с жанром rock и сохраните её в переменной rock.

## 2.
Выделите время прослушивания роковых композиций в особую структуру данных. Сохраните колонку `'total play'` таблицы `rock` в переменной `rock_time`.

## 3.
Посчитайте треки в `rock_time`, которые слушали пять секунд или менее. Это пропущенные композиции: пользователи начинали их слушать, но быстро выключали.
Результат сохраните в переменной `rock_haters` и выведите на экран с пояснением:
`Количество пропущенных треков жанра рок равно ... `

## 4.
Теперь исследуйте любителей поп-музыки.
Выберите в таблице `df` только строки с жанром `'pop'` и сохраните эту новую таблицу в переменной `pop`.

## 5.
Из таблицы `pop` извлеките столбец `'total play'` и сохраните его в переменную `pop_time`.

## 6.
Посчитайте треки в `pop_time`, которые слушали пять секунд или менее. Это пропущенные композиции: пользователи начинали их слушать, но быстро выключали. Результат сохраните в переменной `pop_haters` и напечатайте на экране в таком виде:

`Количество пропущенных треков жанра поп равно ... `

## 7.
Вы посчитали пропущенные треки для двух жанров. Не удаляя вывод количества пропущенных треков, рассчитайте их долю: отношение к общему числу треков того же жанра.
- rock_haters разделите на общее число треков в таблице rock. Результат сохраните в переменную rock_skip.
- pop_haters — на число треков в pop. Результат сохраните в pop_skip.
Выведите значения новых переменных в такой форме:

`Доля пропущенных композиций жанра рок равна: ...`

`Доля пропущенных композиций жанра поп равна: ... `

## Лаборатория индексации
Индексы в датафреймах — сложная тема. Прежде чем двигаться дальше, вы поупражняетесь в индексации и сыграете в морской бой:

![Frame_41_1607624185.png](attachment:Frame_41_1607624185.png)

Эту расстановку кораблей мы сохранили в файле `game_board.csv`:
- пустым клеткам в датафрейме соответствуют ячейки со значением `0`.
- ячейки с кораблём — `1`.

## 1.
Импортируйте библиотеку pandas и считайте csv-файл `game_board.csv` в датафрейм `board_df`.

## 2.
Выведите на экран корабль под номером `1` — с одной палубой. Для этого обратитесь к соответствующей ячейке по номеру строки и названию столбца. Примените полную запись индексации.

## 3.
Выведите на экран корабль `2` с помощью обычной индексации. Запросите срез строк, на которых расположен корабль, и выберите нужный столбец.
В решении примените полную запись с атрибутом `.loc[]`.

## 4.
Выведите на экран корабль `3` — с четырьмя палубами. Для этого задайте соответствующую строку и срез столбцов. Примените полную форму атрибута `loc[]`.

## 5.
Выведите на экран корабль `4`. В решении примените сокращённую запись логической индексации.