# Pandas вкратце

Это краткое введение в pandas, предназначенное в основном для начинающих пользователей

## Basic data structures in pandas

Pandas предоставляет два типа классов для работы с данными:

- `Series`: одномерный маркированный массив, содержащий данные любого типа
таких как целые числа, строки, объекты Python и т.д.

- `DataFrame` - двумерная структура данных, которая хранит данные как двумерный массив или таблица со строками и столбцами.

## Создание объектов

Создание `серии` путем передачи списка значений, позволяя pandas создать `RangeIndex` по умолчанию.

In [None]:
import pandas as pd
import numpy as np

In [None]:
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s

Создание `DataFrame` путем передачи массива NumPy с индексом времени с использованием функции `date_range()` и маркированными столбцами:

In [None]:
dates = pd.date_range("20130101", periods=6)

dates

In [None]:
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD")) # индексы - даты, колонки - буквы, значения - матрица 6x4 из случайных чисел)

df

Создание `DataFrame` путем передачи словаря объектов, в котором ключами являются метки столбцов, а значениями - значения столбцов.

In [None]:
df2 = pd.DataFrame(
    {
        "A": 1.0,

        "B": pd.Timestamp("20130102"),

        "C": pd.Series(1, index=list(range(4)), dtype="float32"),

        "D": np.array([3] * 4, dtype="int32"),

        "E": pd.Categorical(["test", "train", "test", "train"]),

        "F": "foo",
    }
)

df2

В примере выше для задания датасета использовался `словарь`. Колонками стали буквы, а значениями в столбцах - то, что указано после двоеточия.

`Словари` - это еще один тип данных в Python. Как и `списки`, они хранят несколько значений. Однако их назначение - отчего и функционал, - различаются

Само название "словарь" уже наталкивает нас на правильную ассоциацию. Если вы представите, что вам нужно хранить содержимое англо-русского словаря, то словари здесь подходят идеально. Запустите пример ниже

In [None]:
en_rus_dictionary = {
    'cat': 'котка',
    'dot': 'пёсель',
    'killer whale / orca': 'косатич'
}

In [None]:
en_rus_dictionary

Переменная выше хранит в себе словарь. В нем английские слова - это `ключи` словаря. Ключам словаря соответствуют `значения`. В данном случае значения - это переводы английских слов.

Используя ключи, можно получать значения этих ключей. Это чем-то похоже на то, как в списках можно получать значения по индексу. На всякий случай напомним, как работают списки, приведя краткий код-демонстрацию

In [None]:
to_do_list = [
    'Выгулять кота',
    'Проспать кукушку',
    'Выгнать капибару',
    'Вычислить колибри'
]

to_do_list

In [None]:
to_do_list[2]

Аналогично, для словарей

In [None]:
en_rus_dictionary['cat']

Вместо индексов используются ключи. В квадратных скобках передается не число-индекс, а ключ. Хотя ключом может быть и число, если того требует ситуация.

In [None]:
events = {
    1984: ['Мартин упал с моста', 'Джон стал почетным членом совета гусей', 'Лиза существовала'],
    2016: ['Володя убегает', 'Денег нет, но мы держимся', 'Ди Каприо больше не мем']
}

events[1984]

Таким образом, задав словарем dataframe, можно ключами указать заголовки, а значениями - значения столбцов датафрейма.

Причем столбцы результирующего DataFrame имеют разные dtypes:

In [None]:
df2.dtypes

## Просмотр данных

Для просмотра верхней и нижней строк кадра используйте `DataFrame.head()` и `DataFrame.tail()` соответственно:

In [None]:
df.head()

In [None]:
df.tail(3)

Отображение `DataFrame.index` или `DataFrame.columns`:

In [None]:
df.index

In [None]:
df.columns

Возвращает NumPy-представление базовых данных с помощью `DataFrame.to_numpy()` без меток индексов и столбцов:

In [None]:
df.to_numpy()

`describe()` выводит краткую статистическую информацию о ваших данных:

In [None]:
df.describe()

Транспонирование данных:

In [None]:
df.T

В транспонированных данных строки становятся столбцами, а столбцы - строками. Наглядно этот процесс продемонстрирован далее

![title](img/transpose.gif) ![title](img/transpose2.gif)

`DataFrame.sort_index()` выполняет сортировку по оси:

In [None]:
df

In [None]:
df.sort_index(axis=1, ascending=False)

`DataFrame.sort_values()` выполняет сортировку по значениям:

In [None]:
df.sort_values(by="B")

In [None]:
df # обратите внимание на то, что содержимое датафрейма не меняется, порядок остается прежним

## Выборка

### Getitem ([])
Для `DataFrame` передача одной метки позволяет выбрать столбец и получить `Series`, эквивалентный `df.A`:

In [None]:
df["A"]

In [None]:
df.A

Для DataFrame передача фрагмента `:` выбирает совпадающие строки:

In [None]:
df[0:3]

In [None]:
df["20130102":"20130104"]

### Выбор по метке

Выбор строки, соответствующей метке:

In [None]:
dates

In [None]:
df.loc[dates[0]] # выбор серии за 2013-01-01

Выделение всех строк (`:`) с помощью метки столбца `select`:

In [None]:
df.loc[:, ["A", "B"]]

При нарезке меток включаются обе конечные точки:

In [None]:
df.loc["20130102":"20130104", ["A", "B"]]


Выбор метки одной строки и столбца возвращает скаляр :

In [None]:
df.loc[dates[0], "A"]

Для получения быстрого доступа к скаляру (эквивалентно предыдущему методу):

In [None]:
df.at[dates[0], "A"]

### Выбор по позиции

Выбор по позиции переданных целых чисел:

In [None]:
df.iloc[3]

Целочисленные срезы действуют аналогично NumPy/Python:

In [None]:
df.iloc[3:5, 0:2]

In [None]:
df.iloc[[1, 2, 4], [0, 2]]

Для нарезки строк в явном виде:

In [None]:
df.iloc[1:3, :]

Для явной нарезки столбцов:

In [None]:
df.iloc[:, 1:3]

Для получения значения в явном виде:

In [None]:
df.iloc[1, 1]

In [None]:
df.iat[1, 1]

### Булево индексирование

Выберите строки, в которых df.A больше 0.

In [None]:
df

In [None]:
df[df["A"] > 0]

Выборка значений из DataFrame, для которых выполняется булево условие:

In [None]:
df[df > 0]

Использование метода `isin()` для фильтрации:

In [None]:
df2 = df.copy()
df2["E"] = ["one", "one", "two", "three", "four", "three"]
df2

In [None]:
df2[df2["E"].isin(["two", "four"])]

## Задание значений
Задание нового столбца автоматически выравнивает данные по индексам:

In [None]:
s1 = pd.Series([1, 2, 3, 4, 5, 6], index=pd.date_range("20130102", periods=6))
s1

Установка значений по метке:

In [None]:
df.at[dates[0], "A"] = 0
df

Установка значений по позициям:

In [None]:
df.iat[0, 1] = 0
df

Задание путем присваивания с помощью массива NumPy:

In [None]:
df.loc[:, "D"] = np.array([5] * len(df))
df

Задание по условию

In [None]:
df

In [None]:
df2 = df.copy()
df2[df2 > 0] = -df2
df2

## Недостающие данные

Для типов данных NumPy `np.nan` представляет собой недостающие данные. По умолчанию они не учитываются при вычислениях.

Переиндексация позволяет изменить/добавить/удалить индекс по указанной оси. При этом возвращается копия данных:

In [None]:
df

In [None]:
df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ["E"])
df1

In [None]:
df1.loc[dates[0] : dates[1], "E"] = 1
df1

`DataFrame.dropna()` удаляет все строки, в которых отсутствуют данные:

In [None]:
df1.dropna(how="any") # не удаляет ничего из df1, возвращает в качестве результата операции копию df1

`DataFrame.fillna()` заполняет отсутствующие данные:

In [None]:
df1.fillna(value=5)

`isna()` получает булеву маску, в которой значения являются `nan`:

In [None]:
pd.isna(df1)

## Операции

### Статистика
Операции в общем случае исключают пропущенные данные.

Вычислить среднее значение для каждого столбца:

In [None]:
df

In [None]:
df.mean() # среднее арифметическое значение столбцов

Вычислить медиану для каждого столбца. Медианой называется значение, которое находится в середине при сортировки значений от большего к меньшему.

Например, медианой набора {11, 9, 3, 5, 5} является число 5, так как оно стоит в середине этого набора после его упорядочивания: {3, 5, 5, 9, 11}.

In [None]:
df.median()

*Как думаете, что отражает зарплатное положение населения: среднее арифметическое или медиана?*

Рассчитайте среднее значение для каждого ряда:

In [None]:
df.mean(axis=1)

In [None]:
df.max()

In [None]:
df.min()

Посмотреть уникальные значения в столбце

In [None]:
df.iloc[:, 0].unique()

## Подсчет значений

In [None]:
s = pd.Series(np.random.randint(0, 7, size=10))
s

In [None]:
s.value_counts()

## Строковые методы

`Серия` оснащена набором методов обработки строк в атрибуте `str`, которые позволяют легко оперировать с каждым элементом массива, как в приведенном ниже фрагменте кода.

In [None]:
s = pd.Series(["A", "B", "C", "Aaba", "Baca", np.nan, "CABA", "dog", "cat"])
s

In [None]:
s.str.lower()

## Импорт и экспорт данных

### CSV
Запись в файл csv: использование `DataFrame.to_csv()`

In [None]:
df = pd.DataFrame(np.random.randint(0, 5, (10, 5)))
df

In [None]:
df.to_csv("foo.csv")

**Теперь откройте папку, где сохранен блокнот, найдите там файл foo.csv и откройте его. В каком формате сохранились данные?**

Чтение из csv-файла: использование функции `read_csv()`

In [None]:
pd.read_csv("foo.csv")

# Время практики

In [None]:
import numpy as np
import pandas as pd

**Откройте датасет под названием products_data.csv, который лежит в папке с блокнотом, в pandas**

In [None]:
# строчкой ниже напишите код чтения файла csv, назвав переменную df
# df = ...



# код ниже оставьте, как есть
# он обрабатывает численные столбцы датасета, приводя их от типа "строка / объект" к типу "число"
df['Current Price'] = df['Current Price'].str.replace(',', '')
df['Previous Price'] = df['Previous Price'].str.replace(',', '')
df['Current Price'] = pd.to_numeric(df['Current Price'], errors='coerce')
df['Previous Price'] = pd.to_numeric(df['Previous Price'], errors='coerce')
df['Amount'] = pd.to_numeric(df['Amount'], errors='coerce')
df = df.dropna()

**Выведите первые 5 записей датасета**

## **Ответьте на следующие вопросы**
- Что за данные перед нами?
- Что означают названия колонок?
- Как связаны колонки current price, price per each и amount?

заметки и пояснения по вопросам выше писать тут

---

Для ответа на вопросы можете использовать ячейку выше, или же создать свою, добавив обычную ячейку с кодом и изменив ее тип. По умолчанию в ячейках нельзя писать обычные текстовые предложения, однако вверху на панели инструментов вы найдете рядом с кнопками запуска, остановки, перезапуска вы найдете настройки типа ячейки: для кода используется `Code`, для текстовой разметки - `Markdown`. Оба типа ячеек можно "запускать", что либо запускает код, либо фиксирует ваш текст согласно разметке. Подробнее о том, что такое Markdown, можно почитать по [ссылке](https://ru.wikipedia.org/wiki/Markdown)

![title](img/markdown.png)

Меняя тип ячейки, вы сможете как писать код решения, так и писать к нему пояснения

---

## **Практикуемся брать нужные части данных**

**Выведите часть датафрейма с 100 по 150 строки, при этом пусть выводятся только столбцы Name, Current Price и Category**



**Выведите первые 15 элементов датафрейма, Current Price которых равняется 1.99**

## **Используя методы описательной статистики, определите:**

- Сколько всего записей в датасете
- Есть ли пропущенные данные в текущем датасете
- Каковы максимальные и минимальные значения в столбцах?
- Медианы и средние арифметические для столбцов. **Обращаем ваше внимание, что для расчета этих показателей требуется отобрать только численные столбцы**.

## **Определите:**

- Какие уникальные значения (unique) встречаются в столбце Amount? Чем обусловено наличие в этом столбце как целых, так и дробных чисел?
- Сколько в столбце Current Price значений > 100? Много / мало относительно общего числа?
- Как думаете, какой вклад они вносят в статистические показатели?

## **Выполните**

- Создайте переменную df2, куда поместите копию df
- Отфильтруйте записи df2 по условию так, чтобы в df2 остались только записи, в которых Current Price <= 100
- Примените к df2 те же методы описательной статистики, что и к df
- Опишите полученную разницу в показателях датафреймов df и df2