# Введение в Pandas

Pandas - это библиотека языка Python, которая обеспечивает гибкую и эффективную работу с размеченными данными.

Устанавливается через пакетный менеджер `pip`.

Установка из консоли:

```bash
    pip install pandas
```

Установка непосредственно из Jupyter notebook:
```
    ! pip install pandas
```

> *Примечание:*
> В зависимости от вашего текущего окружения, вам нужно будет запускать либо `pip`, либо `pip3`

После установки, достаточно импортировать библиотеку стандартным способом:


In [None]:
import pandas as pd

# Поддерживаемые структуры данных
- **Series** - одномерный массив, аналогичен словарю в языке Python.
- **DataFrame** - двумерный массив, аналогичен списку словарей (с одинаковыми ключами) в языке Python. По сути массив Series.
- Словарь, значениями которого являются DataFrame.

# Series
 * Можно себе представлять примерно так:
   
   ```json
    {"key1": "value1", "key2": "value2"}
    ```
   
   По сути это cтрока таблицы, в которой в ключах указаны названия колонок, а в значениях содержатся непоредственно данные:
   
    |       |  key1  | key2   |
    | :---: | :----: | :----: |
    |row -->| value1 | value2 |

In [None]:
series = pd.Series({"key1": "value1", "key2": "value2"})
series.head()

In [None]:
series_auto_index = pd.Series(["value1", "value2"])
series_auto_index.head()

In [None]:
series_custom_index = pd.Series(["value1", "value2"], index=["key1", "key2"])
series_custom_index.head()

# DataFrame

* Можно себе представлять примерно так:
    ```json
    [
        {"key1": "value1", "key2": "value2"}, 
        {"key1": "value3", "key2": "value4"}
    ]
    ```
    По сути это таблица, где каждая из строк это Series:
    |       |  key1  | key2   |
    | :---: | :----: | :----: |
    |1 row -->| value1 | value2 |
    |2 row -->| value3 | value4 |
    

In [None]:
dataframe = pd.DataFrame([
      {"key1": "value1", "key2": "value2", "key3":"value3"}, 
      {"key1": "value4", "key2": "value5"} # <-- если в одной из строк нет значения, то туда проставляется пустое значение
  ])
dataframe.head()

In [None]:
dataframe_auto_columns = pd.DataFrame([
      ["value1", "value2"], 
      ["value3", "value4"]
  ])
dataframe_auto_columns.head()

In [None]:
dataframe_custom_columns = pd.DataFrame([
      ["value1", "value2"], 
      ["value3", "value4"]
  ], columns = ["key1", "key2"])
dataframe_custom_columns.head()

# Получение информации о структуре данных

Размерность - **DataFrame.shape**, **len(DataFrame)**

- _dataframe.shape_
- _len(dataframe)_



In [None]:
dataframe.shape

In [None]:
len(dataframe)

In [None]:
dataframe.head()

# Получение информации о содержимом

Колонки и значения - **DataFrame.columns**, **DataFrame.values**

- _dataframe.colums_
- _dataframe.values_


In [None]:
dataframe.columns

In [None]:
dataframe.values

Вывод на экран  - **DataFrame.head()**, **display(DataFrame)**

- _dataframe.head()_
- _display(dataframe)_


In [None]:
import numpy as np
import pandas as pd
df = pd.DataFrame(np.random.randint(0,100,size=(100, 100)))
df.head()   # по умолчанию отображает первые 5 строк

In [None]:
from IPython.display import display
display(df)

> Numpy - библиотека языка Python для удобной и гибкой работы с массивами (в основном многомерными)

Аналогично для Series
- _series.head()_
- _display(series)_

In [None]:
pd.Series(np.random.randn(100)).head(10)

In [None]:
display(pd.Series(np.random.randn(100)))

# Обращение к данным
Два основных способа:
 - по значению индекса (**DataFrame.loc[index_value]**)
 - по порядковому номеру (**DataFrame.iloc[array_offset]**)

Зададим новый индекс (по аналогии с реляционными СУБД - первичный ключ)

In [None]:
new_dataframe = dataframe.set_index("key1")
display(dataframe)
display(new_dataframe)

In [None]:
new_dataframe.loc["value4"]   # обращение по значению индекса

In [None]:
new_dataframe.iloc[1]   # обращение по порядковому номеру

# Фильтрация 
```
dataframe[filter]
```

где _filter_ - условие или набор колонок

In [None]:
filter = dataframe["key2"].isin(["value5"])
display(dataframe)
display(dataframe[filter])

In [None]:
display(dataframe[["key1", "key3"]])