# <img style="float: left; padding-right: 10px; width: 45px" src="https://raw.githubusercontent.com/Harvard-IACS/2018-CS109A/master/content/styles/iacs.png"> CS109a Introduction to PANDAS

## Lecture 1, Pandas Intro


**Harvard University**<br/>
**Fall 2021**<br/>
**Instructors**: Pavlos Protopapas and Natesh Pillai

---

# Панды

«Пандас» - это библиотека Python, которая содержит очень полезные структуры данных, включая DataFrames, что облегчает исследовательский анализ данных (EDA).Здесь мы увидим некоторые элементарные функции на практике.

## Installing
**Using conda**

```shell
conda install pandas
```

**Using pip**
```shell
pip install pandas
```
**TIP: You can try installing a library from a jupyter notebook cell adding "!"**
```shell
# using conda
!conda install pandas
# or using pip
!pip install pandas
```

# PANDAS Basics
Let's get started with basic functionality of PANDAS!

## Importing pandas

importing pandas is as simple as next line
```python
import pandas
```
But ~~because of lazyness~~ for convenience we usually import it as `pd`

In [2]:
import pandas as pd
import requests

You can always check for the version of almost any library using `__version__`

In [212]:
pd.__version__

'1.5.3'

## структуры данных Pandas

Основными структурами данных в пандах являются «серия» (полезно для временных рядов) и «DataFrame».

- **Ряд**
  - Формальный: одномерный ndarray с этикетками оси (включая временные ряды).
  - Примерно: вы можете думать об этом как о том, как таблица электронной таблицы или таблицу реляционной базы данных из одного столбца
  
 
- ** DataFrame **
  -Формальный: двумерный, размеренный, потенциально гетерогенный табличный данных.
  - Примерно: в таблицу реляционных баз данных.Где каждый столбец *DataFrame * - это *серия *.

Оба DataFrames и Series всегда имеют *индекс *.

## pd.Series
```
pd.Series(data=None, index=None, dtype=None, name=None, copy=False)
```
When not using an index pandas will add an index for us:
```python
>>> s1 = pd.Series(range(0, 50, 10))
0     0
1    10
2    20
3    30
4    40
dtype: int64
```

**The data can be strings not just numbers**

The index can be anything, but the data and index should have the same length.

In [213]:
# серия с буквами, проставить индексы от 10 до 5 с шагом -1
s = pd.Series(data=['A', 'B', 'C', 'D', 'E'], index = range(10, 5, -1))
s

10    A
9     B
8     C
7     D
6     E
dtype: object

**We can independently access the series' values or its index**

In [214]:
s.values

array(['A', 'B', 'C', 'D', 'E'], dtype=object)

In [215]:
s.index

RangeIndex(start=10, stop=5, step=-1)

## pd.DataFrame
```
pd.DataFrame(data=None, index=None, columns=None, dtype=None, copy=None)
```
Эта структура данных также содержит помеченные оси (строки и столбцы).

|index|First Name|Last Name|
|---|---|---|
|0|Ann|Gatton|
|1|John|Fosa|
|2|Zack|Kaufman|

Класс DataFrame предлагает мощные способы их создания.Например, две строки кода Belows генерируют один и тот же объект DataFrame.
```python
# using rows
pd.DataFrame(data=[[1,2], [3,4], [5,6]], columns=['A','B'])
```
```python
# using columns
pd.DataFrame(data={'A':[1,3,5], 'B': [2,4,6]})
```
||A|B|
|-|-|-|
|0|1|2|
|1|3|4|
|2|5|6|

## Загрузка данных

Обычно для создания DataFrames, но обычно мы читаем данные из внешних источников.Это легко сделать в пандах.


In [216]:
tpl = 'https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.{}.html'

for m in ['clipboard', 'csv', 'excel', 'feather', 'fwf', 'gbq',
          'hdf', 'html', 'json', 'parquet', 'pickle', 'spss',
          'sql', 'sql_query', 'sql_table', 'stata', 'table', 'xml']:

    method = f'read_{m}'
    url =  tpl.format(method)
    print(f'{method}\t{url}')

read_clipboard	https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_clipboard.html
read_csv	https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html
read_excel	https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html
read_feather	https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_feather.html
read_fwf	https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_fwf.html
read_gbq	https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_gbq.html
read_hdf	https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_hdf.html
read_html	https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_html.html
read_json	https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_json.html
read_parquet	https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_parquet.html
read_pickle	https://pandas.pydata.org/pandas-docs/stable/reference/api/pan

**Пример**
Метод `read_html` является мощным и требует небольшого опыта.
- Первая строка обрабатывает URL и извлекает HTML, которые соответствуют критериям в DataFrames
- Заголовок станет первой строкой DataFrame, поэтому в строке 2 мы используем значения первой строки в качестве имен столбцов для DataFrame, и, наконец, мы удаляем первую строку.

In [217]:
df = pd.read_html('https://en.wikipedia.org/wiki/Harvard_University', match ='School')[0]

Когда вы используете pd.read_html() для парсинга веб-страницы, библиотека pandas пытается найти и извлечь таблицы HTML со страницы, в которых данные представлены в виде табличной структуры.

При вызове pd.read_html('https://en.wikipedia.org/wiki/Harvard_University', match='School'), pandas обращается к указанному URL-адресу ('https://en.wikipedia.org/wiki/Harvard_University') и анализирует HTML-код страницы в поисках таблиц, соответствующих определенному условию (match='School'). В данном случае, match='School' означает, что pandas будет искать таблицы, которые содержат обозначение 'School'.

После обнаружения таблицы, pandas использует встроенные парсеры HTML, такие как 'lxml', 'html5lib' или 'html.parser', для извлечения данных из таблицы. Обычно используется стандартный парсер 'lxml', если он доступен, иначе pandas пытается использовать следующий приоритетный парсер, например, 'html5lib' или 'html.parser'.

Для веб-страницы о Харвардском университете, метод pd.read_html() находит таблицу на странице, которая содержит информацию о школах в университете. Он извлекает данные из этой таблицы, а затем возвращает DataFrame, содержащий эти данные.

Важно отметить, что pd.read_html() имеет некоторые ограничения и работает лучше с простыми таблицами, чёткой структурой и без сложных вложенных элементов HTML. Если на странице присутствуют другие элементы или структуры, это может привести к неправильному или частичному извлечению данных.

Рекомендуется внимательно проверять и проверять извлеченные данные, чтобы убедиться, что они соответствуют вашим ожиданиям и не содержат некорректных значений или пропущенных данных.

In [218]:
df

Unnamed: 0,0,1
0,School,Founded
1,Harvard College,1636
2,Medicine,1782
3,Divinity,1816
4,Law,1817
5,Dental Medicine,1867
6,Arts and Sciences,1872
7,Business,1908
8,Extension,1910
9,Design,1914


In [219]:
df = pd.read_html('https://en.wikipedia.org/wiki/Harvard_University', match='School')[0]
df = df.rename(columns = df.iloc[0])[1:]
df

Unnamed: 0,School,Founded
1,Harvard College,1636
2,Medicine,1782
3,Divinity,1816
4,Law,1817
5,Dental Medicine,1867
6,Arts and Sciences,1872
7,Business,1908
8,Extension,1910
9,Design,1914
10,Education,1920


## pd.read_csv

 [`read_csv`] (https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html) является рекомендуемой отправной точкой для всех, кто изучает панду.
 
 Вы можете прочитать его документы [здесь] (https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html).


### Давайте использовать его для загрузки [цены на авокадо] (https://www.kaggle.com/neuromusic/avocado-prices)

*Это хорошо известный факт, что Millenials любят тосты авокадо.

Это также хорошо известный факт, что все тысячелетия живут в подвалах своих родителей.

*Очевидно, что они не покупают дом, потому что покупают слишком много тостов из авокадо!*

*Но, может быть, есть надежда ... если бы тысячелетний мог найти город с дешевыми авокадо, они могли бы воплотить в жизнь тысячелетнюю американскую мечту.*

В таблице ниже представлены еженедельные данные о розничном сканировании 2018 года для национального объема розничной торговли (единицы) и цены.Данные о розничной сканировании поступают непосредственно из кассовых регистров розничных продавцов на основе фактических розничных продаж Hass Avocados.Начиная с 2013 года, приведенная ниже таблица отражает расширенный набор данных о розничной торговле.Отчетность по мульти-аутлету включает в себя агрегацию следующих каналов: продуктовый, массовый, клуб, наркотики, доллар и военные.Средняя цена (авокадо) в таблице отражает стоимость за единицу (на авокадо), даже когда в мешках продаются несколько единиц (авокадо).Коды поиска продукта (PLU) в таблице предназначены только для Hass Avocados.Другие разновидности авокадо (например, зеленые) не включены в эту таблицу.

** Некоторые соответствующие столбцы в наборе данных: **

- **дата**: дата наблюдения
- **Средняя цена**: средняя цена одного авокадо
- **Тип**: обычный или органический
- **Год**: год
- **Регион**: город или регион наблюдения
- **Общий объем**: общее количество проданных авокадо
- **4046**: общее количество авокадо с PLU 4046 продано
- **4225**: общее количество авокадо с PLU 4225 продано
- **4770**: общее количество авокадо с PLU 4770 Продано

### Загрузить набор данных
Прочитайте сжатый файл CSV.Мы просим Pandas использовать первый столбец CSV в качестве индекса, чтобы избежать создания нового по умолчанию.

** Совет **: Когда вы слепы относительно того, что загружаете, или уже знаете, что это большой набор данных, вы можете исправить количество строк, которые будут загружены, используя параметр `nrow` (` nrow = none`, чтобы загрузить все иэто значение по умолчанию)

In [220]:
df = pd.read_csv('avocado.csv.zip', index_col=0, compression='zip', nrows=None)

### Грубоe изучение данных

Мы можем быстро увидеть измерение DataFrame

In [221]:
df.shape

(18249, 13)

Форма представляет собой кортеж с количеством рядов и количество столбцов

In [222]:
len(df.index), len(df.columns)

(18249, 13)

Показать только имена столбцов

In [223]:
df.columns

Index(['Date', 'AveragePrice', 'Total Volume', '4046', '4225', '4770',
       'Total Bags', 'Small Bags', 'Large Bags', 'XLarge Bags', 'type', 'year',
       'region'],
      dtype='object')

Атрибут столбцов не является списком Python.

In [224]:
type(df.columns) == pd.Index

True

Показать только индекс

In [225]:
df.index

Int64Index([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9,
            ...
             2,  3,  4,  5,  6,  7,  8,  9, 10, 11],
           dtype='int64', length=18249)

Иногда какой -то тип столбца неверен, и возможные способы обнаружения его использования`df.info()` или `df.dtypes`.

In [226]:
df.dtypes

Date             object
AveragePrice    float64
Total Volume    float64
4046            float64
4225            float64
4770            float64
Total Bags      float64
Small Bags      float64
Large Bags      float64
XLarge Bags     float64
type             object
year              int64
region           object
dtype: object

В примере, здесь `date` - это объект (способ сохранения струн Pandas).Мы можем использовать лучший тип столбца для этого.

In [227]:
df['Date'] = pd.to_datetime(df['Date'])
df.dtypes

Date            datetime64[ns]
AveragePrice           float64
Total Volume           float64
4046                   float64
4225                   float64
4770                   float64
Total Bags             float64
Small Bags             float64
Large Bags             float64
XLarge Bags            float64
type                    object
year                     int64
region                  object
dtype: object

Показать первый (по умолчанию: 5) ряды

In [228]:
df.head()

Unnamed: 0,Date,AveragePrice,Total Volume,4046,4225,4770,Total Bags,Small Bags,Large Bags,XLarge Bags,type,year,region
0,2015-12-27,1.33,64236.62,1036.74,54454.85,48.16,8696.87,8603.62,93.25,0.0,conventional,2015,Albany
1,2015-12-20,1.35,54876.98,674.28,44638.81,58.33,9505.56,9408.07,97.49,0.0,conventional,2015,Albany
2,2015-12-13,0.93,118220.22,794.7,109149.67,130.5,8145.35,8042.21,103.14,0.0,conventional,2015,Albany
3,2015-12-06,1.08,78992.15,1132.0,71976.41,72.58,5811.16,5677.4,133.76,0.0,conventional,2015,Albany
4,2015-11-29,1.28,51039.6,941.48,43838.39,75.78,6183.95,5986.26,197.69,0.0,conventional,2015,Albany


show last 2 rows

In [229]:
df.tail(2)

Unnamed: 0,Date,AveragePrice,Total Volume,4046,4225,4770,Total Bags,Small Bags,Large Bags,XLarge Bags,type,year,region
10,2018-01-14,1.93,16205.22,1527.63,2981.04,727.01,10969.54,10919.54,50.0,0.0,organic,2018,WestTexNewMexico
11,2018-01-07,1.62,17489.58,2894.77,2356.13,224.53,12014.15,11988.14,26.01,0.0,organic,2018,WestTexNewMexico


** Показать информацию о данных **

Иногда метод DataFrame `info ()` - отличный способ сделать первый снимок данных с несколькими наборами данных столбцов.Он отображает:
- имена столбцов
- Количество рядов (в качестве записей)
- Количество не нулевых значений
- Тип данных на столбец (на серию)
- использование памяти

** Совет **: Если вы знаете, что количество столбцов высокое (возможно, при печати `df.shape [1]`), то вы можете передать флаг False  на метод `info ()`, чтобы уменьшить

Информация только для глобальной информации.

In [230]:
few_columns = True
df.info(verbose = few_columns)

<class 'pandas.core.frame.DataFrame'>
Int64Index: 18249 entries, 0 to 11
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   Date          18249 non-null  datetime64[ns]
 1   AveragePrice  18249 non-null  float64       
 2   Total Volume  18249 non-null  float64       
 3   4046          18249 non-null  float64       
 4   4225          18249 non-null  float64       
 5   4770          18249 non-null  float64       
 6   Total Bags    18249 non-null  float64       
 7   Small Bags    18249 non-null  float64       
 8   Large Bags    18249 non-null  float64       
 9   XLarge Bags   18249 non-null  float64       
 10  type          18249 non-null  object        
 11  year          18249 non-null  int64         
 12  region        18249 non-null  object        
dtypes: datetime64[ns](1), float64(9), int64(1), object(2)
memory usage: 1.9+ MB


## Описательная статистика

Мы можем быстро посмотреть на некоторую статистику данных с одной строкой кода

In [231]:
df.describe()

Unnamed: 0,AveragePrice,Total Volume,4046,4225,4770,Total Bags,Small Bags,Large Bags,XLarge Bags,year
count,18249.0,18249.0,18249.0,18249.0,18249.0,18249.0,18249.0,18249.0,18249.0,18249.0
mean,1.405978,850644.0,293008.4,295154.6,22839.74,239639.2,182194.7,54338.09,3106.426507,2016.147899
std,0.402677,3453545.0,1264989.0,1204120.0,107464.1,986242.4,746178.5,243966.0,17692.894652,0.939938
min,0.44,84.56,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2015.0
25%,1.1,10838.58,854.07,3008.78,0.0,5088.64,2849.42,127.47,0.0,2015.0
50%,1.37,107376.8,8645.3,29061.02,184.99,39743.83,26362.82,2647.71,0.0,2016.0
75%,1.66,432962.3,111020.2,150206.9,6243.42,110783.4,83337.67,22029.25,132.5,2017.0
max,3.25,62505650.0,22743620.0,20470570.0,2546439.0,19373130.0,13384590.0,5719097.0,551693.65,2018.0


## Выбор данных

### Имена столбцов

Они представляют собой мощный инструмент для доступа к подгруппам или отдельным значениям (в сочетании с другими методами) в рамке данных.

## $[]$ vs $[[]]$

**Использование имени столбца в качестве ключа вернет значения столбца как серия типов**
```python
# Возвращает серию со значениями DataFrame для столбца 'my_col'
df['my_col']
# Это дает тот же доступ, но не рекомендуется.Не могу работать, когда есть пространство или не разрешенное Чар во имя.
df.my_col
```
**Использование списка имен столбцов Python в качестве ключа вернет суб -данные о данных с этими столбцами**
```python
# возвращает DataFrame с двумя столбцами
df[['my_col_A', 'my_col_B']]
# возвращает серию со значениями my_col_a
df[['my_col_A']]
```

In [232]:
# это должно быть ложным, потому что мы просто говорим, что имя столбца внутри скобков возвращает серию
type(df['AveragePrice']) == pd.DataFrame

False

In [233]:
type(df['AveragePrice']) == pd.Series

True

In [234]:
# Это должно быть правдой, потому что мы говорим, что список имен столбцов внутри ковычек возвращает субсидийный фрейм
type(df[['AveragePrice']]) == pd.DataFrame

True

Доступ к серии столбцов

In [235]:
df['AveragePrice'].head()

0    1.33
1    1.35
2    0.93
3    1.08
4    1.28
Name: AveragePrice, dtype: float64

Доступ к подданому кафере из одного столбца

In [236]:
df[['AveragePrice']].head()

Unnamed: 0,AveragePrice
0,1.33
1,1.35
2,0.93
3,1.08
4,1.28


Давайте попробуем еще раз визуализировать разницу, используя метод «значения», которые возвращают данные как массив Numpy.

In [237]:
df['AveragePrice'].values

array([1.33, 1.35, 0.93, ..., 1.87, 1.93, 1.62])

In [238]:
df[['AveragePrice']].values

array([[1.33],
       [1.35],
       [0.93],
       ...,
       [1.87],
       [1.93],
       [1.62]])

Это связано с тем, что `series.values` возвращает одномерный массив со значениями столбца и «DataFrame.values» возвращает двухмерный массив, который можно рассматривать как массив рядов.

In [239]:
df['AveragePrice'].values.shape, df[['AveragePrice']].values.shape

((18249,), (18249, 1))

**Упражнение**
В приведенной ниже ячейке заполняйте пробелы, чтобы отобразить первые 10 рядов фрейма данных с столбцами `date` и `Average price`. Помните, что DataFrame - это класс, который позволяет делать композиции из цепочек данных.

In [240]:
df[['Date','AveragePrice']].head(10)

Unnamed: 0,Date,AveragePrice
0,2015-12-27,1.33
1,2015-12-20,1.35
2,2015-12-13,0.93
3,2015-12-06,1.08
4,2015-11-29,1.28
5,2015-11-22,1.26
6,2015-11-15,0.99
7,2015-11-08,0.98
8,2015-11-01,1.02
9,2015-10-25,1.07


## Фильтрация

Выражение, подобное тому, что показано ниже, представляет собой условие, которое вернет логический список со многими логическими значениями в виде значений в серии `df ['date']`. И это число, его длина составляет одинакового размера количества строк в DataFrame DF.
`` Python
df ['date'] == '2015-10-25'
```
Логический список будет правдой для рядов, где условие является истинным и ложным в противном случае.Список логических значений позволяет фильтрующим на основе данных на основе условия.

In [241]:
condition = df['Date'] == '2015-10-25'
condition

0     False
1     False
2     False
3     False
4     False
      ...  
7     False
8     False
9     False
10    False
11    False
Name: Date, Length: 18249, dtype: bool

In [242]:
df[condition].head()

Unnamed: 0,Date,AveragePrice,Total Volume,4046,4225,4770,Total Bags,Small Bags,Large Bags,XLarge Bags,type,year,region
9,2015-10-25,1.07,74338.76,842.4,64757.44,113.0,8625.92,8061.47,564.45,0.0,conventional,2015,Albany
9,2015-10-25,1.09,358478.08,236814.29,64607.97,304.36,56751.46,31826.88,24924.58,0.0,conventional,2015,Atlanta
9,2015-10-25,1.19,656892.03,53766.25,397911.35,49085.74,156128.69,149987.55,6141.14,0.0,conventional,2015,BaltimoreWashington
9,2015-10-25,1.11,59874.45,29521.58,10089.82,6551.57,13711.48,13660.98,0.0,50.5,conventional,2015,Boise
9,2015-10-25,1.02,534249.47,4005.39,430725.78,191.31,99326.99,94581.94,4745.05,0.0,conventional,2015,Boston


Обычно можно найти такого рода выражения напрямую
```python
df[df['Date'] == '2015-10-25']
```


## Логические выражения

** Пример выражений**
```python
condition = df[col] > value
condition = df[col] <= value
condition = df[col] == value
condition = df[col] != value
# in list
condition = df[col].isin([value1, value2])
# not in list
condition = ~df[col].isin([value1, value2])
# between (inclusive)
condition = df[col].between(value1, value2)
```

**Тогда мы можем объединить различные условия с логическими операторами, такими как `&` или `|`**
```python
df.loc[cond1 & cond2]
df.loc[cond1 | cond2]
```
**Эти вышеупомянутые выражения могут быть выполнены `без оператора LOC`**
```python
df[cond1 & cond2]
df[cond1 | cond2]
```

**TIP:** Многие проблемы можно избежать, используя скобку для каждого простого выражения в ситуациях, когда нам нужно объединить два или более условия.

In [243]:
df[(df['Date'] == '2015-10-25') & (df['AveragePrice'] < 0.90)].head()

Unnamed: 0,Date,AveragePrice,Total Volume,4046,4225,4770,Total Bags,Small Bags,Large Bags,XLarge Bags,type,year,region
9,2015-10-25,0.86,1010394.81,557469.46,301143.5,49959.1,101822.75,96417.63,5279.41,125.71,conventional,2015,DallasFtWorth
9,2015-10-25,0.88,933623.58,437329.85,313129.29,81274.85,101889.59,57577.21,44260.6,51.78,conventional,2015,Houston
9,2015-10-25,0.83,761261.71,435986.9,240689.98,19968.66,64616.17,64585.35,30.82,0.0,conventional,2015,PhoenixTucson
9,2015-10-25,0.86,4912068.04,2542914.87,1537781.45,247539.31,583832.41,475267.2,108231.39,333.82,conventional,2015,SouthCentral
9,2015-10-25,0.82,635873.6,363487.08,166607.85,31960.04,73818.63,72717.86,1100.77,0.0,conventional,2015,WestTexNewMexico


```python
# Будьте осторожны с такими выражениями, которые потерпят неудачу при выполнении операции
df[df['Date'] == '2015-10-25' & df['AveragePrice'] < .90]
```


# .loc\[\] vs .iloc\[\]

Доступ к рядам

## .loc \ [\]

Этот оператор позволяет нам получить доступ к информации с помощью индексной метки, но по определению его можно использовать с логическим массивом, как мы видели с условиями:
- Доступ к группе строк и столбцов по меткам (-ам) или логическому массиву.
- .loc \ [\] в первую очередь основана на маркировке, но также может использоваться с логическим массивом.

При использовании `df.info ()` мы обнаруживаем, что количество уникальных значений для индекса (значения домена индекса) включено от 0 до 11.Таким образом, мы можем использовать `.loc` для фильтрации рядов, где значение индекса составляет 9.

In [244]:
df.loc[9]

Unnamed: 0,Date,AveragePrice,Total Volume,4046,4225,4770,Total Bags,Small Bags,Large Bags,XLarge Bags,type,year,region
9,2015-10-25,1.07,74338.76,842.40,64757.44,113.00,8625.92,8061.47,564.45,0.00,conventional,2015,Albany
9,2015-10-25,1.09,358478.08,236814.29,64607.97,304.36,56751.46,31826.88,24924.58,0.00,conventional,2015,Atlanta
9,2015-10-25,1.19,656892.03,53766.25,397911.35,49085.74,156128.69,149987.55,6141.14,0.00,conventional,2015,BaltimoreWashington
9,2015-10-25,1.11,59874.45,29521.58,10089.82,6551.57,13711.48,13660.98,0.00,50.50,conventional,2015,Boise
9,2015-10-25,1.02,534249.47,4005.39,430725.78,191.31,99326.99,94581.94,4745.05,0.00,conventional,2015,Boston
...,...,...,...,...,...,...,...,...,...,...,...,...,...
9,2018-01-21,1.27,3159.80,92.12,73.17,0.00,2994.51,2117.69,876.82,0.00,organic,2018,Syracuse
9,2018-01-21,1.52,6871.05,76.66,407.09,0.00,6387.30,6375.55,11.75,0.00,organic,2018,Tampa
9,2018-01-21,1.63,1283987.65,108705.28,259172.13,1490.02,914409.26,710654.40,203526.59,228.27,organic,2018,TotalUS
9,2018-01-21,1.83,189317.99,27049.44,33561.32,439.47,128267.76,76091.99,51947.50,228.27,organic,2018,West


## .iloc\[\]

Этот оператор позволяет нам получить доступ к информации по позиции индекса так, как мы обычно делаем с другими языками программирования, такими как C.
- чисто индексация на основе целочисленного размещения для выбора по положению.
- .iloc [] является в первую очередь на основе целочисленного положения (от 0 до длины 1 оси), но также может использоваться с логическим массивом.

При использовании `df.iloc [9]` мы собираемся получить доступ к 10 -й строке в DataFrame DF. Возвращенное значение должно быть представлено серией типа со значениями строки (`df.iloc [9] .values`) в виде значений и имен столбцов в качестве индекса серии.

In [245]:
df.iloc[9]

Date            2015-10-25 00:00:00
AveragePrice                   1.07
Total Volume               74338.76
4046                          842.4
4225                       64757.44
4770                          113.0
Total Bags                  8625.92
Small Bags                  8061.47
Large Bags                   564.45
XLarge Bags                     0.0
type                   conventional
year                           2015
region                       Albany
Name: 9, dtype: object

In [246]:
type(df.iloc[9])

pandas.core.series.Series

The name of the series is the index label value of the original dataframe.

<center><h3 style='color:gray; display:block; align:center;'>TIP: Практикуйте, чтобы действительно узнать, как и когда использовать .loc vs i.loc</h3></center>

# Математические и другие методы на данных о данных

Серия Pandas и DataFrame предлагают доступ к сотням методов для работы на них, таких как: *sum (), mul (), среднее (), std (), max (), min () и т. Д. *.Все эти методы обычно работают по умолчанию по столбцам, но они могут работать над рядами.

Посмотрите на следующие результаты ячейки и постарайтесь подумать о том, что произошло (посмотрите на такие поля, как тип или область).

In [247]:
df.sum()

  df.sum()


AveragePrice                                              25657.7
Total Volume                                   15523402593.400002
4046                                                5347110739.26
4225                                                5386275717.93
4770                                                 416802342.13
Total Bags                                      4373175798.389999
Small Bags                                          3324870837.51
Large Bags                                           991615770.55
XLarge Bags                                           56689177.33
type            conventionalconventionalconventionalconvention...
year                                                     36792683
region          AlbanyAlbanyAlbanyAlbanyAlbanyAlbanyAlbanyAlba...
dtype: object

In [248]:
df['AveragePrice'].mean()

1.405978409775878

# Missing Data
Это критическая проблема для любого ученых данных и заслуживает своей собственной лекции.Что делать, когда некоторые данные отсутствуют?

Pandas предлагает некоторые варианты для изучения DataFrame в поисках отсутствующих данных.

```python
# returns a boolean dataframe of the same size with True values for cells where values are NaN
df.isna()
# returns a boolean dataframe of the same size with True values for cells where values aren't NaN
df.notna()
# alias of the above methods
df.isnull()
df.notnull()
```

Count the number of NaN values for every column

In [249]:
df.isna().sum()

Date            0
AveragePrice    0
Total Volume    0
4046            0
4225            0
4770            0
Total Bags      0
Small Bags      0
Large Bags      0
XLarge Bags     0
type            0
year            0
region          0
dtype: int64

Count the number of NaN values per row

In [250]:
df.isna().sum(axis=1)

0     0
1     0
2     0
3     0
4     0
     ..
7     0
8     0
9     0
10    0
11    0
Length: 18249, dtype: int64

Count the total number of NaN values in the dataframe

In [251]:
df.isna().sum().sum()

0

Select the rows with at least one NaN value

In [252]:
df[df.isna().any(axis=1)]

Unnamed: 0,Date,AveragePrice,Total Volume,4046,4225,4770,Total Bags,Small Bags,Large Bags,XLarge Bags,type,year,region


Существуют конкретные методы, связанные с этой проблемой, как:
- `fillna()`
- `bfill()`
- `ffill()`
- `dropna()`

It's important to learn to handle [missing data](https://pandas.pydata.org/pandas-docs/stable/user_guide/missing_data.html)

# Dropping

Иногда вы захотите отказаться от информации.Вот пример того, как использовать [`drop`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop.html) method to do that.

```python
df.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')
```


In [253]:
drop_columns = ['4046', '4225', '4770', 'Total Bags', 'Small Bags', 'Large Bags', 'XLarge Bags']
df = df.drop(columns=drop_columns)
df

Unnamed: 0,Date,AveragePrice,Total Volume,type,year,region
0,2015-12-27,1.33,64236.62,conventional,2015,Albany
1,2015-12-20,1.35,54876.98,conventional,2015,Albany
2,2015-12-13,0.93,118220.22,conventional,2015,Albany
3,2015-12-06,1.08,78992.15,conventional,2015,Albany
4,2015-11-29,1.28,51039.60,conventional,2015,Albany
...,...,...,...,...,...,...
7,2018-02-04,1.63,17074.83,organic,2018,WestTexNewMexico
8,2018-01-28,1.71,13888.04,organic,2018,WestTexNewMexico
9,2018-01-21,1.87,13766.76,organic,2018,WestTexNewMexico
10,2018-01-14,1.93,16205.22,organic,2018,WestTexNewMexico


# Sorting

[`sort_values`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html) and [`sort_index`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_index.html) являются общими методами при использовании панд.
**sort_values**: Сортировать по значениям вдоль любой оси.
```python
df.sort_values(by, axis=0, ascending=True, inplace=False, kind='quicksort',
               na_position='last', ignore_index=False, key=None)
```

Следующие данные фильтра сотового фильтра для конкретной даты и типа.Затем сортируйте значения по региону в порядке возрастания и, наконец, отобразите только первые 10 рядов.

In [254]:
condition = (df['Date'] == '2018-01-07') & (df['type'] == 'organic')
df[condition].sort_values(by='region').head(10)

Unnamed: 0,Date,AveragePrice,Total Volume,type,year,region
11,2018-01-07,1.54,4816.9,organic,2018,Albany
11,2018-01-07,1.53,15714.11,organic,2018,Atlanta
11,2018-01-07,1.15,82282.71,organic,2018,BaltimoreWashington
11,2018-01-07,1.77,2553.9,organic,2018,Boise
11,2018-01-07,1.91,30096.0,organic,2018,Boston
11,2018-01-07,1.17,9115.92,organic,2018,BuffaloRochester
11,2018-01-07,1.95,156341.57,organic,2018,California
11,2018-01-07,1.08,28741.11,organic,2018,Charlotte
11,2018-01-07,1.83,41573.25,organic,2018,Chicago
11,2018-01-07,1.71,13141.82,organic,2018,CincinnatiDayton


Сортировка может использовать больше столбцов, используя список Python с некоторыми параметрами.

In [255]:
df[condition].sort_values(by=['region', 'AveragePrice'], ascending=[True, False]).head()

Unnamed: 0,Date,AveragePrice,Total Volume,type,year,region
11,2018-01-07,1.54,4816.9,organic,2018,Albany
11,2018-01-07,1.53,15714.11,organic,2018,Atlanta
11,2018-01-07,1.15,82282.71,organic,2018,BaltimoreWashington
11,2018-01-07,1.77,2553.9,organic,2018,Boise
11,2018-01-07,1.91,30096.0,organic,2018,Boston


**sort_index**: объект сортировки по меткам (по оси)
```python
df.sort_index(axis=0, level=None, ascending=True, inplace=False, kind='quicksort', na_position='last', sort_remaining=True, ignore_index=False, key=None)
```
Следующие строки сортировки ячейки на основе значений индекса (в порядке возрастания)

In [256]:
df.sort_index()

Unnamed: 0,Date,AveragePrice,Total Volume,type,year,region
0,2015-12-27,1.33,64236.62,conventional,2015,Albany
0,2016-12-25,1.85,8657.87,organic,2016,PhoenixTucson
0,2015-12-27,1.25,73109.90,conventional,2015,Pittsburgh
0,2016-12-25,1.90,11376.97,organic,2016,Philadelphia
0,2016-12-25,1.27,5601.65,organic,2016,Orlando
...,...,...,...,...,...,...
52,2017-01-01,2.06,39260.55,organic,2017,NewYork
52,2017-01-01,1.11,476239.03,conventional,2017,NorthernNewEngland
52,2017-01-01,2.00,115256.09,organic,2017,Northeast
52,2017-01-01,0.93,547565.88,conventional,2017,Atlanta


# Переименование

Очень часто переименовать вещи для удобства.В примере, когда имена столбцов слишком длинные или используют специальные символы, это может пригодиться, чтобы сократить их.Метод [`rename ()`] (https://pandas.pydata.org/docs/reference/api/pandas.dataframe.rename.html) является отличным инструментом, чтобы помочь нам во многих ситуациях.

Посмотрим простой пример

In [257]:
df.rename(columns={'AveragePrice': 'price', 'Total Volume': 'volume'}, inplace=True)
df

Unnamed: 0,Date,price,volume,type,year,region
0,2015-12-27,1.33,64236.62,conventional,2015,Albany
1,2015-12-20,1.35,54876.98,conventional,2015,Albany
2,2015-12-13,0.93,118220.22,conventional,2015,Albany
3,2015-12-06,1.08,78992.15,conventional,2015,Albany
4,2015-11-29,1.28,51039.60,conventional,2015,Albany
...,...,...,...,...,...,...
7,2018-02-04,1.63,17074.83,organic,2018,WestTexNewMexico
8,2018-01-28,1.71,13888.04,organic,2018,WestTexNewMexico
9,2018-01-21,1.87,13766.76,organic,2018,WestTexNewMexico
10,2018-01-14,1.93,16205.22,organic,2018,WestTexNewMexico


# Подсчет

**Подсчет количества значений без Nan**
Мы уже видели разные способы доступа к количеству рядов.

Но что, если вы хотите подсчитать количество строк с не значениями NAN?

Метод `count ()` считает нена-клеток для каждого столбца или строки

In [258]:
df.count()

Date      18249
price     18249
volume    18249
type      18249
year      18249
region    18249
dtype: int64

**Подсчет количества уникальных значений на столбец (серия) в DataFrame**

Количество уникальных для одной серии

In [259]:
df.region.nunique()

54

Количество уникальных значений для каждой серии в `DataFrame`

In [260]:
df.nunique()

Date        169
price       259
volume    18237
type          2
year          4
region       54
dtype: int64

**Unique values**

In [261]:
df['type'].unique()

array(['conventional', 'organic'], dtype=object)

Помните, что мы можем легко изменить данные DataFrame или серии в список Python

In [262]:
df['type'].unique().tolist()

['conventional', 'organic']

**Counting rows based on unique values**

`value_counts()` вернуть серию, содержащие количество уникальных строк в DataFrame
```python
DataFrame.value_counts(subset=None, normalize=False, sort=True, ascending=False, dropna=True)
```
Этот метод прост, но мощный для простого исследования.Давайте посмотрим на несколько примеров

In [263]:
df.value_counts(subset='type')

type
conventional    9126
organic         9123
dtype: int64

In [264]:
df.value_counts(subset='year', sort=False)

year
2015    5615
2016    5616
2017    5722
2018    1296
dtype: int64

Мы можем использовать большее подмножество для более подробного представления

In [265]:
df.value_counts(subset=['year', 'type'], sort=False)

year  type        
2015  conventional    2808
      organic         2807
2016  conventional    2808
      organic         2808
2017  conventional    2862
      organic         2860
2018  conventional     648
      organic          648
dtype: int64

- `subset` (подмножество): Этот параметр задает столбцы, для которых необходимо выполнить операцию подсчета значений. В данном примере в качестве столбцов подмножества указаны 'year' и 'type'.

- `sort`: Этот параметр определяет, нужно ли сортировать результаты по количеству частот. Если sort=False, то результаты не будут отсортированы по частоте. Если sort=True, то результаты будут отсортированы в порядке убывания по количеству частот. 

- `normalize`: Этот параметр определяет, нужно ли нормировать результаты в процентах. Если normalize=False, то результаты будут представлять собой необработанный подсчет каждой уникальной комбинации. Если normalize=True, то результаты будут нормированы в проценты от общего числа.

В приведенном фрагменте кода `df.value_counts(subset=['year', 'type'], sort=False, normalize=True)*100` вычисляет количество значений уникальных комбинаций столбцов 'year' и 'type' в DataFrame df. Результаты сортируются в порядке их появления в DataFrame (`благодаря sort=False)` и нормализуются для представления процентов (`благодаря normalize=True`). 

Функция * 100 в `конце умножает нормализованные значения на 100, чтобы преобразовать их в проценты`.

***В результате будет получен объект Pandas Series с уникальными комбинациями 'year' и 'type' в качестве индексов и соответствующими процентными значениями в качестве значений***.

И нам просто нужно добавить еще один флаг, чтобы получить доступ к одинаковым, но нормализованным значениям

In [266]:
df.value_counts(subset=['year', 'type'], sort=False, normalize=True)*100

year  type        
2015  conventional    15.387145
      organic         15.381665
2016  conventional    15.387145
      organic         15.387145
2017  conventional    15.683051
      organic         15.672092
2018  conventional     3.550880
      organic          3.550880
dtype: float64

# Grouping

Have you been looking for power: meet `groupby()`

Операция группы включает в себя некоторую комбинацию разделения объекта, применения функции и объединения результатов.Это может быть использовано для сгруппирования больших объемов данных и вычисления операций в этих группах.

```python
DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True,
                  group_keys=True, squeeze=<no_default>, observed=False, dropna=True)
```

Параметры:
- `by`: Столбец или столбцы, по которым осуществляется группировка. Может быть строкой или списком строк.
- `axis`: Определяет направление группировки. Значение 0 означает группировку по строкам (по умолчанию), 1 - группировку по столбцам.
- `level`: Используется для группировки по указанному уровню MultiIndex.
- `as_index`: Определяет, следует ли использовать группировочные столбцы как индекс. По умолчанию True.
- `sort`: Определяет, следует ли сортировать результаты по группировке. По умолчанию True.
- `group_keys`: Определяет, следует ли добавлять ключи групп в результирующий индекс. По умолчанию True.
- `squeeze`: Если True и результат группировки содержит только одну группу, то возвращается Series вместо DataFrame. Если False, всегда возвращается DataFrame. По умолчанию используется значение no_default, которое разрешает pandas предпринять решение самостоятельно.
- `observed`: Если True, то гарантируется, что все значения в группирующем столбце будут присутствовать в результатах группировки. По умолчанию False.
- `dropna`: Определяет, следует ли исключить отсутствующие значения при группировке. По умолчанию True.

Следующая ячейка некоторым образом имитирует поведение value_counts().
- Разбить набор данных на субданные, в которых каждый субданный.year является уникальным 
- Подсчитать количество строк без NaNs для каждого столбца

In [267]:
df.groupby('year').count()

Unnamed: 0_level_0,Date,price,volume,type,region
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2015,5615,5615,5615,5615,5615
2016,5616,5616,5616,5616,5616
2017,5722,5722,5722,5722,5722
2018,1296,1296,1296,1296,1296


В приведенных строках представлены одинаковые значения, поскольку в исходном наборе данных отсутствуют значения NaN. Это отличный набор данных: Никаких NaN и повсюду "авокадо".

## Функции

Как насчет функции max()?

In [268]:
df.groupby('year').max()

Unnamed: 0_level_0,Date,price,volume,type,region
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2015,2015-12-27,2.79,44655461.51,organic,WestTexNewMexico
2016,2016-12-25,3.25,52288697.89,organic,WestTexNewMexico
2017,2017-12-31,3.17,61034457.1,organic,WestTexNewMexico
2018,2018-03-25,2.3,62505646.52,organic,WestTexNewMexico


И `mean()`?

In [269]:
df.groupby('year').mean()

  df.groupby('year').mean()


Unnamed: 0_level_0,price,volume
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2015,1.37559,781027.4
2016,1.33864,858420.6
2017,1.515128,862339.3
2018,1.347531,1066928.0


Вы находите что -то другое между использованием Max и Mean? Что ты думаешь?

In [270]:
df.groupby('year').describe()

Unnamed: 0_level_0,price,price,price,price,price,price,price,price,volume,volume,volume,volume,volume,volume,volume,volume
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
2015,5615.0,1.37559,0.375595,0.49,1.07,1.3,1.67,2.79,5615.0,781027.4,3171256.0,84.56,6931.63,76146.82,400176.68,44655461.51
2016,5616.0,1.33864,0.393708,0.51,1.04,1.3,1.56,3.25,5616.0,858420.6,3478732.0,385.55,10643.685,109597.29,451107.2925,52288697.89
2017,5722.0,1.515128,0.432906,0.44,1.22,1.49,1.77,3.17,5722.0,862339.3,3481957.0,515.01,13790.6975,122915.75,426454.5125,61034457.1
2018,1296.0,1.347531,0.305858,0.56,1.13,1.345,1.56,2.3,1296.0,1066928.0,4285501.0,2064.9,17690.9825,157175.09,529462.245,62505646.52


Существуют другие методы, которые могут быть подходящими  к `Gropuby ()`.В примере первого и последнего вернет первый и последний ряд каждой группы соответственно.

In [271]:
df.groupby('year').first()

Unnamed: 0_level_0,Date,price,volume,type,region
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2015,2015-12-27,1.33,64236.62,conventional,Albany
2016,2016-12-25,1.52,73341.73,conventional,Albany
2017,2017-12-31,1.47,113514.42,conventional,Albany
2018,2018-03-25,1.57,149396.5,conventional,Albany


Предыдущий вызов аналогичен использованию Head, но Head () сохраняет групповой индекс, где сначала установил новый индекс: год

In [272]:
df.groupby('year').head(1)

Unnamed: 0,Date,price,volume,type,year,region
0,2015-12-27,1.33,64236.62,conventional,2015,Albany
0,2016-12-25,1.52,73341.73,conventional,2016,Albany
0,2017-12-31,1.47,113514.42,conventional,2017,Albany
0,2018-03-25,1.57,149396.5,conventional,2018,Albany


### Aggregate

`Aggregate`: агрегат с использованием одной или нескольких операций по указанной оси (` agg` - это псевдоним).

Следующая ячейка показывает агрегированную цену и объем авокадо с 2018 года

In [273]:
condition = (df['year'] == 2018)
df[condition][['price','volume']].agg(['min', 'mean', 'std', 'max'])

Unnamed: 0,price,volume
min,0.56,2064.9
mean,1.347531,1066928.0
std,0.305858,4285501.0
max,2.3,62505650.0


`aggregate` может применяться к DataFrames, хотя его можно применять и с  `groupby()`

In [274]:
df.groupby('year')[['price','volume']].agg(['min', 'mean', 'std', 'max'])

Unnamed: 0_level_0,price,price,price,price,volume,volume,volume,volume
Unnamed: 0_level_1,min,mean,std,max,min,mean,std,max
year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
2015,0.49,1.37559,0.375595,2.79,84.56,781027.4,3171256.0,44655461.51
2016,0.51,1.33864,0.393708,3.25,385.55,858420.6,3478732.0,52288697.89
2017,0.44,1.515128,0.432906,3.17,515.01,862339.3,3481957.0,61034457.1
2018,0.56,1.347531,0.305858,2.3,2064.9,1066928.0,4285501.0,62505646.52


Предположим, вам нужен способ извлечения процентилей.

А `quantile()` Метод может быть применен непосредственно на DataFrame, чтобы извлечь то, что вы хотите.

In [275]:
#  извлечет 10 процентные значения цены и объема
df[condition][['price', 'volume']].quantile(.10)

price        0.970
volume    8174.655
Name: 0.1, dtype: float64

Но есть случаи, когда вам нужно извлечь больше, чем это.

Для этих случаев может быть удобно создавать пользовательские методы, которые будут использоваться с агрегацией.

In [276]:
def percentil_10(x): return x.quantile(.10)
def percentil_90(x): return x.quantile(.90)

df[condition][['price','volume']].agg([percentil_10, 'median', percentil_90])

Unnamed: 0,price,volume
percentil_10,0.97,8174.655
median,1.345,157175.09
percentil_90,1.75,1810981.615


In [277]:
df.groupby('year')[['price','volume']].agg([percentil_10, 'median', percentil_90])

Unnamed: 0_level_0,price,price,price,volume,volume,volume
Unnamed: 0_level_1,percentil_10,median,percentil_90,percentil_10,median,percentil_90
year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
2015,0.96,1.3,1.9,2431.434,76146.82,1285267.958
2016,0.88,1.3,1.86,4146.935,109597.29,1351865.735
2017,0.98,1.49,2.07,5889.687,122915.75,1398304.817
2018,0.97,1.345,1.75,8174.655,157175.09,1810981.615


# Краткое содержание

В этой лекции вы узнали:
- Как установить панды
- о пандах
- Что такое структуры данных серии и данных данных
- Как создать простой датчик
- Как загрузить DataFrame с помощью внешнего источника данных
- Как получить доступ к серии столбцов
- Как получить доступ к серии строк (индекс)
- Различия между `loc []` и `iloc []`
- Различные способы начать изучение общей структуры данных
- Различные способы доступа к статистике описания
- Как искать недостающие данные
- Как делать фильтрацию данных с помощью условий
- Как сортировать
- Как сделать подсчет
- Как группировать информацию
- Как сделать агрегацию

### Факты:
- Мы только импортировали панды!
- Почти все было о доступе и обработке данных, а также о их создании.


### Темы, возможно, оставлены для других лекций:
- Операции DataFrame:
  - Как добавить столбец в DataFrame
  - Операции DataFrame Inter Columns Operations
  - apply()
  - applymap()
  - pipe()
- Слияние DataFrames (слияние)
- Согласование данных DataFrames (CONCAT)
- Добавление DataFrames, серии или простой строки (добавление)
- Использование петель с:
  - iterrows()
  - itertuples()
  - groupby()
  
### Следующая лекция
- Построение с пандами (показывая важность участков)
- Eda с пандами (с использованием Seaborn, если это возможно)