# Оглавление
* [Определение](#Определение)
* [Импорт библиотек](#Импорт-библиотек)
* [Загрузка файла в pandas и начало работы](#Загрузка-файла-в-pandas-и-начало-работы)

# Определение

Pandas и numpy -- одни из самых популярных библиотек для работы с двуxмерными таблицами, что делает их одними из самых востребованных в Data Science. Их особенностью является богатый функуионал при простоте использования.

В pandas есть два вида структур данных: Series и DataFrame. В отличии от Series, DataFrame имеет структуру таблицы, именованные колонки и удобную индексацию, Series же в свою очередь -- просто столбцы с данными.

В качестве входных форматов pandas умеет работать с .csv (предпочтительный), .sql и .tsv.

# Импорт библиотек

Для начала, если еще не производилась установка библиотек в системную папку или при использовании venv, требуется установить библиотеки:

> pip3 install pandas

> pip3 install numpy

*в случае установки в venv или при использовании windows нужно использовать просто pip, а не pip3*

Обычно в питоне для удобства при импорте используют сокращения имен библиотек в коде посредством констрккции __import__ *bible_name* __as__ *short_bible_name*. Таким образом импортируем две требуемых библиотеки, это __pandas__ и __numpy__:

In [2]:
import numpy as np
import pandas as pd

# Загрузка файла в pandas и начало работы

Для того, что бы над что-то скормить pandas, есть методы 

* __read_csv()__
* __read_excel()__
* __read_json()__
* __read_html()__
* __read_sql()__
* и тд... [подробнее в справке](https://pandas.pydata.org/pandas-docs/stable/reference/io.html)

В корне лежит готовый файл *pandas_tutorial_read.csv* на котором мы и будем тренироваться.

Чтобы открыть файл как __DataFrame__ в __pandas__ используем метод __read_csv('__*./path.csv*__', delimiter='__*your_delimiter*__')__, в качестве перегрузки укажем путь до файла (если файл лежит в корне, то достаточно указать просто его имя) и разделитель, в нашем случае запятая. Для удобства загрузим **DataFrame** в объект **data_frame**

In [3]:
data_frame = pd.read_csv('pandas_tutorial_read.csv', delimiter=';')
data_frame

Unnamed: 0,2018-01-01 00:01:01,read,country_7,2458151261,SEO,North America
0,2018-01-01 00:03:20,read,country_7,2458151262,SEO,South America
1,2018-01-01 00:04:01,read,country_7,2458151263,AdWords,Africa
2,2018-01-01 00:04:02,read,country_7,2458151264,AdWords,Europe
3,2018-01-01 00:05:03,read,country_8,2458151265,Reddit,North America
4,2018-01-01 00:05:42,read,country_6,2458151266,Reddit,North America
...,...,...,...,...,...,...
1789,2018-01-01 23:57:14,read,country_2,2458153051,AdWords,North America
1790,2018-01-01 23:58:33,read,country_8,2458153052,SEO,Asia
1791,2018-01-01 23:59:36,read,country_6,2458153053,Reddit,Asia
1792,2018-01-01 23:59:36,read,country_7,2458153054,AdWords,Europe


Как можно заметить вывод таблицы не полный, так как панда хоть и ленивый, но в достаточной мере сообразительный зверёк и что бы не выдать нам полотно в 2к строк, которое прилично так по времени скролить, **DataFrame** показывает по дефолту 5 первых и 5 последних строк. Что бы изменять отображение, у **DataFrame** есть некоторые методы, такие как:

* **pd.options.display.max_rows =** *count_display_rows* -- установить максимум, который отобразит **DataFrame**
* **DataFrame.head(** *n* **)** -- отображать первые *n* строк
* **DataFrame.teil(** *n* **)** -- отображать последние *n* строк

In [5]:
pd.options.display.max_rows = 2000
data_frame

Unnamed: 0,2018-01-01 00:01:01,read,country_7,2458151261,SEO,North America
0,2018-01-01 00:03:20,read,country_7,2458151262,SEO,South America
1,2018-01-01 00:04:01,read,country_7,2458151263,AdWords,Africa
2,2018-01-01 00:04:02,read,country_7,2458151264,AdWords,Europe
3,2018-01-01 00:05:03,read,country_8,2458151265,Reddit,North America
4,2018-01-01 00:05:42,read,country_6,2458151266,Reddit,North America
5,2018-01-01 00:06:06,read,country_2,2458151267,Reddit,Europe
6,2018-01-01 00:06:15,read,country_6,2458151268,AdWords,Europe
7,2018-01-01 00:07:21,read,country_7,2458151269,AdWords,North America
8,2018-01-01 00:07:29,read,country_5,2458151270,Reddit,North America
9,2018-01-01 00:07:57,read,country_5,2458151271,AdWords,Asia


Как можно заметить, весь файл у нас был загружен в **DataFrame**, мы только поменяли его отображение.

Если посмотреть еще внимательнее, то у нас нет заголовков (в качевстве заголовков встала первая строка в файле). Что бы присвоить заголовки, существует перегрузка **names=[]** для метода **.read_csv**, и теперь вызов метода для чтения нашего файла будет выглядеть таким образом:

In [6]:
data_frame = pd.read_csv('pandas_tutorial_read.csv', delimiter=';', 
                         names=['my_datetime', 'event', 'country', 'user_id', 'source', 'topic'])
data_frame.head()

Unnamed: 0,my_datetime,event,country,user_id,source,topic
0,2018-01-01 00:01:01,read,country_7,2458151261,SEO,North America
1,2018-01-01 00:03:20,read,country_7,2458151262,SEO,South America
2,2018-01-01 00:04:01,read,country_7,2458151263,AdWords,Africa
3,2018-01-01 00:04:02,read,country_7,2458151264,AdWords,Europe
4,2018-01-01 00:05:03,read,country_8,2458151265,Reddit,North America


Кроме того файлы можно загружать не только с жесткого диска, но еще и прямиком по ссылке, вызов метода будет таким:

**pd.read_csv('https://your_link.com/*.csv', delimiter=';', names=['*column_name*', '*column_name*'])**

Иногда требуется отобразить только часть колонок, для этого можно использовать индексирование. Мы можем указать панде, что нам нужно вывести одну колонку, но в таком случае мы получим уже не DataFrame, а Series:

In [14]:
pd.options.display.max_rows = 100 # немного сократим вывод, что бы таблица схлопнулась

data_frame['country'] # либо даже вот так data_frame.country

0       country_7
1       country_7
2       country_7
3       country_7
4       country_8
          ...    
1790    country_2
1791    country_8
1792    country_6
1793    country_7
1794    country_5
Name: country, Length: 1795, dtype: object

Если требуется вывести ряд колонок, то в квадратных скобках нам нужно передать список заголовков:

In [15]:
 data_frame[['country', 'user_id']]

Unnamed: 0,country,user_id
0,country_7,2458151261
1,country_7,2458151262
2,country_7,2458151263
3,country_7,2458151264
4,country_8,2458151265
...,...,...
1790,country_2,2458153051
1791,country_8,2458153052
1792,country_6,2458153053
1793,country_7,2458153054


Можно и вовсе отфильтровать нашу таблицу по ключу. Например, давай выведем все строки, у которых значение столбца **source** = *Reddit*

In [19]:
filter_reddit = data_frame[data_frame.source == 'Reddit']
filter_reddit

Unnamed: 0,my_datetime,event,country,user_id,source,topic
4,2018-01-01 00:05:03,read,country_8,2458151265,Reddit,North America
5,2018-01-01 00:05:42,read,country_6,2458151266,Reddit,North America
6,2018-01-01 00:06:06,read,country_2,2458151267,Reddit,Europe
9,2018-01-01 00:07:29,read,country_5,2458151270,Reddit,North America
12,2018-01-01 00:09:11,read,country_5,2458151273,Reddit,Asia
...,...,...,...,...,...,...
1783,2018-01-01 23:53:33,read,country_3,2458153044,Reddit,Asia
1786,2018-01-01 23:54:39,read,country_6,2458153047,Reddit,Asia
1787,2018-01-01 23:54:45,read,country_2,2458153048,Reddit,Asia
1792,2018-01-01 23:59:36,read,country_6,2458153053,Reddit,Asia


Разбираемся, что мы сейчас сделали:
1. Сначала мы сообщили панде, что нужно взять Series **source** и проверить явзяется ли **True** результат сравнения (в нашем случае сравнивается является ли *current_row* **source** == *Reddit*.
2. Выводим каждый **True** вариант.
3. Записываем получившиеся DataFrame в новую переменную **filter_reddit**

Можно было и не записывать фрейм в новую переменную, но благодаря этому мы теперь можем всегда поработать с отфильтрованным DataFrame

In [22]:
filter_reddit.sample(5) # .sample(5) -- рандомные 5 строк

Unnamed: 0,my_datetime,event,country,user_id,source,topic
70,2018-01-01 01:03:41,read,country_2,2458151331,Reddit,South America
273,2018-01-01 03:39:31,read,country_5,2458151534,Reddit,Asia
31,2018-01-01 00:26:28,read,country_7,2458151292,Reddit,Australia
1606,2018-01-01 21:46:12,read,country_5,2458152867,Reddit,Asia
909,2018-01-01 12:13:14,read,country_5,2458152170,Reddit,Asia
