© Валерий Студенников, курс "Инструменты анализа данных"

## Pandas

pandas — это высокоуровневая Python библиотека для работы с табличными данными.

Материалы:
* https://khashtamov.com/ru/pandas-introduction/
* https://pandas.pydata.org/pandas-docs/stable/10min.html
* https://habr.com/company/ods/blog/322626/
* Книжка *"Python для анализа данных"*, главы про pandas

In [1]:
import numpy as np
import pandas as pd

ModuleNotFoundError: No module named 'pandas'

In [None]:
# Пример создания DataFrame на основе 
import sklearn.datasets

iris = sklearn.datasets.load_iris()

data1 = pd.DataFrame( data = np.c_[iris['data'], iris['target']],
                      columns = iris['feature_names'] + ['target'] )

data1.target = data1.target.astype( int )

data1.head()

In [None]:
df = pd.read_csv('bikes_rent.csv')
df.head()

Два главные класса pandas: DataFrame и Series

### pandas.Series

In [None]:
myseries = pd.Series([5, 6, 7, 8, 9, 10])
myseries

Объект Series можно также представлять себе как упорядоченный словарь фиксированной
длины, поскольку он отображает индекс на данные.

In [None]:
myseries.index

In [None]:
myseries.values

In [None]:
myseries.dtype

In [None]:
# Доступ к элементам объекта Series возможны по индексу
myseries[4]

In [None]:
# Индексы можно задавать явно
myseries2 = pd.Series( [5, 6, 7, 8, 9, 10], index=['a', 'b', 'c', 'd', 'e', 'f'] )
myseries2

In [None]:
# выборка по индексу
myseries2['f']

In [None]:
# выборка по нескольким индексам
myseries2[['a', 'b', 'f']]

In [None]:
# групповое присваивание
myseries2[['a', 'b', 'f']] = 0
myseries2

In [None]:
# Series можно передавать многим функциям, ожидающим получить словарь:
'b' in myseries2, 'g' in myseries2

In [None]:
# Фильтрация Series:
myseries2[ myseries2 > 0 ]

In [None]:
# А вот что под капотом
myseries2 > 0

In [None]:
# Пропущенные значения
myseries2[['a', 'f']] = None # np.nan
myseries2

In [None]:
myseries2.isnull() # pd.isnull( myseries2 )

In [None]:
myseries2[ myseries2.notnull() ]

In [None]:
myseries2.fillna( -1, inplace = True )
myseries2

In [None]:
# можно применять математические операции
# !!! Обратите внимание, что индекс остался неизменным
myseries2 * 2 + 1

In [None]:
# Применение к элементам функций numpy
# !!! Обратите внимание, что индекс остался неизменным
np.sqrt( myseries2[['c','d','e']] )

In [None]:
myseries3 = pd.Series( {'a': 5, 'b': 6, 'c': 7, 'd': 8} )
myseries3

In [None]:
# У объекта Series и его индекса есть атрибут name, задающий имя объекту и индексу соответственно
myseries3.name = 'numbers'
myseries3.index.name = 'letters'
myseries3

In [None]:
# Индекс можно поменять "на лету", присвоив список атрибуту index объекта Series

myseries3.index = ['A', 'B', 'C', 'D']
myseries3

In [None]:
myseries3.copy()

## DataFrame

Объект `DataFrame` представляет табличную структуру данных, состоящую из
упорядоченной коллекции столбцов, причем типы значений (числовой, строковый,
булев и т. д.) в разных столбцах могут различаться.

Можно считать, что это словарь объектов Series.

In [None]:
# Конструктор DataFrame на основе питоновского словаря:
data = {
     'country': ['Kazakhstan', 'Russia', 'Belarus', 'Ukraine'],
     'population': [17.04, 143.5, 9.5, 45.5],
     'square': [2724902, 17125191, 207600, 603628],
}

df = pd.DataFrame(data)
df

In [None]:
# Можно передавать данные разных типов
pd.DataFrame({
    'A' : 1.,
    'B' : pd.Timestamp('20130102'),
    'C' : pd.Series([5,3,1,7], index=list(range(4))),
    'D' : np.array( [3,8,5,6] ),
    'E' : pd.Categorical(["test","train","test","train"]),
    'F' : 'foo'
})

In [None]:
# Можно конструировать DF множеством способов, например с помощью numpy
dfr = pd.DataFrame( np.random.randn(3,4) )
dfr

In [None]:
# посмотрим типы данных колонок
df.dtypes

Доступ к колонкам:

In [None]:
# убеждаемся, что столбец в DataFrame — это Series
df['country']

In [None]:
type(df['country'])

In [None]:
# к столбцам можно обращаться, используя атрибут или нотацию словарей Python,
# т.е. df.country и df['country'] это одно и то же.
df.country

In [None]:
# Доступ к списку полей — получаем срез DataFrame по полям
df[['country', 'square']]

In [None]:
# смотрим что там у нас за индекс
df.index

Объект DataFrame имеет 2 индекса: по строкам и по столбцам:
`df.index` и `df.columns`.

Если индекс по строкам явно не задан, то pandas задаёт целочисленный индекс RangeIndex от 0 до N-1, где N это количество строк в таблице.

In [None]:
df2 = df.copy()
df2.columns = ['C', 'P', 'S']
df2

In [None]:
df.index

In [None]:
# колонки — это тоже объект индекса
df.columns

### Доступ по индексу в DataFrame

Индекс по строкам можно задать разными способами, например, при формировании самого объекта DataFrame или "на лету":

In [None]:
# Указываем индекс сразу при создании объекта DF
df = pd.DataFrame({
     'country': ['Kazakhstan', 'Russia', 'Belarus', 'Ukraine'],
     'population': [17.04, 143.5, 9.5, 45.5],
     'square': [2724902, 17125191, 207600, 603628]
}, index=['KZ', 'RU', 'BY', 'UA'])

df

In [None]:
# задаём значения индекса
df.index = ['KZ', 'RU', 'BY', 'UA']
# задаём имя индекса
df.index.name = 'Country Code'
df

Доступ к строкам по индексу возможен несколькими способами:

In [None]:
# .loc - используется для доступа по строковой метке
df.loc[['KZ','RU']]

In [None]:
# выбираем одну единственную строчку и убеждаемся, что это объект Series, у которого индекс по названиям колонок
type(df.loc['KZ']), df.loc['KZ'].index

In [None]:
# .iloc - используется для доступа по числовому значению (начиная от 0)
df.iloc[0]

In [None]:
# естественно, можно указать сразу несколько значений индекса
df.iloc[ [0,1] ]

In [None]:
# Выборка сразу по нескольким элементам индекса
df.loc[['KZ', 'RU']]

In [None]:
# Можно делать выборку по индексу и интересующим колонкам:
df.loc[['KZ', 'RU'], 'population']

In [None]:
# Можно сразу список полей указавать в loc:
df.loc[['KZ', 'RU'], ['population','square']]

In [None]:
# .loc в квадратных скобках принимает 2 аргумента:
# - интересующий индекс (в том числе поддерживается слайсинг)
# - колонки
df.loc['KZ':'BY', 'country':'population']

In [None]:
# .at — оптимизированная версия .loc
df.at[ 'RU', 'population' ]

In [None]:
# доступ к колонкам по номерам
df.iat[ 1, 1 ]

In [None]:
# можно устанавливать значения через .at или .loc
df.at[ 'RU', 'population' ] = 144

<img src="https://i.stack.imgur.com/S0PTh.png" height="500">

In [None]:
# фильтрация строк по диапазону номеров строк
df[ 0:2 ]

In [None]:
# фильтрация строк по диапазону индекса
df[ 'KZ':'RU' ]

#### Фильтрация по логическому условию

In [None]:
# Фильтрация DataFrame с помощью булевых массивов
df[ df.population > 10 ]

In [None]:
# Под капотом
df.population > 10

In [None]:
# .isin — для фильтрации категориальных колонок
df[ df['country'].isin(['Russia','Kazakhstan']) ]

In [None]:
# Присваивание значений отфильтрованному диапазону
dfr[ dfr < 0 ] = -dfr
dfr

In [None]:
# под капотом
dfr > 0.5

In [None]:
# Сбросить индексы можно вот так:
df.reset_index()

### Операции с колонками

In [None]:
# Добавим новый столбец, в котором население (в миллионах) поделим на площадь страны,
# получив тем самым плотность:
df['density'] = df['population'] / df['square'] * 1000000
df

In [None]:
# .apply для всего DataFrame
df['density'] = df.apply( lambda row: row['population'] / row['square'] * 1000000, axis = 1 )
df

In [None]:
# .apply для DataFrame через передачу ссылки на функцию
def get_density( row ):
    return row['population'] / row['square'] * 1000000

df.apply( get_density, axis = 1 )

In [None]:
# Series.apply — для конкретной колонки
df['square_'] = df['square'].apply( lambda val: val / 1000 )
df['square_']

In [None]:
# удаляем лишние колонки, которые мы навычисляли
df.drop(['density', 'square_'], axis='columns')

In [None]:
# можно удалять колонки через del
del df['density']
df

In [None]:
# Переименовывать столбцы нужно через метод rename:
df.rename( columns = {'country': 'Country Name'} )

In [None]:
# inplace = True
df.rename( columns = {'square': 'Square Km'}, inplace = True )
df

Когда столбцу присваивается список или массив, длина значения должна совпадать
с длиной DataFrame. Если же присваивается объект Series, то он будет
точно согласован с индексом DataFrame, а в "дырки" будут вставлены значения
NA.

In [None]:
df['tmp'] = np.arange(4) + 1
df

In [None]:
df.drop( columns = ['tmp'], inplace = True )
# Можно "транспонировать" DF
df.T

#### Манипуляции с данными

In [None]:
# Копирование DF
df.copy().shape

In [None]:
# Сортировка по индексу
df.sort_index( axis = 0, ascending = False ) # axis = 1 — сортировка колонок, поддержка inplace = True

In [None]:
df.sort_values( by = 'population' )

## Чтение и запись данных

pandas поддерживает все самые популярные форматы обмена данными: CSV, excel, SQL, буфер обмена, HTML и многое другое.

_Pickling_

`read_pickle` — Load pickled pandas object (or any object) from file.<br/>

_Flat File_

`read_table` — Read general delimited file into DataFrame<br/>
`read_csv` — Read CSV (comma-separated) file into DataFrame<br/>
`read_fwf` — Read a table of fixed-width formatted lines into DataFrame<br/>
`read_msgpack` — Load msgpack pandas object from the specified file path<br/>

_Clipboard_

`read_clipboard` — Read text from clipboard and pass to read_table.<br/>

_Excel_

`read_excel` — Read an Excel table into a pandas DataFrame<br/>
`ExcelFile.parse` — Parse specified sheet(s) into a DataFrame<br/>

_JSON_

`read_json`	Convert a JSON string to pandas object<br/>
`json_normalize`	“Normalize” semi-structured JSON data into a flat table<br/>
`build_table_schema`	Create a Table schema from data.<br/>

_HTML_

`read_html` — Read HTML tables into a list of DataFrame objects.<br/>

_HDFStore: PyTables (HDF5)_

`read_hdf`	Read from the store, close it if we opened it.<br/>

_Feather_

`read_feather`	Load a feather-format object from the file path<br/>

_Parquet_

`read_parquet` — Load a parquet object from the file path, returning a DataFrame.<br/>

_SAS_

`read_sas` — Read SAS files stored as either XPORT or SAS7BDAT format files.<br/>

_SQL_

`read_sql_table` — Read SQL database table into a DataFrame.<br/>
`read_sql_query` — Read SQL query into a DataFrame.<br/>
`read_sql` — Read SQL query or database table into a DataFrame.<br/>

_Google BigQuery_

`read_gbq` — Load data from Google BigQuery.<br/>

### CSV

In [None]:
# Запишем CSV
df.to_csv('/tmp/countries.csv')

In [None]:
# Считаем CSV
df2 = pd.read_csv('/tmp/countries.csv')
df2

In [None]:
# Явно укажем индексное поле
df2 = pd.read_csv('/tmp/countries.csv', index_col = 'Country Code')
df2

In [None]:
# Можно даже читать из интернета
import ssl
ssl._create_default_https_context = ssl._create_unverified_context

# uri = 'https://gist.githubusercontent.com/michhar/2dfd2de0d4f8727f873422c5d959fff5/raw/ff414a1bcfcba32481e4d4e8db578e55872a2ca1/titanic.csv'
uri = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
titanic_df = pd.read_csv( uri, index_col='PassengerId' )
titanic_df.head()

### SQL

In [None]:
# Запишем стандартный dataset iris в табличку
import sqlalchemy

dbconn_str =  "mysql+pymysql://ds_course:Lodu5ooj@ds-internship.int.reg.ru:3306/test"
engine = sqlalchemy.create_engine( dbconn_str )
con = engine.connect()
con.execute( "SET autocommit = 1" )
data1.to_sql( 'dataset_iris', con, if_exists = 'replace' )

In [None]:
# создаём коннект
import pymysql

db_test = pymysql.connect(
    host   = "ds-internship.int.reg.ru",
    user   = "ds_course",
    passwd = "Lodu5ooj",
    db     = "test",
    charset = 'utf8'
)

In [None]:
df3 = pd.read_sql('SELECT * FROM dataset_iris', db_test)
df3.head()

In [None]:
df3 = pd.read_sql('SELECT * FROM dataset_iris', db_test, index_col='index')
df3.head()

## Анализ данных в pandas

In [None]:
# Размерность таблицы
titanic_df.shape

In [None]:
# описательные статистики для всех числовых полей
titanic_df.describe()

In [None]:
# различные описательные статистики для колонок
titanic_df.Survived.mean(), titanic_df['Age'].max(), titanic_df.Age.min(), titanic_df.Age.median()

### Группировка и агрегирование

In [None]:
# Группировка и агрегирование
titanic_df.groupby(['Sex', 'Survived'])['Survived'].count()

In [None]:
# Агрегирование сразу нескольких полей
titanic_df.groupby(['Sex', 'Survived'])['Age','Fare'].agg(['min','mean'])

### Сводные таблицы

In [None]:
# подготовим данные для .pivot
df_grp = titanic_df.groupby(['Sex', 'Survived'])['Age'].mean().reset_index()
df_grp

In [None]:
df_grp.pivot( index = 'Sex', columns = 'Survived' )

In [None]:
# .pivot_table
# сколько всего женщин и мужчин было в конкретном классе корабля

titanic_df.pivot_table( index=['Sex'], columns=['Pclass'], values='Name', aggfunc='count')

In [None]:
# группируем сразу по двум полям, получаем multiindex
titanic_df.pivot_table( index=['Sex', 'Survived'], columns=['Pclass'], values='Age', aggfunc='mean')