# Краткое руководство по библиотеке Pandas

Официальная документация - http://pandas.pydata.org/pandas-docs/stable/ 

Русскоязычные руководства:
- https://habr.com/ru/company/ods/blog/322626/  
- https://khashtamov.com/ru/pandas-introduction/ 
- https://pythonworld.ru/obrabotka-dannyx/pandas-cookbook-0-ipython.html 
- https://python.ivan-shamaev.ru/pandas-series-and-dataframe-objects-build-index/ 
- https://coderlessons.com/tutorials/python-technologies/vyuchit-python-panda/python-pandas-kratkoe-rukovodstvo 
- https://pythonru.com/uroki/osnovy-pandas-1-chtenie-fajlov-dataframe-otbor-dannyh 
- https://tproger.ru/articles/pandas-data-wrangling-cheatsheet/ 
- Интерактивное руководство - https://www.datacamp.com/community/tutorials/pandas-tutorial-dataframe-python 
- 101 упражнение по Pandas - https://www.machinelearningplus.com/python/101-pandas-exercises-python/ 
- 12 наиболее полезных техник Pandas - https://www.analyticsvidhya.com/blog/2016/01/12-pandas-techniques-python-data-manipulation/ 

In [1]:
import numpy as np
import pandas as pd

Используем данные из соревнования [House Prices: Advanced Regression Techniques.](https://www.kaggle.com/c/house-prices-advanced-regression-techniques)

In [2]:
# Будем использовать только обучающую выборку
data = pd.read_csv('data/houseprices.csv', sep=",")

### Основные структуры данных и операции с колонками

https://pandas.pydata.org/pandas-docs/stable/user_guide/dsintro.html

- Series - типизированная колонка таблицы данных, соответствующая одному признаку. Реализована в виде словаря, ключом в котором является индекс.
- DataFrame - таблица данных (аналог реляционной таблицы), состоящая из колонок (Series).



In [3]:
data.shape

(1460, 81)

In [4]:
data.head()

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000


In [5]:
data.dtypes

Id                 int64
MSSubClass         int64
MSZoning          object
LotFrontage      float64
LotArea            int64
                  ...   
MoSold             int64
YrSold             int64
SaleType          object
SaleCondition     object
SalePrice          int64
Length: 81, dtype: object

In [6]:
data.index, list(data.index[:5])

(RangeIndex(start=0, stop=1460, step=1), [0, 1, 2, 3, 4])

In [7]:
data[['MSSubClass', 'MSZoning']].head()

Unnamed: 0,MSSubClass,MSZoning
0,60,RL
1,20,RL
2,60,RL
3,70,RL
4,60,RL


In [8]:
data[['MSSubClass']].head() 

Unnamed: 0,MSSubClass
0,60
1,20
2,60
3,70
4,60


In [9]:
type(data[['MSSubClass']])

pandas.core.frame.DataFrame

In [10]:
data['MSSubClass'], type(data['MSSubClass'])

(0       60
 1       20
 2       60
 3       70
 4       60
         ..
 1455    60
 1456    20
 1457    70
 1458    20
 1459    20
 Name: MSSubClass, Length: 1460, dtype: int64,
 pandas.core.series.Series)

### Базовая функциональность, часто используемые функции

https://pandas.pydata.org/pandas-docs/stable/user_guide/basics.html

###  Работа с данными в различных форматах

https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html

### Индексирование и выборка данных

https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html

#### Мультииндексы
https://pandas.pydata.org/pandas-docs/stable/user_guide/advanced.html
https://towardsdatascience.com/how-to-use-multiindex-in-pandas-to-level-up-your-analysis-aeac7f451fce

### Соединение датафреймов

https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html

### Изменение размеров и поворот датафрейма

https://pandas.pydata.org/pandas-docs/stable/user_guide/reshaping.html

### Группировка

https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html

### Хранение временных рядов 

https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html