# Pandas

Тьюториалы:
- http://byumcl.bitbucket.org/bootcamp2013/labs/pandas.html
- http://pandas.pydata.org/pandas-docs/stable/10min.html
- https://www.kaggle.com/c/titanic/details/getting-started-with-python-ii

Примеры:
- http://pandas.pydata.org/pandas-docs/stable/cookbook.html#cookbook

Если нужно что-то более специальное -- смотрите в документации
- http://pandas.pydata.org/pandas-docs/stable/index.html

Рассмотрим сэмпл из данных по авиарейсам в США за январь-апрель 2008 года.


Полный датасет можно найти здесь: http://stat-computing.org/dataexpo/2009/2008.csv.bz2

Описание: http://stat-computing.org/dataexpo/2009/the-data.html

In [1]:
import pandas as pd

In [2]:
data = pd.read_csv('2008.csv')
data.head()

IOError: File 2008.csv does not exist

In [None]:
data.columns

In [None]:
data.shape

In [None]:
data['Distance'].head()

In [None]:
data['CancellationCode'].unique()

In [None]:
data[['DepDelay', 'ArrDelay']][:10]

Слайсы по столбцам и строкам:

In [None]:
data.iloc[:10, 1:4]

In [None]:
data.loc[data.Month == 8]

#### Группировка данных

In [None]:
data.groupby('UniqueCarrier')

In [None]:
data.groupby('Cancelled')['Origin'].describe()

In [None]:
data.groupby('Cancelled')['CancellationCode'].value_counts()

#### Объединение данных

In [None]:
carrier = data[data['CancellationCode'] == 'A']
weather = data[data['CancellationCode'] == 'B']

In [None]:
pd.concat([carrier, weather]).head()

In [None]:
pd.concat([carrier[:3], weather]).head()

#### Пропуски в данных

In [None]:
data['CarrierDelay'][:10]

In [None]:
data['CarrierDelay'].describe()

In [None]:
data['CarrierDelay'].isnull()[:10]

In [None]:
data[data['CarrierDelay'].isnull()][:10]

Избавляемся от пропусков:

In [None]:
new_data = data.dropna(subset=['CarrierDelay'])
new_data.shape

In [None]:
new_data = data.dropna()
new_data.shape

In [None]:
new_data.to_csv('has_carrier_delay.csv')

# Matplotlib

Тьюториалы:
- http://matplotlib.org/users/pyplot_tutorial.html
- http://nbviewer.jupyter.org/github/jrjohansson/scientific-python-lectures/blob/master/Lecture-4-Matplotlib.ipynb
- http://matplotlib.org/users/beginner.html

Примеры (просто делайте ctrl+f тип нужного графика):
- http://matplotlib.org/examples/pylab_examples/index.html

Документация:
- http://matplotlib.org/contents.html

Matplotlib + Pandas:
- http://pandas.pydata.org/pandas-docs/stable/visualization.html

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt

In [None]:
import numpy as np

In [None]:
x = np.linspace(1, 10, 20)
y = np.log(x)

In [None]:
plt.plot(x, y)

In [None]:
plt.scatter(x, y)

In [None]:
plt.plot(x, y, 'bo-')

In [None]:
data['AirTime'].hist()

In [None]:
data['AirTime'].hist(bins=30)

С группировкой:

In [None]:
cmp_data = pd.concat([data[data['Origin'] == 'ATL'], 
                      data[data['Origin'] == 'ORD']])
cmp_data['AirTime'].hist(by=cmp_data['Origin'], bins=30)

In [None]:
cmp_data['AirTime'].hist(by=cmp_data['Origin'], 
                         bins=30, sharey=True, sharex=True)

Как сделать то же самое в Matplotlib?

In [None]:
bins = 30
fig, axis = plt.subplots(1, 2, sharey=True, sharex=True)
axis[0].hist(cmp_data[cmp_data['Origin'] == 'ATL']['AirTime'].dropna(),
             bins=bins)
axis[0].set_xlabel('AirTime')
axis[0].set_ylabel('Scores')
axis[1].hist(cmp_data[cmp_data['Origin'] == 'ORD']['AirTime'].dropna(),
             bins=bins)
axis[1].set_xlabel('AirTime')

In [None]:
fig.clf()

In [None]:
bins = 30
index = np.arange(bins)
plt.hist(cmp_data[cmp_data['Origin'] == 'ATL']['AirTime'].dropna(),
         bins=bins, alpha=0.6)
plt.hist(cmp_data[cmp_data['Origin'] == 'ORD']['AirTime'].dropna(),
         bins=bins, alpha=0.6)
plt.xlabel('AirTime')
plt.ylabel('Scores')
plt.title('Comparison of ATL and ORD airports')
plt.legend(['ATL', 'ORD'])
plt.show()

In [None]:
bins = 30
index = np.arange(bins)
plt.hist(cmp_data[cmp_data['Origin'] == 'ATL']['AirTime'].dropna(),
         bins=bins, alpha=0.6, normed=True)
plt.hist(cmp_data[cmp_data['Origin'] == 'ORD']['AirTime'].dropna(),
         bins=bins, alpha=0.6, normed=True)
plt.xlabel('AirTime')
plt.ylabel('Scores')
plt.title('Comparison of ATL and ORD airports')
plt.legend(['ATL', 'ORD'])
plt.show()

In [None]:
plt.scatter(data['DepDelay'], data['ArrDelay'])
plt.xlabel('DepDelay')
plt.ylabel('ArrDelay')

In [None]:
from sklearn.decomposition import PCA
pca = PCA(n_components = 2)
data_new = pca.fit_transform(data[['DepDelay', 'ArrDelay']].dropna())
print('Component 1 explains %.2f of total variance'%pca.explained_variance_ratio_[0])
print('Component 2 explains %.2f of total variance'%pca.explained_variance_ratio_[1])
plt.scatter(data['DepDelay'], data['ArrDelay'])
tg = pca.components_[0,1]/pca.components_[0,0]
plt.plot([data['DepDelay'].min(), data['DepDelay'].max()],
         [data['DepDelay'].min() * tg, data['DepDelay'].max() * tg], color='green')
plt.plot([data['DepDelay'].min(), data['DepDelay'].max()],
         [data['ArrDelay'].min(), data['ArrDelay'].max()], color='red')
plt.legend(['Regression that accounts variance', 'Obvious regression'], loc=4)

# Задания

По векторным операциям:
1. Найдите несколькими способами диагональ матричного произведения
2. Вставьте между каждым числом в заданном векторе четыре нуля
3. Найдите ближайшее значение в массиве к заданному
4. Найдите ближайшую строчку в массиве к заданной

По датасету flights:
1. Найдите рейс (FlightNum) с максимальной длиной перелетов. Уникален ли такой рейс?
2. Найдите для каждого аэропорта среднее время полета (AirTime) по всем вылетевшим из него рейсам. Какой аэропорт имеет наибольшее значение этого показателя?
3. Найдите аэропорт, у которого наибольшая доля задержанных (DepDelay > 0) рейсов. Исключите при этом из рассмотрения аэропорты, из которых было отправлено меньше 1000 рейсов (используйте функцию filter после groupby).

Найдите рейс (FlightNum) с максимальной длиной перелетов. Уникален ли такой рейс?

In [None]:
tmp = data.sort_values('Distance',ascending=False)
tmp.loc[tmp['Distance'] == tmp['Distance'].max(),'FlightNum'].value_counts()

Найдите для каждого аэропорта среднее время полета (AirTime) по всем вылетевшим из него рейсам. Какой аэропорт имеет наибольшее значение этого показателя?

In [None]:
data.groupby('Origin')['Airtime'].mean().argmax()

Найдите аэропорт, у которого наибольшая доля задержанных (DepDelay > 0) рейсов. Исключите при этом из рассмотрения аэропорты, из которых было отправлено меньше 1000 рейсов (используйте функцию filter после groupby)

In [None]:
data['isDepDelay'] = data.DepDelay > 0
gr = data.groupby('Origin')
gr_filter = data.groupby('Origin').filter(lambda x: len(x) > 1000)
gr_filter.groupby('Origin')['isDepDelay'].mean().argmax()