 ![](Python05-pandas_extra/Pandas_logo.svg) 

# Курс "Python для исследователя", основы pandas 

#### Что такое pandas?

* программная библиотека на языке Python для обработки и анализа
данных
* работа pandas с данными строится поверх библиотеки NumPy
* библиотека предоставляет удобные структуры данных и операции для
работы с числовыми таблицами и временными рядами

Наша задачей на сегодня не является разобраться "от и до" как всё делать в pandas (спойлер - невозможно и ненужно), а скорее посмотреть что можно сделать. А вот как именно - легко гуглится с кучей примеров на все случаи жизни... при правильном запросе.

Визуализацию рассматривать не будем, по визуализации будет отдельная лекция.

Спойлер. Какое-то время назад пандас обновился. Pandas2.0 построен на PyArrow, очень быстр, эффективно использует память, совместим с другими языками... и всего этого мы сегодня рассматривать не будем.

#### Установка

In [None]:
! pip install pandas 

In [None]:
import numpy as np
import pandas as pd
print(pd.__version__)

**Основные типы данных в pandas:**
* Series (1D)
* DataFrame (2D)
* Panel (3D) и многомерные объекты

In [None]:
df = pd.read_csv('./Python05-pandas_extra/train.csv') # Из курса по ML, но это не точно
print(type(df))
print(type(df['Id']))

In [None]:
dir(pd)

#### Просмотр данных

In [None]:
df

In [None]:
print(df)

In [None]:
df.describe()

In [None]:
df.info()

In [None]:
df[:3]

### Создание DataFrame

 ![](Python05-pandas_extra/dataframe_constuctor.jpg) 

In [None]:
d = {'col1': [1, 2], 'col2': [3, 4]}
df = pd.DataFrame(data=d)
df

In [None]:
data = np.random.random((10,3))
df = pd.DataFrame(data=data)
#df = pd.DataFrame(data=data, columns=['col1', 'col2', 'col3'])
#df = pd.DataFrame(data=data, columns=['col1', 'col2', 'col3'], index=[np.arange(10) +100])
df

#### Индексация

* iloc - по номеру
* loc - по названию

In [None]:
df.iloc[1, 1] 
#df[1][1]

In [None]:
df.iloc[[1, 3], [1, 2]]

In [None]:
df = {'col1': [1, 2], 'col2': [3, 4]}
df = pd.DataFrame(data=d)

df.loc[1, 'col1']

In [None]:
df['col1']

In [None]:
# Делает срез по строкам
df[-1:]

In [None]:
# Обращается к столбцу
df[1]

#### Добавление столбца

In [None]:
df['new_colomn'] = df['col1'] + df['col2']
df

In [None]:
df.insert(2, 'new_column2', np.random.random(2))
df

#### Добавление строки

In [None]:
df = df.append({'col1' : 0}, ignore_index=True)
df

Там где значений нет (мы их не сообщили) появились NaN

In [None]:
df = df.append(pd.Series([1,2,3,4], index=df.columns), ignore_index=True)
df

#### Удаление строки

In [None]:
df = df.drop([0, 1])
df

#### Удаление столбца

In [None]:
df = df.drop(['col1', 'col2'], axis=1)
df

In [None]:
df = df.drop(columns=['new_column2'])
df

#### Итерации по данным

In [None]:
df = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4]})
df

In [None]:
for index, row in df[:3].iterrows():
    print(index, row)

In [None]:
for t in df.itertuples():
    print(t)

Говорят, что itertuples работает быстрее чем iterrows, но в любом случае если вы делаете нечто такое как написано - вы делаете нечто страшное, потому что ничего такого делать обычно не надо, всё можно и нужно стараться организовывать **без циклов!** Чуть позже к этому вернемся

#### Сортировка

In [None]:
df = pd.DataFrame({'col1': [2, 2, 1], 'col2': [4, 3, 3]})
df

In [None]:
df.sort_values( 'col1', ascending=True)

In [None]:
df.sort_values(['col1', 'col2'], ascending=True)

In [None]:
df.sort_values(['col2', 'col1'], ascending=True)

In [None]:
df.sort_values(['col2', 'col1'], ascending=[True, False], inplace=True)
df

Вот, обратите внимание на **inplace**, его можно передавать и во многих других методах

In [None]:
df.sort_values(['col2', 'col1'], ascending=[True, False], 
               inplace=True, ignore_index=True)
df

#### Изменение порядка данных в датафрейме

In [None]:
df.reindex(index=df.index[::-1], columns=df.columns[::-1])

#### Основные операции

In [None]:
type(df.values), df.values.shape

In [None]:
df.dtypes

In [None]:
df.columns

In [None]:
df.head(2)

In [None]:
df.tail(2)

In [None]:
df

#### apply

In [None]:
df['col1'] = df['col1'].apply((lambda a: a*10))
df

In [None]:
df.apply((lambda col: col**2 if col.name=='col1' else col*2)) # Внимание - без присвоения!

In [None]:
df.apply((lambda row: row['col1'] + row['col2']), axis=1)

In [None]:
# нормировка по столбцам
df.apply(lambda x: x/sum(x))
# нормировка по строкам
df.apply(lambda x: x/sum(x), axis=1)

In [None]:
def func(x):
    return x+x
df.applymap(func)

In [None]:
df['new_colomn2'] = ['qwe']*3
df

In [None]:
df.applymap(func)

#### Статистики

In [None]:
df.mean()

In [None]:
df.median()

In [None]:
df.max()

In [None]:
df.min()

In [None]:
df.count()

In [None]:
df.nunique()

In [None]:
df.value_counts()

#### Объединение данных

In [None]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']})


df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7']})


frames = [df1, df2]

result = pd.concat(frames)
result

In [None]:
df3 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'],
                    'D': ['D2', 'D3', 'D6', 'D7'],
                    'F': ['F2', 'F3', 'F6', 'F7']},
                    index=[2, 3, 6, 7])


result = pd.concat([df1, df3], axis=1, sort=False)
result

In [None]:
\result = pd.concat([df1, df3], axis=1, join='inner') # войдут только те, которые есть и там и там
#result = pd.concat([df1, df3], axis=1, join='outer') # войдут все, значение по умолчанию
result

In [None]:
result = df1.append(df2)
result

Если добавим еще, то оно по прежнему апендится с учётом известных индексов и колонок

In [None]:
result = df1.append([df2,df3])
result

Больше вариантов можно найти в [официальной документации](https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html)

#### Фильтрация данных

In [None]:
df = pd.read_csv('./Python05-pandas_extra/train.csv')
df

In [None]:
df[df['LotArea'] < 10000]

In [None]:
df[(df['LotArea'] > 8000) & (df['LotArea'] < 10000)] 

#### Работа с NaN

In [None]:
df = pd.DataFrame({'A': [1, np.nan, 2, 3],
                    'B': [4, 5, 6, 7],
                    'C': [7, 8, np.nan, 9],
                    'D': [5, 6, 7, 8]})
df

Заметили? колонка старается (если возможно) привести данные к одному типу

In [None]:
df.isnull()

In [None]:
df.dropna()

In [None]:
df.dropna(axis=1)

In [None]:
df['A'].fillna(123)

In [None]:
df['A'].fillna(df['A'].mean())

In [None]:
df.fillna(method='ffill') # заполнять пропуск следующим занчением

In [None]:
df.fillna(method='backfill') # заполнять пропуск предыдущим занчением

#### Работа с категориальными признаками: One hot encoder

In [None]:
df = pd.DataFrame({'cat1': ['a', 'b', 'c', 'b', 'd', 'a'],
                   'cat2': ['a1', 'b1', 'c1', 'b1', 'd1', 'a1'],
                  'cat3': np.arange(6)})
df

In [None]:
pd.get_dummies(df) # простейший one-hot encoder

In [None]:
pd.get_dummies(df['cat3']) # только 3я колонка

#### Работа с категориальными признаками: Label encoder

In [None]:
codes, uniques = pd.factorize([20,10,np.nan,10,np.nan,30,20])
print(codes)
print(uniques)

In [None]:
codes, uniques = pd.factorize([20,10,np.nan,10,np.nan,30,20], 
                              na_sentinel=None)
print(codes)
print(uniques)

In [None]:
df = pd.DataFrame({'cat1': ['a', 'b', 'c', 'b', 'd', 'a'],
                   'cat2': ['a1', 'b1', 'c1', 'b1', 'd1', 'a1'],
                  'cat3': np.arange(6)})
df

In [None]:
codes, uniques =pd.factorize(df['cat1'])
df['cat1'] = codes
df

#### Сравнение 

In [None]:
df = pd.DataFrame({ "col1": ["a", "a", "b", "b", "a"],
                    "col2": [1.0, 2.0, 3.0, np.nan, 5.0],
                    "col3": [1.0, 2.0, 3.0, 4.0, 5.0]},
                columns=["col1", "col2", "col3"], )
df

In [None]:
df2 = df.copy()

df2.loc[0, 'col1'] = 'c'
df2.loc[2, 'col3'] = 4.0
df2

In [None]:
df.compare(df2)

In [None]:
df.compare(df2, keep_shape=True)

#### Работа с файлами: запись/чтение

 ![](Python05-pandas_extra/pandas_write.jpg) 

#### CSV

In [None]:
dir(pd)
# посмотреть на работу с разными данными

In [None]:
help(pd.read_csv)

In [None]:
df = pd.read_csv('./Python05-pandas_extra/train.csv', sep=',')

In [None]:
df[:2].to_csv('mytrain.csv', index=True, header=True)
#df[:2].to_csv('mytrain.csv', index=True, header=None)

In [None]:
df = pd.read_csv('mytrain.csv', sep=',')

#### Excel

In [None]:
df = pd.read_excel('excel.xlsx')#, sheet_name='Sheet2')
# по умолчанию считывает первый лист, но можно любой, главное чтоб 1... но наверно можно и сразу все
df

In [None]:
df.to_excel('write_to_excel.xlsx', index=False)

#### Иерархическое индексирование

Это такая форма организации данных, которая как бы трёхмерная, или даже многомерная, со сложностью и скоростью расчётов примерно как 2D

In [None]:
arrays = [['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux'],
           ['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two']]

tuples = list(zip(*arrays))


tuples


In [None]:
index = pd.MultiIndex.from_tuples(tuples, names=['first', 'second'])
index

In [None]:
df = pd.DataFrame(np.random.random((8,3)), index=index)
df

In [None]:
df.loc['bar']

In [None]:
df.index.get_level_values(0)

In [None]:
df.index.get_level_values(1)

In [None]:
df.index.names

In [None]:
iterables = [['bar', 'baz', 'foo', 'qux'], ['one', 'two']]

index= pd.MultiIndex.from_product(iterables, names=['first', 'second'])
df = pd.DataFrame(np.random.random((8,3)), index=index)
df

In [None]:
df = pd.DataFrame([['bar', 'one'], ['bar', 'two'],
                   ['foo', 'one'], ['foo', 'two']],
                  columns=['first', 'second'])


index = pd.MultiIndex.from_frame(df)
index
df = pd.DataFrame(np.random.random((4,3)), index=index)
df

In [None]:
arrays = [np.array(['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux']),
          np.array(['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two'])]

df = pd.DataFrame(np.random.random((8,8)), index=arrays)
df

In [None]:
arrays = [np.array(['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux']),
          np.array(['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two'])]

df = pd.DataFrame(np.random.random((8,8)), columns=arrays)
df

In [None]:
df['bar']

In [None]:
index = [np.array(['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux']),
          np.array(['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two'])]

columns = [np.array(['cbar', 'cbar', 'cbaz', 'cbaz', 'cfoo', 'cfoo', 'cqux', 'cqux']),
          np.array(['cone', 'ctwo', 'cone', 'ctwo', 'cone', 'ctwo', 'cone', 'ctwo'])]

df = pd.DataFrame(np.random.random((8,8)), columns=columns, index=index)
df

In [None]:
df.stack(level=1)

In [None]:
df.unstack(1)

Это может показаться сложным и запутанным, но смысл в том что такая структура будет работать быстрее чем 3D

### Pandas vs SQL

#### WHERE

In [None]:
url = ('https://raw.github.com/pandas-dev/pandas/'
       'master/pandas/tests/io/data/csv/tips.csv')
tips = pd.read_csv(url)
tips.head()

In [None]:
SELECT *
FROM tips
WHERE time = 'Dinner'
LIMIT 5;

In [None]:
tips[tips['time'] == 'Dinner'].head(5)

In [None]:
-- tips of more than $5.00 at Dinner meals
SELECT *
FROM tips
WHERE time = 'Dinner' AND tip > 5.00;

In [None]:
tips[(tips['time'] == 'Dinner') & (tips['tip'] > 5.00)]

In [None]:
-- tips by parties of at least 5 diners OR bill total was more than $45
SELECT *
FROM tips
WHERE size >= 5 OR total_bill > 45;

In [None]:
tips[(tips['size'] >= 5) | (tips['total_bill'] > 45)]

In [None]:
frame = pd.DataFrame({'col1': ['A', 'B', np.NaN, 'C', 'D'],
                      'col2': ['F', np.NaN, 'G', 'H', 'I']})

In [None]:
SELECT *
FROM frame
WHERE col2 IS NULL;

In [None]:
frame[frame['col2'].isna()]

In [None]:
SELECT *
FROM frame
WHERE col1 IS NOT NULL;

In [None]:
frame[frame['col1'].notna()]

#### JOIN

In [None]:
df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'],
                    'value': np.random.randn(4)})

df2 = pd.DataFrame({'key': ['B', 'D', 'D', 'E'],
                    'value': np.random.randn(4)})

In [None]:
df1

In [None]:
df2

In [None]:
SELECT *
FROM df1
INNER JOIN df2
  ON df1.key = df2.key;

In [None]:
pd.merge(df1, df2, on='key')

In [None]:
-- show all records from df1
SELECT *
FROM df1
LEFT OUTER JOIN df2
  ON df1.key = df2.key;

In [None]:
pd.merge(df1, df2, on='key', how='left')

In [None]:
-- show all records from df2
SELECT *
FROM df1
RIGHT OUTER JOIN df2
  ON df1.key = df2.key;

In [None]:
pd.merge(df1, df2, on='key', how='right')

In [None]:
-- show all records from both tables
SELECT *
FROM df1
FULL OUTER JOIN df2
  ON df1.key = df2.key;

In [None]:
 pd.merge(df1, df2, on='key', how='outer')

### Группировка

In [None]:
SELECT sex, count(*)
FROM tips
GROUP BY sex;
/*
Female     87
Male      157
*/

In [None]:
tips.groupby('sex')

In [None]:
tips.groupby('sex').size()

In [None]:
tips.groupby('sex').count()

In [None]:
tips.groupby('sex')['total_bill'].count()

In [None]:
SELECT day, AVG(tip), COUNT(*)
FROM tips
GROUP BY day;
/*
Fri   2.734737   19
Sat   2.993103   87
Sun   3.255132   76
Thur  2.771452   62
*/

In [None]:
#Аггрегирующая функция
tips.groupby('day').agg({'tip': np.mean, 'day': np.size})

In [None]:
tips.groupby('day').agg({'tip': [np.mean, np.min], 'day': np.size})

In [None]:
SELECT smoker, day, COUNT(*), AVG(tip)
FROM tips
GROUP BY smoker, day;
/*
smoker day
No     Fri      4  2.812500
       Sat     45  3.102889
       Sun     57  3.167895
       Thur    45  2.673778
Yes    Fri     15  2.714000
       Sat     42  2.875476
       Sun     19  3.516842
       Thur    17  3.030000
*/

In [None]:
tips.groupby(['smoker', 'day']).agg({'tip': [np.size, np.mean]})

 ![](Python05-pandas_extra/panda.jpg) 

# Домашнее задание

Это очередное задание из проекта, посвященного беспилотному вождению. Вам нужно обработать файл с данными из соревнования по предсказанию траекторий Argoverse, 
но на этот раз при помощи библиотеки pandas. Легенда такова, что вы получили сырые данные на вход.
В них содержатся ошибки сенсоров, записаны нерелевантные и пустые данные. Задача состоит в том, чтобы привести данные к формату удобному для дальнейшей обработки. 

Задание состоит из 5 частей:
1. Обработать пропущенные значения путём удаления строк, содержащих NaN (ошибки в данных с сенсоров привели к тому что координаты вычислить не удалось);
2. Очистить данные от всего что связано с AV и AGENT (Это нерелевантные данные);
3. Удалить траектории, содержащие 10 или меньше точек;
4. Удалить данные от объектов, которые не двигались или двигались на месте (разница в мин/макс координатах по X и по Y не больше 1 метра);
5. Отсортировать данные сначала по ID, а потом по времени внутри ID. 

Полученные результаты сохранить в файл result.csv в формате идентичном исходному.
Для сдачи задания необходимо прислать один за другим 2 файла: 
-result.csv;
-code.py с исходным кодом, при помощи которого был получен result.csv. 

Можно пользоваться только библиотеками pandas и os, больше ничего не разрешено. 
Самое главное - **циклы строго запрещены**

Пример выполнения

In [None]:
import pandas as pd
df = pd.read_csv('./Python05-pandas_extra/my_task/data.csv')


In [None]:
df

In [None]:
from my_solution import df_supercleaner

In [None]:
df = df_supercleaner('./Python05-pandas_extra/my_task/data.csv')

In [None]:
df

In [None]:
df.to_csv('./Python05-pandas_extra/my_task/result.csv', index=False)

Посылаю result.csv и code.py, проверяю при помощи специальной команды