# Pandas

Pandas это высокоуровневая Python библиотека для анализа данных. Почему высокоуровневая? Подому что онимеет уже много написанных методов для операций с данными и нам не надо переписывать этот код заново. Pandas это надстройка над низкоуровневой библиотекой NumPy. NumPy работает очень быстро и бережно относиться к ресурсам памяти, но работать с ней напрямую занимает много времени и сил.

Pandas содержит большое количество полезных функций: функции чтения и записи, например, в Excel, анализа данных, представления результатов и тд. Со структурами данных pandas работает ряд других полезных библиотек.

Pandas - самая продвинутая и быстроразвивающаяся библиотека для обработки и анализа данных, которую мы будем использовать практически в каждом примере.

## Импортируем pandas
Для некоторых операций иногда требуется библиотека numpy. Часто можно видеть сразу импорт двух библиотек в коде.

In [None]:
import pandas as pd

## Создание структуры данных DataFrame
Есть несколько способов создать DataFrame. Что такое DataFrame? Упрощенно - это таблица, со строками и столбцами. Этим типом данных оперируют методы библиотеки pandas.

Создадим DataFrame из обычного двухмерно списка. Воспользуемся данными о численности сотурдников и выручке крупнейших компаний.

In [None]:
df=pd.DataFrame([['Магнит', 297460, 1237], 
                 ['X5', 278399, 1533], 
                 ['Сургутнефтегаз', 112808, 1867],
                 ['Лукойл', 102500, 8036],
                 ['УГМК', 80000, 165.9]])
df # выведем результаты

Обратите внимание на цифры от 0-5 слева. Это индексы, упрощенно - номера строк. 0-2 - это столбцы. Давайте дадим им названия.

In [None]:
df.columns=['Компания', 'Численность', 'Выручка']
df

Список по числу элементов должен соответствовать числу столбцов. Переименовать можно точно также. 

Использовать русккие названия можно, но ... не принято. Удобнее использовать названия столбцов латинице. Хотя, еще раз повторю, разрешаются и кирилические названия. Также старайтесь, чтобы названия состояли из одного слова, или используйте подчеркивания, чтобы соединить слова.

Переименуем столбцы.

In [None]:
df.columns=['Company', 'Personal', 'Revenue']
df

Чтобы получить названия столбцов и индексы надо обратиться к переменным саго DataFrame

In [None]:
df.columns

In [None]:
df.index

Чтобы обратиться к DataFrame, можно использовать срезы. Точно также, как мы обращаемся к спискам.

In [None]:
df[0:3]

Но обратиться к одной строке так не получится.

In [None]:
df[1]

Для этого мы должны использовать методы .loc[] или .iloc[]

In [None]:
df.loc[1]

In [None]:
df.loc[1,'Company']

Отличие методы .iloc - мы можем обращаться не по названию, а по номер столбца по порядку

In [None]:
df.iloc[1,2]

Чтобы изменить значение - надо просто обратиться к конретной ячейке и присвоить новое значение

In [None]:
df.loc[1,'Company']='X5 Retail Group'
df

Можно обращаться не только к строкам, но и столбцам.

In [None]:
df['Company']

In [None]:
type(df['Company'])

Обратите внимание, что столбец - это объект типа Series. Это аналог списков, которые использует библиотека numpy. Фактически этот тип объектов ближе к словарям, так как все объекты проиндексированы и связаны с индексами.

Чтобы преобразовать в тип список, надо вызвать методы array

In [None]:
df['Company'].array

Кстати, обратиться к столбцу можно и проще, не используя квадратных скобок.

In [None]:
df.Company.array

Легко выполнять выборки из таблицы по критериям.

In [None]:
df[df['Personal']>100000]

In [None]:
df[df['Personal']>100000][['Company', 'Revenue']]

Добавить столбец очень просто. Надо просто объявить его и присвоить значение. Например, заполнить нулями.

In [None]:
df['Temp']=0
df

Или вычислить значения нового столбца. Расчитаем производительность. 

In [None]:
df['Labor']=df['Revenue']/df['Personal']
df

или присвоить значения из списка, длина которого равна длине таблицы DataFrame

In [None]:
t_arr=[10,20,30,40,50]
df['Temp2']=t_arr
df

Изменить значения столца очень легко (см ниже). Или используя метод .apply(), но о нем в другом уроке.

In [None]:
df['Labor']=df['Labor']*1000000
df

Также достаточно просто удалить строку или столбец.
Удаляем столбец.

In [None]:
df=df.drop(['Temp'], axis=1)
df

In [None]:
df=df.drop([1, 2]) # а вот так можно удалить строчки

In [None]:
df

In [None]:
df=df.T #иногда бывает надо транспонировать матрицу

In [None]:
df.shape #этот метод сообщит вам о количестве столбоц или строк

In [None]:
df

## Чтение запись файлов Excel

Можно прочитать и записать практически в любой формат, в том числе SQL.

Для чтения достаточно указать название файла и лист, с которого мы читаем данные. Стоит учитывать, что в данном примере файлы для чтения и записи расположены в том же каталоге, что и блокнот. В противном случае надо указать путь к файлу.

Файл с примером можно скачать по ссылке https://www.dropbox.com/s/521pocpxhni3py1/topcompany.xlsx?dl=0

In [None]:
df_e=pd.read_excel('topcompany.xlsx', sheet_name='Лист1')
df_e.head()

Если ваши данные не содержат заголовка, укажите параметр header=None

In [None]:
df_e2=pd.read_excel('topcompany.xlsx', sheet_name='Лист1', header=None)
df_e2.head()

In [None]:
df_e['Labor']=df_e.Revenue/df_e.Personal
df_e

Записать файл достаточно просто. В данном случае, мы пишем только один лист.

In [None]:
df_e.to_excel('result.xlsx', sheet_name='Data')

Чтобы не записывать индексы надо указать параметр index=False

In [None]:
df_e.to_excel('result.xlsx', sheet_name='Data', index=False)

Но если потребуется, в один файл можно записать несктолько листов с данными.

In [None]:
df_e2 = df_e.copy() #создадим копию
with pd.ExcelWriter('result2.xlsx') as writer:  # конструкция with ... as - менеджмер контекста
    df_e.to_excel(writer, sheet_name='Sheet1') #указываем какие данные на какой лист записать
    df_e2.to_excel(writer, sheet_name='Sheet2')

## Анализ данных
Pandas имеет большое количество методов для анализа данных. Например, список можно увидеть в официальной документации https://pandas.pydata.org/pandas-docs/stable/reference/frame.html Более подробно будем разбирать их в других курсах. А пока некоторые из них.

Следующий метод возвращает список уникальных значений столбца.

In [None]:
df_e['Industry'].unique()

Можно подсчитать количество вхождений каждого уникального значения.

In [None]:
df_e['Industry'].value_counts()

Или найти среднее значение по столбцу.

In [None]:
df_e['Personal'].mean()

In [None]:
df_e['Personal'].sum()

Чтобы быстро понять характеристики данных, можно вывести общую информацию о них.

In [None]:
df_e.describe()

Так же есть модщные функции сортировки. В примере, отсортируем по одному полю по возрастанию.

In [None]:
df_e['Labor']=df_e.Revenue/df_e.Personal
df_e.sort_values(by='Labor')

Более подробно мы разберем функции анализа в специализированных курсах.

## Группировка
Полезная функция при анализе данных. Причем, мы можем задавать результаты этой группировки.

In [None]:
df_e.groupby(['Industry']).sum()

Выводим результаты группировки только для одного столбца.

In [None]:
df_e.groupby(['Industry'])['Personal'].mean()

## Сводные таблицы
Аналог сводных таблиц в Excel. Более подробно мы с ними познакомимся, например, когда будем изучать кластеризацию. Данный пример носит иллюстративный характер.

In [None]:
df_e.pivot_table(index=['Industry'], columns=['Personal'], values='Revenue', aggfunc='sum')

## Задание

Создайте DataFrame следующего содержания:

| Вид   | Название          | Кал   | Белки  | Жиры | Угл  |
|-------|-------------------|-------|--------|------|------|
| Овощи | Баклажаны	        | 24	| 0,6	 | 0,1	| 5,5  |
| Овощи | Горошек зеленый	| 72	| 5,0	 | 0,2	| 13,3 |
| Овощи | Кабачки	        | 27    | 0,6	 | 0,3	| 5,7  |
| Овощи | Капуста           |	28	| 1,8	 | 0    | 5,4  |
|Фрукты | Ананас |	48 |	0,4 |	0 |	11,8 |
|Фрукты |Апельсин	|38	|0,9	|0	|8,4|
|Бобы |Фасоль	|309	|22,3	|1,7	|54,5|
|Бобы |Горох лущеный	|323	|23	|1,6	|57,7|

*Обращаю внимание, что Python в кажесчтве разделителя целой и дробной части использует точку, а не запятую. Заменити запятую при создании на точку.*

Совершите следующие манипуляции:
1. выведите только заголовок
2. добавьте столбец в котором будет содержаться сумма значений белков, жиров и углеводов.
3. удалите новый столбец
4. переименуйте столбцы
5. измените название "капуста" на "капуста белокачанная"
6. выведите только те позиции, которые не содержат жиров
7. подсчитайте уникальное количество по видам
8. сгруппируйте по видам и найдите среднюю калорийность
9. запишите dataframe в файл сначала на один лист, затем на два листа
10. прочитайте записанный в файл в новый dataframe