# Анализ данных с помощью Python. Библиотеки Pandas, sqlalcemy, myplotlib.

## Как поставить и подключить библиотеку

In [None]:
!pip install pandas

In [None]:
import pandas as pd

## Работа с таблицами, библиотека Pandas

![Картинка с пандой](https://habrastorage.org/webt/bp/ql/vl/bpqlvld5mt7alw811moxql4-ynw.jpeg)

#### Создаем табличку вручную

In [None]:
data = pd.DataFrame({'col1' : [1,2,3], 'col2' : [5,6,7]})
data.head()

### Читаем из файла

In [None]:
flights = pd.read_csv('flights.csv')

### Смотрим на данные

#### выводим первые строки

In [None]:
flights.head()

#### последние строки

In [None]:
flights.tail()

#### названия колонок

In [None]:
flights.columns

In [None]:
flights.columns.tolist()

### Количество данных

In [None]:
flights.shape

In [None]:
flights.shape[1]

In [None]:
len(flights)

### Типы данных в столбцах и количество непропущенных значений

In [None]:
flights.info()

In [None]:
flights.dtypes

### Статистика по столбцам

In [None]:
flights.describe()

### Задание
1. Прочитать данные из файла hotels.csv, сколько строк и столбцов в таблице?
2. Какой тип данных имеет столбец price?
3. Каково среднее значение price?

### Операции со столбцами

In [None]:
flights['price'].head()

In [None]:
flights['price'].min()

In [None]:
flights['price'].max()

In [None]:
flights['price'].sum()

In [None]:
flights['price'].mean()

In [None]:
flights.head()

In [None]:
flights['from'].value_counts().sort_values()

In [None]:
flights['from'].unique()

In [None]:
a = flights['from'].unique().tolist()
a.sort()
a

In [None]:
hotels.dtypes

In [None]:
hotels['date'] = pd.to_datetime(hotels['date'])
hotels.dtypes


In [None]:
hotels.head()

### Задание
1. Какова максимальная цена в таблице hotels?
2. Каких значений больше всего в столбце place в таблице hotels? Сколько?

### Операции с таблицами: выбор строк и столбцов

In [None]:
flights[['travelCode','userCode', 'from', 'to']].head()

In [None]:
flights.loc[:,['travelCode','userCode', 'from', 'to']].head()

In [None]:
flights.loc[flights['from'] == 'Brasilia (DF)', :].head()

In [None]:
flights.loc[flights['price'] > 1000, ['travelCode','userCode', 'from', 'to', 'price']].head()

In [None]:
flights.iloc[0:10,:]

In [None]:
flights.iloc[0:10, 0:5]

In [None]:
flights.loc[0:10, ['travelCode', 'userCode', 'from', 'to', 'flightType']]

### Задание
1. Какова средняя цена за ночь для отеля "Hotel K"?
2. Какова максимальная сумма бронирования для пользователя с userCode 1339?

### Добавление и удаление столбцов

In [None]:
flights['status'] = 'Arrived'
flights.head()

In [None]:
flights['test'] = flights['price'] * flights['time']

In [None]:
flights.head()

In [None]:
flights = flights[['travelCode',
 'userCode',
 'from',
 'to',
 'flightType',
 'price',
 'time',
 'distance',
 'agency',
 'date']]

flights.head()

In [None]:
flights['status'] = 'Arrived'
flights.head()

In [None]:
flights = flights.drop(['status'], axis=1)
flights.head()

### Сортировка

In [None]:
flights.sort_values('from').head()

In [None]:
flights.sort_values('from', ascending = False).head()

### SQL подобные операции

#### Объединение (UNION)

In [None]:
data1 = pd.DataFrame({'col1' : [1,2,3], 'col2' : [5,6,7]})
data1.head()

In [None]:
data2 = pd.DataFrame({'col1' : [8,9,10], 'col2' : [4,7,9]})
data2.head()

In [None]:
pd.concat([data1, data2], ignore_index=True) # помним, что индексы должны быть уникальны!

In [None]:
data1.append(data2, ignore_index=True)

#### Пересечение (JOIN)

In [None]:
flights.head()

In [None]:
hotels.head()

In [None]:
flights.merge(hotels, how = 'inner', on = ['travelCode', 'userCode']).head()

In [None]:
flights.merge(hotels, how = 'left', on = ['travelCode', 'userCode']).head()

##### Если названия столбцов в двух таблицах не совпадают

In [None]:
flights.merge(hotels, how = 'inner', left_on = ['travelCode', 'userCode'], 
              right_on = ['travelCode', 'userCode']).head()

### Задание
1. Прочитайте данные по пользователям из файла users.csv. Выведите имена клиентов, которые осуществляли бронирование отеля 'Hotel Z' в день '12/05/2019' через компанию 'Umbrella LTDA'

#### Агрегированные функции (GROUP BY)

In [None]:
flights[['agency', 'price', 'time',  'distance']].groupby('agency').mean()

In [None]:
flights.groupby('flightType').agg({'price' : 'mean', 'time' : 'max'})

In [None]:
flights.groupby(['agency', 'flightType']).size()

#### Сохранить в dataFrame для дальнейшей работы (обязательно обновить индексы!!!!!)

In [None]:
agency = flights.groupby(['agency', 'flightType']).size().reset_index()
agency

#### Переименуем колонки (колонки agency и 0) 

In [None]:
agency = agency.rename(columns = {'agency' : 'agencyName', 0 : 'counts'})
agency

#### А еще можно сразу так:

In [None]:
agency = flights.groupby(['agency', 'flightType']).size().reset_index(name='counts')
agency

### Задание
1. Посчитайте количество пользователей в разрезе компаний. В какой компании наибольшее количество пользователей? сколько?
2. посчитайте средний возраст в разрезе компании и пола. Каков средний возраст мужчин для компании "Umbrella LTDA"?

## Подключаемся к базе данных

### Устанавливаем библиотеку

In [None]:
!pip install sqlalchemy

In [None]:
!pip install psycopg2-binary

In [None]:
from sqlalchemy import create_engine
engine = create_engine('postgresql://student_01:123456789@185.177.95.51:25432/demo')

In [None]:
sql = '''select *
         from bookings'''

bookings = pd.read_sql(sql, engine)

bookings.head()

In [None]:
bookings.shape

In [None]:
bookings.dtypes

### Задание
1. Прочитайте данные из таблицы seats только для бизнес класса. сколько строк в выборке?
2. Какое максимальное значение в столбце 'aircraft_code'?

## Рисуем графики с помощью matPlotLib

### Устанавливаем библиотеку, если ее нет

In [None]:
!pip install matPlotLib

### График - линия, удобен для отображения метрики в динамике

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
plt.plot((0, 1, 2, 3, 4, 5, 6, 7), (0, 3, 1, 2, 1, 5, 4, 0))
plt.show()

Построим график количества бронирований в зависимости от даты. У нас в таблице дата со временем, придется немного над ней поколдовать, чтобы убрать время

In [None]:
bookings.head()

In [None]:
bookings['book_date'] = bookings['book_date'].dt.date
bookings.head()

In [None]:
bookings_by_day = bookings.groupby('book_date').size().reset_index(name = 'book_count')
bookings_by_day.head()

In [None]:
bookings_by_day.plot(x = 'book_date')

In [None]:
bookings_by_day.plot(x = 'book_date', rot = 90)

### Столбчатая диаграмма, удобна для сравнения групп

In [None]:
df = pd.DataFrame({ 'celltype':["foo","bar","qux","woz"], 's1':[5,9,1,7], 's2':[12,90,13,87]})
df.head()

In [None]:
df.plot(x = 'celltype', kind='bar')

In [None]:
hotels_mean = hotels.groupby('place').agg({'price' : 'mean', 'total' : 'mean'}).reset_index()
hotels_mean

In [None]:
hotels_mean[['place', 'price']].plot(x = 'place', kind='bar')

In [None]:
hotels_mean.plot(x = 'place', kind='bar')

### Гистограмма, удобна для отображения распределения величины

In [None]:
flights.head()

In [None]:
flights.plot(y = 'price', kind = 'hist')

In [None]:
flights.hist(column='price', by = 'agency', figsize = (8,6))

In [None]:
flights.hist(column='price', by = 'agency', layout = (3, 1), figsize = (5,15))

In [None]:
flights.groupby('agency').price.plot.hist(alpha = 0.1, legend = True)