# Статистика по заказам

Представьте что вы работаете Аналитиком Данных в производственной компании, которая занимается отправкой определенных продуктов по миру. У бизнеса есть предположение, что есть определенные страны, с которыми нам не стоит работать, так как доставка в данные страны может быть нецелесообразной.


Ваша задача, провести определенное исследование и предложить в какой стране работать лучше всего а в какой нет. 

In [1]:
import matplotlib.pyplot as plt
import psycopg2 as psy
import pandas as pd

from datetime import datetime as dt

def sql_to_pd(query):
    '''
    Функция стучится в базу данных и обрабатывает указанный в аргументе запрос.
    Затем преобразует полученные данные в датафрейм и возвращает его.
    '''
    try:
        # Connect to an existing database
        connection = psy.connect(user="postgres",
                                  password="Pga1708844!",
                                  host="127.0.0.1",
                                  port="5432",
                                  database="postgres")
        # Create a cursor to perform database operations
        cursor = connection.cursor()
        cursor.execute(query)
        colnames = [desc[0] for desc in cursor.description]
        record = cursor.fetchall()
        # Create a dataframe with the data from a database
        data_frame = pd.DataFrame(record, columns=colnames)
        return data_frame
    except Exception as e:
        print("Error while connecting to PostgreSQL", e)
    finally:
        if (connection):
            cursor.close()
            connection.close()

# 1. Покажите страны, с наибольшим количеством активных заказов
Ниже я буду использовать переменную temp как временное хранилище для разных SQL запросов.

Поэтому чтобы этот код работал правильно, нужно выполнять его сверху вниз.

In [8]:
# получаем датасет с активными заказами, то есть теми, где shipped_date = null
temp = sql_to_pd("SELECT * FROM orders WHERE shipped_date IS null;")
temp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21 entries, 0 to 20
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   order_id          21 non-null     int64  
 1   customer_id       21 non-null     object 
 2   employee_id       21 non-null     int64  
 3   order_date        21 non-null     object 
 4   required_date     21 non-null     object 
 5   shipped_date      0 non-null      object 
 6   ship_via          21 non-null     int64  
 7   freight           21 non-null     float64
 8   ship_name         21 non-null     object 
 9   ship_address      21 non-null     object 
 10  ship_city         21 non-null     object 
 11  ship_region       9 non-null      object 
 12  ship_postal_code  21 non-null     object 
 13  ship_country      21 non-null     object 
dtypes: float64(1), int64(3), object(10)
memory usage: 2.4+ KB


In [9]:
# теперь сгруппируем по странам и выведем 
countries_orders = temp.groupby('ship_country').agg({'order_id': 'count'}).sort_values(by='order_id', ascending=False).reset_index()

countries_max_orders = countries_orders[countries_orders['order_id'] == max(countries_orders['order_id'])].copy()
countries_max_orders.rename(columns={'order_id': 'amount'}, inplace=True)
countries_max_orders

Unnamed: 0,ship_country,amount
0,USA,3
1,Venezuela,3


# 2. Исследуя уже отправленные заказы, посчитайте количество заказов по странам.

In [10]:
temp = sql_to_pd("SELECT * FROM orders WHERE shipped_date IS NOT null;")
temp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 809 entries, 0 to 808
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   order_id          809 non-null    int64  
 1   customer_id       809 non-null    object 
 2   employee_id       809 non-null    int64  
 3   order_date        809 non-null    object 
 4   required_date     809 non-null    object 
 5   shipped_date      809 non-null    object 
 6   ship_via          809 non-null    int64  
 7   freight           809 non-null    float64
 8   ship_name         809 non-null    object 
 9   ship_address      809 non-null    object 
 10  ship_city         809 non-null    object 
 11  ship_region       314 non-null    object 
 12  ship_postal_code  790 non-null    object 
 13  ship_country      809 non-null    object 
dtypes: float64(1), int64(3), object(10)
memory usage: 88.6+ KB


In [13]:
sent_orders_count = temp.groupby('ship_country').agg({'order_id': 'count'}).sort_values(by='order_id', ascending=False).reset_index().copy()
sent_orders_count.rename(columns={'order_id': 'amount'}, inplace=True)
sent_orders_count

Unnamed: 0,ship_country,amount
0,Germany,120
1,USA,119
2,Brazil,81
3,France,75
4,UK,56
5,Venezuela,43
6,Austria,38
7,Sweden,37
8,Canada,29
9,Mexico,27


# 3. Посчитайте среднее количество продуктов по активным заказам

In [14]:
# Данные о количестве хранятся в таблице order_details
temp = sql_to_pd("SELECT * FROM orders INNER JOIN order_details USING(order_id) WHERE shipped_date IS null;")
temp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 73 entries, 0 to 72
Data columns (total 18 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   order_id          73 non-null     int64  
 1   customer_id       73 non-null     object 
 2   employee_id       73 non-null     int64  
 3   order_date        73 non-null     object 
 4   required_date     73 non-null     object 
 5   shipped_date      0 non-null      object 
 6   ship_via          73 non-null     int64  
 7   freight           73 non-null     float64
 8   ship_name         73 non-null     object 
 9   ship_address      73 non-null     object 
 10  ship_city         73 non-null     object 
 11  ship_region       43 non-null     object 
 12  ship_postal_code  73 non-null     object 
 13  ship_country      73 non-null     object 
 14  product_id        73 non-null     int64  
 15  unit_price        73 non-null     float64
 16  quantity          73 non-null     int64  
 17 

In [17]:
avg_products_in_order = temp.groupby('order_id').agg({'quantity': 'mean'}).sort_values(by='order_id').reset_index()
avg_products_in_order

Unnamed: 0,order_id,quantity
0,11008,60.333333
1,11019,2.5
2,11039,33.0
3,11040,20.0
4,11045,19.5
5,11051,10.0
6,11054,15.0
7,11058,9.333333
8,11059,25.666667
9,11061,15.0
