# Данные

Ссылка на используемый датасет: https://www.kaggle.com/datasets/olistbr/brazilian-ecommerce?select=olist_orders_dataset.csv.

Краткое описание данных:

"В датасете содержится информация о заказах, сделанных на платформе Olist Store (бразильский маркетплейс). Присутствует информация о 100 тысячах заказов, сделанных в период с 2016 по 2018 год. Есть данные о статусах заказов, цена, способах оплаты, местонахождении клиентов, отзывы клиентов и т.д. Также есть таблица, в которой содержатся почтовые индексы и соответствующие им координаты (широта и долгота).

Это настоящие коммерческие данные, которые были анонимизированы."

# Какие данные представлены?

### Таблица Order Items

- order_id - уникальный идентификатор заказа
- order_item_id - количество товаров, включенных в заказ
- product_id - уникальный идентификатор продукта
- seller_id - уникальный идентификатор продавца
- shipping_limit_date - крайний срок доставки товара
- price - цена товара
- freight_value - плата за перевозку товара

### Таблица Sellers

- seller_id - уникальный идентификатор продавца
- seller_zip_code_prefix - первые пять цифр почтового индекса продавца
- seller_city - в каком городе проживает продавец
- seller_state - в каком штате проживает продавец
- seller_geolocation_lat - геопозиция продавца (широта)
- seller_geolocation_lng - геопозиция продавца (долгота)

### Таблица Products

- product_id - уникальный идентификатор продукта
- product_category_name - категория продукта (на португальском языке)
- product_name_lenght - количество символов в названии товара
- product_description_lenght - количество символов в описании товара
- product_photos_qty - количество опубликованных фото продукта
- product_weight_g - вес продукта в граммах
- product_length_cm - длина продукта в см
- product_height_cm - высота продукта в см
- product_width_cm - ширина продукта в см

### Таблица Product Category Name Translation

- product_category_name - категория продукта (на португальском языке)
- product_category_name_english - категория продукта (на английском языке)

### Таблица Orders

- order_id - уникальный идентификатор заказа
- customer_id - идентификатор заказа (каждый заказ имеет уникальный идентификатор)
- order_status - статус заказа
- order_purchase_timestamp - время покупки
- order_approved_at - время подтверждения платежа
- order_delivered_carrier_date - когда заказ был передан логистической службе
- order_delivered_customer_date - фактическая дата доставки заказа клиенту
- order_estimated_delivery_date - предполагаемая дата доставки заказа клиенту

### Таблица Order Payments

- order_id - уникальный идентификатор заказа
- payment_sequential - количество способов оплаты заказа (покупатель может оплатить заказ более чем одним способом оплаты)
- payment_type - способ оплаты
- payment_installments - на сколько платежей была разбита оплата заказа
- payment_value - размер платежа

### Таблица Customers

- customer_id - идентификатор заказа (каждый заказ имеет уникальный идентификатор)
- customer_unique_id - уникальный идентификатор клиента
- customer_zip_code_prefix - первые пять цифр почтового индекса клиента
- customer_city - в каком городе проживает клиент
- customer_state - в каком штате проживает клиент
- customer_geolocation_lat - геопозиция клиента (широта)
- customer_geolocation_lng - геопозиция клиента (долгота)

# Задача

Объединить таблицы по соответствующим ключам и предобработать данные для составления дашборда в Tableau.

In [1]:
# Загрузка библиотек
import pandas as pd
import numpy as np

# 1. Таблица Order Items

In [2]:
df_order_item = pd.read_csv('data/olist_order_items_dataset.csv')

print(df_order_item.shape)
df_order_item.head()

(112650, 7)


Unnamed: 0,order_id,order_item_id,product_id,seller_id,shipping_limit_date,price,freight_value
0,00010242fe8c5a6d1ba2dd792cb16214,1,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,2017-09-19 09:45:35,58.9,13.29
1,00018f77f2f0320c557190d7a144bdd3,1,e5f2d52b802189ee658865ca93d83a8f,dd7ddc04e1b6c2c614352b383efe2d36,2017-05-03 11:05:13,239.9,19.93
2,000229ec398224ef6ca0657da4fc703e,1,c777355d18b72b67abbeef9df44fd0fd,5b51032eddd242adc84c38acab88f23d,2018-01-18 14:48:30,199.0,17.87
3,00024acbcdf0a6daa1e931b038114c75,1,7634da152a4610f1595efa32f14722fc,9d7a1d34a5052409006425275ba1c2b4,2018-08-15 10:10:18,12.99,12.79
4,00042b26cf59d7ce69dfabb4e55b4fd9,1,ac6c3623068f30de03045865e4e10089,df560393f3a51e74553ab94004ba5c87,2017-02-13 13:57:51,199.9,18.14


# 2. Таблица Sellers

In [3]:
df_sellers = pd.read_excel('data/sellers.xlsx')

df_sellers = df_sellers.rename(columns={'zip_code_prefix': 'seller_zip_code_prefix',
                                        'geolocation_lat': 'seller_geolocation_lat',
                                        'geolocation_lng': 'seller_geolocation_lng'})

print(df_sellers.shape)
df_sellers.head()

(3095, 6)


Unnamed: 0,seller_id,seller_zip_code_prefix,seller_city,seller_state,seller_geolocation_lat,seller_geolocation_lng
0,3442f8959a84dea7ee197c632cb2df15,13023,campinas,SP,-22.898536,-47.063125
1,d1b65fc7debc3361ea86b5f14c68d2e2,13844,mogi guacu,SP,-22.382941,-46.946641
2,ce3ad9de960102d0677a81f5d0bb7b2d,20031,rio de janeiro,RJ,-22.910641,-43.17651
3,c0f3eea2e14555b6faeea3dd58c1b1c3,4195,sao paulo,SP,-23.65725,-46.610759
4,51a04a8a6bdcb23deccc82b0b80742cf,12914,braganca paulista,SP,-22.971648,-46.533618


Названия городов запишем с заглавной буквы и заменим краткие названия штатов на полные.

In [4]:
df_sellers['seller_city'] = df_sellers['seller_city'].apply(lambda x: str.title(x))

In [5]:
df_sellers = df_sellers.replace({'seller_state': {'SP': 'Sao Paulo', 
                                                  'MG': 'Minas Gerais',
                                                  'PR': 'Parana',
                                                  'SC': 'Santa Catarina',
                                                  'DF': 'Distrito Federal',
                                                  'RS': 'Rio Grande do Sul',
                                                  'RJ': 'Rio de Janeiro',
                                                  'GO': 'Goias',
                                                  'MA': 'Maranhao',
                                                  'ES': 'Espirito Santo',
                                                  'BA': 'Bahia',
                                                  'PI': 'Piaui',
                                                  'RO': 'Rondonia',
                                                  'MT': 'Mato Grosso',
                                                  'CE': 'Ceara',
                                                  'RN': 'Rio Grande do Norte',
                                                  'PE': 'Pernambuco',
                                                  'SE': 'Sergipe',
                                                  'MS': 'Mato Grosso do Sul',
                                                  'PB': 'Paraiba',
                                                  'PA': 'Para',
                                                  'AM': 'Amazonas'}})

In [6]:
df_sellers.head()

Unnamed: 0,seller_id,seller_zip_code_prefix,seller_city,seller_state,seller_geolocation_lat,seller_geolocation_lng
0,3442f8959a84dea7ee197c632cb2df15,13023,Campinas,Sao Paulo,-22.898536,-47.063125
1,d1b65fc7debc3361ea86b5f14c68d2e2,13844,Mogi Guacu,Sao Paulo,-22.382941,-46.946641
2,ce3ad9de960102d0677a81f5d0bb7b2d,20031,Rio De Janeiro,Rio de Janeiro,-22.910641,-43.17651
3,c0f3eea2e14555b6faeea3dd58c1b1c3,4195,Sao Paulo,Sao Paulo,-23.65725,-46.610759
4,51a04a8a6bdcb23deccc82b0b80742cf,12914,Braganca Paulista,Sao Paulo,-22.971648,-46.533618


# 3. Таблица Products

In [7]:
df_product_data = pd.read_csv('data/olist_products_dataset.csv')

print(df_product_data.shape)
df_product_data.head()

(32951, 9)


Unnamed: 0,product_id,product_category_name,product_name_lenght,product_description_lenght,product_photos_qty,product_weight_g,product_length_cm,product_height_cm,product_width_cm
0,1e9e8ef04dbcff4541ed26657ea517e5,perfumaria,40.0,287.0,1.0,225.0,16.0,10.0,14.0
1,3aa071139cb16b67ca9e5dea641aaa2f,artes,44.0,276.0,1.0,1000.0,30.0,18.0,20.0
2,96bd76ec8810374ed1b65e291975717f,esporte_lazer,46.0,250.0,1.0,154.0,18.0,9.0,15.0
3,cef67bcfe19066a932b7673e239eb23d,bebes,27.0,261.0,1.0,371.0,26.0,4.0,26.0
4,9dc1a7de274444849c219cff195d0b71,utilidades_domesticas,37.0,402.0,4.0,625.0,20.0,17.0,13.0


# 4. Таблица Product Category Name Translation

In [8]:
df_product_category = pd.read_csv('data/product_category_name_translation.csv')

print(df_product_category.shape)
df_product_category.head()

(71, 2)


Unnamed: 0,product_category_name,product_category_name_english
0,beleza_saude,health_beauty
1,informatica_acessorios,computers_accessories
2,automotivo,auto
3,cama_mesa_banho,bed_bath_table
4,moveis_decoracao,furniture_decor


# 5. Таблица Orders

In [9]:
df_order_data = pd.read_csv('data/olist_orders_dataset.csv')

print(df_order_data.shape)
df_order_data.head()

(99441, 8)


Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date
0,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,delivered,2017-10-02 10:56:33,2017-10-02 11:07:15,2017-10-04 19:55:00,2017-10-10 21:25:13,2017-10-18 00:00:00
1,53cdb2fc8bc7dce0b6741e2150273451,b0830fb4747a6c6d20dea0b8c802d7ef,delivered,2018-07-24 20:41:37,2018-07-26 03:24:27,2018-07-26 14:31:00,2018-08-07 15:27:45,2018-08-13 00:00:00
2,47770eb9100c2d0c44946d9cf07ec65d,41ce2a54c0b03bf3443c3d931a367089,delivered,2018-08-08 08:38:49,2018-08-08 08:55:23,2018-08-08 13:50:00,2018-08-17 18:06:29,2018-09-04 00:00:00
3,949d5b44dbf5de918fe9c16f97b45f8a,f88197465ea7920adcdbec7375364d82,delivered,2017-11-18 19:28:06,2017-11-18 19:45:59,2017-11-22 13:39:59,2017-12-02 00:28:42,2017-12-15 00:00:00
4,ad21c59c0840e6cb83a9ceb5573f8159,8ab97904e6daea8866dbdbc4fb7aad2c,delivered,2018-02-13 21:18:39,2018-02-13 22:20:29,2018-02-14 19:46:34,2018-02-16 18:17:02,2018-02-26 00:00:00


Поменяем тип данных для колонки с датами, а статус заказа запишем с заглавной буквы.

In [10]:
df_order_data['order_purchase_timestamp'] = pd.to_datetime(df_order_data['order_purchase_timestamp'])

df_order_data['order_status'] = df_order_data['order_status'].apply(lambda x: x.capitalize())

In [11]:
df_order_data.head()

Unnamed: 0,order_id,customer_id,order_status,order_purchase_timestamp,order_approved_at,order_delivered_carrier_date,order_delivered_customer_date,order_estimated_delivery_date
0,e481f51cbdc54678b7cc49136f2d6af7,9ef432eb6251297304e76186b10a928d,Delivered,2017-10-02 10:56:33,2017-10-02 11:07:15,2017-10-04 19:55:00,2017-10-10 21:25:13,2017-10-18 00:00:00
1,53cdb2fc8bc7dce0b6741e2150273451,b0830fb4747a6c6d20dea0b8c802d7ef,Delivered,2018-07-24 20:41:37,2018-07-26 03:24:27,2018-07-26 14:31:00,2018-08-07 15:27:45,2018-08-13 00:00:00
2,47770eb9100c2d0c44946d9cf07ec65d,41ce2a54c0b03bf3443c3d931a367089,Delivered,2018-08-08 08:38:49,2018-08-08 08:55:23,2018-08-08 13:50:00,2018-08-17 18:06:29,2018-09-04 00:00:00
3,949d5b44dbf5de918fe9c16f97b45f8a,f88197465ea7920adcdbec7375364d82,Delivered,2017-11-18 19:28:06,2017-11-18 19:45:59,2017-11-22 13:39:59,2017-12-02 00:28:42,2017-12-15 00:00:00
4,ad21c59c0840e6cb83a9ceb5573f8159,8ab97904e6daea8866dbdbc4fb7aad2c,Delivered,2018-02-13 21:18:39,2018-02-13 22:20:29,2018-02-14 19:46:34,2018-02-16 18:17:02,2018-02-26 00:00:00


# 6. Таблица Order Payments

In [12]:
df_order_payment = pd.read_csv('data/olist_order_payments_dataset.csv')

print(df_order_payment.shape)
df_order_payment.head()

(103886, 5)


Unnamed: 0,order_id,payment_sequential,payment_type,payment_installments,payment_value
0,b81ef226f3fe1789b1e8b2acac839d17,1,credit_card,8,99.33
1,a9810da82917af2d9aefd1278f1dcfa0,1,credit_card,1,24.39
2,25e8ea4e93396b6fa0d3dd708e76c1bd,1,credit_card,1,65.71
3,ba78997921bbcdc1373bb41e913ab953,1,credit_card,8,107.78
4,42fdf880ba16b47b59251dd489d4441a,1,credit_card,2,128.45


Запишем способ оплаты с заглавной буквы.

In [13]:
df_order_payment['payment_type'] = df_order_payment['payment_type'].apply(lambda x: x.replace('_', ' '))
df_order_payment['payment_type'] = df_order_payment['payment_type'].apply(lambda x: x.capitalize())

In [14]:
df_order_payment.head()

Unnamed: 0,order_id,payment_sequential,payment_type,payment_installments,payment_value
0,b81ef226f3fe1789b1e8b2acac839d17,1,Credit card,8,99.33
1,a9810da82917af2d9aefd1278f1dcfa0,1,Credit card,1,24.39
2,25e8ea4e93396b6fa0d3dd708e76c1bd,1,Credit card,1,65.71
3,ba78997921bbcdc1373bb41e913ab953,1,Credit card,8,107.78
4,42fdf880ba16b47b59251dd489d4441a,1,Credit card,2,128.45


# 7. Таблица Customers

In [15]:
df_customer = pd.read_excel('data/customers.xlsx')

df_customer = df_customer.rename(columns={'zip_code_prefix': 'customer_zip_code_prefix',
                                          'geolocation_lat': 'customer_geolocation_lat',
                                          'geolocation_lng': 'customer_geolocation_lng'})

print(df_customer.shape)
df_customer.head()

(99441, 7)


Unnamed: 0,customer_id,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state,customer_geolocation_lat,customer_geolocation_lng
0,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,franca,SP,-20.509898,-47.397866
1,18955e83d337fd6b2def6b18a428ac77,290c77bc529b7ac935b93aa66c333dc3,9790,sao bernardo do campo,SP,-23.726853,-46.545746
2,4e7b3e00288586ebd08712fdd0374a03,060e732b5b29e8181a18229c7b0b2b5e,1151,sao paulo,SP,-23.527788,-46.66031
3,b2b6027bc5c5109e529d4dc6358b12c3,259dac757896d24d7702b9acbbff3f3c,8775,mogi das cruzes,SP,-23.49693,-46.185352
4,4f2d8ab171c80ec8364f7c12e35b23ad,345ecd01c38d18a9036ed96c73b8d066,13056,campinas,SP,-22.987222,-47.151073


Названия городов запишем с заглавной буквы и заменим краткие названия штатов на полные.

In [16]:
df_customer['customer_city'] = df_customer['customer_city'].apply(lambda x: str.title(x))

In [17]:
df_customer = df_customer.replace({'customer_state': {'SP': 'Sao Paulo', 
                                                      'MG': 'Minas Gerais',
                                                      'PR': 'Parana',
                                                      'SC': 'Santa Catarina',
                                                      'DF': 'Distrito Federal',
                                                      'RS': 'Rio Grande do Sul',
                                                      'RJ': 'Rio de Janeiro',
                                                      'GO': 'Goias',
                                                      'MA': 'Maranhao',
                                                      'ES': 'Espirito Santo',
                                                      'BA': 'Bahia',
                                                      'PI': 'Piaui',
                                                      'RO': 'Rondonia',
                                                      'MT': 'Mato Grosso',
                                                      'CE': 'Ceara',
                                                      'RN': 'Rio Grande do Norte',
                                                      'PE': 'Pernambuco',
                                                      'SE': 'Sergipe',
                                                      'MS': 'Mato Grosso do Sul',
                                                      'PB': 'Paraiba',
                                                      'PA': 'Para',
                                                      'AM': 'Amazonas',
                                                      'AL': 'Alagoas',
                                                      'AP': 'Amapa',
                                                      'AC': 'Acre',
                                                      'RR': 'Roraima',
                                                      'TO': 'Tocantins'}})

In [18]:
df_customer.head()

Unnamed: 0,customer_id,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state,customer_geolocation_lat,customer_geolocation_lng
0,06b8999e2fba1a1fbc88172c00ba8bc7,861eff4711a542e4b93843c6dd7febb0,14409,Franca,Sao Paulo,-20.509898,-47.397866
1,18955e83d337fd6b2def6b18a428ac77,290c77bc529b7ac935b93aa66c333dc3,9790,Sao Bernardo Do Campo,Sao Paulo,-23.726853,-46.545746
2,4e7b3e00288586ebd08712fdd0374a03,060e732b5b29e8181a18229c7b0b2b5e,1151,Sao Paulo,Sao Paulo,-23.527788,-46.66031
3,b2b6027bc5c5109e529d4dc6358b12c3,259dac757896d24d7702b9acbbff3f3c,8775,Mogi Das Cruzes,Sao Paulo,-23.49693,-46.185352
4,4f2d8ab171c80ec8364f7c12e35b23ad,345ecd01c38d18a9036ed96c73b8d066,13056,Campinas,Sao Paulo,-22.987222,-47.151073


# 8. Соединение таблиц в один датафрейм

Соберем данные в один датафрейм, затем удалим ненужные столбцы.

In [19]:
full_df = df_order_item.merge(df_sellers, how='left', on='seller_id')
full_df = full_df.merge(df_product_data, how='left', on='product_id')
full_df = full_df.merge(df_order_data, how='left', on='order_id')
full_df = full_df.merge(df_customer, how='left', on='customer_id')
full_df = full_df.merge(df_order_payment, how='left', on='order_id')
full_df = full_df.merge(df_product_category, how='left', on='product_category_name')
full_df = full_df.dropna()

In [21]:
full_df = full_df.drop(columns=['shipping_limit_date', 'freight_value', 'product_name_lenght', 
                                'product_description_lenght', 'product_photos_qty', 
                                'product_length_cm', 'product_height_cm', 'product_width_cm', 'product_weight_g',
                                'order_approved_at', 'order_delivered_carrier_date', 'order_delivered_customer_date',
                                'order_estimated_delivery_date', 'product_category_name',
                                'payment_sequential', 'payment_installments', 'order_item_id'])

full_df.head()

Unnamed: 0,order_id,product_id,seller_id,price,seller_zip_code_prefix,seller_city,seller_state,seller_geolocation_lat,seller_geolocation_lng,customer_id,...,order_purchase_timestamp,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state,customer_geolocation_lat,customer_geolocation_lng,payment_type,payment_value,product_category_name_english
0,00010242fe8c5a6d1ba2dd792cb16214,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,58.9,27277,Volta Redonda,Sao Paulo,-22.498183,-44.123614,3ce436f183e68e07877b285a838db11a,...,2017-09-13 08:59:02,871766c5855e863f6eccc05f988b23cb,28013,Campos Dos Goytacazes,Rio de Janeiro,-21.758076,-41.312633,Credit card,72.19,cool_stuff
1,00018f77f2f0320c557190d7a144bdd3,e5f2d52b802189ee658865ca93d83a8f,dd7ddc04e1b6c2c614352b383efe2d36,239.9,3471,Sao Paulo,Sao Paulo,-23.566258,-46.518417,f6dd3ec061db4e3987629fe6b26e5cce,...,2017-04-26 10:53:06,eb28e67c4c0b83846050ddfb8a35d051,15775,Santa Fe Do Sul,Sao Paulo,-20.212393,-50.941471,Credit card,259.83,pet_shop
2,000229ec398224ef6ca0657da4fc703e,c777355d18b72b67abbeef9df44fd0fd,5b51032eddd242adc84c38acab88f23d,199.0,37564,Borda Da Mata,Minas Gerais,-22.264094,-46.158564,6489ae5e4333f3693df5ad4372dab6d3,...,2018-01-14 14:33:31,3818d81c6709e39d06b2738a8d3a2474,35661,Para De Minas,Minas Gerais,-19.860439,-44.597972,Credit card,216.87,furniture_decor
3,00024acbcdf0a6daa1e931b038114c75,7634da152a4610f1595efa32f14722fc,9d7a1d34a5052409006425275ba1c2b4,12.99,14403,Franca,Sao Paulo,-20.548228,-47.395897,d4eb9395c8c0431ee92fce09860c5a06,...,2018-08-08 10:00:35,af861d436cfc08b2c2ddefd0ba074622,12952,Atibaia,Sao Paulo,-23.144923,-46.53983,Credit card,25.78,perfumery
4,00042b26cf59d7ce69dfabb4e55b4fd9,ac6c3623068f30de03045865e4e10089,df560393f3a51e74553ab94004ba5c87,199.9,87900,Loanda,Parana,-22.931427,-53.133759,58dbd0b2d70206bf40e62cd34e84d795,...,2017-02-04 13:57:51,64b576fb70d441e8f1b2d7d446e483c5,13226,Varzea Paulista,Sao Paulo,-23.249008,-46.824961,Credit card,218.04,garden_tools


Приведем данные с категориями продуктов к нужному формату.

In [22]:
full_df = full_df.rename(columns={'product_category_name_english': 'product_category'})

full_df['product_category'] = full_df['product_category'].apply(lambda x: x.replace('_', ' '))
full_df['product_category'] = full_df['product_category'].apply(lambda x: x.capitalize())

In [23]:
full_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 112819 entries, 0 to 117603
Data columns (total 21 columns):
 #   Column                    Non-Null Count   Dtype         
---  ------                    --------------   -----         
 0   order_id                  112819 non-null  object        
 1   product_id                112819 non-null  object        
 2   seller_id                 112819 non-null  object        
 3   price                     112819 non-null  float64       
 4   seller_zip_code_prefix    112819 non-null  int64         
 5   seller_city               112819 non-null  object        
 6   seller_state              112819 non-null  object        
 7   seller_geolocation_lat    112819 non-null  float64       
 8   seller_geolocation_lng    112819 non-null  float64       
 9   customer_id               112819 non-null  object        
 10  order_status              112819 non-null  object        
 11  order_purchase_timestamp  112819 non-null  datetime64[ns]
 12  custome

In [24]:
full_df.head()

Unnamed: 0,order_id,product_id,seller_id,price,seller_zip_code_prefix,seller_city,seller_state,seller_geolocation_lat,seller_geolocation_lng,customer_id,...,order_purchase_timestamp,customer_unique_id,customer_zip_code_prefix,customer_city,customer_state,customer_geolocation_lat,customer_geolocation_lng,payment_type,payment_value,product_category
0,00010242fe8c5a6d1ba2dd792cb16214,4244733e06e7ecb4970a6e2683c13e61,48436dade18ac8b2bce089ec2a041202,58.9,27277,Volta Redonda,Sao Paulo,-22.498183,-44.123614,3ce436f183e68e07877b285a838db11a,...,2017-09-13 08:59:02,871766c5855e863f6eccc05f988b23cb,28013,Campos Dos Goytacazes,Rio de Janeiro,-21.758076,-41.312633,Credit card,72.19,Cool stuff
1,00018f77f2f0320c557190d7a144bdd3,e5f2d52b802189ee658865ca93d83a8f,dd7ddc04e1b6c2c614352b383efe2d36,239.9,3471,Sao Paulo,Sao Paulo,-23.566258,-46.518417,f6dd3ec061db4e3987629fe6b26e5cce,...,2017-04-26 10:53:06,eb28e67c4c0b83846050ddfb8a35d051,15775,Santa Fe Do Sul,Sao Paulo,-20.212393,-50.941471,Credit card,259.83,Pet shop
2,000229ec398224ef6ca0657da4fc703e,c777355d18b72b67abbeef9df44fd0fd,5b51032eddd242adc84c38acab88f23d,199.0,37564,Borda Da Mata,Minas Gerais,-22.264094,-46.158564,6489ae5e4333f3693df5ad4372dab6d3,...,2018-01-14 14:33:31,3818d81c6709e39d06b2738a8d3a2474,35661,Para De Minas,Minas Gerais,-19.860439,-44.597972,Credit card,216.87,Furniture decor
3,00024acbcdf0a6daa1e931b038114c75,7634da152a4610f1595efa32f14722fc,9d7a1d34a5052409006425275ba1c2b4,12.99,14403,Franca,Sao Paulo,-20.548228,-47.395897,d4eb9395c8c0431ee92fce09860c5a06,...,2018-08-08 10:00:35,af861d436cfc08b2c2ddefd0ba074622,12952,Atibaia,Sao Paulo,-23.144923,-46.53983,Credit card,25.78,Perfumery
4,00042b26cf59d7ce69dfabb4e55b4fd9,ac6c3623068f30de03045865e4e10089,df560393f3a51e74553ab94004ba5c87,199.9,87900,Loanda,Parana,-22.931427,-53.133759,58dbd0b2d70206bf40e62cd34e84d795,...,2017-02-04 13:57:51,64b576fb70d441e8f1b2d7d446e483c5,13226,Varzea Paulista,Sao Paulo,-23.249008,-46.824961,Credit card,218.04,Garden tools


В данных указаны координаты каждого клиента, в разрезе одного города эти координаты могут немного отличаться, но в целом схожи.

Вычислим средние значения широты и долготы по каждому городу, а затем заменим этими значениями координаты для каждого клиента в соответствующем городе.

In [25]:
customer_lat_lng = full_df.groupby('customer_city')[['customer_geolocation_lat', 'customer_geolocation_lng']].agg('mean').reset_index()

customer_lat_lng = customer_lat_lng.rename(columns={'customer_geolocation_lat': 'mean_lat',
                                                    'customer_geolocation_lng': 'mean_lng'})

customer_lat_lng

Unnamed: 0,customer_city,mean_lat,mean_lng
0,Abadia Dos Dourados,-18.491105,-47.398266
1,Abadiania,-16.194298,-48.711113
2,Abaete,-19.160506,-45.453776
3,Abaetetuba,-1.724431,-48.886307
4,Abaiara,-7.341492,-39.024462
...,...,...,...
4020,Xinguara,-7.100810,-49.940877
4021,Xique-Xique,-10.818567,-42.723484
4022,Zacarias,-21.051355,-50.051892
4023,Ze Doca,-3.274597,-45.654382


In [26]:
customer_cities = list(full_df.customer_city.unique())

for city in customer_cities:
    mean_lat = customer_lat_lng.loc[customer_lat_lng['customer_city'] == city, 'mean_lat'].values[0]
    mean_lng = customer_lat_lng.loc[customer_lat_lng['customer_city'] == city, 'mean_lng'].values[0]

    full_df.loc[full_df['customer_city'] == city, 'customer_geolocation_lat'] = mean_lat
    full_df.loc[full_df['customer_city'] == city, 'customer_geolocation_lng'] = mean_lng

То же самое проделаем с координатами продавцов.

In [27]:
seller_lat_lng = full_df.groupby('seller_city')[['seller_geolocation_lat', 'seller_geolocation_lng']].agg('mean').reset_index()

seller_lat_lng = seller_lat_lng.rename(columns={'seller_geolocation_lat': 'mean_lat',
                                                'seller_geolocation_lng': 'mean_lng'})

seller_lat_lng

Unnamed: 0,seller_city,mean_lat,mean_lng
0,Abadia De Goias,-16.766457,-49.434210
1,Afonso Claudio,-20.072235,-41.132607
2,Aguas Claras Df,-15.832335,-48.038802
3,Alambari,-23.568093,-47.889391
4,Alfenas,-21.420179,-45.959964
...,...,...,...
583,Volta Redonda,-22.498556,-44.123768
584,Votorantim,-23.540654,-47.458075
585,Votuporanga,-20.406552,-49.990445
586,Xanxere,-26.870625,-52.404488


In [28]:
seller_cities = list(full_df.seller_city.unique())

for city in seller_cities:
    mean_lat = seller_lat_lng.loc[seller_lat_lng['seller_city'] == city, 'mean_lat'].values[0]
    mean_lng = seller_lat_lng.loc[seller_lat_lng['seller_city'] == city, 'mean_lng'].values[0]

    full_df.loc[full_df['seller_city'] == city, 'seller_geolocation_lat'] = mean_lat
    full_df.loc[full_df['seller_city'] == city, 'seller_geolocation_lng'] = mean_lng

Сохраним полученный датафрейм.

In [29]:
# full_df.to_csv('data/brazilian_e_commerce.csv', index=False)