# Análisis de ventas

Se facilita una lista de `dict` con datos reales de ventas con las siguientes keys:

* 'Order ID'
* 'Product'
* 'Quantity Ordered'
* 'Price Each
* 'Order Date'
* 'Purchase Address'

y values de tipo `str` en todos los casos:

In [1]:
import pickle

with open('sales_data.pickle', 'rb') as handle:
    sales_data = pickle.load(handle)

In [2]:
len(sales_data)

186850

In [3]:
sales_data[0:3]

[{'Order ID': '209921',
  'Product': 'USB-C Charging Cable',
  'Quantity Ordered': '1',
  'Price Each': '11.95',
  'Order Date': '06/23/19 19:34',
  'Purchase Address': '950 Walnut St, Portland, ME 04101'},
 {'Order ID': '209922',
  'Product': 'Macbook Pro Laptop',
  'Quantity Ordered': '1',
  'Price Each': '1700.0',
  'Order Date': '06/30/19 10:05',
  'Purchase Address': '80 4th St, San Francisco, CA 94016'},
 {'Order ID': '209923',
  'Product': 'ThinkPad Laptop',
  'Quantity Ordered': '1',
  'Price Each': '999.99',
  'Order Date': '06/24/19 20:18',
  'Purchase Address': '402 Jackson St, Los Angeles, CA 90001'}]

Responder los siguientes interrogantes de interés, para lo que se requiere:

* Inspeccionar los datos
* Formatearlos adecuadamente
* Elegir y confeccionar nuevas estructuras de datos

In [4]:
from collections import Counter
import collections
import itertools

In [5]:
sales_data_list = []
for orders in sales_data:
    my_list = list(orders.values())
    sales_data_list.append(my_list)

In [6]:
len(sales_data_list)

186850

**1)** ¿Cuál es el mes que reporta **la mayor cantidad de productos**? 

*Se espera*: `El mes de mayor venta es: {Enero/Febrero/Marzo/Abril...}` *(nótese que se debe printear el nombre del mes)*

In [7]:
quantity_per_month = collections.Counter()
for orders in sales_data:
    try:
        quantity_per_month[orders['Order Date'][0:2]] += int(orders['Quantity Ordered'])
    except ValueError:
        continue
    except TypeError:
        continue

In [8]:
month_dict = {'01':'January','02':'February','03':'March','04':'April','05':'May','06':'June','07':'July','08':'August','09':'September','10':'October', '11':'November', '12':'December'}

In [9]:
quantity_per_month = dict((month_dict[key], value) for (key, value) in quantity_per_month.items())

In [10]:
quantity_per_month

{'June': 15253,
 'July': 16072,
 'December': 28114,
 'January': 10903,
 'February': 13449,
 'March': 17005,
 'September': 13109,
 'October': 22703,
 'April': 20558,
 'May': 18667,
 'August': 13448,
 'November': 19798}

In [11]:
for key,value in quantity_per_month.items():
    if value == 28114:
        best_month = key
        print(key)

December


In [12]:
print(f'El mes de mayor venta es {best_month}')

El mes de mayor venta es December


**2)** ¿Qué ganancia reporta dicho mes?  
*Se espera*: `En el mes de {Enero/Febrero/Marzo/Abril...} se reporta una ganancia total de USD{xxxx.xx}` *(nótese que el monto debe incluir DOS decimales)*

In [13]:
income_per_month = collections.Counter()
for orders in sales_data:
    try:
        income_per_month[orders['Order Date'][0:2]] += float(orders['Price Each'])
    except ValueError:
        continue
    except TypeError:
        continue

In [14]:
income_per_month

Counter({'06': 2562025.610000205,
         '07': 2632539.560000265,
         '12': 4588415.410001607,
         '01': 1811768.3799999245,
         '02': 2188884.719999974,
         '03': 2791207.8300004015,
         '09': 2084992.089999913,
         '10': 3715554.8300010404,
         '04': 3367671.0200007493,
         '05': 3135125.130000607,
         '08': 2230345.420000008,
         '11': 3180600.6800006493})

In [15]:
for key,value in quantity_per_month.items():
    if key == 'December':
        sales_quantity_december = value
        print(value)

28114


In [16]:
for key,value1 in income_per_month.items():
    if key == '12':
        sales_income_december = round(value1,2)
        print(sales_income_december)

4588415.41


In [17]:
def profit(income, quantity):
    result = income * quantity
    return "USD{:,.2f}".format(result)

In [18]:
profit_december = profit(sales_income_december,sales_quantity_december)

print(f'En el mes de {best_month} se reporta una ganancia total de {profit_december}')

En el mes de December se reporta una ganancia total de USD128,998,710,836.74


**3)** ¿Qué porcentaje del total de las ventas representa?  
*Se espera*: `Las ventas en el mes de {Enero/Febrero/Marzo/Abril...} representan un xx.xx% del total de las ventas` *(nótese que el monto debe incluir DOS decimales)*

In [19]:
def percentage(part, whole):
    result = 100 * float(part)/float(whole)
    return (f'{round(result,2)}%')

In [20]:
december_over_sales = percentage(sales_quantity_december,len(sales_data))

In [21]:
print(f'Las ventas en el mes de {best_month} representan un {december_over_sales} del total de las ventas')

Las ventas en el mes de December representan un 15.05% del total de las ventas


**4)** ¿Qué ciudad reportó la mayor cantidad de ventas?  
*Se espera*: `La ciudad con mayor cantidad de ventas es {Dallas/Los Angeles/Boston...} reporta la mayor cantidad de ventas` *(nótese que se debe especificar la ciudad y no la dirección completa)*

In [22]:
city_list = [item[5] for item in sales_data_list]

In [23]:
for i in range(len(city_list)):
    try:
        city_list[i] = city_list[i].split(', ')[1]
    except IndexError:
        continue
    except AttributeError:
        continue

In [24]:
sell_per_city = Counter(city_list)
most_sells = sell_per_city.most_common(1)
print(most_sells)

[('San Francisco', 44732)]


In [25]:
print(f'La ciudad con mayor cantidad de ventas es {most_sells} reporta la mayor cantidad de ventas')

#en caso de querer ver solo el lugar aplicar slicing
#print(f'La ciudad con mayor cantidad de ventas es {most_sells[0][0]} reporta la mayor cantidad de ventas')

La ciudad con mayor cantidad de ventas es [('San Francisco', 44732)] reporta la mayor cantidad de ventas


**5)** ¿Qué porcentaje del total de las ventas representa?  
*Se espera*: `Las ventas en {Dallas/Los Angeles/Boston...} representan un xx.xx% del total` *(nótese que se debe especificar la ciudad y no la dirección completa)*

In [26]:
most_sells_list = [list(x) for x in most_sells]
most_sells_list = most_sells_list[0][1]

In [27]:
percentage_over_sales = percentage(most_sells_list, len(sales_data))
print(percentage_over_sales)

23.94%


In [28]:
print(f'Las ventas en {most_sells[0][0]} representan un {percentage_over_sales} del total')

Las ventas en San Francisco representan un 23.94% del total


**6)** ¿En qué horas del día se deberían publicar anuncios promocionales para maximizar las ventas?  
*Se espera*: `Las horas del día en las que más ventas se registran son: {xx}hs y {yy}hs` *(nótese que se requieren horas del día, como "10hs" o "20hs")*

In [29]:
hours_per_orders = collections.Counter()
for orders in sales_data:
    try:
        hours_per_orders[orders['Order Date'][9:]] += int(orders['Quantity Ordered'])
    except ValueError:
        continue
    except TypeError:
        continue

In [30]:
best_hours = hours_per_orders.most_common(2)
best_hours

[('11:58', 282), ('19:20', 281)]

In [31]:
print(f'Las horas del día en las que más ventas se registran son: {best_hours[0][0][0:2]}hs y {best_hours[1][0][0:2]}hs')

Las horas del día en las que más ventas se registran son: 11hs y 19hs


**7)** Determinar productos que se venden juntos y DE A DOS.  
*Se espera*: `Los siguientes productos se venden juntos y de a dos: {x}-{y}, {yy}-{zz} ...`  
**OBS**: Para una misma *orden* se pueden regitrar varios productos.

In [32]:
orders_id = [item[0] for item in sales_data_list]
count_of_orders = Counter(orders_id)

In [33]:
two_orders = [orders for orders in orders_id if count_of_orders[orders] == 2]
#ordenes que tienen dos items

In [34]:
pair_products = []
for orders in sales_data_list:
    if orders[0] in two_orders:
        pair_products.append(orders[0] + orders[1])  

In [35]:
pair_products_list = []
for j in range(0,len(pair_products), 2):
    pair_products_list.append([pair_products[j][6:], pair_products[j + 1][6:]])

In [36]:
pair_products_list.sort()
list(pair_products_list for pair_products_list,_ in itertools.groupby(pair_products_list))

[['20in Monitor', '20in Monitor'],
 ['20in Monitor', '27in FHD Monitor'],
 ['20in Monitor', '34in Ultrawide Monitor'],
 ['20in Monitor', 'AA Batteries (4-pack)'],
 ['20in Monitor', 'AAA Batteries (4-pack)'],
 ['20in Monitor', 'Apple Airpods Headphones'],
 ['20in Monitor', 'Bose SoundSport Headphones'],
 ['20in Monitor', 'Flatscreen TV'],
 ['20in Monitor', 'Google Phone'],
 ['20in Monitor', 'LG Washing Machine'],
 ['20in Monitor', 'Lightning Charging Cable'],
 ['20in Monitor', 'Macbook Pro Laptop'],
 ['20in Monitor', 'ThinkPad Laptop'],
 ['20in Monitor', 'USB-C Charging Cable'],
 ['20in Monitor', 'Wired Headphones'],
 ['20in Monitor', 'iPhone'],
 ['27in 4K Gaming Monitor', '20in Monitor'],
 ['27in 4K Gaming Monitor', '27in 4K Gaming Monitor'],
 ['27in 4K Gaming Monitor', '27in FHD Monitor'],
 ['27in 4K Gaming Monitor', '34in Ultrawide Monitor'],
 ['27in 4K Gaming Monitor', 'AA Batteries (4-pack)'],
 ['27in 4K Gaming Monitor', 'AAA Batteries (4-pack)'],
 ['27in 4K Gaming Monitor', 'Apple

**8)** ¿Cuál es el producto más vendido?
*Se espera*: `El producto más vendido es {x}`

In [37]:
product_list = [item[1] for item in sales_data_list]

In [38]:
len(product_list)

186850

In [39]:
quantity_per_product = Counter(product_list)
best_seller = quantity_per_product.most_common(1)
print(best_seller)

[('USB-C Charging Cable', 21903)]


In [40]:
print(f'El producto más vendido es {best_seller}')

El producto más vendido es [('USB-C Charging Cable', 21903)]


**9)** ¿Cuál es la relación entre el precio del producto más vendido y el del menos vendido?
*Se espera:* `El precio del producto más vendido es {n} veces mayor/menor que el producto menos vendido`

In [41]:
least_popular = Counter(product_list).most_common()[18] # se indica la posicion para evitar los nan y prouduct

In [42]:
least_popular

('LG Dryer', 646)

In [43]:
for orders in sales_data_list:
    if orders[1]  == 'LG Dryer':
        least_popular_price = float(orders[3])
        print(least_popular_price)
        break
        

600.0


In [44]:
for orders in sales_data_list:
    if orders[1]  == 'USB-C Charging Cable':
        best_seller_price = float(orders[3])
        print(best_seller_price)
        break

11.95


In [45]:
difference_in_price = int(least_popular_price / best_seller_price)

print(f'El precio del producto más vendido es {difference_in_price} veces menor que el precio del producto menos vendido')

El precio del producto más vendido es 50 veces menor que el precio del producto menos vendido


**10)** ¿Cuál es la órden con mayor cantidad de productos?
*Se espera*: `La órden con mayor cantidad de productos es la número {x}, con {y} productos en total`

In [46]:
mayor_quantity = []
for orders in sales_data_list:
    try:
        if float(orders[2]) >= int('9'):
            mayor_quantity.append(list(orders))
            print(orders)
    except ValueError:
        continue

['211097', 'AAA Batteries (4-pack)', '9', '2.99', '06/23/19 08:29', '338 Hickory St, Los Angeles, CA 90001']
['226483', 'AAA Batteries (4-pack)', '9', '2.99', '07/20/19 23:28', '867 Sunset St, San Francisco, CA 94016']
['227096', 'AAA Batteries (4-pack)', '9', '2.99', '07/29/19 09:50', '60 10th St, San Francisco, CA 94016']


In [47]:
print(f' Las ordenes con mayor cantidad de productos son las número {mayor_quantity[0][0], mayor_quantity[1][0], mayor_quantity[2][0]}, con {mayor_quantity[0][2]} productos en total cada una')

 Las ordenes con mayor cantidad de productos son las número ('211097', '226483', '227096'), con 9 productos en total cada una
