# Análisis de ventas

Se facilita una lista de `dict` con datos reales de ventas con las siguientes keys:

* 'Order ID'
* 'Product'
* 'Quantity Ordered'
* 'Price Each
* 'Order Date'
* 'Purchase Address'

y values de tipo `str` en todos los casos:

In [7]:
import pickle

with open('sales_data.pickle', 'rb') as handle:
    sales_data = pickle.load(handle)

In [2]:
len(sales_data)

186850

In [8]:
#  Find index of all dict with NaN, and remove said dict
#  Find dict with key == value, and remove said dict
import math
for sales_dict in sales_data:
    try:
        if math.isnan(sales_dict['Product']):
            i = sales_data.index(sales_dict)
            sales_data.pop(i)
        else:
            continue
    except:
        TypeError
        
for sales_dict in sales_data:
    if sales_dict['Product'] == 'Product':
        i = sales_data.index(sales_dict)
        sales_data.pop(i)
    else:
        continue

Responder los siguientes interrogantes de interés, para lo que se requiere:

* Inspeccionar los datos
* Formatearlos adecuadamente
* Elegir y confeccionar nuevas estructuras de datos

**1)** ¿Cuál es el mes que reporta **la mayor cantidad de productos**? 

*Se espera*: `El mes de mayor venta es: {Enero/Febrero/Marzo/Abril...}` *(nótese que se debe printear el nombre del mes)*

In [30]:
# Automate the creation of a dict with months as keys
import calendar
sales_by_month = {}
revenue_by_month = {}
months = []

for i in range(1,13):
    if i >= 10:
        months.append(str(i))
    else:
        months.append(f'0{str(i)}')
    for k in months:
        sales_by_month[k] = 0
        revenue_by_month[k] = 0
        
# Adding to sales_by_month how many sales were reported in each order
for sales_dict in sales_data:
    month_str = sales_dict['Order Date'][:2]
    ordered_quantity = int(sales_dict['Quantity Ordered'])
    product_price = float(sales_dict['Price Each'])
    order_revenue = ordered_quantity * product_price
    sales_by_month[month_str] += ordered_quantity
    revenue_by_month[month_str] += order_revenue
    
#  Finding the key for the dict with the most sales as values
max_sale = max(list(sales_by_month.values()))

for month, sales_total in sales_by_month.items():
    if sales_total == max_sale:
        print(f'The month with the most sales was {calendar.month_name[int(month)]} with {sales_total} products sold')
    else:
        continue

The month with the most sales was December with 28114 products sold


**2)** ¿Qué ganancia reporta dicho mes?  
*Se espera*: `En el mes de {Enero/Febrero/Marzo/Abril...} se reporta una ganancia total de USD{xxxx.xx}` *(nótese que el monto debe incluir DOS decimales)*

In [11]:
for month, sales_total in sales_by_month.items():
    if sales_total == max_sale:
        revenue = revenue_by_month[month]
        print(
f'In the month of {calendar.month_name[int(month)]} there was a total revenue of USD {round(revenue,2)} reported'
        )
    else:
        continue

In the month of December there was a total revenue of USD 4613443.34 reported


**3)** ¿Qué porcentaje del total de las ventas representa?  
*Se espera*: `Las ventas en el mes de {Enero/Febrero/Marzo/Abril...} representan un xx.xx% del total de las ventas` *(nótese que el monto debe incluir DOS decimales)*

In [33]:
total_sales = sum(list(sales_by_month.values()))

for month, sales_total in sales_by_month.items():
    if sales_total == max_sale:
        print(f'The sales in {calendar.month_name[int(month)]} represent a {round(sales_total *100 / total_sales, 2)}% from total sales')
    else:
        continue

The sales in December represent a 13.45% from total sales


**4)** ¿Qué ciudad reportó la mayor cantidad de ventas?  
*Se espera*: `La ciudad con mayor cantidad de ventas es {Dallas/Los Angeles/Boston...} reporta la mayor cantidad de ventas` *(nótese que se debe especificar la ciudad y no la dirección completa)*

In [34]:
sales_by_city = {}

for sales_dict in sales_data:
    address_list = sales_dict['Purchase Address'].split(', ')
    city_name = address_list[1]
    ordered_quantity = int(sales_dict['Quantity Ordered'])
    product_price = float(sales_dict['Price Each'])
    order_revenue = ordered_quantity * product_price
    sales_by_city[city_name] = order_revenue

city_max_sales = max(list(sales_by_city.values()))

for city, sales_total in sales_by_city.items():
    if sales_total == city_max_sales:
        best_city = city
        print(f'{best_city} reported the most amount of sales')
        
    else:
        continue

Los Angeles reported the most amount of sales


**5)** ¿Qué porcentaje del total de las ventas representa?  
*Se espera*: `Las ventas en {Dallas/Los Angeles/Boston...} representan un xx.xx% del total` *(nótese que se debe especificar la ciudad y no la dirección completa)*

In [35]:
city_total_sales = sum(list(sales_by_city.values()))
print(f'The sales from {best_city} represent a {round(city_max_sales * 100 / city_total_sales,2)}% from the total sales')

The sales from Los Angeles represent a 48.87% from the total sales


**6)** ¿En qué horas del día se deberían publicar anuncios promocionales para maximizar las ventas?  
*Se espera*: `Las horas del día en las que más ventas se registran son: {xx}hs y {yy}hs` *(nótese que se requieren horas del día, como "10hs" o "20hs")*

In [None]:
hour_list = []
sales_per_hour = {}

# suma de ocurrencias de cada hora

for sales_details in sales_data:
    hour = sales_details['Order Date'][-5:-3]
    hour_list.append(hour)
     
for hour in hour_list:
    occurrence = hour_list.count(hour)
    sales_per_hour[occurrence] = hour

max1 = max(sales_per_hour.keys())
max2 = 0

for k in sales_per_hour.keys():
    if k>max2 and k<max1:
        max2 = k
    else:
        continue
print(f'Las horas del día en las que más ventas se registran son: {max1}hs y {max2}hs')

**7)** Determinar productos que se venden juntos y DE A DOS.  
*Se espera*: `Los siguientes productos se venden juntos y de a dos: {x}-{y}, {yy}-{zz} ...`  
**OBS**: Para una misma *orden* se pueden regitrar varios productos.

**8)** ¿Cuál es el producto más vendido?
*Se espera*: `El producto más vendido es {x}`

In [28]:
sales_by_product = {}


for sales_dict in sales_data:
    product_name = sales_dict['Product']
    ordered_quantity = int(sales_dict['Quantity Ordered'])
    sales_by_product.update({product_name : ordered_quantity})

most_sold_value = max(list(sales_by_product.values()))

for product, sales_total in sales_by_product.items():
    if sales_total == most_sold_value:
        print(f'The most sold product is {product}')
    else:
        continue


The most sold product is 27in FHD Monitor


**9)** ¿Cuál es la relación entre el precio del producto más vendido y el del menos vendido?
*Se espera:* `El precio del producto más vendido es {n} veces mayor/menor que el producto menos vendido`

**10)** ¿Cuál es la órden con mayor cantidad de productos?
*Se espera*: `La órden con mayor cantidad de productos es la número {x}, con {y} productos en total`