In [1]:
# A continuación vamos a utilizar algunas herramientas que nos provee Numpy.
# Vamos a utilizar un dataset de Kaggle que tiene datos de ventas:

# https://www.kaggle.com/kyanyoga/sample-sales-data



import numpy as np

data_location = '../Data/sales_data_sample_excercise.csv'

data = np.genfromtxt(data_location, skip_header=1, delimiter='\t', dtype= str)
data

array([['10107', '2871', '2', '2003', 'Motorcycles', 'USA'],
       ['10121', '2765.9', '5', '2003', 'Motorcycles', 'France'],
       ['10134', '3884.34', '7', '2003', 'Motorcycles', 'France'],
       ...,
       ['10386', '5417.57', '3', '2005', 'Ships', 'Spain'],
       ['10397', '2116.16', '3', '2005', 'Ships', 'France'],
       ['10414', '3079.44', '5', '2005', 'Ships', 'USA']], dtype='<U16')

In [2]:
# Comprobamos que este archivo tiene algunos datos numéricos y otros de tipo cadena de caracteres.

# Las Columnas son: 

# ORDERNUMBER: int, id de la orden.
# SALES: float, monto abonado
# MONTH_ID: int, mes
# YEAR_ID: int, año
# PRODUCTLINE: str, producto
# COUNTRY: str, país de venta

In [3]:
# Creamos un array numérico que tenga como valores la columna SALES 
# y otro array de str que tenga como valores la columna COUNTRY

sales_vector_str = data[:, 1]
sales_vector =  sales_vector_str.astype(np.float)
print(sales_vector)

country_vector = data[:, 5]
print(country_vector)

[2871.   2765.9  3884.34 ... 5417.57 2116.16 3079.44]
['USA' 'France' 'France' ... 'Spain' 'France' 'USA']


In [4]:
# ¿Cuál fue el monto mínimo de una venta? ¿Cuál fue el monto máximo?

monto_min = sales_vector.min()
monto_max = sales_vector.max()
print(monto_min)
print(monto_max)

482.13
14082.8


In [5]:
# ¿Cuántas ventas se hicieron en Spain?
# Utilicemos una máscara booleana! 

ventas_spain_mask = country_vector == 'Spain'
print(ventas_spain_mask)
ventas_spain = country_vector[ventas_spain_mask]
cant_ventas_spain = ventas_spain.size
cant_ventas_spain

[False False False ...  True False False]


342

In [6]:
# ¿Qué porcentaje de las ventas se hicieron en Spain?

cant_ventas_total = country_vector.size
porc_spain = 100* cant_ventas_spain / cant_ventas_total
porc_spain

12.114771519659936

In [7]:
# ¿Cuál es el país de la venta de precio máximo? ¿Cuál es el id de esa venta?

precio_max = sales_vector.max()
#print(precio_max)
precio_max_mask = sales_vector == precio_max
#print(precio_max_mask)
pais_max_precio = country_vector[precio_max_mask][0]
print(pais_max_precio)

id_vector_str = data[:, 0]
id_vector =  id_vector_str.astype(np.int)
id_max_precio = id_vector[precio_max_mask][0]
print(id_max_precio)

USA
10407


In [8]:
# ¿Cuál es el precio promedio de ventas en France? ¿Cuál es el desvío?

ventas_france_mask = country_vector == 'France'
precios_france = sales_vector[ventas_france_mask]

promedio_france = precios_france.mean()
print(promedio_france)
desvio_france = precios_france.std()
print(desvio_france)

3537.9507006369427
1939.214360481481


In [9]:
# ¿Cuál fue el año con máximo desvío en las ventas en France?

data_france_mask = country_vector == 'France'  
# Máscara booleana para filtrar los datos de Francia

data_france_sales = data[data_france_mask, 1]
data_france_years = data[data_france_mask, 3]
# Seleccionamos las ventas y los años para los datos filtrados

data_france_years_num = data_france_years.astype(np.int)
# Convertimos los años a tipo entero

years_unique = np.unique(data_france_years_num)
print(years_unique)
# Obtenemos los años únicos para Francia

desvios = []
for year in years_unique:
    years_vector_mask = data_france_years_num == year
    precios_year_mask = data_france_sales[years_vector_mask].astype(np.float)    
    desvio_year = precios_year_mask.std()
    desvios.append(desvio_year)

print(desvios)
# Calculamos las desviaciones estándar para cada año

desvio_max = np.array(desvios).max()
# Obtenemos la desviación estándar máxima

desvios_max_mask = desvios == desvio_max
# Creamos una máscara booleana para identificar el año con la desviación máxima

year_desvio_max = years_unique[desvios_max_mask][0]
print(year_desvio_max)
# Obtenemos el año correspondiente a la desviación máxima! :D

[2003 2004 2005]
[1860.7718844747073, 1837.8438485766644, 2241.7723043613423]
2005
