In [None]:
# initial setup
try:
    # settings colab:
    import google.colab
    ! mkdir -p ../Data
    ! wget -O ../Data/sales_data_sample_excercise.csv "https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_students_2020/master/M1/CLASE_03/Data/sales_data_sample_excercise.csv?token=AA4GFHIVZW44W62U344QKYS6UTVYO"    
except ModuleNotFoundError:    
    # settings local:
    %run "../../../common/0_notebooks_base_setup.py"    

---

<img src='../../../common/logo_DH.png' align='left' width=35%/>


Los temas que vimos en esta parte son Numpy, Estadística, y Probabilidadades.

La idea de esta práctica es ejercitar los puntos que vamos a necesitar en la clase presencial.

Usaremos un resumen del dataset de Kaggle que tiene datos de ventas:

https://www.kaggle.com/kyanyoga/sample-sales-data


## Ejercicio 1
Leer los datos del archivo /M1/CLASE_03/Data/sales_data_sample_excercise.csv

Este archivo tiene algunos datos numéricos y otros de tipo cadena de caracteres. 

Las columnas son:

* ORDERNUMBER: int, id de la orden

* SALES: float, monto abonado

* MONTH_ID: int, mes

* YEAR_ID: int, año

* PRODUCTLINE: str, producto

* COUNTRY: str, país de venta

¿Recuerdan que todos los elementos de una instancia de ndarray deben ser del mismo tipo? Entonces vamos a leer el archivo y crear una instancia de ndarray de tipo cadena de caracteres.

¿Qué pasaría si intentáramos crear una instancia de tipo int? ¿Y de tipo float?


In [None]:
import numpy as np

# local:
data_location = '../Data/sales_data_sample_excercise.csv'


In [None]:
data_type_default = np.genfromtxt(data_location, skip_header=1, delimiter='\t')
data_type_default

In [None]:
data_type_str = np.genfromtxt(data_location, skip_header=1, delimiter='\t', dtype= str)
data_type_str

In [None]:
data_type_int = np.genfromtxt(data_location, skip_header=1, delimiter='\t', dtype= int)
data_type_int

In [None]:
data_type_float = np.genfromtxt(data_location, skip_header=1, delimiter='\t', dtype= float)
data_type_float

# Ejercicio 2 - Tipos

Crear un array numérico que tenga como valores las columna SALES y otro array de str que tenga como valores la columna COUNTRY

Ayuda: https://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.astype.html

In [None]:
data = np.genfromtxt(data_location, skip_header=1, delimiter='\t', dtype= str)

sales_vector_str = data[:, 1]
sales_vector =  sales_vector_str.astype(np.float)
print(sales_vector)

country_vector = data[:, 5]
print(country_vector)


In [None]:
sales_vector_str

## Ejercicio 3 - Funciones de agregación

Sobre los datos de precios de ventas (columna SALES) calcular:

* mínimo

* máximo

* promedio

* cantidad

* suma

Ayuda: https://docs.scipy.org/doc/numpy-1.17.0/reference/routines.statistics.html

In [None]:
np.min(sales_vector)

In [None]:
np.max(sales_vector)

In [None]:
np.average(sales_vector)

In [None]:
sales_vector.size

In [None]:
np.sum(sales_vector)

## Ejercicio 4 - Indexing

a) ¿Cuántas ventas se hicieron en USA?

Ayuda: boolean indexing

b) ¿Cuáles son los precios de las 5 ventas que están en las filas 6 a 10 del dataset?

Resolvamos usando array slicing y fancy indexing

Ayuda: recuerden `range` https://docs.python.org/3/library/functions.html#func-range

In [None]:
print(country_vector)
mask = country_vector == 'USA'
print(mask)
country_vector_USA = country_vector[mask]
country_vector_USA.size


In [None]:
# array slicing:
sales_vector_slicing = sales_vector[6:11]
# observemos que el límite superior no está incluído
print(sales_vector_slicing)

In [None]:
# fancy indexing

indexes = range(6, 11, 1)
indexes_int = [6, 7, 8, 9, 10]
sales_vector_fancy = sales_vector[indexes_int]
print(sales_vector_fancy)


In [None]:
# veo que obtengo el mismo resultado con una u otra forma de indexación:

# una forma es comparar elemento a elemento los dos arrays:
print(sales_vector_slicing == sales_vector_fancy)

# otra forma es ver si la cantidad de elementos que son iguales en los dos arrays (sum(sales_vector_slicing == sales_vector_fancy)) 
# es igual a la cantidad total de elementos por array
cant_elem = len(sales_vector_slicing)
print(sum(sales_vector_slicing == sales_vector_fancy) == cant_elem)

# y otra forma es ver si ningún elemento distinto, o sea negar any:
print(not any(sales_vector_slicing != sales_vector_fancy))

## Ejercicio 5 - Estadística

Sobre los datos de precios de ventas (columna SALES) calcular:

* media

* mediana 

* desvio

* rango




In [None]:
np.mean(sales_vector)

In [None]:
np.median(sales_vector)

In [None]:
np.std(sales_vector)

In [None]:
np.max(sales_vector) - np.min(sales_vector)

La función `distribution_plotter` grafica los datos que recibe como parámetro en una instancia de numpy array

In [None]:
import seaborn as sns
def distribution_plotter(data, label):    
    sns.set(rc={"figure.figsize": (10, 7)})
    sns.set_style("white")
    dist = sns.distplot(data, hist_kws={'alpha':0.2}, kde_kws={'linewidth':5})
    dist.set_title('Distribucion de ' + label + '\n', fontsize=16)

# Ejercicio 6 - Probabilidad

Queremos simular las fechas de cumpleaños de los alumnos de data science (en años no bisiestos). ¿Qué distibución usaríamos? ¿Con qué parámetros?

Generar 30 datos que simulen los cumpleaños de cada una de las personas en el curso y graficarlos con la función distribution_plotter


#Observar:

#qué pasa a medida que aumentamos la cantidad de datos generados

#qué pasa si seteamos una semilla



In [None]:
random_generator = np.random.default_rng(1234)
birthday = random_generator.integers(low=1, high=366, size=30)
distribution_plotter(birthday, "Cumple")

# Ejercicio 7 - Probabilidad

Asumiento que la altura de los alumnos de este curso es 1.65m y el desvío 0.12m, ¿qué distribución consideran que representaría adecuadamente la altura de todos los alumnos de DH?

Generar y graficar 100 datos con esa distribución.


In [None]:
random_generator = np.random.default_rng()
birthday = random_generator.normal(loc=165, scale=12, size=10000)
distribution_plotter(birthday, "Altura")