Para a comparação de ndarrays e listas criaremos uma lista de salários com 5000 valores aleatórios

In [11]:
import DataFruta_V1 as df
salarios = df.ListaSalarios.geraListaSalario(5000)
print(salarios.lista[:5])


[9424.966986044019, 6722.7768148832865, 2267.189479507144, 4472.119953453304, 9085.181201465128]


A partir desta lista criaremos um ndarray

In [12]:
import numpy as np
np_salarios = np.array(salarios.lista)
print(np_salarios[:5])

[9424.96698604 6722.77681488 2267.18947951 4472.11995345 9085.18120147]


Agora avaliaremos o tempo necessário para calcular algumas métricas com a lista a partir dos métodos desenvolvidos

In [13]:
%timeit salarios.mostraMediana()
%timeit salarios.mostraMenor()
%timeit salarios.mostraMaior()
%timeit salarios.mostraDesvioPadraoAmostral()
%timeit salarios.mostraDesvioPadraoPopulacional()
%timeit salarios.mostraMediaAritmetica()
%timeit salarios.mostraMediaGeometrica()
%timeit salarios.mostraMediaHarmonica()
%timeit salarios.mostraVarianciaAmostral()
%timeit salarios.mostraVarianciaPopulacional()


870 µs ± 111 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
785 µs ± 32.9 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
838 µs ± 108 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
1.93 ms ± 202 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
2.71 ms ± 845 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
31 µs ± 5.47 µs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)
476 µs ± 120 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
780 µs ± 70.9 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
2.12 ms ± 384 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
2.14 ms ± 161 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


Para comparar com ndarray algumas funções foram desenvolvidas

In [14]:
def mediaHarmonica(ndarray):
    x = 1/ndarray
    x =  np.sum(x)
    return len(ndarray)/x

def mediaGeometrica(ndarray):
    x = np.prod(ndarray)
    return x ** (1/len(ndarray))

Agora observaremos o tempo utilizado para os mesmos cálculos com o ndarray

In [15]:
%timeit np.median(np_salarios)
%timeit np_salarios.max()
%timeit np_salarios.min()
%timeit np_salarios.std(ddof=1) #desvio padrão amostral
%timeit np_salarios.std(ddof=0) #desvio padrão populacional
%timeit np_salarios.mean()
%timeit mediaHarmonica(np_salarios)
%timeit mediaGeometrica(np_salarios)
%timeit np_salarios.var(ddof=1) #variancia amostral
%timeit np_salarios.var(ddof=0) #variancia populacional

166 µs ± 14 µs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)
6.49 µs ± 794 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)
6.19 µs ± 1.19 µs per loop (mean ± std. dev. of 7 runs, 100,000 loops each)
71.4 µs ± 12.6 µs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)
77.4 µs ± 12.3 µs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)
18.9 µs ± 2.63 µs per loop (mean ± std. dev. of 7 runs, 100,000 loops each)
26.8 µs ± 4.85 µs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)
25.8 µs ± 5.49 µs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)
76.7 µs ± 8.26 µs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)
78.9 µs ± 9.22 µs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


A partir do observado podemos listar algumas vantagens e desvantagens na utilização de ndarray em comparação com listas:

Vantagens:

- Rapidez: Para os cálculos estatísticos ndarray são mais rápidos, comprova-se vizualizando o tempo gasto para cada cálculo feito anteriormente.

- ufunc: com a utilização de ufuncs o que seria necessário utilizar loops em listas se torna simples e menos verboso ao utilizar apenas um comando se tentarmos utilizar em listas da erro como a seguir:

In [16]:
ex = np_salarios/5
print(ex[:5])
try:
    ex = salarios.lista/5
except Exception as e:
    print(e)

[1884.99339721 1344.55536298  453.4378959   894.42399069 1817.03624029]
unsupported operand type(s) for /: 'list' and 'int'


- diversidade: os ndarrays possuem uma variedade de funções que as listas não possuem como observado abaixo:

In [17]:
print(dir(np_salarios))
print(dir(salarios.lista))

['T', '__abs__', '__add__', '__and__', '__array__', '__array_finalize__', '__array_function__', '__array_interface__', '__array_prepare__', '__array_priority__', '__array_struct__', '__array_ufunc__', '__array_wrap__', '__bool__', '__class__', '__class_getitem__', '__complex__', '__contains__', '__copy__', '__deepcopy__', '__delattr__', '__delitem__', '__dir__', '__divmod__', '__dlpack__', '__dlpack_device__', '__doc__', '__eq__', '__float__', '__floordiv__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__iadd__', '__iand__', '__ifloordiv__', '__ilshift__', '__imatmul__', '__imod__', '__imul__', '__index__', '__init__', '__init_subclass__', '__int__', '__invert__', '__ior__', '__ipow__', '__irshift__', '__isub__', '__iter__', '__itruediv__', '__ixor__', '__le__', '__len__', '__lshift__', '__lt__', '__matmul__', '__mod__', '__mul__', '__ne__', '__neg__', '__new__', '__or__', '__pos__', '__pow__', '__radd__', '__rand__', '__rdivmod__', '__reduce__', '

Desvantagens:

- Extensibilidade: os ndarrays possuem tamanho estático enquanto as listas possuem tamanho dinâmico

In [18]:
lista = [1, 2, 3]
lista.append(8)
print(lista)
try:
    np_salarios.append(5)
    #np_salarios.add(5)
except Exception as e:
    print(e)

[1, 2, 3, 8]
'numpy.ndarray' object has no attribute 'append'
