Para a comparação criaremos uma lista de salários com 5000 valores aleatórios a partir da implementação inicial

In [6]:
import DataFruta_V1 as df
salarios = df.ListaSalarios.geraListaSalario(5000)
print(salarios.lista[:5])


[12716.939389426729, 4349.135162973305, 7392.305428977386, 2874.5958247584886, 10442.443663295144]


O mesmo com a nova implementação

In [3]:
import DataFruta_V2 as df2
salarios2 = df2.ListaSalarios.geraListaSalario(5000)
print(salarios2.lista[:5])

[ 3822.36162807  3139.50950611  7312.12724053 12152.70750389
  9189.08935299]


Agora avaliaremos o tempo necessário para calcular algumas métricas utilizando a implementação com listas

In [8]:
%timeit salarios.mostraMediana()
%timeit salarios.mostraMenor()
%timeit salarios.mostraMaior()
%timeit salarios.mostraDesvioPadraoAmostral()
%timeit salarios.mostraDesvioPadraoPopulacional()
%timeit salarios.mostraMediaAritmetica()
%timeit salarios.mostraMediaGeometrica()
%timeit salarios.mostraMediaHarmonica()
%timeit salarios.mostraVarianciaAmostral()
%timeit salarios.mostraVarianciaPopulacional()


985 µs ± 160 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
952 µs ± 112 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
1.05 ms ± 166 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
1.82 ms ± 498 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
2.32 ms ± 470 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
28.1 µs ± 2.2 µs per loop (mean ± std. dev. of 7 runs, 100,000 loops each)
471 µs ± 82.9 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
951 µs ± 86.9 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
2.26 ms ± 430 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
2.3 ms ± 518 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


O mesmo com a implementação utilizando ndarrays

In [4]:
%timeit salarios2.mostraMediana()
%timeit salarios2.mostraMenor()
%timeit salarios2.mostraMaior()
%timeit salarios2.mostraDesvioPadraoAmostral()
%timeit salarios2.mostraDesvioPadraoPopulacional()
%timeit salarios2.mostraMediaAritmetica()
%timeit salarios2.mostraMediaGeometrica()
%timeit salarios2.mostraMediaHarmonica()
%timeit salarios2.mostraVarianciaAmostral()
%timeit salarios2.mostraVarianciaPopulacional()

1.47 ms ± 64 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
3.75 µs ± 146 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)
3.79 µs ± 155 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)
42.9 µs ± 1.06 µs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)
59.2 µs ± 18.6 µs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)
10.6 µs ± 785 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)
15.6 µs ± 674 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)
16.8 µs ± 1.41 µs per loop (mean ± std. dev. of 7 runs, 100,000 loops each)
38.3 µs ± 1.58 µs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)
46.1 µs ± 9.6 µs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


A partir do observado podemos listar algumas vantagens e desvantagens na utilização de ndarray em comparação com listas:

Vantagens:

- Rapidez: Para os cálculos estatísticos ndarray são mais rápidos, comprova-se vizualizando o tempo gasto para cada cálculo feito anteriormente.

- ufunc: com a utilização de ufuncs o que seria necessário utilizar loops em listas se torna simples e menos verboso ao utilizar apenas um comando se tentarmos utilizar em listas da erro como a seguir:

In [10]:
ex = salarios2.lista/5
print(ex[:5])
try:
    ex = salarios.lista/5
except Exception as e:
    print(e)

[2631.22558084  996.94356872  660.09694556 1544.40605117 1019.85026393]
unsupported operand type(s) for /: 'list' and 'int'


- diversidade: os ndarrays possuem uma variedade de funções que as listas não possuem como observado abaixo:

In [11]:
print(dir(salarios2.lista))
print(dir(salarios.lista))

['T', '__abs__', '__add__', '__and__', '__array__', '__array_finalize__', '__array_function__', '__array_interface__', '__array_prepare__', '__array_priority__', '__array_struct__', '__array_ufunc__', '__array_wrap__', '__bool__', '__class__', '__class_getitem__', '__complex__', '__contains__', '__copy__', '__deepcopy__', '__delattr__', '__delitem__', '__dir__', '__divmod__', '__dlpack__', '__dlpack_device__', '__doc__', '__eq__', '__float__', '__floordiv__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__iadd__', '__iand__', '__ifloordiv__', '__ilshift__', '__imatmul__', '__imod__', '__imul__', '__index__', '__init__', '__init_subclass__', '__int__', '__invert__', '__ior__', '__ipow__', '__irshift__', '__isub__', '__iter__', '__itruediv__', '__ixor__', '__le__', '__len__', '__lshift__', '__lt__', '__matmul__', '__mod__', '__mul__', '__ne__', '__neg__', '__new__', '__or__', '__pos__', '__pow__', '__radd__', '__rand__', '__rdivmod__', '__reduce__', '

Desvantagens:

- Extensibilidade: os ndarrays possuem tamanho estático enquanto as listas possuem tamanho dinâmico

In [12]:
lista = [1, 2, 3]
lista.append(8)
print(lista)
try:
    salarios2.lista.append(5)
    #salarios2.lista.add(5)
except Exception as e:
    print(e)

[1, 2, 3, 8]
'numpy.ndarray' object has no attribute 'append'
