<center> <h1>Estruturas para armazenamento de dados em Python </h1> </center>
<center> <h3>Pré-processamento de dados usando Python</h3> </center>

Python tem diversas estruturas para armazenamento de dados. 

Algumas delas são "internas": listas, tuplas, conjuntos, dicionários.

Outras, precisam de bibliotecas específicas: ndarray (Numpy), Series e DataFrames (Pandas).

## Listas

* mutáveis
* ordenadas
* heterogêneas
* indexada por posição
* delimitada por colchetes [ ]

In [3]:
lista = ['casa', 1.0, 3, [1,2,3]]
lista

['casa', 1.0, 3, [1, 2, 3]]

In [4]:
type(lista)

list

Indexação feita por posição

In [5]:
lista[0]

'casa'

In [6]:
lista[2]

3

In [7]:
lista[-1]

[1, 2, 3]

In [8]:
lista[3]

[1, 2, 3]

In [10]:
lista[-1][0]

1

In [12]:
matriz = [[1,2],[3,4]]
matriz

[[1, 2], [3, 4]]

In [14]:
matriz[0]

[1, 2]

In [15]:
matriz[0][0]

1

Um problema sério: operações com listas

In [16]:
a = [1,2.,'3']
a

[1, 2.0, '3']

In [18]:
a*3

[1, 2.0, '3', 1, 2.0, '3', 1, 2.0, '3']

In [19]:
[0]*10

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

In [20]:
b = []
for i in a:
    b.append(i*3)
b

[3, 6.0, '333']

## Dicionários

* mutáveis
* não ordenados
* heterogêneos
* indexada por chaves
* delimitada por chaves { }

In [23]:
Dicionario = {"Nome": "Zé", "Cidade": "Nazarezinho", "Idade": 10}
Dicionario

{'Nome': 'Zé', 'Cidade': 'Nazarezinho', 'Idade': 10}

In [22]:
type(Dicionario)

dict

Indexação por chaves

In [24]:
Dicionario["Idade"]

10

In [25]:
dic = {'A':{"Abel":33219031, "Antonio": "24563421"}}
dic

{'A': {'Abel': 33219031, 'Antonio': '24563421'}}

In [27]:
dic['A']

{'Abel': 33219031, 'Antonio': '24563421'}

In [28]:
dic['A']['Abel']

33219031

## ndarray - Numpy

A biblioteca Numpy é a biblioteca numérica do Python, e é a base de todas as grandes bibliotecas do ecossistema Python de computação científica e análise de dados, como Scipy, Matplotlib e a própria Pandas. 

A biblioteca Numpy cria uma nova estrutura de dados, chamada de ndarray, que possue algumas similaridades com listas, mas alguns poderes a mais, com destaque para a capacidade de vetorização, que possibilita que qualquer operação feita com a estrutura seja feita elemento a elemento sem a necessidade de um laço para acessar esses elementos, tornando, assim, a operação computacionalmente mais eficiente.

In [35]:
import numpy as np

Existem várias formas de criar arrays, pode ser através do método np.array(): 

1. usando uma lista:

In [41]:
arr = np.array([-2, '4', 7, 9])
arr

array(['-2', '4', '7', '9'], dtype='<U21')

In [38]:
type(arr)

numpy.ndarray

String > complex > float > int

In [44]:
1 + 2.0

3.0

2. usando o método arange: `np.arange(inicio, fim, passo)`

In [50]:
arr = np.arange(1,100,20)
arr

array([ 1, 21, 41, 61, 81])

3. usando o método linspace `np.linspace(inicio, fim, quantidade)`

In [49]:
arr = np.linspace(1, 100,20)
arr

array([  1.        ,   6.21052632,  11.42105263,  16.63157895,
        21.84210526,  27.05263158,  32.26315789,  37.47368421,
        42.68421053,  47.89473684,  53.10526316,  58.31578947,
        63.52631579,  68.73684211,  73.94736842,  79.15789474,
        84.36842105,  89.57894737,  94.78947368, 100.        ])

4. outros métodos

In [51]:
arr1 = np.empty((3,2)) # Array vazia com o método empty() normalmente a saída é lixo de memória ou zeros
arr1

array([[4.68390054e-310, 0.00000000e+000],
       [0.00000000e+000, 0.00000000e+000],
       [0.00000000e+000, 0.00000000e+000]])

In [52]:
arr2 = np.eye(4) # eye cria uma array de duas dimensões com 1 na da diagnoal e 0 nos outros elementos
arr2

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [53]:
arr3 = np.zeros(8) # array contendo 8 'zeros'
print (arr3, '\n')

arr4 = np.ones((4,3)) # array contendo 12 'uns', no formato 4 x 3
print(arr4)

[0. 0. 0. 0. 0. 0. 0. 0.] 

[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]


Vetorização

In [59]:
# vamos criar as arrays A e B para fazer operações com elas

A = np.arange(10)
B = np.arange(0,20,2)
C = np.array([2, 0, 4, 5, 6, 7, 8, 9, np.nan, np.nan])

print (' A: ', A, '\n', 'B: ', B, '\n', 'C: ', C)

 A:  [0 1 2 3 4 5 6 7 8 9] 
 B:  [ 0  2  4  6  8 10 12 14 16 18] 
 C:  [ 2.  0.  4.  5.  6.  7.  8.  9. nan nan]


In [56]:
somar = A + B
subtrair = A - B
dividir = A / B
multiplicar = A * B

print('somar: ', somar )
print('subtrair: ', subtrair )
print('dividir: ', dividir )
print('multiplicar: ', multiplicar)

somar:  [ 0  3  6  9 12 15 18 21 24 27]
subtrair:  [ 0 -1 -2 -3 -4 -5 -6 -7 -8 -9]
dividir:  [nan 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5]
multiplicar:  [  0   2   8  18  32  50  72  98 128 162]


  dividir = A / B


In [60]:
A+C

array([ 2.,  1.,  6.,  8., 10., 12., 14., 16., nan, nan])

In [None]:
A

In [None]:
A = A.reshape((2,5))
A

In [None]:
A[0,2]

### Indexação

![Image of Yaktocat](http://www.scipy-lectures.org/_images/numpy_indexing.png)