# Gerando e selecionando dados com numpy e pandas

### Importando bibliotecas

In [2]:
import numpy as np
import pandas as pd

### Gerando dados com numpy

range(x) gera um vetor unidimensional com uma sequência de números do comprimento especificado por parâmetro

reshape(x, y) altera a forma do vetor de acordo com os parâmetros passados, transformando-o em uma matriz

In [3]:
dados = np.arange(25).reshape(5, 5)
dados

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

### Series
É um tipo de lista indexada com funcionamento semelhante ao dicionário do Python

In [4]:
serie = pd.Series(np.arange(8))
serie

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
dtype: int32

#### Personalizando os índices da Series

In [5]:
indice = ['linha 1', 'linha 2', 'linha 3', 'linha 4', 'linha 5', 'linha 6', 'linha 7', 'linha 8']
serie = pd.Series(np.arange(8), indice)
serie

linha 1    0
linha 2    1
linha 3    2
linha 4    3
linha 5    4
linha 6    5
linha 7    6
linha 8    7
dtype: int32

#### Acessando itens da Series através do índice

In [7]:
serie['linha 6']

5

#### Selecionando linhas usando loc[]

In [19]:
serie.loc[['linha 3', 'linha 7']]

linha 3    2
linha 7    6
dtype: int32

#### Fatiando Series

In [21]:
serie['linha 2':'linha 6']

linha 2    1
linha 3    2
linha 4    3
linha 5    4
linha 6    5
dtype: int32

### DataFrame
Funciona de forma semelhante à Series, porém, é multidimensional

In [8]:
linhas = ['linha 1', 'linha 2', 'linha 3', 'linha 4', 'linha 5', 'linha 6']
colunas = ['coluna 1', 'coluna 2', 'coluna 3', 'coluna 4', 'coluna 5', 'coluna 6']
df = pd.DataFrame(np.random.rand(36).reshape(6, 6), index = linhas, columns = colunas)
df

Unnamed: 0,coluna 1,coluna 2,coluna 3,coluna 4,coluna 5,coluna 6
linha 1,0.724092,0.393717,0.376025,0.501823,0.521422,0.904597
linha 2,0.867722,0.389803,0.597032,0.149243,0.401574,0.231401
linha 3,0.81781,0.730759,0.689201,0.427361,0.202699,0.292197
linha 4,0.110396,0.73757,0.52971,0.287388,0.761706,0.570092
linha 5,0.957399,0.190062,0.051824,0.94578,0.982913,0.252446
linha 6,0.58256,0.928845,0.644634,0.977456,0.508224,0.359728


#### Acessando itens do DataFrame usando at[]

In [12]:
df.at['linha 1', 'coluna 2']

0.3937168175714817

#### Selecionando linhas e colunas usando loc[]

In [14]:
df.loc[['linha 2', 'linha 5'], ['coluna 2', 'coluna 5']]

Unnamed: 0,coluna 2,coluna 5
linha 2,0.389803,0.401574
linha 5,0.190062,0.982913


#### Fatiando o DataFrame usando iloc[]
iloc[] aceita apenas inteiros, não sendo possível fatiar usando os nomes de linhas e colunas

In [17]:
df.iloc[1:4, 1:4]

Unnamed: 0,coluna 2,coluna 3,coluna 4
linha 2,0.389803,0.597032,0.149243
linha 3,0.730759,0.689201,0.427361
linha 4,0.73757,0.52971,0.287388
