In [15]:
import pandas as pd
import numpy as np
from numpy.random import randn

### Utilização de Series

- Series é um array unidimensional que pode armazenar qualquer tipo de dado (int, string, float, object, etc)
- Series é composto por um array de dados e um array de labels (índices)
- Series pode ser criado a partir de listas, arrays, dicionários, etc
- Series pode ser acessado por índices ou labels

In [3]:
labels = ['a', 'b', 'c']
my_data = [10, 20, 30]

arr = np.array(my_data)
d = {'a': 10, 'b': 20, 'c': 30}

In [8]:
values = pd.Series(data=my_data, index=labels)

# Criando series a partir de dicionários - conversa muito bem com dicionários
valuesDict = pd.Series(d)

In [None]:
ser1 = pd.Series(index=[1, 2, 3, 4], data=['USA', 'Germany', 'USSR', 'Japan'])

# Selecionando valores das Series
# ser1[1]
ser1[[1, 2]]

### Utilização de DataFrames

- DataFrame é uma estrutura de dados bidimensional com colunas que podem ser de diferentes tipos (int, string, float, object, etc)
- DataFrame é composto por um conjunto de Series
- DataFrame pode ser criado a partir de listas, arrays, dicionários, etc
- DataFrame pode ser acessado por índices, labels ou colunas
- DataFrame é muito utilizado para manipulação de dados

In [None]:
df = pd.DataFrame(randn(5, 4), index=['A', 'B', 'C', 'D', 'E'], columns=['W', 'X', 'Y', 'Z'])
df

In [None]:
valueAW = df['W']  # Retorna uma Series
valueCols = df[['W', 'Z']]  # Retorna um DataFrame com as colunas W e Z
valueCols

In [None]:
df['new'] = df['W'] + df['Y']  # Adicionando uma nova coluna ao DataFrame, a partir da soma dos valores de 2 colunas
df

In [None]:
# Removendo a coluna 'new' do DataFrame. O inplace é utilizado para alterar o DataFrame original. Sem o inplace, o DataFrame original não é alterado
df.drop('new', axis=1, inplace=True)
df

In [None]:
df.loc['A']  # Retorna uma Series com os valores da linha A

In [None]:
df.iloc[0]  # Retorna uma Series com os valores da linha 0

### Iloc e Filtros

- Iloc é utilizado para acessar valores de um DataFrame a partir de índices
- Filtros são utilizados para acessar valores de um DataFrame a partir de condições
- Filtros podem ser compostos por múltiplas condições

In [None]:
metodo_loc = df.loc[['A', 'B'], ['W', 'Y']]  # Retorna um DataFrame com as linhas A e B e as colunas W e Y
metodo_iloc1 = df.iloc[[0, 1], [0, 2]]  # Retorna um DataFrame com as linhas 0 e 1 e as colunas 0 e 2

metodo_iloc2 = df.iloc[1:4, 1:3]

In [None]:
# Filtros
# df > 0  # Retorna um DataFrame com valores booleanos. True para valores maiores que 0 e False para valores menores que 0
# df[df > 0]  # Retorna um DataFrame com valores maiores que 0 e NaN para valores menores que 0

# df['Z'] > 0  # Retorna uma Series com valores booleanos na coluna Z. True para valores maiores que 0 e False para valores menores que 0
df[(df['Y'] > 0) & (df['W'] > 0)] # Retorna um DataFrame com valores maiores que 0 nas colunas Y e W

In [None]:
# df.columns  # Retorna as colunas do DataFrame
# df.index  # Retorna os índices do DataFrame

# df.reset_index(inplace=True) # Reseta os índices do DataFrame
# df.set_index("index", inplace=True) # Define a coluna index como índice do DataFrame
df

In [None]:
novoind = "RS SC PR SP RJ".split() # Cria uma lista a partir de uma string
df['Estados'] = novoind # Adiciona uma nova coluna ao DataFrame
df.reset_index().set_index('Estados') # Reseta os índices do DataFrame e define a coluna Estados como índice