<a href="https://colab.research.google.com/github/rodrigoreisbr-tech/data_science/blob/master/Criando_DataFrames.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

---

# Criando DataFrames

No *notebook* anterior, importamos diretamente um arquivo `csv` da internet para uma estrutura *DataFrame*. Quando usamos a função `pd.read('arquivo.csv')` o Pandas já entendendo como deve agir em relação à estrutura de linhas e colunas.

No entanto, existe a possibilidade de criarmos na mão um *DataFrame* usando diversas técnicas.

## DataFrames a partir de Dicionários

Uma das estruturas básicas do Python é o Dicionário. É muito conveniente informarmos nossos dados em uma variável do tipo `dict`, pois sua conversão em *DataFrame* é muito simples e direta.

In [0]:
# importar pandas
import pandas as pd

In [0]:
# criar dicionário
dados = {
    'nome': ['Rodrigo', 'Fernando', 'Diego', 'Gabriel'],
    'idade': [30, 32, 16, 49],
    'cidade': ['São Paulo', 'Belém', 'Natal', 'Curitiba'],
    'comprou': [True, False, False, True]
}

In [0]:
# criar DataFrame
df = pd.DataFrame(dados)

In [51]:
# visualizar DataFrame
df

Unnamed: 0,nome,idade,cidade,comprou
0,Rodrigo,30,São Paulo,True
1,Fernando,32,Belém,False
2,Diego,16,Natal,False
3,Gabriel,49,Curitiba,True


In [0]:
# criar id do usuário
id_usuario = [8712, 5831, 4421, 9873]

In [0]:
# associar o id do usuário à lista
df.index = id_usuario

In [54]:
# ver o dataframe
df

Unnamed: 0,nome,idade,cidade,comprou
8712,Rodrigo,30,São Paulo,True
5831,Fernando,32,Belém,False
4421,Diego,16,Natal,False
9873,Gabriel,49,Curitiba,True


In [55]:
# selecionar pelo index
df.loc[8712]

nome         Rodrigo
idade             30
cidade     São Paulo
comprou         True
Name: 8712, dtype: object

## DataFrames a partir de Listas

Listas também são estruturas muito usadas em Python, e não é incomum termos que criar *DataFrames*  a partir destas.

Para organizar nossas várias listas de um modo que seja fácil sia conversão em *DataFrame*, vou usar a função *built-in* `zip()`.

In [56]:
# listas
dados_lista = [['Rodrigo', 30, 'São Paulo', 'True'],
         ['Theo', 32, 'Natal', 'False'],
         ['Raquel', 12, 'SJC', 'True'],
         ['Fernanda', 14, 'Brasilia', 'True']]

# criar DataFrame
df = pd.DataFrame(dados_lista, columns=['nome', 'idade', 'cidade', 'comprou'],
                  index=[124, 543, 999, 214])

# visualizar DataFrame
df

Unnamed: 0,nome,idade,cidade,comprou
124,Rodrigo,30,São Paulo,True
543,Theo,32,Natal,False
999,Raquel,12,SJC,True
214,Fernanda,14,Brasilia,True


In [57]:
# selecionar pelo index
df.loc[124]

nome         Rodrigo
idade             30
cidade     São Paulo
comprou         True
Name: 124, dtype: object

## Criar novas colunas

Uma maneira extremamente conveniente de criar novas colunas em um *DataFrame* é usar uma funcionalidade do Pandas conhecida como *broadcasting*.

Informanda o nome da nova coluna e declarando apenas um valor, este é replicado para todas as linhas do *DataFrame*

In [58]:
# criar coluna "saldo"
df['saldo'] = [8.0,85.6,456.01,87.90]

# criar com valor defualt
df['saldo_d1'] = 0.0

# visualizar DataFrame
df

Unnamed: 0,nome,idade,cidade,comprou,saldo,saldo_d1
124,Rodrigo,30,São Paulo,True,8.0,0.0
543,Theo,32,Natal,False,85.6,0.0
999,Raquel,12,SJC,True,456.01,0.0
214,Fernanda,14,Brasilia,True,87.9,0.0


## Modificar *index* e colunas

Às vezes, precisamos alterar o nome dos índices ou o *label* das colunas. Se você olhar na célula acima, veja que na esquerda do *DataFrame* o index de cada linha é representado por um número entre 0 e 3.

É possível alterar esse atributo da variável acessando diretamente assim:

In [59]:
df.index

Int64Index([124, 543, 999, 214], dtype='int64')

In [60]:
# alterar o index do df
df.index = ['colA', 'colB', 'colC', 'colD']

# visualizar DataFrame
df

Unnamed: 0,nome,idade,cidade,comprou,saldo,saldo_d1
colA,Rodrigo,30,São Paulo,True,8.0,0.0
colB,Theo,32,Natal,False,85.6,0.0
colC,Raquel,12,SJC,True,456.01,0.0
colD,Fernanda,14,Brasilia,True,87.9,0.0


Da mesma maneira, se eu precisar alterar o nome das colunas, posso alterar diretamente no atributo da variável:

In [61]:
# alterar os labels das colunas
df.columns = ['Nome do Cliente', "Idade", "Naturalidade", "Fez Compras?", "Saldo na Loja", "Saldo D-1"]

# visualizar DataFrame
df

Unnamed: 0,Nome do Cliente,Idade,Naturalidade,Fez Compras?,Saldo na Loja,Saldo D-1
colA,Rodrigo,30,São Paulo,True,8.0,0.0
colB,Theo,32,Natal,False,85.6,0.0
colC,Raquel,12,SJC,True,456.01,0.0
colD,Fernanda,14,Brasilia,True,87.9,0.0
