<a href="https://colab.research.google.com/github/guilhermeaugusto9/sigmoidal/blob/master/Criando_DataFrames.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img alt="Colaboratory logo" width="15%" src="https://raw.githubusercontent.com/carlosfab/escola-data-science/master/img/novo_logo_bg_claro.png">

#### **Data Science na Prática 2.0**
*by [sigmoidal.ai](https://sigmoidal.ai)*

---

# Criando DataFrames

No *notebook* anterior, importamos diretamente um arquivo `csv` da internet para uma estrutura *DataFrame*. Quando usamos a função `pd.read('arquivo.csv')` o Pandas já entendendo como deve agir em relação à estrutura de linhas e colunas.

<center><img src="https://raw.githubusercontent.com/carlosfab/curso_data_science_na_pratica/master/modulo_02/from_csv_to_df.png"></center>


No entanto, existe a possibilidade de criarmos na mão um *DataFrame* usando diversas técnicas.

## DataFrames a partir de Dicionários

Uma das estruturas básicas do Python é o Dicionário. É muito conveniente informarmos nossos dados em uma variável do tipo `dict`, pois sua conversão em *DataFrame* é muito simples e direta.

In [None]:
# importar pandas
import pandas as pd

In [None]:
# criar dicionário
dados = {
    'nome': ['Carlos', 'Theo', 'Raquel', 'Fernanda'],
    'idade': [35, 32, 15, 49],
    'cidade': ['Araraquara', 'Belém', 'Natal', 'Curitiba'],
    'comprou': [True, False, False, True]
}

In [None]:
# criar DataFrame
df = pd.DataFrame(dados)

In [None]:
# visualizar DataFrame
df

Unnamed: 0,nome,idade,cidade,comprou
0,Carlos,35,Araraquara,True
1,Pedro,32,Belém,False
2,Daniela,15,Natal,False
3,Fernanda,49,Curitiba,True


In [None]:
# criar id do usuário
id_usuario = [8712, 5831, 4421, 9873]

In [None]:
# associar o id do usuário à lista
df.index = id_usuario

In [None]:
# ver o dataframe
df

Unnamed: 0,nome,idade,cidade,comprou
8712,Carlos,35,Araraquara,True
5831,Pedro,32,Belém,False
4421,Daniela,15,Natal,False
9873,Fernanda,49,Curitiba,True


## DataFrames a partir de Listas

Listas também são estruturas muito usadas em Python, e não é incomum termos que criar *DataFrames*  a partir destas.

Para organizar nossas várias listas de um modo que seja fácil sia conversão em *DataFrame*, vou usar a função *built-in* `zip()`.

In [None]:
# listas
dados = [['Carlos', 35, 'Araraquara', 'True'],
         ['Theo', 32, 'Natal', 'False'],
         ['Raquel', 12, 'SJC', 'True'],
         ['Fernanda', 14, 'Brasilia', 'True']]

# criar DataFrame
df = pd.DataFrame(dados, columns=['nome', 'idade', 'cidade', 'comprou'],
                  index=[124, 543, 999, 214])

# visualizar DataFrame
df

Unnamed: 0,nome,idade,cidade,comprou
124,Carlos,35,Araraquara,True
543,Theo,32,Natal,False
999,Raquel,12,SJC,True
214,Fernanda,14,Brasilia,True


In [None]:
# selecionar pelo index
df.loc[124]

nome           Carlos
idade              35
cidade     Araraquara
comprou          True
Name: 124, dtype: object

## Criar novas colunas

Uma maneira extremamente conveniente de criar novas colunas em um *DataFrame* é usar uma funcionalidade do Pandas conhecida como *broadcasting*.

Informanda o nome da nova coluna e declarando apenas um valor, este é replicado para todas as linhas do *DataFrame*

In [None]:
# criar coluna "saldo"
df['saldo'] = 0.0

# visualizar DataFrame
df

Unnamed: 0,nome,idade,cidade,comprou,saldo
0,Carlos,35,Araraquara,True,0.0
1,Pedro,32,Belém,False,0.0
2,Daniela,15,Natal,False,0.0
3,Fernanda,49,Curitiba,True,0.0


## Modificar *index* e colunas

Às vezes, precisamos alterar o nome dos índices ou o *label* das colunas. Se você olhar na célula acima, veja que na esquerda do *DataFrame* o index de cada linha é representado por um número entre 0 e 3.

É possível alterar esse atributo da variável acessando diretamente assim:

In [None]:
df.index

RangeIndex(start=0, stop=4, step=1)

In [None]:
# alterar o index do df
df.index = ['a', 'b', 'c', 'd']

# visualizar DataFrame
df

Unnamed: 0,nome,idade,cidade,comprou,saldo
a,Carlos,35,Araraquara,True,0.0
b,Pedro,32,Belém,False,0.0
c,Daniela,15,Natal,False,0.0
d,Fernanda,49,Curitiba,True,0.0


Da mesma maneira, se eu precisar alterar o nome das colunas, posso alterar diretamente no atributo da variável:

In [None]:
# alterar os labels das colunas
df.columns = ['Nome do Cliente', "Idade", "Naturalidade", "Fez Compras?", "Saldo na Loja"]

# visualizar DataFrame
df

Unnamed: 0,Nome do Cliente,Idade,Naturalidade,Fez Compras?,Saldo na Loja
a,Carlos,35,Araraquara,True,0.0
b,Pedro,32,Belém,False,0.0
c,Daniela,15,Natal,False,0.0
d,Fernanda,49,Curitiba,True,0.0
