<a href="https://colab.research.google.com/github/jtkomati/Portfolio/blob/master/Criando_DataFrames.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Criando DataFrames

No *notebook* anterior, importamos diretamente um arquivo `csv` da internet para uma estrutura *DataFrame*. Quando usamos a função `pd.read('arquivo.csv')` o Pandas já entendendo como deve agir em relação à estrutura de linhas e colunas.

<center><img src="https://raw.githubusercontent.com/carlosfab/curso_data_science_na_pratica/master/modulo_02/from_csv_to_df.png"></center>


No entanto, existe a possibilidade de criarmos na mão um *DataFrame* usando diversas técnicas.

## DataFrames a partir de Dicionários

Uma das estruturas básicas do Python é o Dicionário. É muito conveniente informarmos nossos dados em uma variável do tipo `dict`, pois sua conversão em *DataFrame* é muito simples e direta.

In [0]:
# importar pandas
import pandas as pd

In [0]:
# criar dicionário
dados = {
    'Nome' : [ 'Mario', 'João', 'Pedro'],
    'Idade' : [ 10, 9, 8],
    'Peso' : [ 40, 35, 30],
    'Cor' : [ 'Branco', 'Pardo', 'Negro']
    }

In [0]:
# criar DataFrame
df = pd.DataFrame(dados)

In [7]:
# visualizar DataFrame
df

Unnamed: 0,Nome,Idade,Peso,Cor
0,Mario,10,40,Branco
1,João,9,35,Pardo
2,Pedro,8,30,Negro


In [0]:
# criar id do usuário
id_usuario =[ 202, 105, 907]

In [0]:
# associar o id do usuário à lista
df.index = id_usuario

In [11]:
# ver o dataframe
df

Unnamed: 0,Nome,Idade,Peso,Cor
202,Mario,10,40,Branco
105,João,9,35,Pardo
907,Pedro,8,30,Negro


## DataFrames a partir de Listas

Listas também são estruturas muito usadas em Python, e não é incomum termos que criar *DataFrames*  a partir destas.

Para organizar nossas várias listas de um modo que seja fácil sia conversão em *DataFrame*, vou usar a função *built-in* `zip()`.

In [19]:
# listas
dados = [['Mario', 10, 40, 'Branco'],
         ['João', 9, 35, 'Pardo'],
         ['Pedro', 8, 30, 'Negro']]

# criar DataFrame
df = pd.DataFrame(dados, columns=['Nome', 'Idade', 'Peso', 'Cor'],      
     index = [100, 200, 300])   

# visualizar DataFrame
df
                  

Unnamed: 0,Nome,Idade,Peso,Cor
100,Mario,10,40,Branco
200,João,9,35,Pardo
300,Pedro,8,30,Negro


In [20]:
# selecionar pelo index
df.loc[300]

Nome     Pedro
Idade        8
Peso        30
Cor      Negro
Name: 300, dtype: object

## Criar novas colunas

Uma maneira extremamente conveniente de criar novas colunas em um *DataFrame* é usar uma funcionalidade do Pandas conhecida como *broadcasting*.

Informanda o nome da nova coluna e declarando apenas um valor, este é replicado para todas as linhas do *DataFrame*

In [23]:
# criar coluna "saldo"
df['saldo'] = 0

# visualizar DataFrame
df

Unnamed: 0,Nome,Idade,Peso,Cor,saldo
100,Mario,10,40,Branco,0
200,João,9,35,Pardo,0
300,Pedro,8,30,Negro,0


## Modificar *index* e colunas

Às vezes, precisamos alterar o nome dos índices ou o *label* das colunas. Se você olhar na célula acima, veja que na esquerda do *DataFrame* o index de cada linha é representado por um número entre 100 e 300.

É possível alterar esse atributo da variável acessando diretamente assim:

In [24]:
df.index

Int64Index([100, 200, 300], dtype='int64')

In [26]:
# alterar o index do df
df.index = ['a', 'b', 'c']

# visualizar DataFrame
df

Unnamed: 0,Nome,Idade,Peso,Cor,saldo
a,Mario,10,40,Branco,0
b,João,9,35,Pardo,0
c,Pedro,8,30,Negro,0


Da mesma maneira, se eu precisar alterar o nome das colunas, posso alterar diretamente no atributo da variável:

In [29]:
# alterar os labels das colunas
df.columns = ['NOME', 'IDADE', 'PESO', 'COR', 'SALDO']

# visualizar DataFrame
df

Unnamed: 0,NOME,IDADE,PESO,COR,SALDO
a,Mario,10,40,Branco,0
b,João,9,35,Pardo,0
c,Pedro,8,30,Negro,0
