<a href="https://colab.research.google.com/github/sirleudo/sigmoidal_data_science/blob/master/Criando_DataFrames.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img alt="Colaboratory logo" width="15%" src="https://github.com/sirleudo/sigmoidal_data_science/blob/master/logo_pensatah.png?raw=true">

#### **Data Science na Prática 2.0**
*by Sirleudo Evaristo*

---

# Criando DataFrames

No *notebook* anterior, importamos diretamente um arquivo `csv` da internet para uma estrutura *DataFrame*. Quando usamos a função `pd.read('arquivo.csv')` o Pandas já entendendo como deve agir em relação à estrutura de linhas e colunas.

<center><img src="https://raw.githubusercontent.com/carlosfab/curso_data_science_na_pratica/master/modulo_02/from_csv_to_df.png"></center>


No entanto, existe a possibilidade de criarmos na mão um *DataFrame* usando diversas técnicas.

## DataFrames a partir de Dicionários

Uma das estruturas básicas do Python é o Dicionário. É muito conveniente informarmos nossos dados em uma variável do tipo `dict`, pois sua conversão em *DataFrame* é muito simples e direta.

In [0]:
# importar pandas
import pandas as pd


In [0]:
# criar dicionário
dados = {
    'nome': ['Sirleudo', 'Ana Meire', 'Rebeca', 'Renata'],
    'idade': [37, 38, 4, 1],
    'cidade': ['Ipaumirim', 'Fortaleza', 'Eusébio', 'Crateus'],
    'comprou': [True, True, False, False]
}

In [0]:
# criar DataFrame
df = pd.DataFrame(dados)

In [5]:
# visualizar o DataFrame
df

Unnamed: 0,nome,idade,cidade,comprou
0,Sirleudo,37,Ipaumirim,True
1,Ana Meire,38,Fortaleza,True
2,Rebeca,4,Eusébio,False
3,Renata,1,Crateus,False


In [0]:
# criar id de usuário
id_usuario = [1, 2, 3, 4]

In [0]:
# associar o id usuario a lista
df.index = id_usuario

In [10]:
# ver o dataframe
df

Unnamed: 0,nome,idade,cidade,comprou
1,Sirleudo,37,Ipaumirim,True
2,Ana Meire,38,Fortaleza,True
3,Rebeca,4,Eusébio,False
4,Renata,1,Crateus,False


## DataFrames a partir de Listas
Listas também são estruturas muito usadas em Python, e não é incomum termos que criar DataFrames a partir destas.

Para organizar nossas várias listas de um modo que seja fácil sia conversão em DataFrame, vou usar a função built-in zip().

In [12]:
# lista
dados = [['Sirleudo', 37, 'Ipaumirim', True],
         ['Ana Meire', 38, 'Fortaleza', True],
         ['Rebeca', 4, 'Eusébio', False],
         ['Renata', 1, 'Crateus', False]]

# criar DataFrame
df = pd.DataFrame(dados, columns=['nome', 'idade', 'cidade', 'comprou'],
                  index = [123, 124, 125, 126])

# visualizar DataFrame
df


Unnamed: 0,nome,idade,cidade,comprou
123,Sirleudo,37,Ipaumirim,True
124,Ana Meire,38,Fortaleza,True
125,Rebeca,4,Eusébio,False
126,Renata,1,Crateus,False


In [13]:
# selecionar pelo index
df.loc[123]

nome        Sirleudo
idade             37
cidade     Ipaumirim
comprou         True
Name: 123, dtype: object

## Criar novas colunas
Uma maneira extremamente conveniente de criar novas colunas em um DataFrame é usar uma funcionalidade do Pandas conhecida como broadcasting.

Informanda o nome da nova coluna e declarando apenas um valor, este é replicado para todas as linhas do DataFrame

In [14]:
# criar coluna 'saldo'
df['saldo'] = 0.0

# visualizar o DataFrame
df

Unnamed: 0,nome,idade,cidade,comprou,saldo
123,Sirleudo,37,Ipaumirim,True,0.0
124,Ana Meire,38,Fortaleza,True,0.0
125,Rebeca,4,Eusébio,False,0.0
126,Renata,1,Crateus,False,0.0


## Modificar *index* e colunas
Às vezes, precisamos alterar o nome dos índices ou o label das colunas. Se você olhar na célula acima, veja que na esquerda do DataFrame o index de cada linha é representado por um número entre 0 e 3.

É possível alterar esse atributo da variável acessando diretamente assim:

In [15]:
df.index

Int64Index([123, 124, 125, 126], dtype='int64')

In [16]:
# alterar o index do df
df.index = ['A', 'B', 'C', 'D']

# visualizar o DataFRame
df

Unnamed: 0,nome,idade,cidade,comprou,saldo
A,Sirleudo,37,Ipaumirim,True,0.0
B,Ana Meire,38,Fortaleza,True,0.0
C,Rebeca,4,Eusébio,False,0.0
D,Renata,1,Crateus,False,0.0


Da mesma maneira, se eu precisar alterar o nome das colunas, posso alterar diretamente no atributo da variável:

In [23]:
# alterar os labels das colunas
df.columns = ['Nome do Cliente', "Idade", "Naturalidade", "Fez Compras?", "Saldo na Loja"]

# visualizar DataFrame
df

Unnamed: 0,Nome do Cliente,Idade,Naturalidade,Fez Compras?,Saldo na Loja
A,Sirleudo,37,Ipaumirim,True,0.0
B,Ana Meire,38,Fortaleza,True,0.0
C,Rebeca,4,Eusébio,False,0.0
D,Renata,1,Crateus,False,0.0
