<a href="https://colab.research.google.com/github/JoaoVitorMarques14/JoaoMarques/blob/master/Copy_of_Criando_DataFrames.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img alt="Colaboratory logo" width="15%" src="https://raw.githubusercontent.com/carlosfab/escola-data-science/master/img/novo_logo_bg_claro.png">

#### **Data Science na Prática 2.0**
*by [sigmoidal.ai](https://sigmoidal.ai)*

---

# Criando DataFrames

No *notebook* anterior, importamos diretamente um arquivo `csv` da internet para uma estrutura *DataFrame*. Quando usamos a função `pd.read('arquivo.csv')` o Pandas já entendendo como deve agir em relação à estrutura de linhas e colunas.

<center><img src="https://raw.githubusercontent.com/carlosfab/curso_data_science_na_pratica/master/modulo_02/from_csv_to_df.png"></center>


No entanto, existe a possibilidade de criarmos na mão um *DataFrame* usando diversas técnicas.

## DataFrames a partir de Dicionários

Uma das estruturas básicas do Python é o Dicionário. É muito conveniente informarmos nossos dados em uma variável do tipo `dict`, pois sua conversão em *DataFrame* é muito simples e direta.

In [None]:
# importar pandas
import pandas as pd


In [None]:
# criar dicionário

data_dict = {
    "Names": ["Anna", "João", "Ida", "Toddy"],
    "City": ["RP", "JAC", "SB", "RP"],
    "Age": ["33", "70", "69", "8"],
    "Amazon":[False, True, False, True]
}

In [None]:
# criar DataFrame
df_dict = pd.DataFrame(data_dict)

In [None]:
# visualizar DataFrame
df_dict

Unnamed: 0,Names,City,Age,Amazon
0,Anna,RP,33,False
1,João,JAC,70,True
2,Ida,SB,69,False
3,Toddy,RP,8,True


In [None]:
# criar id do usuário
id_user = [222, 458, 897, 107]

In [None]:
# associar o id do usuário à lista
df_dict.index = id_user

In [None]:
# ver o dataframe
df_dict

Unnamed: 0,Names,City,Age,Amazon
222,Anna,RP,33,False
458,João,JAC,70,True
897,Ida,SB,69,False
107,Toddy,RP,8,True


In [None]:
df_dict.replace("Ida", "Vitor")

Unnamed: 0,Names,City,Age,Amazon
222,Anna,RP,33,False
458,João,JAC,70,True
897,Vitor,SB,69,False
107,Toddy,RP,8,True


In [None]:
df_dict["City"] = df_dict["City"].replace("RP","XX")
df_dict

Unnamed: 0,Names,City,Age,Amazon
222,Anna,XX,33,False
458,João,JAC,70,True
897,Ida,SB,69,False
107,Toddy,XX,8,True


In [None]:
df_dict.at[222,"Age"] = 45
df_dict

Unnamed: 0,Names,City,Age,Amazon
222,Anna,XX,45,False
458,João,JAC,70,True
897,Ida,SB,69,False
107,Toddy,XX,8,True


In [None]:
df_dict.iloc[:,[0,2]]

Unnamed: 0,Names,Age
222,Anna,45
458,João,70
897,Ida,69
107,Toddy,8


In [None]:
df_dict.query('Age == "45"')

Unnamed: 0,Names,City,Age,Amazon


## DataFrames a partir de Listas

Listas também são estruturas muito usadas em Python, e não é incomum termos que criar *DataFrames*  a partir destas.

Para organizar nossas várias listas de um modo que seja fácil sia conversão em *DataFrame*, vou usar a função *built-in* `zip()`.

In [None]:
# listas
data_list = [
           ["Anna", "RP", "33", True],
           ["Joao","JAC","70",False], 
           ["Ida","SB","69",True],
           ["Toddy", "RP", "8", True]
           ]

# criar DataFrame
df_list = pd.DataFrame(data_list, columns=["Name", "City", "Age", "Amazon"], index=[256,235,789,600])

# visualizar DataFrame
df_list

Unnamed: 0,Name,City,Age,Amazon
256,Anna,RP,33,True
235,Joao,JAC,70,False
789,Ida,SB,69,True
600,Toddy,RP,8,True


In [None]:
# selecionar pelo index
df_list.loc[600]

Name      Toddy
City         RP
Age           8
Amazon     True
Name: 600, dtype: object

## Criar novas colunas

Uma maneira extremamente conveniente de criar novas colunas em um *DataFrame* é usar uma funcionalidade do Pandas conhecida como *broadcasting*.

Informanda o nome da nova coluna e declarando apenas um valor, este é replicado para todas as linhas do *DataFrame*

In [None]:
# criar coluna "saldo"
df_list["$"] = 0.0

# visualizar DataFrame
df_list

Unnamed: 0,Name,City,Age,Amazon,$
256,Anna,RP,33,True,0.0
235,Joao,JAC,70,False,0.0
789,Ida,SB,69,True,0.0
600,Toddy,RP,8,True,0.0


## Modificar *index* e colunas

Às vezes, precisamos alterar o nome dos índices ou o *label* das colunas. Se você olhar na célula acima, veja que na esquerda do *DataFrame* o index de cada linha é representado por um número entre 0 e 3.

É possível alterar esse atributo da variável acessando diretamente assim:

In [None]:
#index
df_list.index

Int64Index([256, 235, 789, 600], dtype='int64')

In [None]:
# alterar o index do df
df_list.index = [1, 2, 3, 4]

# visualizar DataFrame
df_list


Unnamed: 0,Name,City,Age,Amazon,$
1,Anna,RP,33,True,0.0
2,Joao,JAC,70,False,0.0
3,Ida,SB,69,True,0.0
4,Toddy,RP,8,True,0.0


Da mesma maneira, se eu precisar alterar o nome das colunas, posso alterar diretamente no atributo da variável:

In [None]:
# alterar os labels das colunas
df_list.columns = ['Nome do Cliente', "Idade", "Naturalidade", "Fez Compras?", "Saldo na Loja"]

# visualizar DataFrame
df_list

Unnamed: 0,Nome do Cliente,Idade,Naturalidade,Fez Compras?,Saldo na Loja
1,Anna,RP,33,True,0.0
2,Joao,JAC,70,False,0.0
3,Ida,SB,69,True,0.0
4,Toddy,RP,8,True,0.0


In [None]:
df_list.loc[1]

Nome do Cliente    Anna
Idade                RP
Naturalidade         33
Fez Compras?       True
Saldo na Loja         0
Name: 1, dtype: object

In [None]:
df_list["Naturalidade"] = df_list["Naturalidade"].replace(33,45)
df_list


Unnamed: 0,Nome do Cliente,Idade,Naturalidade,Fez Compras?,Saldo na Loja
1,Anna,RP,33,True,0.0
2,Joao,JAC,70,False,0.0
3,Ida,SB,69,True,0.0
4,Toddy,RP,8,True,0.0
