# 15 maneiras de criar um DataFrame do Pandas

# Motivação

Ao fazer EDA (análise exploratória de dados) ou desenvolver / testar modelos, é muito comum usar o poderoso e elegante pandas DataFrame para armazenar e manipular dados. E geralmente, ele começa com “criando um dataframe”.

Normalmente encontro os seguintes cenários ao iniciar algum EDA ou modelar com pandas:

Preciso criar rapidamente um dataframe de alguns registros para testar um código.

Preciso carregar um arquivo csv ou json em um dataframe.

Eu preciso ler uma tabela HTML em um dataframe de uma página da web

Preciso carregar registros semelhantes a json em um dataframe sem criar um arquivo json

Preciso carregar registros semelhantes a csv em um dataframe sem criar um arquivo csv

Eu preciso mesclar dois dataframes, vertical ou horizontalmente

Eu tenho que transformar uma coluna de um dataframe em colunas one-hot

Cada um desses cenários me fez pesquisar a sintaxe no Google ou pesquisar a documentação toda vez, até que lentamente os memorizei com a prática de meses e anos.

Compreendendo a dificuldade de pesquisar, pensei que uma folha de pesquisa rápida para as várias maneiras de criar um dataframe em pandas pode economizar algum tempo. Isso pode ajudar os alunos até que se tornem analistas ou cientistas de dados experientes.

Portanto, aqui estão algumas maneiras de criar um dataframe. Se alguém lendo isto encontrar outras formas ou métodos elegantes, sinta-se à vontade para comentar ou enviar uma mensagem; Eu adoraria adicioná-los nesta página com sua referência.

In [4]:
# importando a biblioteca
import pandas as pd
import numpy as np

# Usando o construtor DataFrame pd.DataFrame ()

O construtor pandas DataFrame () oferece muitas maneiras diferentes de criar e inicializar um dataframe.

# Método 0 

Inicializar dataframe em branco e continuar adicionando registros. O atributo de colunas é uma lista de strings que se tornam colunas do dataframe. As linhas do DataFrame são referenciadas pelo método loc com um índice (como listas). Por exemplo, o primeiro registro no dataframe df será referenciado por df.loc [0], o segundo registro por df.loc [1]. Uma nova linha na posição i pode ser adicionada diretamente definindo df.loc [i] = <registrar atributos como uma lista>

In [3]:
# method 0
# Initialize a blank dataframe and keep adding
df = pd.DataFrame(columns = ['year','make','model'])

# Add records to dataframe using the .loc function
df.loc[0] = [2014,"toyota","corolla"] 
df.loc[1] = [2018,"honda","civic"]

df

Unnamed: 0,year,make,model
0,2014,toyota,corolla
1,2018,honda,civic


In [5]:
# Pass a 2D numpy array - each row is the corresponding row required in the dataframe
data = np.array([[2014,"toyota","corolla"], 
                 [2018,"honda","civic"], 
                 [2020,"hyndai","accent"], 
                 [2017,"nissan","sentra"]]) 

# pass column names in the columns parameter 
df = pd.DataFrame(data, columns = ['year', 'make','model'])

df

Unnamed: 0,year,make,model
0,2014,toyota,corolla
1,2018,honda,civic
2,2020,hyndai,accent
3,2017,nissan,sentra


In [6]:
data = {'year': [2014, 2018,2020,2017], 
        'make': ["toyota", "honda","hyndai","nissan"],
        'model':["corolla", "civic","accent","sentra"]
       }

# pass column names in the columns parameter 
df = pd.DataFrame(data)

df

Unnamed: 0,year,make,model
0,2014,toyota,corolla
1,2018,honda,civic
2,2020,hyndai,accent
3,2017,nissan,sentra


In [7]:
data = [{'year': 2014, 'make': "toyota", 'model':"corolla"}, 
        {'year': 2018, 'make': "honda", 'model':"civic"}, 
        {'year': 2020, 'make': "hyndai", 'model':"nissan"}, 
        {'year': 2017, 'make': "nissan" ,'model':"sentra"}
       ]

# pass column names in the columns parameter 
df = pd.DataFrame(data)

df

Unnamed: 0,year,make,model
0,2014,toyota,corolla
1,2018,honda,civic
2,2020,hyndai,nissan
3,2017,nissan,sentra


In [8]:
data = {'year': [2014, 2018,2020,2017], 
        'make': ["toyota", "honda","hyndai","nissan"],
        'model':["corolla", "civic","accent","sentra"]
       }

# pass column names in the columns parameter 
df = pd.DataFrame.from_dict(data)

df

Unnamed: 0,year,make,model
0,2014,toyota,corolla
1,2018,honda,civic
2,2020,hyndai,accent
3,2017,nissan,sentra


In [9]:
df = pd.DataFrame.from_dict(data, orient='index',columns=['record1', 'record2', 'record3', 'record4'])

df

Unnamed: 0,record1,record2,record3,record4
year,2014,2018,2020,2017
make,toyota,honda,hyndai,nissan
model,corolla,civic,accent,sentra


# Método 5

A partir de um arquivo csv usando o método read_csv da biblioteca pandas. Esta é uma das formas mais comuns de criação de dataframe para EDA. Delimitador (ou separador), cabeçalho e a escolha da coluna de índice do arquivo csv são configuráveis. Por padrão, o separador é a vírgula, o cabeçalho é inferido da primeira linha, se encontrado, a coluna do índice não é obtida do arquivo. Esta é a aparência do arquivo:

In [17]:
df = pd.read_csv('dados.csv' , sep = ',', header = 'infer', index_col = None)
df

Unnamed: 0,year,make,model
2014,toyota,corolla,
2018,honda,civic,
2020,hyndai,accent,
2017,nissan,sentra,


In [18]:
from io import StringIO

# f is a file handle created from a csv like string
f = StringIO('year,make,model\n2014,toyota,corolla\n2018,honda,civic\n2020,hyndai,accent\n2017,nissan,sentra')

df = pd.read_csv(f)

df

Unnamed: 0,year,make,model
0,2014,toyota,corolla
1,2018,honda,civic
2,2020,hyndai,accent
3,2017,nissan,sentra


In [19]:
df = pd.read_json('dados.json',lines=True)
df

Unnamed: 0,year,make,model
0,2014,toyota,corola
1,2018,honda,civic
2,2020,hyndai,accent
3,2017,nissan,sentra


In [20]:
from io import StringIO

# f is a file handle created from json like string
f = StringIO('{"year": "2014", "make": "toyota", "model": "corolla"}\n{"year": "2018", "make": "honda", "model": "civic"}\n{"year": "2020", "make": "hyndai", "model": "accent"}\n{"year": "2017", "make": "nissan", "model": "sentra"}')

df = pd.read_json(f,lines=True)

df

Unnamed: 0,year,make,model
0,2014,toyota,corolla
1,2018,honda,civic
2,2020,hyndai,accent
3,2017,nissan,sentra


# Método 10 

Como uma cópia de outro dataframe .

In [22]:
df_copy = df.copy()   # copy into a new dataframe object
df_copy = df          # make an alias of the dataframe(not creating 
                      # a new dataframe, just a pointer)

In [25]:
# as a new object using .copy() method - new dataframe object created independent of old one
a = pd.DataFrame({'year': [2019],'make': ["Mercedes"],'model':["C-Class"]})
b = a.copy()

# change old one
a['year'] = 2020

# new copy does not reflect the change
b

Unnamed: 0,year,make,model
0,2019,Mercedes,C-Class


In [26]:
# as variable copy - new variable is just an alias to the old one
a = pd.DataFrame({'year': [2019],'make': ["Mercedes"],'model':["C-Class"]})
b = a

# change old one
a['year'] = 2020

# alias reflects the change
b

Unnamed: 0,year,make,model
0,2020,Mercedes,C-Class


In [27]:
data1 = [{'year': 2014, 'make': "toyota", 'model':"corolla"}, 
        {'year': 2018, 'make': "honda", 'model':"civic"}, 
        {'year': 2020, 'make': "hyndai", 'model':"nissan"}, 
        {'year': 2017, 'make': "nissan" ,'model':"sentra"}
       ]

df1 = pd.DataFrame(data1)

data2 = [{'year': 2019, 'make': "bmw", 'model':"x5"}]
df2 = pd.DataFrame(data2)

# concatenate vertically
# NOTE: axis = 'index' is same as axis = 0, and is the default 
# The two statements below mean the same as the one above
df3 = pd.concat([df1,df2], axis = 'index')
#OR
df3 = pd.concat([df1,df2], axis = 0)
# OR
df3 = pd.concat([df1,df2])
df3

Unnamed: 0,year,make,model
0,2014,toyota,corolla
1,2018,honda,civic
2,2020,hyndai,nissan
3,2017,nissan,sentra
0,2019,bmw,x5


In [28]:
df3 = pd.concat([df1,df2]).reset_index()
#OR
df3 = pd.concat([df1,df2], ignore_index = True)
df3

Unnamed: 0,year,make,model
0,2014,toyota,corolla
1,2018,honda,civic
2,2020,hyndai,nissan
3,2017,nissan,sentra
4,2019,bmw,x5


In [30]:
# As linhas dos dataframes são concatenadas por ordem de sua posição (índice)
# Se houver algum registro ausente em um dos dataframes, os registros correspondentes no dataframe concatenado serão NaN. 
# Isso é o mesmo que fazer uma junção externa esquerda no índice (veja mesclagem abaixo)
data1 = [{'year': 2014, 'make': "toyota", 'model':"corolla"}, 
        {'year': 2018, 'make': "honda", 'model':"civic"}, 
        {'year': 2020, 'make': "hyndai", 'model':"nissan"}, 
        {'year': 2017, 'make': "nissan" ,'model':"sentra"}
       ]
df1 = pd.DataFrame(data1)
data2 = [{'year': 2019, 'make': "bmw", 'model':"x5"}]
df2 = pd.DataFrame(data2)
df3 = pd.concat([df1,df2], axis = 'columns')
#OR
df3 = pd.concat([df1,df2], axis = 1)
df3

Unnamed: 0,year,make,model,year.1,make.1,model.1
0,2014,toyota,corolla,2019.0,bmw,x5
1,2018,honda,civic,,,
2,2020,hyndai,nissan,,,
3,2017,nissan,sentra,,,


# Método 13 

Concatenação horizontal - equivalente à junção SQL.

In [31]:
data1 = [{'year': 2014, 'make': "toyota", 'model':"corolla"}, 
        {'year': 2018, 'make': "honda", 'model':"civic"}, 
        {'year': 2020, 'make': "hyndai", 'model':"nissan"}, 
        {'year': 2017, 'make': "nissan" ,'model':"sentra"}
       ]
df1 = pd.DataFrame(data1)

data2 = [{'make': 'honda', 'Monthly Sales': 114117}, 
        {'make': 'toyota', 'Monthly Sales': 172370}, 
        {'make': 'hyndai', 'Monthly Sales': 54790}
       ]
df2 = pd.DataFrame(data2)

# inner join on 'make'
# default is inner join
df3 = pd.merge(df1,df2,how = 'inner',on = ['make'])
df3 = pd.merge(df1,df2,on = ['make'])
df3

Unnamed: 0,year,make,model,Monthly Sales
0,2014,toyota,corolla,172370
1,2018,honda,civic,114117
2,2020,hyndai,nissan,54790


In [32]:
# for a left join , use how = 'left'
df3 = pd.merge(df1,df2,how = 'left',on = ['make'])
df3

Unnamed: 0,year,make,model,Monthly Sales
0,2014,toyota,corolla,172370.0
1,2018,honda,civic,114117.0
2,2020,hyndai,nissan,54790.0
3,2017,nissan,sentra,


In [33]:
# To transpose a dataframe - use .T method
df4 = df3.T

# To rename columns to anything else after the transpose
df4.columns = (['column1','column2','column3','column4'])
df4


Unnamed: 0,column1,column2,column3,column4
year,2014,2018,2020,2017
make,toyota,honda,hyndai,nissan
model,corolla,civic,nissan,sentra
Monthly Sales,172370.0,114117.0,54790.0,


One-Hot é basicamente uma conversão de um valor de coluna em um conjunto de colunas derivadas como representação binária. Qualquer um do conjunto de colunas one-hot é 1 e o resto é 0.

Se soubermos que um carro tem tipos de carroceria = SEDAN, SUV, VAN, TRUCK, então uma Toyota corolla com carroceria = 'SEDAN' se tornará um-hot codificado para

body_SEDAN   body_SUV    body_VAN   body_TRUCK
1             0               0         0

In [34]:
data1 = [{ 'make': "toyota", 'model':"corolla", 'body':"sedan"}, 
        {'make': "honda", 'model':"crv", 'body':"suv"}, 
        {'make': "dodge", 'model':"caravan", 'body':"van"}, 
        {'make': "ford" ,'model':"f150", 'body':"truck"}
       ]
df1 = pd.DataFrame(data1) 

df2 = pd.get_dummies(df1,columns = ['body'])
df2


Unnamed: 0,make,model,body_sedan,body_suv,body_truck,body_van
0,toyota,corolla,1,0,0,0
1,honda,crv,0,1,0,0
2,dodge,caravan,0,0,0,1
3,ford,f150,0,0,1,0
