# DataFrames

DataFrame é o elemeto mais importante dos Pandas e são diretamente inspirados pela linguagem de programação R. Podemos pensar em um DataFrame como um monte de objetos da série juntos para compartilhar o mesmo índice. Vamos usar Pandas para explorar esse tópico!

In [42]:
import pandas as pd
import numpy as np
from numpy.random import randn

In [43]:
# Criando um DataFrame com dados aleatórios gerados pela função randn de NumPy
# O DataFrame terá 5 linhas e 4 colunas, com índices e nomes de colunas especificados
dataframe = pd.DataFrame(np.random.randn(5, 4), 
                         index=['linha1', 'linha2', 'linha3', 'linha4', 'linha5'], 
                         columns='coluna1 coluna2 coluna3 coluna4'.split()) # Definindo uma string com espaços em branco e Usando o método split() para dividir a string em uma lista de substrings

# Exibindo o DataFrame
print(dataframe)


         coluna1   coluna2   coluna3   coluna4
linha1  0.344133  1.106041 -1.140222  0.860656
linha2  0.022126 -0.676783 -1.259059 -0.572490
linha3 -1.484410 -1.524685  0.719032  1.289502
linha4  0.201673 -0.334583  0.460284  0.577722
linha5  0.078063 -0.536541 -0.893572 -1.332718


In [44]:
print(dataframe['coluna1']) # Imprimindo no formato Series
print('-'* 30)
print(dataframe[['coluna1']]) # Imprimindo no formato de DataFrame

linha1    0.344133
linha2    0.022126
linha3   -1.484410
linha4    0.201673
linha5    0.078063
Name: coluna1, dtype: float64
------------------------------
         coluna1
linha1  0.344133
linha2  0.022126
linha3 -1.484410
linha4  0.201673
linha5  0.078063


In [45]:
dataframe['soma1+2'] = dataframe['coluna1'] + dataframe['coluna2'] # Adicionando uma nova coluna com o nome soma e fazendo a soma das colunas 1 e 2
print(dataframe)

         coluna1   coluna2   coluna3   coluna4   soma1+2
linha1  0.344133  1.106041 -1.140222  0.860656  1.450174
linha2  0.022126 -0.676783 -1.259059 -0.572490 -0.654657
linha3 -1.484410 -1.524685  0.719032  1.289502 -3.009095
linha4  0.201673 -0.334583  0.460284  0.577722 -0.132910
linha5  0.078063 -0.536541 -0.893572 -1.332718 -0.458477


In [46]:
# Deletando a coluna 'coluna3' do DataFrame e salvando no dataframe original
del dataframe['coluna3']
# Removendo a coluna 'coluna2' do DataFrame utilizando o método drop. 
# O parâmetro 'axis=1' indica que estamos removendo uma coluna (e não uma linha) OBS:
# Por padrão, drop retorna uma nova cópia do DataFrame com a coluna removida, sem alterar o DataFrame original a menos que inplace=True seja especificado.
dataframe.drop('coluna2', axis=1)


Unnamed: 0,coluna1,coluna4,soma1+2
linha1,0.344133,0.860656,1.450174
linha2,0.022126,-0.57249,-0.654657
linha3,-1.48441,1.289502,-3.009095
linha4,0.201673,0.577722,-0.13291
linha5,0.078063,-1.332718,-0.458477


In [47]:
print(dataframe)

         coluna1   coluna2   coluna4   soma1+2
linha1  0.344133  1.106041  0.860656  1.450174
linha2  0.022126 -0.676783 -0.572490 -0.654657
linha3 -1.484410 -1.524685  1.289502 -3.009095
linha4  0.201673 -0.334583  0.577722 -0.132910
linha5  0.078063 -0.536541 -1.332718 -0.458477


In [48]:
dataframe.drop('coluna2', axis=1, inplace=True) # Removendo a coluna2 do dataframe original.
print(dataframe)

         coluna1   coluna4   soma1+2
linha1  0.344133  0.860656  1.450174
linha2  0.022126 -0.572490 -0.654657
linha3 -1.484410  1.289502 -3.009095
linha4  0.201673  0.577722 -0.132910
linha5  0.078063 -1.332718 -0.458477


In [52]:
# Exibindo os dados da linha com rótulo 'linha1' usando .loc Os dados são exibidos transpostos. 
print(dataframe.loc['linha1'])
print('-'*30)

# Exibindo os dados das linhas com rótulos 'linha2' e 'linha3' usando .loc
print(dataframe.loc[['linha2', 'linha3']])
print('-'*30)

# Exibindo os dados da segunda linha (índice 1) usando .iloc
print(dataframe.iloc[1:2])


coluna1    0.344133
coluna4    0.860656
soma1+2    1.450174
Name: linha1, dtype: float64
------------------------------
         coluna1   coluna4   soma1+2
linha2  0.022126 -0.572490 -0.654657
linha3 -1.484410  1.289502 -3.009095
------------------------------
         coluna1  coluna4   soma1+2
linha2  0.022126 -0.57249 -0.654657
