# Conteúdos abordados:

1. Definição de DataFrame

2. Acesso aos Dados

3. Outros tipos de acesso (loc)

4. Séries são a base de tudo


# 1. Definição de DataFrame

Um Dataframe é formado por um conjunto de séries, cada uma delas sendo uma coluna da ‘tabela’.

Para criar um Dataframe, é simples! Só precisamos instanciar um objeto a partir da classe DataFrame do Pandas:

In [1]:
# Importandoa biblioteca
import pandas as pd

# Criando o DataFrame
df = pd.DataFrame([200, 350, 550])

# Mostando os dados do DataFrame
df

Unnamed: 0,0
0,200
1,350
2,550


Exemplo simples, mas já mostra que alguns componentes de um Dataframe.

Assim como as séries, Dataframes possuem índices, mas também possui colunas, cada uma delas com um nome.

Como não passamos explicitamente o nome das colunas, o pandas cria… adivinhem: um RangeIndex de 0 até o número de colunas menos um.

Mas, vamos devagar. No exemplo anterior criamos um Dataframe a partir de uma lista.

Outra forma é criar a partir de um dicionário, onde a chave é o nome da coluna e o valor, uma lista de elementos:

In [2]:
df = pd.DataFrame({'calorias':[200, 350, 550], 'gordura (%)':[0, 6, 15]})
df

Unnamed: 0,calorias,gordura (%)
0,200,0
1,350,6
2,550,15


Agora, podemos alterar os índices para algo mais mnemônico, que facilite nossa vida:

In [3]:
df = pd.DataFrame({'calorias':[200, 350, 550], 'gordura (%)':[0, 6, 15]}, index=['banana', 'prato feito', 'big mac'])
df

Unnamed: 0,calorias,gordura (%)
banana,200,0
prato feito,350,6
big mac,550,15


Vale lembrar que tudo que funcionava com o índice das séries também vale para os Dataframes!

Agora vamos aprender a acessar os dados de um Dataframe.

# 2. Acesso aos Dados

Essa parte é um capítulo à parte de teremos um post detalhando várias formas de acessar os dados de um Dataframe.

Alguns dos métodos, como loc, iloc, at e iat merecem bastante detalhe e exemplos, mas traremos isso pra vocês em breve!

Para não perder os próximos posts e novidades que teremos pela frente: cadastre-se na nossa lista exclusiva de Pythonistas!

A verdade é que existem MUITAS formas de acessar os dados de um Dataframe, mas não vamos deixar os padawans na mão: a Python Academy sempre ao serviços de vocês :heart:

Uma forma simples de acessar todos os valores de uma coluna de um Dataframe é utilizar o df[coluna], dessa forma:

In [4]:
df['gordura (%)']

banana          0
prato feito     6
big mac        15
Name: gordura (%), dtype: int64

Que estranho?! Parece uma série!

Certíssimo!

Lembra que dissemos que uma coluna de um Dataframe é uma série? Vamos testar:

In [5]:
type(df['gordura (%)'])

pandas.core.series.Series

E para acessar os valores de uma linha?

Vamos recorrer aos índices!

In [6]:
df = pd.DataFrame({'calorias':[200, 350, 550], 'gordura (%)':[0, 6, 15]})
df

Unnamed: 0,calorias,gordura (%)
0,200,0
1,350,6
2,550,15


Nesse caso, como não criamos o índice, ele é numérico e corresponde à posição de cada linha.

Uma forma é acessar como acessamos elementos de uma lista, utilizando slice:

In [7]:
df[1:2]

Unnamed: 0,calorias,gordura (%)
1,350,6


# 3. Outros tipos de acesso (loc)

Adiantando um assunto importante, podemos também utilizar o método loc, que acessa por meio do índice:

In [8]:
df.loc[0]

calorias       200
gordura (%)      0
Name: 0, dtype: int64

Percebam que a apresentação dos dois resultados é bem diferente!

Isso porque utilizando slice, o resultado é um novo Dataframe com as linhas selecionadas.

No segundo caso, o loc retorna uma série com os valores da linha selecionada.

Outro assunto que traremos pra vocês em mais detalhes: quando temos Dataframes, Séries e Cópias como resultados.

# 4. Séries são a base de tudo

Peraí, peraí: a Série não era uma coluna, agora é uma linha?

Ótima pergunta, Pythonista!

Olha que legal, o Pandas retorna tanto uma coluna como uma linha completa (com o respectivo índice) como uma Série!

Uma série “coluna” possui um nome (o título da caluna), os valores (elementos da coluna) bem como o tipo.

De forma similiar, uma série “linha” possui um nome (o índice que referencia a linha), os valores (elementos de uma linha) bem como tipo.

As séries são tão flexíveis e são uma mão na roda para representar os dados, não é à toa que os Cientistas de Dados utilizam Dataframes sempre que possível.