### DataFrames

Você pode ter problemas se pensar que um data frame é "row-oriented". DataFrames são utilizados para operações analíticas e são melhores compreendidos quando pensados como "column-oriented", onde cada coluna é uma série Pandas.

In [6]:
import pandas as pd
df = pd.DataFrame({
    'growth': [0.5, 0.7, 1.2],
    'Name': ['Paul', 'George', 'Ringo']
})
# Mostra df
df

Unnamed: 0,Name,growth
0,Paul,0.5
1,George,0.7
2,Ringo,1.2


#### Acessando uma linha utilizando index

In [7]:
df.iloc[1]

Name      George
growth       0.7
Name: 1, dtype: object

#### Acessando colunas pelo nome

In [9]:
df['Name']  # pode ser acessado também usando df.Name

0      Paul
1    George
2     Ringo
Name: Name, dtype: object

**OBS 1**: O type de uma coluna é do tipo panda Series. Qualquer operação que pode ser realizada em uma série pode ser aplicada em uma coluna

**OBS 2**: DataFrame sobrescreve __getattr__ para permitir o acesso a colunas na forma de atributos. Normalmente funciona bem, menos nos casos em que o nome da coluna seja o de um método/função existente ou existam caracteres como espaços no nome.

### Contrução de um Data Frame

Data frames podem ser criados de várias maneiras:
    - colunas (dicts de lists)
    - linhas (list of dicts)
    - arquivos CSV
    - à partir de ndarrays NumPy
    - e mais, SQL, HDF5, etc.

In [12]:
# Exemplo de criação de um data frame utilizando numpy
import numpy as np
pd.DataFrame(np.random.randn(10, 3), columns=['a', 'b', 'c'])

Unnamed: 0,a,b,c
0,-0.441076,0.380031,-0.941979
1,0.494761,0.660193,0.940395
2,0.345502,-0.22079,1.32033
3,-0.189758,0.731312,0.578874
4,-0.373772,1.970513,0.391562
5,0.346255,-0.841223,1.712788
6,1.8e-05,-0.829469,1.012938
7,1.612999,0.741354,-0.055845
8,-0.770586,-0.185484,-0.71521
9,-0.668884,-0.223106,0.04758


### Eixos de um Data Frame

Diferente de uma Série, que só possui um eixo, existem dois eixos em um data frame. Eles são normalmente chamados de eixos 0 e 1, ou row/index e column, respectivamente.

In [13]:
df.axes

[RangeIndex(start=0, stop=3, step=1),
 Index(['Name', 'growth'], dtype='object')]

Como muitas operações utilizam o eixo como parâmetro, é importante lembrar que 0 é o index e 1 são as colunas.

In [14]:
df.axes[0]

RangeIndex(start=0, stop=3, step=1)

In [16]:
df.axes[1]

Index(['Name', 'growth'], dtype='object')

#### Exemplo de operações utilizando o eixo

In [17]:
# Craindo data frame de testes dt
dt = pd.DataFrame({'Score1': [None, None],
                   'Score2': [85, 90]})

In [19]:
# Soma os elementos de cada linha
dt.apply(np.sum, axis=0)

Score1      NaN
Score2    175.0
dtype: float64

In [20]:
# Soma os elementos de cada coluna
dt.apply(np.sum, axis=1)

0    85
1    90
dtype: int64