# Dataframes
Dataframes representam uma estrutura tabular semelhante a estrutura de uma planilha do Excel, contendo uma coleção de colunas em que cada uma pode ser um diferente tipo de valor (número, string, etc...). Os Dataframes possuem index e linhas e esta estrutura é muito semelhante a um dataframe em R. Os dados de um dataframe são armazenados em um ou mais blocos bidimensionais, ao invés, dicionários ou alguma outra estrutura de array.

In [1]:
from pandas import DataFrame as df

In [2]:
data = {'Estado': ['Santa Catarina', 'Paraná', 'Goiás', 'Bahia', 'Minas Gerais'],
       'Ano': [2002, 2003, 2004, 2005, 2006],
       'População': [1.5, 1.7, 3.6, 2.4, 2.9]}

In [3]:
frame = df(data)

In [4]:
frame

Unnamed: 0,Estado,Ano,População
0,Santa Catarina,2002,1.5
1,Paraná,2003,1.7
2,Goiás,2004,3.6
3,Bahia,2005,2.4
4,Minas Gerais,2006,2.9


In [5]:
type(frame)

pandas.core.frame.DataFrame

In [6]:
df(data, columns=['Ano', 'Estado', 'População'])

Unnamed: 0,Ano,Estado,População
0,2002,Santa Catarina,1.5
1,2003,Paraná,1.7
2,2004,Goiás,3.6
3,2005,Bahia,2.4
4,2006,Minas Gerais,2.9


In [7]:
# Criando outro dataframe com os mesmos dados anteriores mas adicioando um coluna
frame2 = df(data, columns = ['Ano', 'Estado', 'População', 'Débito'],
           index = ['um', 'dois', 'três', 'quatro', 'cinco'])

In [8]:
# Imprimindo o DataFrame
frame2

Unnamed: 0,Ano,Estado,População,Débito
um,2002,Santa Catarina,1.5,
dois,2003,Paraná,1.7,
três,2004,Goiás,3.6,
quatro,2005,Bahia,2.4,
cinco,2006,Minas Gerais,2.9,


In [9]:
# Imprimindo apenas um coluna do DataFrame
frame2['Estado']

um        Santa Catarina
dois              Paraná
três               Goiás
quatro             Bahia
cinco       Minas Gerais
Name: Estado, dtype: object

In [10]:
type(frame2)

pandas.core.frame.DataFrame

In [11]:
frame2.index

Index(['um', 'dois', 'três', 'quatro', 'cinco'], dtype='object')

In [12]:
frame2.columns

Index(['Ano', 'Estado', 'População', 'Débito'], dtype='object')

In [13]:
frame2.values

array([[2002, 'Santa Catarina', 1.5, nan],
       [2003, 'Paraná', 1.7, nan],
       [2004, 'Goiás', 3.6, nan],
       [2005, 'Bahia', 2.4, nan],
       [2006, 'Minas Gerais', 2.9, nan]], dtype=object)

In [14]:
frame2.dtypes

Ano            int64
Estado        object
População    float64
Débito        object
dtype: object

In [15]:
frame2['Ano']

um        2002
dois      2003
três      2004
quatro    2005
cinco     2006
Name: Ano, dtype: int64

In [16]:
frame2.Ano

um        2002
dois      2003
três      2004
quatro    2005
cinco     2006
Name: Ano, dtype: int64

In [17]:
frame2[:2]

Unnamed: 0,Ano,Estado,População,Débito
um,2002,Santa Catarina,1.5,
dois,2003,Paraná,1.7,


## Usando NumPy e Pandas

In [18]:
# Importando o NumPy
import numpy as np

In [19]:
# Usando o NumPy para alimentar uma das colunas do dataframe
frame2['Débito'] = np.arange(5.)

In [20]:
frame2

Unnamed: 0,Ano,Estado,População,Débito
um,2002,Santa Catarina,1.5,0.0
dois,2003,Paraná,1.7,1.0
três,2004,Goiás,3.6,2.0
quatro,2005,Bahia,2.4,3.0
cinco,2006,Minas Gerais,2.9,4.0


In [21]:
frame2.values

array([[2002, 'Santa Catarina', 1.5, 0.0],
       [2003, 'Paraná', 1.7, 1.0],
       [2004, 'Goiás', 3.6, 2.0],
       [2005, 'Bahia', 2.4, 3.0],
       [2006, 'Minas Gerais', 2.9, 4.0]], dtype=object)

In [22]:
# Resumo do DataFrame
frame2.describe()

Unnamed: 0,Ano,População,Débito
count,5.0,5.0,5.0
mean,2004.0,2.42,2.0
std,1.581139,0.864292,1.581139
min,2002.0,1.5,0.0
25%,2003.0,1.7,1.0
50%,2004.0,2.4,2.0
75%,2005.0,2.9,3.0
max,2006.0,3.6,4.0


In [23]:
frame2['dois':'quatro']

Unnamed: 0,Ano,Estado,População,Débito
dois,2003,Paraná,1.7,1.0
três,2004,Goiás,3.6,2.0
quatro,2005,Bahia,2.4,3.0


In [24]:
frame2 < 5

Unnamed: 0,Ano,Estado,População,Débito
um,False,True,True,True
dois,False,True,True,True
três,False,True,True,True
quatro,False,True,True,True
cinco,False,True,True,True


## Localizando registros dentro do dataframe

In [25]:
frame2.loc['quatro']

Ano           2005
Estado       Bahia
População      2.4
Débito           3
Name: quatro, dtype: object

In [26]:
frame2.iloc[2]

Ano           2004
Estado       Goiás
População      3.6
Débito           2
Name: três, dtype: object

## Invertendo as colunas e índices

In [27]:
# Criando um dicionário
web_stats = {'Dias':[1, 2, 3, 4, 5, 6, 7],
            'Visitantes':[45, 23, 67, 78, 23,12, 14],
            'Taxas': [11, 22, 33, 44, 55, 66, 77]}

In [28]:
data2 = df(web_stats)

In [29]:
data2

Unnamed: 0,Dias,Visitantes,Taxas
0,1,45,11
1,2,23,22
2,3,67,33
3,4,78,44
4,5,23,55
5,6,12,66
6,7,14,77


In [31]:
# Visualizando uma coluna index
print(data2.set_index('Dias'))

      Visitantes  Taxas
Dias                   
1             45     11
2             23     22
3             67     33
4             78     44
5             23     55
6             12     66
7             14     77


In [32]:
print(data2.head())

   Dias  Visitantes  Taxas
0     1          45     11
1     2          23     22
2     3          67     33
3     4          78     44
4     5          23     55


In [34]:
print(data2['Visitantes'])

0    45
1    23
2    67
3    78
4    23
5    12
6    14
Name: Visitantes, dtype: int64


In [36]:
print(data2[['Visitantes', 'Taxas']])

   Visitantes  Taxas
0          45     11
1          23     22
2          67     33
3          78     44
4          23     55
5          12     66
6          14     77
