In [179]:
import numpy as np
import pandas as pd

# Estruturas básicas de dados em pandas

O Pandas fornece dois tipos de classes para manipulação de dados:

1. **Series:**  
  - Uma matriz rotulada unidimensional que contém dados de qualquer tipo como inteiros, strings, objetos Python etc.

2. **DataFrame:** 
  - Uma estrutura de dados bidimensional que contém dados como uma matriz bidimensional ou uma tabela com linhas e colunas.

# Criação de objeto 

[Veja a seção Introdução às estruturas de dados .](Intro_to_data_structures.ipynb)

- Criando um Seriespassando uma lista de valores, permitindo que o pandas crie um padrão RangeIndex.

In [180]:
s = pd.Series([1,3,5,np.nan,6,8])
display(s)

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

- Criando DataFrameum array NumPy passando um índice datetime usando date_range() colunas rotuladas e :

In [181]:
""" date_range = Intervalo de Datas """

dates = pd.date_range("20130101",periods=6)
display(dates)

df = pd.DataFrame(np.random.randn(6,4),index=dates,columns=list("ABCD"))
display(df)

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

Unnamed: 0,A,B,C,D
2013-01-01,0.517772,2.416653,-0.795755,-0.57861
2013-01-02,-1.522909,0.98395,-0.98578,-1.324257
2013-01-03,-0.424839,-0.599145,-0.918329,3.330363
2013-01-04,-1.165776,-0.421478,1.096336,-0.047137
2013-01-05,0.351834,1.370905,-1.007961,-1.138095
2013-01-06,0.381667,1.037477,-0.369636,1.886399


- Criando um DataFrame passando um dicionário de objetos onde as chaves são os rótulos das colunas e os valores são os valores das colunas.

In [182]:
df2 = pd.DataFrame(
    {
        "A": 1.0, # Contém um valor constante 1.0 (float) para todas as linhas.
        "B": pd.Timestamp("20130102"), #Um timestamp com a mesma data em todas as linhas.
        "C": pd.Series(1, index=list(range(4)), dtype="float32"), #Uma Series de 4 elementos com valor 1 e tipo float32.
        "D": np.array([3] * 4, dtype="int32"), #Um array NumPy com quatro elementos iguais a 3 e tipo int32.
        "E": pd.Categorical(["test", "train", "test", "train"]), # Uma categoria com valores repetidos: "test" e "train". 
        "F": "foo",
    }
)

display(df2)


Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,test,foo
1,1.0,2013-01-02,1.0,3,train,foo
2,1.0,2013-01-02,1.0,3,test,foo
3,1.0,2013-01-02,1.0,3,train,foo


- As colunas resultantes DataFrametêm diferentes dtypes :

In [183]:
display(df2.dtypes)

A          float64
B    datetime64[s]
C          float32
D            int32
E         category
F           object
dtype: object

# Visualizando dados 
[Veja a seção Funcionalidade básica .](Essential_basic_functionality.ipynb)

- Use DataFrame.head()e DataFrame.tail()para visualizar as linhas superior e inferior do quadro, respectivamente:

In [184]:
df.head()

Unnamed: 0,A,B,C,D
2013-01-01,0.517772,2.416653,-0.795755,-0.57861
2013-01-02,-1.522909,0.98395,-0.98578,-1.324257
2013-01-03,-0.424839,-0.599145,-0.918329,3.330363
2013-01-04,-1.165776,-0.421478,1.096336,-0.047137
2013-01-05,0.351834,1.370905,-1.007961,-1.138095


In [185]:
df.tail(3)

Unnamed: 0,A,B,C,D
2013-01-04,-1.165776,-0.421478,1.096336,-0.047137
2013-01-05,0.351834,1.370905,-1.007961,-1.138095
2013-01-06,0.381667,1.037477,-0.369636,1.886399


- Exibir DataFrame.indexou DataFrame.columns:

In [186]:
display(df.index)

DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [187]:
display(df.columns)

Index(['A', 'B', 'C', 'D'], dtype='object')

- Retorna uma representação NumPy dos dados subjacentes sem DataFrame.to_numpy() os rótulos de índice ou coluna:

In [None]:
df.to_numpy()