### Definição de DataFrame: é um objeto bi-direcional que contem dados em forma tabular. Ou seja, é como se fosse uma tabela do Excel , que é possível adicionar linhas e colunas.

In [1]:
import pandas as pd

### Criando um DataFrames

In [2]:
df = pd.DataFrame()

In [3]:
df

In [4]:
type(df)

pandas.core.frame.DataFrame

In [5]:
# Como já sabemos trabalhar com Dicionários, agora podemos criar um dataframe!

dict1 = {'Identificacao': [1,2,3,4,5],
         'Nome': ['Caio','Rodrigo','Rafael','Efraim','Luiza']}

In [6]:
dict1

{'Identificacao': [1, 2, 3, 4, 5],
 'Nome': ['Caio', 'Rodrigo', 'Rafael', 'Efraim', 'Luiza']}

In [7]:
df2 = pd.DataFrame(data = dict1) # o parametro data significa dados e não é obrigatório o uso dele.

In [8]:
df2

Unnamed: 0,Identificacao,Nome
0,1,Caio
1,2,Rodrigo
2,3,Rafael
3,4,Efraim
4,5,Luiza


In [9]:
df2 = pd.DataFrame(dict1)

In [10]:
df2

Unnamed: 0,Identificacao,Nome
0,1,Caio
1,2,Rodrigo
2,3,Rafael
3,4,Efraim
4,5,Luiza


In [11]:
df3 = pd.DataFrame(dict1, index = [29,1,0,2222,88])# criando e passando paramentros de index

In [12]:
df3

Unnamed: 0,Identificacao,Nome
29,1,Caio
1,2,Rodrigo
0,3,Rafael
2222,4,Efraim
88,5,Luiza


In [13]:
serie = pd.Series([1,2,3]) # Series são colunas que podemos adicionar

In [14]:
serie

0    1
1    2
2    3
dtype: int64

In [15]:
type(serie)

pandas.core.series.Series

In [16]:
serie1 = pd.Series(['a','b','c'])

In [17]:
df4 = pd.DataFrame({'coluna1': serie,
                    'coluna2': serie1})

In [18]:
df4

Unnamed: 0,coluna1,coluna2
0,1,a
1,2,b
2,3,c


### Criando DataFrame utilizando Numpy

In [19]:
import numpy as np # a lib é usada para trabalhar com números e arrays 

### Criando array
##### Em programação de computadores, um arranjo é uma estrutura de dados que armazena uma coleção de elementos de tal forma que cada um dos elementos possa ser identificado por, pelo menos, um índice ou uma chave. Essa estrutura de dados também é conhecida como variável indexada, vetor e matriz

In [20]:
array1 = np.array( [ [1, 2, 3],
                     ['São Paulo','Rio de Janeiro', 'Campinas'],
                     ['SP','RJ','SP'] 
                   ] )

In [21]:
array1

array([['1', '2', '3'],
       ['São Paulo', 'Rio de Janeiro', 'Campinas'],
       ['SP', 'RJ', 'SP']], dtype='<U14')

In [22]:
type(array1)

numpy.ndarray

In [23]:
df5 = pd.DataFrame(data = array1.transpose(), 
                   index = ['linha1','linha2','linha3'], 
                   columns = ['Identificacao','Cidade','Estado'])

In [24]:
df5

Unnamed: 0,Identificacao,Cidade,Estado
linha1,1,São Paulo,SP
linha2,2,Rio de Janeiro,RJ
linha3,3,Campinas,SP


In [25]:
matriz1 = np.matrix( [ [1, 2, 3],
                      ['São Paulo','Rio de Janeiro', 'Campinas'],
                      ['SP','RJ','SP'] ] )

In [26]:
type(matriz1)

numpy.matrix

In [27]:
matriz1

matrix([['1', '2', '3'],
        ['São Paulo', 'Rio de Janeiro', 'Campinas'],
        ['SP', 'RJ', 'SP']], dtype='<U14')

In [28]:
df6 = pd.DataFrame(data = matriz1.transpose(), 
                   index = ['linha1','linha2','linha3'], 
                   columns = ['Identificacao','Cidade','Estado'])

In [29]:
df6

Unnamed: 0,Identificacao,Cidade,Estado
linha1,1,São Paulo,SP
linha2,2,Rio de Janeiro,RJ
linha3,3,Campinas,SP


### Selecionando DataFrames

In [30]:
df3

Unnamed: 0,Identificacao,Nome
29,1,Caio
1,2,Rodrigo
0,3,Rafael
2222,4,Efraim
88,5,Luiza


In [31]:
df3['Identificacao_mais_5'] = df3['Identificacao'] + 5

In [32]:
df3

Unnamed: 0,Identificacao,Nome,Identificacao_mais_5
29,1,Caio,6
1,2,Rodrigo,7
0,3,Rafael,8
2222,4,Efraim,9
88,5,Luiza,10


In [33]:
df3['index'] = 0

In [34]:
df3

Unnamed: 0,Identificacao,Nome,Identificacao_mais_5,index
29,1,Caio,6,0
1,2,Rodrigo,7,0
0,3,Rafael,8,0
2222,4,Efraim,9,0
88,5,Luiza,10,0


In [35]:
df3.index = [29, 0, 1, 2222, 88]

In [36]:
df3

Unnamed: 0,Identificacao,Nome,Identificacao_mais_5,index
29,1,Caio,6,0
0,2,Rodrigo,7,0
1,3,Rafael,8,0
2222,4,Efraim,9,0
88,5,Luiza,10,0


In [37]:
df3['Nome']

29         Caio
0       Rodrigo
1        Rafael
2222     Efraim
88        Luiza
Name: Nome, dtype: object

In [38]:
df3.Nome

29         Caio
0       Rodrigo
1        Rafael
2222     Efraim
88        Luiza
Name: Nome, dtype: object

In [39]:
df3['index']

29      0
0       0
1       0
2222    0
88      0
Name: index, dtype: int64

In [40]:
df3.index

Int64Index([29, 0, 1, 2222, 88], dtype='int64')

In [41]:
df3

Unnamed: 0,Identificacao,Nome,Identificacao_mais_5,index
29,1,Caio,6,0
0,2,Rodrigo,7,0
1,3,Rafael,8,0
2222,4,Efraim,9,0
88,5,Luiza,10,0


In [42]:
df3[['Nome','index']]

Unnamed: 0,Nome,index
29,Caio,0
0,Rodrigo,0
1,Rafael,0
2222,Efraim,0
88,Luiza,0


In [43]:
df3

Unnamed: 0,Identificacao,Nome,Identificacao_mais_5,index
29,1,Caio,6,0
0,2,Rodrigo,7,0
1,3,Rafael,8,0
2222,4,Efraim,9,0
88,5,Luiza,10,0


In [44]:
df3[df3.Identificacao % 2 == 0]

Unnamed: 0,Identificacao,Nome,Identificacao_mais_5,index
0,2,Rodrigo,7,0
2222,4,Efraim,9,0


In [45]:
df3[df3.Nome.str.contains('R')]

Unnamed: 0,Identificacao,Nome,Identificacao_mais_5,index
0,2,Rodrigo,7,0
1,3,Rafael,8,0


In [46]:
df3[(df3.Nome.str.contains('R')) & (df3.Identificacao == 3)]

Unnamed: 0,Identificacao,Nome,Identificacao_mais_5,index
1,3,Rafael,8,0


In [47]:
df3[(df3.Nome.str.contains('R')) | (df3.Identificacao == 5)]

Unnamed: 0,Identificacao,Nome,Identificacao_mais_5,index
0,2,Rodrigo,7,0
1,3,Rafael,8,0
88,5,Luiza,10,0


- loc: Localiza pelo NOME daos índices ou colunas
- iloc:Localiza pela POSIÇÃO dos índices ou colunas

In [48]:
df3

Unnamed: 0,Identificacao,Nome,Identificacao_mais_5,index
29,1,Caio,6,0
0,2,Rodrigo,7,0
1,3,Rafael,8,0
2222,4,Efraim,9,0
88,5,Luiza,10,0


In [49]:
df3.loc[0] # mostra os dados referentes ao nome [0]

Identificacao                 2
Nome                    Rodrigo
Identificacao_mais_5          7
index                         0
Name: 0, dtype: object

In [50]:
df3.iloc[0] # mostra os dados referentes a posição do index [0]

Identificacao              1
Nome                    Caio
Identificacao_mais_5       6
index                      0
Name: 29, dtype: object

In [51]:
df3.loc[0:1] # mostra os dados referentes ao nomes de 0 até 1 [0:1]

Unnamed: 0,Identificacao,Nome,Identificacao_mais_5,index
0,2,Rodrigo,7,0
1,3,Rafael,8,0


In [52]:
df3.iloc[0:1] # mostra os dados dos index de 0 até 1 porém o ultimo index sempre será excluído.

Unnamed: 0,Identificacao,Nome,Identificacao_mais_5,index
29,1,Caio,6,0


In [53]:
df3.iloc[0:2] # agora sim mostra os dados referentes aos dados de 0 até a posição 2 porem a ultima posição é sempre excluida.

Unnamed: 0,Identificacao,Nome,Identificacao_mais_5,index
29,1,Caio,6,0
0,2,Rodrigo,7,0


In [54]:
df3.loc[88:1:-1]

Unnamed: 0,Identificacao,Nome,Identificacao_mais_5,index
88,5,Luiza,10,0
2222,4,Efraim,9,0
1,3,Rafael,8,0


In [55]:
df3

Unnamed: 0,Identificacao,Nome,Identificacao_mais_5,index
29,1,Caio,6,0
0,2,Rodrigo,7,0
1,3,Rafael,8,0
2222,4,Efraim,9,0
88,5,Luiza,10,0


In [56]:
df3.loc[:,'Nome'] # selecionando uma coluna os : dois pontos representa todos as linhas da coluna Nome.

29         Caio
0       Rodrigo
1        Rafael
2222     Efraim
88        Luiza
Name: Nome, dtype: object

In [57]:
df3.iloc[:,1] # selecionando uma coluna pelo index 1

29         Caio
0       Rodrigo
1        Rafael
2222     Efraim
88        Luiza
Name: Nome, dtype: object

In [58]:
df3.loc[2222, 'Nome'] # Selecionando um linha e coluna específica.

'Efraim'

In [59]:
df3.iloc[3, 1] # Selecionando uma linha e coluna pelo index específico.

'Efraim'

In [60]:
df3.loc[2222, 'Nome'] = 'Leosinho' # mudando o nome do indice 2222

In [61]:
df3

Unnamed: 0,Identificacao,Nome,Identificacao_mais_5,index
29,1,Caio,6,0
0,2,Rodrigo,7,0
1,3,Rafael,8,0
2222,4,Leosinho,9,0
88,5,Luiza,10,0


##### Selecionando a ultima linha de nosso DATAFRAME

In [62]:
df3

Unnamed: 0,Identificacao,Nome,Identificacao_mais_5,index
29,1,Caio,6,0
0,2,Rodrigo,7,0
1,3,Rafael,8,0
2222,4,Leosinho,9,0
88,5,Luiza,10,0


In [63]:
df3.iloc[-1]

Identificacao               5
Nome                    Luiza
Identificacao_mais_5       10
index                       0
Name: 88, dtype: object

In [64]:
df3

Unnamed: 0,Identificacao,Nome,Identificacao_mais_5,index
29,1,Caio,6,0
0,2,Rodrigo,7,0
1,3,Rafael,8,0
2222,4,Leosinho,9,0
88,5,Luiza,10,0


In [65]:
df3.loc[[0,2222]] # para retornar dados por nomes especificos basta passar uma lista destes nomes dentro do metodo loc[]

Unnamed: 0,Identificacao,Nome,Identificacao_mais_5,index
0,2,Rodrigo,7,0
2222,4,Leosinho,9,0


### Atributos de DataFrames

In [66]:
df3

Unnamed: 0,Identificacao,Nome,Identificacao_mais_5,index
29,1,Caio,6,0
0,2,Rodrigo,7,0
1,3,Rafael,8,0
2222,4,Leosinho,9,0
88,5,Luiza,10,0


In [67]:
df3.dtypes # dtypes informa os tipos de valores de cada coluna

Identificacao            int64
Nome                    object
Identificacao_mais_5     int64
index                    int64
dtype: object

In [68]:
df3.Identificacao = df3.Identificacao.astype(str)

In [69]:
df3.dtypes

Identificacao           object
Nome                    object
Identificacao_mais_5     int64
index                    int64
dtype: object

In [70]:
df3

Unnamed: 0,Identificacao,Nome,Identificacao_mais_5,index
29,1,Caio,6,0
0,2,Rodrigo,7,0
1,3,Rafael,8,0
2222,4,Leosinho,9,0
88,5,Luiza,10,0


In [71]:
df3['teste1'] = [None, 2, 4, None, 10] # adicionando uma nova coluna e passando valores 

In [72]:
df3

Unnamed: 0,Identificacao,Nome,Identificacao_mais_5,index,teste1
29,1,Caio,6,0,
0,2,Rodrigo,7,0,2.0
1,3,Rafael,8,0,4.0
2222,4,Leosinho,9,0,
88,5,Luiza,10,0,10.0


In [73]:
df3.dtypes # a coluna teste1 o tipo esta como float64 porque existem valores nulos (None) na coluna, caso contrário não apareceria como float64 mais sim como int64.

Identificacao            object
Nome                     object
Identificacao_mais_5      int64
index                     int64
teste1                  float64
dtype: object

In [74]:
df3.columns

Index(['Identificacao', 'Nome', 'Identificacao_mais_5', 'index', 'teste1'], dtype='object')

In [75]:
df3.columns = ['Identificacao', 'Nome', 'Identificacao_mais_5', 'index_MODIFICADO', 'teste1']

In [76]:
df3

Unnamed: 0,Identificacao,Nome,Identificacao_mais_5,index_MODIFICADO,teste1
29,1,Caio,6,0,
0,2,Rodrigo,7,0,2.0
1,3,Rafael,8,0,4.0
2222,4,Leosinho,9,0,
88,5,Luiza,10,0,10.0


In [77]:
df3.index

Int64Index([29, 0, 1, 2222, 88], dtype='int64')

In [78]:
df3.shape # shape nos mostra primeiramente o numeros de linhas e depois colunas do DataFrame

(5, 5)

In [79]:
df3.values # values nos mostra as listas de cada linha do DataFrame

array([['1', 'Caio', 6, 0, nan],
       ['2', 'Rodrigo', 7, 0, 2.0],
       ['3', 'Rafael', 8, 0, 4.0],
       ['4', 'Leosinho', 9, 0, nan],
       ['5', 'Luiza', 10, 0, 10.0]], dtype=object)

### Métodos - I 

In [80]:
df3

Unnamed: 0,Identificacao,Nome,Identificacao_mais_5,index_MODIFICADO,teste1
29,1,Caio,6,0,
0,2,Rodrigo,7,0,2.0
1,3,Rafael,8,0,4.0
2222,4,Leosinho,9,0,
88,5,Luiza,10,0,10.0


In [None]:
df3.