# <font color=blue> MBA em Ciência de Dados</font>

# <span style="color:blue"> Ada Tech</span>
# <span style="color:blue">Técnicas de Programação I - Python</span>

## <font color=blue>Pandas Parte I</font>
**Maurício Luiz Sobrinho**<br>
**Matheus Parreiras Andrade**<br>

---

__Conteúdo:__

- Pandas - Part I:
  - Séries
  - DataFrame
- I/O com Pandas
  
__Referencias:__

[Introduction to Pandas](https://www.ritchieng.com/pandas-introduction/)

---
## Pandas - Parte I

<font color='blue'>Pandas</font> é um pacote python construído com base no <font color='blue'>numpy</font> e <font color='blue'>matplotlib</font> que busca organizar dados no formato de tabela, atribuindo rótulos às linhas e colunas. O pacote <font color='blue'>pandas</font> fornece ainda um conjunto de funcionalidades que premite processar as informações de tabelas de forma bastante eficiente, implementando métodos fundamentais para fins de tratamento de dados.

O <font color='blue'>pandas</font> organiza os dados em três tipos de estruturas:
- Series (Séries)
- DataFrame
- Panel (Paineis não serão abordados neste curso)

### <font color='blue'>Series</font>
A estrutura de representação tipo <font color='blue'>series</font> do <font color='blue'>pandas</font> é semelhante a um array unidimensional, porém os elementos podem ser indexados por números inteiros (como em um array do <font color='blue'>numpy</font>) ou por meio de rótulos (labels) que não precisam ser únicos e podem ser organizados de forma hierárquica.
- Quando os índices ou rótulos não são informados explicitamente, <font color='blue'>pandas</font> cria uma indexação com números inteiros automaticamente, variando os índices de $0$ (zero) a $n-1$, onde $n$ é o número de elementos na série.
- Os rótulos são usados para realizar buscas rápidas, alinhamento de dados e operações de junção de dados.

#### Criando séries com <font color='blue'>pandas</font>
Séries podem ser criadas no <font color='blue'>pandas</font> de diferentes formas, a partir de:
- listas
- arrays
- dicionários
- DataFrames

In [None]:
import pandas as pd

**Criando Séries a partir de listas**

In [None]:
# Criando uma série a partir de uma lista. Neste caso os índices (ou rótulos) não são fornecidos,
# então o pandas cria os índices automaticamente

lst = ['a','b','c','d','e']
series = pd.Series(lst)
print(series)

0    a
1    b
2    c
3    d
4    e
dtype: object


In [None]:
# indices pondem ser informados utilizando o parâmetro index

lst = ['a','b','c','d','e']
indices = ['id'+str(i) for i in range(len(lst))]  # criando rótulos no formato id0, id1, etc..
series = pd.Series(lst,index=indices)
print(series)

id0    a
id1    b
id2    c
id3    d
id4    e
dtype: object


**Criando Séries a partir de dicionários**

In [None]:
# Criando uma série a partir de um dicionário. As chaves do dicionário se tornam os rótulos e
# os valores os elementos da série

dct = {'A' : 50, 'B' : 10, 'C' : 80, 'D' : 33} 
series = pd.Series(dct)
print(series)

A    50
B    10
C    80
D    33
dtype: int64


#### Acessando os elementos de uma série
Os elementos de uma série podem ser acessados:
- informando o índice (ou rótulo) dos elementos desejados (pode ser uma lista)
- via fatiamente (slicing) semelhante ao <font color='blue'>numpy</font> array
  - o fatiamento pode ser feito utilizando os índices como números inteiros ou os rótulos
  - **CUIDADO:** quando o slicing é feito com rótulos, o último elemento é retornado na subsérie
- via máscara booleana

In [None]:
# Criando uma série a partir de um dicionário.
dct = {'A' : 50, 'B' : 10, 'C' : 80, 'D' : 33} 
series = pd.Series(dct)

print('Elemento "A": ',series['A']) # acessando o elemento com rótulo 'A'
print('Elementos "C" e "D":\n',series[['C','D']]) # acessando elementos com rótulo 'C','D' a partir de lista de rótulos
                                                  # quando se utiliza uma lista de rótulos, uma subsérie é retornada
                                                  # e não somente os valores

Elemento "A":  50
Elementos "C" e "D":
 C    80
D    33
dtype: int64


In [None]:
# fatiamento (slicing) com índices e rótulos (ambos podem ser utilizados)

print('Elemento de indice 0: ',series[0])    # retornando o elemento de índice 0

print('Elementos com indice entre 0 e 2:\n',series[0:3])  # slicing dos elementos com 
                                                    # índice 0 entre 2 (uma subsérie é retornada)

print('Elementos com rótulo entre "B" e "D":\n',series['B':'D']) 
                                            # slicing com rótulos (uma subsérie é retornada)
                                            
# CUIDADO: quando o slicing é feito com rótulos, o último elemento é retornado na subsérie

Elemento de indice 0:  50
Elementos com indice entre 0 e 2:
 A    50
B    10
C    80
dtype: int64
Elementos com rótulo entre "B" e "D":
 B    10
C    80
D    33
dtype: int64


In [None]:
# máscaras booleanas podem ser utilizadas para recuperar elementos da série que correspondem ao valor True da máscara

mask = (series>=30)
print(series)
print(mask)
print(series[mask])

A    50
B    10
C    80
D    33
dtype: int64
A     True
B    False
C     True
D     True
dtype: bool
A    50
C    80
D    33
dtype: int64


#### Reindexação
O método <font color='blue'>reindex</font> permite reindexar a série (modifica a ordem dos elementos). 
- Caso um novo rótulo que não esteja presente na série original seja fornecido para o comando <font color='blue'>reindex</font>, um valor `NaN` (significa que o dado está faltando) é utilizado como valor para o novo rótulo.

In [None]:
import numpy as np

indice=[0,1,3] # rótulos para serem utilizados na série
valores = np.arange(3)
s = pd.Series(valores,index=indice) # cria uma série a partir de um array com rótulos 0, 1 e 3
print('série original')
print(s)

print('\nreindexado')   
s_nan = s.reindex([4,3,2,1,0])  # gera uma nova ordem para os elementos. Note que os rótulos 4 e 2
                                # não estavam presentes na série original. 'NaN' é atribuido como valores 
                                # associados aos novos rótulos 
                                # ATENÇÃO: uma nova série é gerada, a original não é afetada
print(s_nan)


série original
0    0
1    1
3    2
dtype: int64

reindexado
4    NaN
3    2.0
2    NaN
1    1.0
0    0.0
dtype: float64


#### Tratando valores faltantes

Valores faltantes em uma série podem ser identificados através do método <font color='blue'>isna</font>, 
o qual gera uma máscara booleana.

In [None]:
s_nan = s.reindex([4,3,2,1,0]) # reindexação insere valores faltantes na série
print(s_nan)

s_mask_nan = pd.isna(s_nan)    # identifica os valores faltantes
print(s_mask_nan)

s_nan[s_mask_nan] = -1     # substitui os valores faltantes por -1
print(s_nan)

4    NaN
3    2.0
2    NaN
1    1.0
0    0.0
dtype: float64
4     True
3    False
2     True
1    False
0    False
dtype: bool
4   -1.0
3    2.0
2   -1.0
1    1.0
0    0.0
dtype: float64


Valores faltantes no processo de reindexação (`NaN`) podem ser preenchidos atribuindo um valor por meio do parâmetro `fill_value`.

In [None]:
# reindexado e tratando valores faltantes
s_fvalue = s.reindex([4,3,2,1,0], fill_value=-1)  # valores faltantes são substituídos por -1
print(s_fvalue)

4   -1
3    2
2   -1
1    1
0    0
dtype: int64


#### Operações aritméticas com séries 
Operações aritméticas entre séries são realizadas de acordo com os rótulos, ou seja, quando os rótulos nas duas séries envolvidas na operação são iguais, a operação é realizada, caso contrário um valor `NaN` é gerado.

In [None]:
values_s1 = [3,8,0,4,5]       # criando os valores da série s1
index_s1 = ['id'+str(i) for i in values_s1]  # criando os rótulos da série s1
s1 = pd.Series(values_s1, index=index_s1)   # criando a série s1

values_s2 = [3,9,8,5]         # criando os valores da série s2
index_s2 = ['id'+str(i) for i in values_s2]  # criando os rótulos da série s2
s2 = pd.Series(values_s2, index=index_s2)   # criando a série s2

print('s1\n',s1) 
print('s2\n',s2) 
print(s1+s2)     # apenas os valores dos rótulos que são iguais nas 
                 # séries s1 e s2 são somados

# Note que apenas os valores cujos rótulos aparecem nas duas séries são somados
# se o rótulo aparece em apenas uma série um valor NaN é inserido
# No exemplo acima, id0 e id4 aparecem apenas na série s1
# id9 aparece apenas na série s2                 

s1
 id3    3
id8    8
id0    0
id4    4
id5    5
dtype: int64
s2
 id3    3
id9    9
id8    8
id5    5
dtype: int64
id0     NaN
id3     6.0
id4     NaN
id5    10.0
id8    16.0
id9     NaN
dtype: float64


#### Ordenação dos elementos de uma série
O <font color='blue'>pandas</font> possui métodos para ordenar uma série pelos seus valores ou rótulos: 
- <font color='blue'>sort_index</font> ordena pelos rótulos
- <font color='blue'>sort_values</font> ordena pelos valores

In [None]:
r = pd.Series(np.random.randint(0,10,4), index=['d','a','b','c']) # gerando a série com 4 valores inteiros gerados de forma randômica
                                                                  # cujos rótulos são ['d','a','b','c']
print(r)

print(r.sort_index())  # ordena pelos rótulos retornando uma nova série ordenada (a série original não é modificada)

print(r.sort_values()) # ordena pelos valores retornando uma nova série ordenada (a série original não é modificada)

d    9
a    9
b    6
c    2
dtype: int64
a    9
b    6
c    2
d    9
dtype: int64
c    2
b    6
d    9
a    9
dtype: int64


#### Rótulos repetidos
Séries podem possuir rótulos repetidos, o que facilita recuperar partes da série de forma simples. 

In [None]:
s = pd.Series(range(7), index=list('ababcda'))  # gerando uma série com valores de 0 a 6 com rótulos dados por ['a','b','a','b','c','d','a']
print(s)

print('Recuperando subserie de rótulos "a":')
print(s['a']) # recuperando a subsérie dos rótulos 'a'
print('Recuperando subserie de rótulos "b":')
print(s['b']) # recuperando a subsérie dos rótulos 'b'

a    0
b    1
a    2
b    3
c    4
d    5
a    6
dtype: int64
Recuperando subserie de rótulos "a":
a    0
a    2
a    6
dtype: int64
Recuperando subserie de rótulos "b":
b    1
b    3
dtype: int64


#### Outros métodos
Existem muitos métodos implementados para operar sobre os valores. Alguns exemplos são:
- <font color='blue'>unique</font> -      recupera os valores únicos da série
- <font color='blue'>value_counts</font> - conta o número de ocorrências de cada valor
- <font color='blue'>isin</font> -        verifica onde os valores indicados aparecem na série
- ...(muito mais)

In [None]:
s = pd.Series(['c','a','d','a','a','b','b','c','c']) # rótulos gerados automaticamente 

print('Valores únicos da série:\n\n',s.unique())
print('\nContagem do número de ocorrências de cada valor:\n\n',s.value_counts()) # retorna uma nova série cujo rótulo é o elemento e o 
                                                                                 # valor o número de vezes que o elemento aparece na série

print('\nVerifica onde os valores ocorrem na série:\n\n',s.isin(['b','d'])) # retorna uma série máscara booleana com True na posição onde o valor ocorre

Valores únicos da série:

 ['c' 'a' 'd' 'b']

Contagem do número de ocorrências de cada valor:

 a    3
c    3
b    2
d    1
dtype: int64

Verifica onde os valores ocorrem na série:

 0    False
1    False
2     True
3    False
4    False
5     True
6     True
7    False
8    False
dtype: bool


### <font color='blue'>DataFrames</font>
<font color='blue'>DataFrame</font> é uma estrutura de dados do <font color='blue'>pandas</font> semelhante a uma planilha (como uma planilha excel). Em um <font color='blue'>DataFrame</font> tanto as linhas como as colunas são indexadas por rótulos. 

Dataframes podem ser criados de muitas maneiras diferentes:
- __2-D NumPy array:__ Uma matriz de dados, podendo especificar os rótulos de linhas e colunas
- __Dicionário de arrays, listas, ou tuplas:__ Cada sequência se torna uma coluna. As sequências devem ter o mesmo número de elementos
- __Dicionário de séries:__ Cada séries se torna uma coluna. Os rótulos de cada séries são unidos para formar os rótulos das linhas
- __Dicionário de dicionário:__ Cada dicionário se torna uma coluna. Chaves dos dicionários se unem para formar os rótulos das linhas
- __Lista de dicionários ou séries:__ Cada elemento da lista se torna uma linha no DataFrame. A união das chaves (para dicionário) ou rótulos (para séries) gera os rótulos das colunas
- __Lista de listas or tuplas:__ Similar a uma matriz do numpy
- __DataFrame:__ O índice do DataFrame é mantido a não ser que um novo seja fornecido 

In [None]:
# Criando um DataFrame a partir de um dicionário de listas
# as chave se tornam os rótulos das colunas 
# as listas devem possuir o mesmo número de elementos
d = {'state' : ['FL', 'FL', 'GA', 'GA', 'GA','FL','FL'],    
     'year' :  [2010, 2011, 2008, 2010, 2011, 2013, 2009],    
     'pop' :   [18.8, 19.1, 9.7, 9.7, 9.8, 7.1, 8.3]}

df_d = pd.DataFrame(d)  # como os rótulos das linhas não foram especificados, pandas os gera automaticamente
print(df_d)

  state  year   pop
0    FL  2010  18.8
1    FL  2011  19.1
2    GA  2008   9.7
3    GA  2010   9.7
4    GA  2011   9.8
5    FL  2013   7.1
6    FL  2009   8.3


**Atenção:** Dois métodos são muito úteis para analisar rapidamente um DataFrame: <font color='blue'>head</font> e <font color='blue'>dtypes</font>
- <font color='blue'>head</font> - mostra as 5 primeiras linhas do DataFrame.
- <font color='blue'>dtypes</font> - mostra o tipo de dado em cada coluna

In [None]:
df_d.head() # mostra as 5 primeiras linhas do DataFrame.

Unnamed: 0,state,year,pop
0,FL,2010,18.8
1,FL,2011,19.1
2,GA,2008,9.7
3,GA,2010,9.7
4,GA,2011,9.8


In [None]:
df_d.dtypes # mostra o tipo de dado de cada coluna

state     object
year       int64
pop      float64
dtype: object

In [None]:
# Criando um dataframe a partir de um dicionário de dicionários
dod = {'FL' : {2010:18.1, 2011:19.1},            # as chaves do "primeiro" dicionário se tornam os rótulos das colunas
       'GA' : {2008: 9.7, 2010: 9.7, 2011:9.8}}  # as chaves dos dicionários internos (valores do primeiro dicionário)
                                                 # se tornam os rótulos das linhas

df_dod = pd.DataFrame(dod)   # criando o DataFrame

print(df_dod)                  # quando um valor não aparece como chave de um dicionário interno, 'NaN' é inserido
                               # como valor

        FL   GA
2008   NaN  9.7
2010  18.1  9.7
2011  19.1  9.8


#### **Manipulando e Acessando Colunas**
Colunas podem ser acessadas:
  - via seus rótulos dentro de colchetes [ ]
  - utilizando rótulo como atributo (não recomendado acessar desta forma, pois existem restrições)
  - via lista de rótulos dentro de colchetes [ ] (acessa várias colunas)

In [None]:
d = {'state' : ['FL', 'FL', 'GA', 'GA', 'GA'],    # dicionário de listas
     'year' :  [2010, 2011, 2008, 2010, 2011],    
     'pop' :   [18.8, 19.1, 9.7, 9.7, 9.8]}

df_d = pd.DataFrame(d)   # construindo o DataFrame a partir do dicionário de listas

print('Rótulos das colunas:',df_d.columns.values)  # imprime o nome das colunas
print(5*'-')
print('Coluna "pop":\n',df_d['pop'])   # acessando a coluna 'pop' (o resultado é uma série)
print(5*'-')
print('Coluna "year":\n',df_d.year)    # acessando a coluna 'year' como atributo, não recomendado acessar desta forma, 
                                       # pois existem restrições, (o resultado é uma série)
                                       
print(5*'-')
print('Coluna "pop" e "year":\n',df_d[['pop','year']]) # acessando simultaneamente as colunas 'pop' e 'year' (o resultado é um DataFrame)

Rótulos das colunas: ['state' 'year' 'pop']
-----
Coluna "pop":
 0    18.8
1    19.1
2     9.7
3     9.7
4     9.8
Name: pop, dtype: float64
-----
Coluna "year":
 0    2010
1    2011
2    2008
3    2010
4    2011
Name: year, dtype: int64
-----
Coluna "pop" e "year":
     pop  year
0  18.8  2010
1  19.1  2011
2   9.7  2008
3   9.7  2010
4   9.8  2011


#### Busca com expressões booleanas
O método <font color='blue'>query</font> permite recuperar elementos utilizando uma expressão booleana fornecida como uma string. A string é interpretada, se o conteúdo da string contém rótulos das colunas, tal coluna é utilizada na comparação.

In [None]:
d = {'state' : ['FL', 'FL', 'GA', 'GA', 'GB'],    # dicionário de listas
     'year' :  [2010, 2011, 2008, 2010, 2011],    
     'pop' :   [18.8, 19.1, 9.7, 9.7, 9.8]}

df_d = pd.DataFrame(d)   # construindo o DataFrame a partir do dicionário de listas

print('Buscando valores na coluna "pop" menores que 10\n')
print(df_d.query('pop < 10')) # recupera as linhas do DataFrame cujos elementos da coluna 'pop' sejam menores que 10
                              # retorna um novo DataFrame

print('\nBuscando valores na coluna "pop" menores que 10 e valores diferentes de GB na coluna "state"\n')
print(df_d.query('pop < 10 & state != "GB"'))  # recupera as linhas do DataFrame cujos elementos da coluna 'pop' são menores que 10 e da coluna 'state' sejam diferentes de "GB"
                                               # retorna um novo DataFrame

Buscando valores na coluna "pop" menores que 10

  state  year  pop
2    GA  2008  9.7
3    GA  2010  9.7
4    GB  2011  9.8

Buscando valores na coluna "pop" menores que 10 e valores diferentes de GB coluna "state"

  state  year  pop
2    GA  2008  9.7
3    GA  2010  9.7


In [None]:
# Criando um DataFrame a partir de um array bidimensional e especificando os rótulos de linhas e colunas
A = np.random.randint(0,30,35).reshape(7,5)
rotulo_linhas  = ['li'+str(i) for i in range(A.shape[0])]
rotulo_colunas = ['co'+str(i) for i in range(A.shape[1])]

df_a = pd.DataFrame(A,index=rotulo_linhas,columns=rotulo_colunas) # criando o DataFrame e especificando os rótulos
                                                                  # das linhas e colunas
print(df_a.head())  # mostrando as primeiras 5 linhas

# retornando uma série tipo 'mascara booleana'
print('df_a["co1"] < 20')
print(df_a['co1'] < 20)   # retorna uma serie como máscara booleanos

print('\n(df_a["co2"] > 10) & (df_a["co4"] < 20)')
print((df_a["co2"] > 10) & (df_a["co4"] < 20))   # combinando expressões booleanas com o operador & (AND)

print('\n(df_a["co2"] > 10) | (df_a["co4"] < 20)')
print((df_a["co2"] > 10) | (df_a["co4"] < 20))   # combinando expressões booleanas com o operador | (OR)

     co0  co1  co2  co3  co4
li0    8   15   10   21    0
li1    0   10   15   21    4
li2   23   11   21   28   24
li3   16    0    5   15   15
li4   11   13    9   29   21
df_a["co1"] < 20
li0    True
li1    True
li2    True
li3    True
li4    True
li5    True
li6    True
Name: co1, dtype: bool

(df_a["co2"] > 10) & (df_a["co4"] < 20)
li0    False
li1     True
li2    False
li3    False
li4    False
li5     True
li6    False
dtype: bool

(df_a["co2"] > 10) | (df_a["co4"] < 20)
li0     True
li1     True
li2     True
li3     True
li4    False
li5     True
li6     True
dtype: bool


#### Criando e removendo colunas
- Colunas podem ser criadas simplesmente atribuindo um novo rótulo ao DataFrame e especificando os elementos da coluna
- Colunas podem ser removidas utilizando os métodos <font color='blue'>drop</font> ou <font color='blue'>del</font>

In [None]:
d = {'state' : ['FL', 'FL', 'GA', 'GA', 'GB'],    # dicionário de listas
     'year' :  [2010, 2011, 2008, 2010, 2011],    
     'pop' :   [18.8, 19.1, 9.7, 9.7, 9.8]}

df_d = pd.DataFrame(d)   # construindo o DataFrame a partir do dicionário de listas
print(df_d)

# criando uma nova coluna com o rótulo 'new_col' onde todos os elementos são zero
df_d['new_col'] = np.zeros((df_d.shape[0])) # o comando shape funciona como no numpy e indica o 
                                            # número de linhas (shape[0]) e colunas (shape[1]) no DataFrame
print('\n',df_d)

  state  year   pop
0    FL  2010  18.8
1    FL  2011  19.1
2    GA  2008   9.7
3    GA  2010   9.7
4    GB  2011   9.8

   state  year   pop  new_col
0    FL  2010  18.8      0.0
1    FL  2011  19.1      0.0
2    GA  2008   9.7      0.0
3    GA  2010   9.7      0.0
4    GB  2011   9.8      0.0


In [None]:
# removendo a coluna 'new_col' criada na célula anterior do notebook
df_d = df_d.drop(['new_col'], axis=1) # o parêmetro axis=1 indica que se está removendo coluna
                                      # pois o método drop pode ser utilizado para remover linhas
print(df_d)

# A coluna também poderia ser removida com o comando 'del'
# del df_d['new_col']

  state  year   pop
0    FL  2010  18.8
1    FL  2011  19.1
2    GA  2008   9.7
3    GA  2010   9.7
4    GA  2011   9.8


#### **Manipulando e Acessando Linhas**
As linhas de um DataFrame podem ser acessadas utilizando os métodos:
- <font color='blue'>iloc</font> - manipula o DataFrame como uma matriz com índices inteiros, como se fosse um array
- <font color='blue'>loc</font> - seleciona linhas pelos rótulos (ou índices) ou por máscara booleana

In [None]:
import numpy as np

# Exemplos do uso de 'iloc'
# Criando um DataFrame a partir de um array e especificando os rótulos de linhas e colunas
A = np.random.randint(0,30,35).reshape(7,5)
rotulo_linhas  = ['li'+str(i) for i in range(A.shape[0])]
rotulo_colunas = ['co'+str(i) for i in range(A.shape[1])]

df_a = pd.DataFrame(A,index=rotulo_linhas,columns=rotulo_colunas) # criando o DataFrame e especificando os rótulos
                                                                  # das linhas e colunas

print(df_a)

print('\nAcessando linha de indice 2:')
print(df_a.iloc[2])  # retorna a linha como uma série 
                     # (rótulos das colunas se tornan os rótulos das linhas)

print('\nAcessando as linhas com indice 2 e 3 e todas as colunas a partir do indice 1:')
print(df_a.iloc[2:4,1:]) # slicing o DataFrame
                         # o resutlado do slicing é um DataFrame (como um view do numpy)

     co0  co1  co2  co3  co4
li0   10    2   10   21   24
li1    0    2    3    4    1
li2   17   25   17   27    3
li3   23   28   26   29    0
li4   29    4   24   11   20
li5    3   21   13    4    0
li6   27   13   23   16    0

Acessando linha de indice 2:
co0    17
co1    25
co2    17
co3    27
co4     3
Name: li2, dtype: int64

Acessando as linhas com indice 2 e 3 e colunas a partir do indice 1:
     co1  co2  co3  co4
li2   25   17   27    3
li3   28   26   29    0


In [None]:
# Exemplos do uso de 'loc'

print(df_a) # imprimindo o DataFrame criado no exemplo anterior

print('\nAcessando a linha com rótulo "li2"')
print(df_a.loc['li2']) # retorna a linha como uma série 
                       # (rótulos das colunas se tornan os rótulos das linhas)

print('\nAcessando as linhas com rótulo "li1" e "li3"')
print(df_a.loc[['li1','li3']]) # acessando múltiplas linhas via lista de rótulos
                               # o resultado é um DataFrame
    
print('\nAcessando as linhas entre os rótulos "li1" e "li4" na coluna "co3"')
print(df_a.loc['li1':'li4','co3']) # acessando múltiplas linhas via slicing
                                   # note que o metodo loc inclui o último elemento 
                                   # ('li4' também é retornado)

     co0  co1  co2  co3  co4
li0   10    2   10   21   24
li1    0    2    3    4    1
li2   17   25   17   27    3
li3   23   28   26   29    0
li4   29    4   24   11   20
li5    3   21   13    4    0
li6   27   13   23   16    0

Acessando a linha com rótulo "li2"
co0    17
co1    25
co2    17
co3    27
co4     3
Name: li2, dtype: int64

Acessando as linhas com rótulo "li1" e "li3"
     co0  co1  co2  co3  co4
li1    0    2    3    4    1
li3   23   28   26   29    0

Acessando as linhas entre os rótulos "li1" e "li4" na coluna "co3"
li1     4
li2    27
li3    29
li4    11
Name: co3, dtype: int64


O método <font color='blue'>loc</font> aceita expressões booleanas 

In [None]:
# O método loc aceita expressoes booleanas
print(df_a.loc[df_a['co2'] >= 15]) # retorna todas as linhas onde o valor da coluna 'co2' é maior ou igual a 15
                                   # o resultado é um novo DataFrame

     co0  co1  co2  co3  co4
li0   10   24   28   24    7
li1    3    5   15    0   27
li2   13   16   23   22   27
li6   12   24   15    4   18


#### Ordenando um DataFrame
Assim como nas séries, é possível ordernar pelos rótulos das linhas, mas ao ordernar por valor é necessário definir a coluna.

In [None]:
df_a.sort_values('co1')  # ordena as linhas de acordo com a coluna 'co1'

Unnamed: 0,co0,co1,co2,co3,co4
li4,26,4,7,1,15
li1,3,5,15,0,27
li5,4,10,13,13,19
li2,13,16,23,22,27
li0,10,24,28,24,7
li6,12,24,15,4,18
li3,26,29,11,27,9


**Atenção:** sort_values, gera uma cópia. Para modificar o DataFrame, deve-se passar o parâmetro `inplace = True`

In [None]:
print(df_a.sort_values('co0')) # a ordenação não modifica o DataFrame original

print('\nDataFrame original não é afetado')
print(df_a)

df_a.sort_values('co0',inplace=True) # o parâmetro 'inplace=True' modifica o DataFrame original 
                                     # (porém não retorna um outro DataFrame)

print('\nParâmetro "inplace=True" modifica o DataFrame original')    
print(df_a)

     co0  co1  co2  co3  co4
li0    0   11   21    3    5
li6    0   16   27   16    2
li2    2    2   28    4   13
li1    9   18   27   16   23
li4   13   23   28   16   27
li3   16   26    5   19    1
li5   19   15    7   25   27

DataFrame original não é afetado
     co0  co1  co2  co3  co4
li0    0   11   21    3    5
li1    9   18   27   16   23
li2    2    2   28    4   13
li3   16   26    5   19    1
li4   13   23   28   16   27
li5   19   15    7   25   27
li6    0   16   27   16    2

Parâmetro "inplace=True" modifica o DataFrame original
     co0  co1  co2  co3  co4
li0    0   11   21    3    5
li6    0   16   27   16    2
li2    2    2   28    4   13
li1    9   18   27   16   23
li4   13   23   28   16   27
li3   16   26    5   19    1
li5   19   15    7   25   27


### Recuperando apenas os valores do DataFrame
O atributo <font color='blue'>values</font> converte o contéudo de um DataFrame em um <font color='blue'>numpy</font> array.

In [None]:
print(df_a)
print(5*'--')
print(df_a.values) # recuperando somente o conteúdo do DataFrame 
print(type(df_a.values))  #  o resultado é um array do numpy

     co0  co1  co2  co3  co4
li0    8   15   10   21    0
li1    0   10   15   21    4
li2   23   11   21   28   24
li3   16    0    5   15   15
li4   11   13    9   29   21
li5   16    0   19   24    2
li6   21    1   24   15   23
----------
[[ 8 15 10 21  0]
 [ 0 10 15 21  4]
 [23 11 21 28 24]
 [16  0  5 15 15]
 [11 13  9 29 21]
 [16  0 19 24  2]
 [21  1 24 15 23]]
<class 'numpy.ndarray'>


## Carregando arquivos
Pandas permite carregar (e escrever) arquivos de diversos formatos:
- Arquivos de texto
- Dados estruturados (JSON, XML, HTML, CSV)
- Excel (depende das biblitoecas xlrd e  openpyxl)
- Direto de base de dados
  - pandas.io.sql  (read_frame)

A célula abaixo irá criar um arquivo tipo '.csv' onde os elementos das colunas são separados por vírgula (padrão para arquivos '.csv')

In [None]:
%%writefile simple.csv  
a,b,c,d,message
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo

Writing simple.csv


In [None]:
# Carregar um CSV é bastante simples
import pandas as pd # importando o pacote pandas


df = pd.read_csv('simple.csv')  # o método read_csv carrega um arquivo no formato '.csv'
                                # a primeira linha do arquivo se torna os rótulos das colunas
                                # como os indices das linhas não foram especificados, são criados automaticamente

print('Rotulos das colunas')
print(df.columns.values)    # imprime o nome dos rótulos das colunas
df.head()  # mostrando as 5 primeiras linhas

Rotulos das colunas
['a' 'b' 'c' 'd' 'message']


Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [None]:
# Pode-se especificar os nomes das colunas, fazendo com que a primeira linha do arquivo seja parte dos dados
df = pd.read_csv('simple.csv',
                 names=['c0','c1','c2','c3','c4'])

df.head()

Unnamed: 0,c0,c1,c2,c3,c4
0,a,b,c,d,message
1,1,2,3,4,hello
2,5,6,7,8,world
3,9,10,11,12,foo


In [None]:
# Pode-se fazer com que uma das colunas se torne os rótulos das linhas utilizando o parâmetro 'index_col'
df = pd.read_csv('simple.csv',
                 names=['c0','c1','c2','c3','c4'],
                 index_col='c4')  # coluna 'c4' se torna rótulo das linhas
df.head()

Unnamed: 0_level_0,c0,c1,c2,c3
c4,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
message,a,b,c,d
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


`read_csv` possui muitos outros parâmetros, veja documentação no link abaixo:

[https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html)