   # <span style="color:blue">Programação Python para Ciência de Dado</span>
   ## <span style="color:blue">Módulo 2: Numpy e Pandas - Parte I</span>
   ---

__Conteúdo:__

- Numpy - Parte I:
  - Visão Geral
  - Básico de Arrays
  - Manipulação das dimensões
  - Iterar e repartir
  - Indexação estilosa
  - Cópias e visualizações
- Pandas - Part I:
  - Visão Geral
  - Terminologia
  - Estruturas de Dados
  
__Referencias:__

[Numpy Tutorial](https://www.python-course.eu/numpy.php)<br>
[Introduction to Pandas](https://www.ritchieng.com/pandas-introduction/)

---
## Numpy - Part I
---

### Numpy 
- Pacote Python para processamento matricial (computação orientada a matriz)
- Majoritariamente escrito em C (eficiência)
- Projetado para computação científica (conveniência)

Numpy é um módulo e precisa ser importado
```python
import numpy
import numpy as np
from numpy import *
```

Matrizes, ou melhor, `arrays` em  Numpy são semelhantes às listas em Python, no entanto:
- Todo elemento em um array deve ser do mesmo tipo, tipicamente um tipo numérico como float ou int
- Os arrays viabilizam a realização eficiente de operações numéricas envolvendo grandes quantidades de dados, sendo para estes fim, muito mais eficientes que as listas.
- Cada dimensão de um array é chamada de eixo (_axis_)
- Os eixos são numerados a partir de 0
- Os elementos são acessados usando [] (semelhante às listas do Python)

#### Construindo arrays

In [2]:
import numpy as np

print("1D arrays",5*'-','\n')
# creating 1D arrays from a list
a1d = np.array([1,3,5,7,9,10])
print('a1d=',a1d)

1D arrays ----- 

a1d= [ 1  3  5  7  9 10]


In [3]:
# creading 1D arrays from built-in functions
b1d = np.zeros((8))
c1d = np.ones((10))
d1d = np.arange(10)
e1d = np.linspace(1,2,5)

print('b1d=',b1d)
print('c1d=',c1d)
print('d1d=',d1d)
print('e1d=',e1d)

b1d= [0. 0. 0. 0. 0. 0. 0. 0.]
c1d= [1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
d1d= [0 1 2 3 4 5 6 7 8 9]
e1d= [1.   1.25 1.5  1.75 2.  ]


In [5]:
print("\n 2D arrays",5*'-','\n')
# creating 2D arrays from lists
a2d = np.array([[1,3,5,7,9,11],
                  [2,4,6,8,10,12],
                  [0,1,2,3,4,5]])
print('a2d=\n',a2d)


 2D arrays ----- 

a2d=
 [[ 1  3  5  7  9 11]
 [ 2  4  6  8 10 12]
 [ 0  1  2  3  4  5]]


In [7]:
# creading 2D arrays from built-in functions
b2d = np.zeros((8,3))
c2d = np.ones((5,10))
d2d = np.identity(3)

print('b2d=\n',b2d)
print('c2d=\n',c2d)
print('d2d=\n',d2d)

b2d=
 [[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]
c2d=
 [[1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]]
d2d=
 [[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


Numpy arrays são objetos chamados _ndarrays_ e possuem diversos atributos 
- ndarray.ndim - o número de eixos (dimensões) do array
- ndarray.shape - uma tupla de inteiros indicando o tamanho do array em cada dimensão
- ndarray.size - o número total de elementos do array
- ndarray.dtype - um objeto que descreve o tipo dos elementos no array
- ndarray.itemsize - o tamanho em bytes de cada elemento do array
- ndarray.data - o buffer contendo os elementos do array

In [10]:
print('a1d=\n',a1d)
print('b1d=\n',b1d)
print('a2d=\n',a2d)
print('c2d=\n',b2d)
print(" ndim: o numero de eixos")
print(a1d.ndim,b1d.ndim)
print(a2d.ndim,c2d.ndim)
print("\n shape: tamanho do array em cada dimensao")
print(a1d.shape,b1d.shape)
print(a2d.shape,c2d.shape)
print("\n size: numero total de elementos")
print(a1d.size,b1d.size)
print(a2d.size,c2d.size)
print("\n dtype: tipo dos elementos")
print(a1d.dtype,b1d.dtype)
print(a2d.dtype,c2d.dtype)
print("\n itemsize: tamanho em bytes de cada elemento")
print(a1d.itemsize,b1d.itemsize)
print(a2d.itemsize,c2d.itemsize)
print("\n data: buffer contendo os elementos do array")
print(a1d.data,b1d.data)
print(a2d.data,c2d.data)

a1d=
 [ 1  3  5  7  9 10]
b1d=
 [0. 0. 0. 0. 0. 0. 0. 0.]
a2d=
 [[ 1  3  5  7  9 11]
 [ 2  4  6  8 10 12]
 [ 0  1  2  3  4  5]]
c2d=
 [[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]
 ndim: o numero de eixos
1 1
2 2

 shape: tamanho do array em cada dimensao
(6,) (8,)
(3, 6) (5, 10)

 size: numero total de elementos
6 8
18 50

 dtype: tipo dos elementos
int64 float64
int64 float64

 itemsize: tamanho em bytes de cada elemento
8 8
8 8

 data: buffer contendo os elementos do array
<memory at 0x1066e2d08> <memory at 0x106816288>
<memory at 0x1067efa68> <memory at 0x1067ef7e0>


<img src="numpy_dypes.png" width="600" />

### Acessando elementos de arrays
- os índices variam de 0 a $ k_i-1 $, onde $ k_i $ é o número de elementos na dimensão $ i $

In [4]:
# Acessando elementos do array
# Índices variam de 0 a n-1 em cada eixo
print(a1d)
print(a1d[0],a1d[3],a1d[-1])
print(5*'-')
print(a2d)
print(a2d[1])
print(a2d[0,1],a2d[1,2],a2d[-1,-1])

[ 1  3  5  7  9 10]
1 7 10
-----
[[ 1  3  5  7  9 11]
 [ 2  4  6  8 10 12]
 [ 0  1  2  3  4  5]]
[ 2  4  6  8 10 12]
3 6 5


- Iterar sobre um array é feito em relação ao primeiro eixo
- _.flat_ permite percorrer todos os elementos

In [5]:
for r in a2d:
    print(r)
    
for i in a2d.flat:
    print(i)

[ 1  3  5  7  9 11]
[ 2  4  6  8 10 12]
[0 1 2 3 4 5]
1
3
5
7
9
11
2
4
6
8
10
12
0
1
2
3
4
5


### Fatiando arrays (slicing)
- Array slicing funciona como em listas, mas em múltiplas dimensões
- Omitir um índice corresponde a recuperar toda a dimensão omitida
- Um slice é uma "visão" (__VIEW__) do array original (similar a uma referencia), isto é, o dado não é copiado

In [6]:
print(a2d)
print('fixing a row and traversing columns (equivalent to a2d[1])\n',
      a2d[1,:])

print('fixing a column and traversing rows\n',a2d[:,2])

print('traversing an array block\n',a2d[1:,2:5])

print('traversing a subset of rows \n',a2d[[0,2]])

print('traversing a subset of columns \n',a2d[:,[0,2,5]])

print('traversing a subset of array elements \n',a2d[[0,1,2],[0,2,5]])

[[ 1  3  5  7  9 11]
 [ 2  4  6  8 10 12]
 [ 0  1  2  3  4  5]]
fixing a row and traversing columns (equivalent to a2d[1])
 [ 2  4  6  8 10 12]
fixing a column and traversing rows
 [5 6 2]
traversing an array block
 [[ 6  8 10]
 [ 2  3  4]]
traversing a subset of rows 
 [[ 1  3  5  7  9 11]
 [ 0  1  2  3  4  5]]
traversing a subset of columns 
 [[ 1  5 11]
 [ 2  6 12]
 [ 0  2  5]]
traversing a subset of array elements 
 [1 6 5]


In [12]:
a = np.ones((3,3))
print('a: matrix 3x3')
l = []
l.append(('[:2,1]',a[:2,1].shape))
l.append(('[:,-1]',a[:,-1].shape))
l.append(('[2]',a[2].shape))
l.append(('[2,:]',a[2,:].shape))
l.append(('[2:,:]',a[2:,:].shape))
l.append(('[:2,1:]',a[:2,1:].shape))
l.append(('[:,-1:]',a[:,-1:].shape))
for i in l:
    print(i)

a: matrix 3x3
('[:2,1]', (2,))
('[:,-1]', (3,))
('[2]', (3,))
('[2,:]', (3,))
('[2:,:]', (1, 3))
('[:2,1:]', (2, 2))
('[:,-1:]', (3, 1))


- métodos ravel e reshape

In [27]:
a = np.arange(9).reshape((3,3))
print('a:\n',a)
b = a.ravel()  
print('b = a.ravel():\n',b)
c = b.reshape(3,3)
print('c = b.reshape(3,3):\n',c)

a:
 [[0 1 2]
 [3 4 5]
 [6 7 8]]
b = a.ravel():
 [0 1 2 3 4 5 6 7 8]
c = b.reshape(3,3):
 [[0 1 2]
 [3 4 5]
 [6 7 8]]


__Atenção__:
- flatten() tem a mesma funcionalidade que ravel(), entretanto flatten() sempre gera uma cópia do array, enquanto ravel() não gerar uma cópia

In [28]:
print('a:\n',a)
b = a.ravel()
b[1] = -2
print('b = a.ravel() with b[1]=-2\n', b)
print('a:\n',a)

print(5*'-')
c = a.flatten()
c[2] = -1

print('c = a.flatten() with c[2]=-1\n',c)
print('a:\n',a)

a:
 [[0 1 2]
 [3 4 5]
 [6 7 8]]
b = a.ravel() with b[1]=-2
 [ 0 -2  2  3  4  5  6  7  8]
a:
 [[ 0 -2  2]
 [ 3  4  5]
 [ 6  7  8]]
-----
c = a.flatten() with c[2]=-1
 [ 0 -2 -1  3  4  5  6  7  8]
a:
 [[ 0 -2  2]
 [ 3  4  5]
 [ 6  7  8]]


- Transpose

In [9]:
print(a2d)
print(a2d.shape)
a2d_transposed = a2d.T
print(a2d_transposed)
print(a2d_transposed.shape)

[[ 1  3  5  7  9 11]
 [ 2  4  6  8 10 12]
 [ 0  1  2  3  4  5]]
(3, 6)
[[ 1  2  0]
 [ 3  4  1]
 [ 5  6  2]
 [ 7  8  3]
 [ 9 10  4]
 [11 12  5]]
(6, 3)


- Um array de valores booleanos (máscara boolena) pode ser usado para selecionar elementos em outro array
- Máscaras boolenas podem ser usadas para fazer atribuições de maneira mais elegante


In [31]:
x = np.arange(18).reshape(3,6)
print(x)
mask = (x > 7)
print(mask)
print(x[mask])
x[mask]=0
print(x)

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]]
[[False False False False False False]
 [False False  True  True  True  True]
 [ True  True  True  True  True  True]]
[ 8  9 10 11 12 13 14 15 16 17]
[[0 1 2 3 4 5]
 [6 7 0 0 0 0]
 [0 0 0 0 0 0]]


### Visualizações 
- Uma _visualização_ (view) é criada ao fatiar (slice) um array
- Uma _visualização_ é uma referência a uma parte de um array
- Alterar elementos da _visualização_ altera o array original
- Se necessário, você pode explicitamente fazer uma cópia


In [32]:
y = x[:,:3] # y é um view de x
print(x)
print(y)
print(5*'-')
y[2,1] = -1
print(x)
print(y)

[[0 1 2 3 4 5]
 [6 7 0 0 0 0]
 [0 0 0 0 0 0]]
[[0 1 2]
 [6 7 0]
 [0 0 0]]
-----
[[ 0  1  2  3  4  5]
 [ 6  7  0  0  0  0]
 [ 0 -1  0  0  0  0]]
[[ 0  1  2]
 [ 6  7  0]
 [ 0 -1  0]]


In [33]:
z = np.copy(x[:,:3])
z[0,0] = -1
print(x)
print(z)

[[ 0  1  2  3  4  5]
 [ 6  7  0  0  0  0]
 [ 0 -1  0  0  0  0]]
[[-1  1  2]
 [ 6  7  0]
 [ 0 -1  0]]


---
## Pandas - Parte I
---

Pandas é um módulo python construído tendo como base Numpy e Matplotlib
- Transforma dados de entrada em uma tabela de dados
- Componentes chave
  - Series (Séries)
  - DataFrame
  - Panel (Painel)

### Séries (Series)
- Objeto unidimensional do tipo array contendo dados e rótulos (labels) (ou índices)
- Se um índice não for informado explicitamente, Pandas cria um automaticamente (equivalente a `range(N)`, sendo N é o tamanho dos seus dados)
- O índice é usado para implementar buscas rápidas, alinhamento de dados e operações de junção (como join em SQL)
- Suporta índices hierárquicos, onde cada label é uma tupla

In [34]:
import pandas as pd
import numpy as np

# Criando uma série
indice = ['a','b','c','d','e']
series = pd.Series(np.arange(5), index=indice)
print(series)

a    0
b    1
c    2
d    3
e    4
dtype: int64


- Conteúdos podem ser acessados via um ou mais índices


In [13]:
print(series['a'])
print(series[['c','e']])

0
c    2
e    4
dtype: int64


- slicing funciona para índices numéricos e nominais

In [14]:
print(series[0])
print(series[0:2])
print(series['b':'e']) # slicing com índice nominal é inclusivo
                       # (último elemento é incluido na fatia)

0
a    0
b    1
dtype: int64
b    1
c    2
d    3
e    4
dtype: int64


- máscaras boolenas também podem ser usadas

In [15]:
mask = (series>=3)
print(series[mask])

d    3
e    4
dtype: int64


- reindex
  - modifica o valor do índice, adiciona valores faltantes ou preenche valores faltantes

In [35]:
s = pd.Series(np.arange(3)) # neste caso o indice é criado automaticamente
print('original')
print(s)

print('\nreindexado')
s_nan = s.reindex([4,3,2,1,0])
print(s_nan)


original
0    0
1    1
2    2
dtype: int64

reindexado
4    NaN
3    NaN
2    2.0
1    1.0
0    0.0
dtype: float64


In [39]:
print('\n reindexado (tratando valores faltantes, método 1)')
s_fvalue = s.reindex([4,3,2,1,0], fill_value=-1)
print(s_fvalue)

print('\nreindexado (tratando valores faltantes, método 2)')
s_auto = s.reindex([3,2,1,0,5,6], method='nearest')
print(s_auto)


 reindexado (tratando valores faltantes, método 1)
4   -1
3   -1
2    2
1    1
0    0
dtype: int64

reindexado (tratando valores faltantes, método 2)
3    2
2    2
1    1
0    0
5    2
6    2
dtype: int64


- Operações aritméticas (realizada de acordo com o "match" dos indices)

In [17]:
print(s_fvalue) 
print(s_auto) 
print(s_fvalue+s_auto)

4   -1
3   -1
2    2
1    1
0    0
dtype: int64
3    2
2    2
1    1
0    0
5    2
6    2
dtype: int64
0    0.0
1    2.0
2    4.0
3    1.0
4    NaN
5    NaN
6    NaN
dtype: float64


- é possívle organizar os elementos de uma série pelo índice ou pelos valores

In [18]:
r = pd.Series(np.random.rand(4), index=['d','a','b','c'])
print(r)
print(r.sort_index())
print(r.sort_values())

d    0.278778
a    0.263309
b    0.379584
c    0.565513
dtype: float64
a    0.263309
b    0.379584
c    0.565513
d    0.278778
dtype: float64
a    0.263309
d    0.278778
b    0.379584
c    0.565513
dtype: float64


- Elementos do índice não precisam ser únicos

In [19]:
s = pd.Series(range(4), index=list('abab'))
print(s)
print(s.index.is_unique)
print(s['a'])

a    0
b    1
a    2
b    3
dtype: int64
False
a    0
a    2
dtype: int64


- Há muitos métodos implementados para operar nos valores. Alguns exemplo, são:
  - unique()
  - value_counts()
  - isin()
  - ...(muito mais na parte II, próxima aula)

In [20]:
s = pd.Series(['c','a','d','a','a','b','b','c','c'])
print(s.unique())
print(s.value_counts())
print(s.isin(['b','d']))

['c' 'a' 'd' 'b']
a    3
c    3
b    2
d    1
dtype: int64
0    False
1    False
2     True
3    False
4    False
5     True
6     True
7    False
8    False
dtype: bool


### DataFrames
- Estrutura de dados como uma planilha ou tabela, contendo colunas ordenadas
- Possui índices de linhas e colunas
- Pode ser interpretado como um dicionário de Séries (cada série em uma linha) em que todas as Séries compartilham o mesmo conjunto de índices (os índices das colunas)

Dataframes podem ser criados de muitas maneiras diferentes:
- __2-D NumPy array:__ Uma matriz de dados, podendo passar os índices de linha e coluna
- __Dict of arrays, lists, or tuples:__ Cada sequência se torna uma coluna. As sequências devem ter o mesmo número de elementos
- __Dict of Series:__ Cada séries se torna uma coluna. Índices de cada séries são unidos para formar o índice das linhas
- __Dict of dicts:__ Cada dicionário se torna uma coluna. Chaves dos dicionários se unem para formar os índices das linhas
- __List of dicts or Series:__ Cada item se torna uma linha no DataFrame. A unidão das chaves (para dicionário) ou índices (para Séries) gera o índice das colunas
- __List of lists or tuples:__	Similar a uma matriz do numpy
- __DataFrame:__ O índice do DataFrame é mantido a não ser que um novo seja fornecido 
- __NumPy masked array:__ Matriz de dados em que valores falso se tornam NaN


In [69]:
# Criando um dataframe com um dicionário de listas
d = {'state' : ['FL', 'FL', 'GA', 'GA', 'GA'],
     'year' :  [2010, 2011, 2008, 2010, 2011],
     'pop' :   [18.8, 19.1, 9.7, 9.7, 9.8]}

df_d = pd.DataFrame(d)
print(df_d)

  state  year   pop
0    FL  2010  18.8
1    FL  2011  19.1
2    GA  2008   9.7
3    GA  2010   9.7
4    GA  2011   9.8


**Atenção:** Duas funções são muito úteis para analisar rapidamente um novo DataFrame: df.head() e df.dtypes()

In [41]:
df_d.head() # mostra as 5 primeiras linhas do DataFrame.

Unnamed: 0,state,year,pop
0,FL,2010,18.8
1,FL,2011,19.1
2,GA,2008,9.7
3,GA,2010,9.7
4,GA,2011,9.8


In [24]:
df_d.dtypes # mostra o tipo de dado de cada coluna

state     object
year       int64
pop      float64
dtype: object

In [53]:
# Criando um dataframe com um dicionário de dicionários
dod = {'FL' : {2010:18.1, 2011:19.1},
       'GA' : {2008: 9.7, 2010: 9.7, 2011:9.8}}

df_dod = pd.DataFrame(dod)
print(df_dod)

        FL   GA
2008   NaN  9.7
2010  18.1  9.7
2011  19.1  9.8


#### Manipulando e Acessando Colunas

- Colunas podem ser acessadas:
  - usando seus rótulos dentro de []
  - usando rótulo como atributo
  - usando lista de rótulos dentro de [] (acessa várias colunas)

In [48]:
print(df_d.columns.values)  # imprime o nome das colunas
print(5*'-')
print(df_d['pop'])
print(5*'-')
print(df_d.state)
print(5*'-')
print(df_d[['pop','year']])

['state' 'year' 'pop']
-----
0    18.8
1    19.1
2     9.7
3     9.7
4     9.8
Name: pop, dtype: float64
-----
0    FL
1    FL
2    GA
3    GA
4    GA
Name: state, dtype: object
-----
    pop  year
0  18.8  2010
1  19.1  2011
2   9.7  2008
3   9.7  2010
4   9.8  2011


- Colunas podem ser criadas simplesmente criando um novo rótulo
- Colunas podem ser removidas usando o método `drop` ou `del`

In [50]:
print(df_d)
# criando uma nova coluna
df_d['new_col'] = np.zeros((df_d.shape[0])) # o comando shape funciona como no numpy
print(df_d)
# removendo a nova coluna
df_d = df_d.drop(['new_col'], axis=1) # OU del df_d['new_col']
print(df_d)

  state  year   pop  new_col
0    FL  2010  18.8      0.0
1    FL  2011  19.1      0.0
2    GA  2008   9.7      0.0
3    GA  2010   9.7      0.0
4    GA  2011   9.8      0.0
  state  year   pop  new_col
0    FL  2010  18.8      0.0
1    FL  2011  19.1      0.0
2    GA  2008   9.7      0.0
3    GA  2010   9.7      0.0
4    GA  2011   9.8      0.0
  state  year   pop
0    FL  2010  18.8
1    FL  2011  19.1
2    GA  2008   9.7
3    GA  2010   9.7
4    GA  2011   9.8


#### Manipulando e Acessando Linhas

- linhas podem ser acessadas usando:
  - iloc: manipula o DataFrame como uma matriz com índices inteiros, assim como no Numpy
  - loc: seleciona linhas pelos rótulos (índices) ou por máscara booleana

In [51]:
print(df_d)
print(5*'-')
print(df_d.iloc[2]) # retorna uma linha como uma série (rótulo da linha se torna o rótulo de coluna)
print(5*'-')
print(type(df_d.iloc[2]))
print(5*'-')
print(df_d.iloc[2:4,1:])  
print(5*'-')
print(type(df_d.iloc[2:4,1:]))

  state  year   pop
0    FL  2010  18.8
1    FL  2011  19.1
2    GA  2008   9.7
3    GA  2010   9.7
4    GA  2011   9.8
-----
state      GA
year     2008
pop       9.7
Name: 2, dtype: object
-----
<class 'pandas.core.series.Series'>
-----
   year  pop
2  2008  9.7
3  2010  9.7
-----
<class 'pandas.core.frame.DataFrame'>


In [54]:
print(df_dod)
print()
print(df_dod.loc[2008])
print()
print(df_dod.loc[[2010, 2011]])
print()
print(df_dod.loc[df_dod['GA'] == 9.7]) # loc aceita expressoes booleanas

        FL   GA
2008   NaN  9.7
2010  18.1  9.7
2011  19.1  9.8

FL    NaN
GA    9.7
Name: 2008, dtype: float64

        FL   GA
2010  18.1  9.7
2011  19.1  9.8

        FL   GA
2008   NaN  9.7
2010  18.1  9.7


In [56]:
# as expressoes booleanas podem ser combinadas
# & é o operador lógico AND
# Existe também o operador lógico OR | (barra vertical)
print(df_d.loc[(df_d['state'] == 'GA') & (df_d['year'] >= 2010)])

  state  year  pop
3    GA  2010  9.7
4    GA  2011  9.8


In [51]:
# retornando uma lista tipo 'mascara booleana'
print('cond 1')
print(df_d['state'] == 'GA') 

print('\ncond 2')
print(df_d['year'] >= 2010)

print('\nand (&)')
print((df_d['state'] == 'GA') & (df_d['year'] >= 2010))

print('\nor (&)')
print((df_d['state'] == 'GA') | (df_d['year'] >= 2010))

cond 1
0    False
1    False
2     True
3     True
4     True
Name: state, dtype: bool

cond 2
0     True
1     True
2    False
3     True
4     True
Name: year, dtype: bool

and (&)
0    False
1    False
2    False
3     True
4     True
dtype: bool

or (&)
0    True
1    True
2    True
3    True
4    True
dtype: bool


In [60]:
# Uma outra forma é utilizar a função query
print(df_d.query("state == 'GA' and year >= 2010"))

  state  year  pop
3    GA  2010  9.7
4    GA  2011  9.8


- Assim como nas Séries, também é possível ordernar por índice, mas ao ordernar por valor é necessário definir a coluna

In [55]:
df_d.sort_values('year')

Unnamed: 0,state,year,pop
2,GA,2008,9.7
0,FL,2010,18.8
3,GA,2010,9.7
1,FL,2011,19.1
4,GA,2011,9.8


In [62]:
df_d.sort_values('pop')

Unnamed: 0,state,year,pop
2,GA,2008,9.7
3,GA,2010,9.7
4,GA,2011,9.8
0,FL,2010,18.8
1,FL,2011,19.1


**Atenção:** sort_values, gera uma cópia. Para modificar o DataFrame, deve-se passar o parâmetro `inplace = True`

In [70]:
print(df_d.sort_values('pop'))
print(df_d)
df_d.sort_values('pop',inplace=True)
print(df_d)

  state  year   pop
2    GA  2008   9.7
3    GA  2010   9.7
4    GA  2011   9.8
0    FL  2010  18.8
1    FL  2011  19.1
  state  year   pop
0    FL  2010  18.8
1    FL  2011  19.1
2    GA  2008   9.7
3    GA  2010   9.7
4    GA  2011   9.8
  state  year   pop
2    GA  2008   9.7
3    GA  2010   9.7
4    GA  2011   9.8
0    FL  2010  18.8
1    FL  2011  19.1


## Carregando arquivos
Pandas permite diversas maneiras de carregas arquivos:
- Arquivos de texto
- Dados estruturados (JSON, XML, HTML, CSV)
- Excel (depende das biblitoecas xlrd e  openpyxl)
- Direto de base de dados
  - pandas.io.sql  (read_frame)

In [71]:
%%writefile simple.csv
a,b,c,d,message
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo

Writing simple.csv


In [73]:
# Carregar um CSV simples
import pandas as pd # importamos a bilbioteca

# a primeira linha vira os índices das colunas
df = pd.read_csv('simple.csv')
print(df.columns.values)
df.head()

['a' 'b' 'c' 'd' 'message']


Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [74]:
# uma coluna pode virar o índice das linhas;
# podemos também dar nomes as colunas
df = pd.read_csv('simple.csv',
                 names=['c0','c1','c2','c3','c4'],
                 index_col='c4')
#df = pd.read_csv('simple.csv',index_col='c5')
print(df.index.values)
df.head()

['message' 'hello' 'world' 'foo']


Unnamed: 0_level_0,c0,c1,c2,c3
c4,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
message,a,b,c,d
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


`read_csv` possui muitos outros parâmetros

[https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html)