# NumPy & Pandas

## Parte 3

Agora veremos algumas das operações disponíveis para se trabalhar com `DataFrames`.

In [1]:
import numpy as np
import pandas as pd

Para efetuar nossos testes, utilizaremos os dados de produção marítima de Petróleo de 2016 a 2018, conforme publicado pela ANP em 
http://dados.gov.br/dataset/dados-historicos-com-producao-de-petroleo-e-gas-natural-terra-e-mar. Por comodidade, o arquivo já foi baixado quando este roteiro de estudo foi elaborado, e portanto pode ser carregado diretamente do seu próprio computador.

In [2]:
df = pd.read_csv('producao-mar-2016-2018.csv',
                 encoding='iso-8859-1',
                 decimal=',')

In [3]:
df.head()

Unnamed: 0,Ano,Mês/Ano,Estado,Bacia,Campo,Poço,Ambiente,Instalação,Produção de Óleo (m³),Produção de Condensado (m³),...,Produção de Gás Não Associado (Mm³),Produção de Água (m³),Injeção de Gás (Mm³),Injeção de Água para Recuperação Secundária (m³),Injeção de Água para Descarte (m³),Injeção de Gás Carbônico (Mm³),Injeção de Nitrogênio (Mm³),Injeção de Vapor de Água (t),Injeção de Polímeros (m³),Injeção de Outros Fluidos (m³)
0,2016,01/2016,Alagoas,Alagoas,PARU,4-ALS-39-AL,Mar,Estação de Paru,0.0,1264.58,...,5505.09958,217.145,,,,,,,,
1,2016,01/2016,Bahia,Camamu,MANATI,7-MNT-1-BAS,Mar,PLATAFORMA DE MANATI 1,0.0,317.599,...,27140.35139,59.693,,,,,,,,
2,2016,01/2016,Bahia,Camamu,MANATI,7-MNT-2-BAS,Mar,PLATAFORMA DE MANATI 1,0.0,345.265,...,29504.61803,64.897,,,,,,,,
3,2016,01/2016,Bahia,Camamu,MANATI,7-MNT-3-BAS,Mar,PLATAFORMA DE MANATI 1,0.0,317.599,...,27140.35139,59.693,,,,,,,,
4,2016,01/2016,Bahia,Camamu,MANATI,7-MNT-4-BAS,Mar,PLATAFORMA DE MANATI 1,0.0,346.794,...,29644.7293,59.276,,,,,,,,


Embora os títulos das colunas sejam bastante explicativos, eles não são práticos para trabalharmos. Vamos, então, alterá-los.

Para começar, vamos armazenar os nomes originais em uma lista:

In [4]:
nomes_originais = list(df.columns)
nomes_originais

['Ano',
 'Mês/Ano',
 'Estado',
 'Bacia',
 'Campo',
 'Poço',
 'Ambiente',
 'Instalação',
 'Produção de Óleo (m³)',
 'Produção de Condensado (m³)',
 'Produção de Gás Associado (Mm³)',
 'Produção de Gás Não Associado (Mm³)',
 'Produção de Água (m³)',
 'Injeção de Gás (Mm³)',
 'Injeção de Água para Recuperação Secundária (m³)',
 'Injeção de Água para Descarte (m³)',
 'Injeção de Gás Carbônico (Mm³)',
 'Injeção de Nitrogênio (Mm³)',
 'Injeção de Vapor de Água (t)',
 'Injeção de Polímeros (m³)',
 'Injeção de Outros Fluidos (m³)']

Esses serão os novos nomes:

In [5]:
novos_nomes = ['ano', 'mes_ano', 'uf', 'bacia', 'campo', 'poco', 'ambiente',
               'instalacao', 'prod_oleo', 'prod_condensado', 'prod_gas_assoc',
               'prod_gas_nao_assoc', 'prod_agua', 'inj_gas', 'ing_agua_recuperacao',
               'inj_agua_descarte', 'inj_co2', 'inj_nitrogenio', 'inj_vapor',
               'inj_polimeros', 'inj_outros']

Conferindo...

In [6]:
for a, b in zip(nomes_originais, novos_nomes):
    print(a, ' -> ', b)

Ano  ->  ano
Mês/Ano  ->  mes_ano
Estado  ->  uf
Bacia  ->  bacia
Campo  ->  campo
Poço  ->  poco
Ambiente  ->  ambiente
Instalação  ->  instalacao
Produção de Óleo (m³)  ->  prod_oleo
Produção de Condensado (m³)  ->  prod_condensado
Produção de Gás Associado (Mm³)  ->  prod_gas_assoc
Produção de Gás Não Associado (Mm³)  ->  prod_gas_nao_assoc
Produção de Água (m³)  ->  prod_agua
Injeção de Gás (Mm³)  ->  inj_gas
Injeção de Água para Recuperação Secundária (m³)  ->  ing_agua_recuperacao
Injeção de Água para Descarte (m³)  ->  inj_agua_descarte
Injeção de Gás Carbônico (Mm³)  ->  inj_co2
Injeção de Nitrogênio (Mm³)  ->  inj_nitrogenio
Injeção de Vapor de Água (t)  ->  inj_vapor
Injeção de Polímeros (m³)  ->  inj_polimeros
Injeção de Outros Fluidos (m³)  ->  inj_outros


Parece tudo certo. Vamos, agora, substituir os nomes antigos pelos novos. Para isso, basta substituir o valor da propriedade `columns` pela nova lista de nomes:

In [7]:
df.columns = novos_nomes
df.head()

Unnamed: 0,ano,mes_ano,uf,bacia,campo,poco,ambiente,instalacao,prod_oleo,prod_condensado,...,prod_gas_nao_assoc,prod_agua,inj_gas,ing_agua_recuperacao,inj_agua_descarte,inj_co2,inj_nitrogenio,inj_vapor,inj_polimeros,inj_outros
0,2016,01/2016,Alagoas,Alagoas,PARU,4-ALS-39-AL,Mar,Estação de Paru,0.0,1264.58,...,5505.09958,217.145,,,,,,,,
1,2016,01/2016,Bahia,Camamu,MANATI,7-MNT-1-BAS,Mar,PLATAFORMA DE MANATI 1,0.0,317.599,...,27140.35139,59.693,,,,,,,,
2,2016,01/2016,Bahia,Camamu,MANATI,7-MNT-2-BAS,Mar,PLATAFORMA DE MANATI 1,0.0,345.265,...,29504.61803,64.897,,,,,,,,
3,2016,01/2016,Bahia,Camamu,MANATI,7-MNT-3-BAS,Mar,PLATAFORMA DE MANATI 1,0.0,317.599,...,27140.35139,59.693,,,,,,,,
4,2016,01/2016,Bahia,Camamu,MANATI,7-MNT-4-BAS,Mar,PLATAFORMA DE MANATI 1,0.0,346.794,...,29644.7293,59.276,,,,,,,,


Agora, como já vimos, podemos verificar o tamanho do `DataFrame` e os tipos de dados:

In [8]:
df.shape

(56337, 21)

In [9]:
df.dtypes

ano                       int64
mes_ano                  object
uf                       object
bacia                    object
campo                    object
poco                     object
ambiente                 object
instalacao               object
prod_oleo               float64
prod_condensado         float64
prod_gas_assoc          float64
prod_gas_nao_assoc      float64
prod_agua               float64
inj_gas                 float64
ing_agua_recuperacao    float64
inj_agua_descarte       float64
inj_co2                 float64
inj_nitrogenio          float64
inj_vapor               float64
inj_polimeros           float64
inj_outros              float64
dtype: object

### Valores ausentes

Como se pode observar, há varias informações ausentes no `DataFrame`. Eles são representados como `np.nan` e exibidos como 'NaN' (_Not a Number_).

Na coluna `inj_co2`, por exemplo:

In [10]:
df['inj_co2'].tail(20)

56317          NaN
56318          NaN
56319          NaN
56320          NaN
56321          NaN
56322          NaN
56323          NaN
56324          NaN
56325      0.00000
56326      0.00000
56327      0.00000
56328    156.02499
56329      0.00000
56330      0.00000
56331      0.00000
56332      0.00000
56333    670.53673
56334      0.00000
56335    375.71963
56336          NaN
Name: inj_co2, dtype: float64

Se quisermos saber __quantos__ valores estão ausentes, podemos usar a função `describe` (que também nos dá várias outras informações sobre os dados):

In [11]:
df.describe()

Unnamed: 0,ano,prod_oleo,prod_condensado,prod_gas_assoc,prod_gas_nao_assoc,prod_agua,inj_gas,ing_agua_recuperacao,inj_agua_descarte,inj_co2,inj_nitrogenio,inj_vapor,inj_polimeros,inj_outros
count,56337.0,44563.0,44563.0,44563.0,44563.0,44563.0,12290.0,12290.0,12290.0,12290.0,12290.0,12290.0,12290.0,12290.0
mean,2017.099136,9512.83349,41.637868,1728.337324,387.930784,7882.954906,2000.0063,51563.349461,0.0,315.794943,0.0,0.0,0.041031,0.0
std,0.793117,23304.6399,529.480368,5885.761687,3332.661584,16610.055507,10123.241306,61639.207303,0.0,2091.869057,0.0,0.0,2.479954,0.0
min,2016.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,2016.0,0.0,0.0,0.0,0.0,0.0,0.0,3458.92,0.0,0.0,0.0,0.0,0.0,0.0
50%,2017.0,421.885,0.0,30.10133,0.0,235.423,0.0,27163.822,0.0,0.0,0.0,0.0,0.0,0.0
75%,2018.0,8318.132225,0.0,670.225675,0.0,7716.680225,0.0,79198.8925,0.0,0.0,0.0,0.0,0.0,0.0
max,2018.0,203561.52904,34152.641,85996.26013,59960.24537,128441.998,106095.354,327503.3,0.0,29715.9429,0.0,0.0,208.4,0.0


Como a função `describe` retorna também um `DataFrame` com informações (não acredita? Execute `type(df.describe())`!), podemos fazer a transposição deste retorno para ler com mais facilidade o seu resultado:

In [12]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
ano,56337.0,2017.099136,0.793117,2016.0,2016.0,2017.0,2018.0,2018.0
prod_oleo,44563.0,9512.83349,23304.6399,0.0,0.0,421.885,8318.132225,203561.52904
prod_condensado,44563.0,41.637868,529.480368,0.0,0.0,0.0,0.0,34152.641
prod_gas_assoc,44563.0,1728.337324,5885.761687,0.0,0.0,30.10133,670.225675,85996.26013
prod_gas_nao_assoc,44563.0,387.930784,3332.661584,0.0,0.0,0.0,0.0,59960.24537
prod_agua,44563.0,7882.954906,16610.055507,0.0,0.0,235.423,7716.680225,128441.998
inj_gas,12290.0,2000.0063,10123.241306,0.0,0.0,0.0,0.0,106095.354
ing_agua_recuperacao,12290.0,51563.349461,61639.207303,0.0,3458.92,27163.822,79198.8925,327503.3
inj_agua_descarte,12290.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
inj_co2,12290.0,315.794943,2091.869057,0.0,0.0,0.0,0.0,29715.9429


Como podemos ver, a coluna `ano` contém 56337 valores (ou seja, todas as linhas, como já vimos com `df.shape`). Já a coluna `prod_oleo` contém apenas 44563! Já em `inj_co2`, há apenas 12290 valores!

(Um parêntese: observe também as outras informações retornadas pela função `describe`; ainda que neste `DataFrame` em particular não estejamos interessados nelas, em geral elas serão muito úteis na análise de dados!)

Temos duas opções para tratar casos como estes de ausência de valores: definir um valor padrão ou eliminar as linhas em que não há valores.

O `Pandas` nos oferece métodos utilitários para ambos os casos.

#### dropna

Para eliminarmos as linhas onde faltam valores, podemos utilizar o método `dropna`, que irá retornar um novo `DataFrame` sem as linhas _"problemáticas"_:

In [13]:
sem_na = df.dropna()
sem_na.shape

(516, 21)

Apenas 516 linhas possuem dados em todas as suas colunas!

Note que `df` não foi alterado. Se quiséssemos alterá-lo e não criar uma cópia dos dados, poderíamos ter utilizado o parâmetro opcional `inplace=True`.

In [14]:
df.shape

(56337, 21)

Há ainda outras opções para configurar a forma como as eliminações serão feitas:

 * o parâmetro `how` permite dizer se devem ser excluídas apenas as linhas ou colunas em que todas as células estejam sem valor (`how='all'`) ou se todas aquelas em que qualquer valor estiver ausente (`how='any'`, que é o padrão);
 * o parâmetro `thresh` permite dizer que devem ser excluídas apenas as linhas ou colunas em que o número de valores ausentes seja superior ao valor indicado;
 * o parâmetro `axis` permite dizer se os valores serão buscados em linhas ou colunas;
 * o parâmetro `subset` permite indicar quais as colunas ou linhas que serão consideradas para se decidir o que excluir.
 
Não há como explicar mais isso sem repetir o que está na própria documentação do método. Então, não deixe de executar `?df.dropna` e conferir você mesmo!

#### fillna

Se ao invés de excluirmos as linhas ou colunas em que faltam valores nós preferirmos utilizar um valor padrão, podemos utilizar o método `fillna`:

In [15]:
# subsitui todos os NaN por 0
df.fillna(value=0).describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
ano,56337.0,2017.099136,0.793117,2016.0,2016.0,2017.0,2018.0,2018.0
prod_oleo,56337.0,7524.724405,21084.57812,0.0,0.0,6.75739,4218.372,203561.52904
prod_condensado,56337.0,32.935874,471.215609,0.0,0.0,0.0,0.0,34152.641
prod_gas_assoc,56337.0,1367.128107,5281.660589,0.0,0.0,0.25579,346.71681,85996.26013
prod_gas_nao_assoc,56337.0,306.856232,2968.209851,0.0,0.0,0.0,0.0,59960.24537
prod_agua,56337.0,6235.477918,15116.421381,0.0,0.0,0.0,3937.04621,128441.998
inj_gas,56337.0,436.304337,4799.688196,0.0,0.0,0.0,0.0,106095.354
ing_agua_recuperacao,56337.0,11248.621064,35808.984758,0.0,0.0,0.0,0.0,327503.3
inj_agua_descarte,56337.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
inj_co2,56337.0,68.891135,985.678267,0.0,0.0,0.0,0.0,29715.9429


Assim como já vimos com `dropna`, `fillna` também retorna um novo `DataFrame`, sem modificar o `DataFrame` original (a não ser que usemos `inplace=True`).

Há ainda um parâmetro `method` que nos permite dizer que, ao invés de usar um valor pré-determinado, deve-se utilizar o valor anterior (`method='ffil'` ou `method='pad'`) ou o valor seguinte (`method='bfill'` ou `method='backfill'`), que não fariam sentido algum no caso deste `DataFrame` de dados de produção de petróleo, mas que são muito úteis quando trabalhamos com dados temporais.

#### isna

O método `isna` retorna um `DataFrame` indicando quais células estão sem valor (`True`) e quais estão preenchidas (`False`):

In [16]:
df.isna().head()

Unnamed: 0,ano,mes_ano,uf,bacia,campo,poco,ambiente,instalacao,prod_oleo,prod_condensado,...,prod_gas_nao_assoc,prod_agua,inj_gas,ing_agua_recuperacao,inj_agua_descarte,inj_co2,inj_nitrogenio,inj_vapor,inj_polimeros,inj_outros
0,False,False,False,False,False,False,False,False,False,False,...,False,False,True,True,True,True,True,True,True,True
1,False,False,False,False,False,False,False,False,False,False,...,False,False,True,True,True,True,True,True,True,True
2,False,False,False,False,False,False,False,False,False,False,...,False,False,True,True,True,True,True,True,True,True
3,False,False,False,False,False,False,False,False,False,False,...,False,False,True,True,True,True,True,True,True,True
4,False,False,False,False,False,False,False,False,False,False,...,False,False,True,True,True,True,True,True,True,True


In [17]:
df['prod_agua'].isna().tail()

56332     True
56333     True
56334     True
56335     True
56336    False
Name: prod_agua, dtype: bool

In [18]:
df['prod_agua'].tail()

56332          NaN
56333          NaN
56334          NaN
56335          NaN
56336    140.43252
Name: prod_agua, dtype: float64

Isso pode ser útil para filtrar dados:

In [19]:
# ~ aqui é para negar o filtro
# em outras palavras: retorne todas as linhas em
# que isna() retorna False, indicando que há, sim,
# um valor
df[~df['prod_oleo'].isna()].tail()

Unnamed: 0,ano,mes_ano,uf,bacia,campo,poco,ambiente,instalacao,prod_oleo,prod_condensado,...,prod_gas_nao_assoc,prod_agua,inj_gas,ing_agua_recuperacao,inj_agua_descarte,inj_co2,inj_nitrogenio,inj_vapor,inj_polimeros,inj_outros
56321,2018,12/2018,São Paulo,Santos,SUDOESTE DE SAPINHOÁ,7-SPH-5-SPS,Mar,FPSO CIDADE DE SÃO PAULO,265.76699,0.0,...,0.0,4.63456,,,,,,,,
56322,2018,12/2018,São Paulo,Santos,SUDOESTE DE SAPINHOÁ,7-SPH-6-SPS,Mar,FPSO CIDADE DE ILHA BELA,1345.37394,0.0,...,0.0,213.05161,,,,,,,,
56323,2018,12/2018,São Paulo,Santos,SUDOESTE DE SAPINHOÁ,7-SPH-7D-SPS,Mar,FPSO CIDADE DE ILHA BELA,2771.60073,0.0,...,0.0,300.54542,,,,,,,,
56324,2018,12/2018,São Paulo,Santos,SUDOESTE DE SAPINHOÁ,7-SPH-8-SPS,Mar,FPSO CIDADE DE ILHA BELA,2553.14587,0.0,...,0.0,7.92723,,,,,,,,
56336,2018,12/2018,São Paulo,Santos,SUDOESTE DE SAPINHOÁ,9-BRSA-928-SPS,Mar,FPSO CIDADE DE SÃO PAULO,2461.97728,0.0,...,0.0,140.43252,,,,,,,,


#### notna

O método `notna` é exatamente o oposto de `isna`: retorna um `DataFrame` indicando quais células possuem valor (`True`) e quais estão vazias (`False`):

In [20]:
# aqui não devemos necessário negar o filtro!
# mas que graça haveria em fazer assim? 
# você não teria lembrado para que serve o ~ !!!
df[~df['prod_oleo'].notna()].tail()

Unnamed: 0,ano,mes_ano,uf,bacia,campo,poco,ambiente,instalacao,prod_oleo,prod_condensado,...,prod_gas_nao_assoc,prod_agua,inj_gas,ing_agua_recuperacao,inj_agua_descarte,inj_co2,inj_nitrogenio,inj_vapor,inj_polimeros,inj_outros
56331,2018,12/2018,São Paulo,Santos,SUDOESTE DE SAPINHOÁ,8-SPH-23-SPS,Mar,FPSO CIDADE DE ILHA BELA,,,...,,,0.0,4656.19028,0.0,0.0,0.0,0.0,0.0,0.0
56332,2018,12/2018,São Paulo,Santos,SUDOESTE DE SAPINHOÁ,8-SPH-24D-SPS,Mar,FPSO CIDADE DE SÃO PAULO,,,...,,,0.0,2331.90006,0.0,0.0,0.0,0.0,0.0,0.0
56333,2018,12/2018,São Paulo,Santos,SUDOESTE DE SAPINHOÁ,8-SPH-9-SPS,Mar,FPSO CIDADE DE ILHA BELA,,,...,,,1593.00734,0.0,0.0,670.53673,0.0,0.0,0.0,0.0
56334,2018,12/2018,São Paulo,Santos,SUDOESTE DE SAPINHOÁ,9-BRSA-1037-SPS,Mar,FPSO CIDADE DE ILHA BELA,,,...,,,0.0,3600.45721,0.0,0.0,0.0,0.0,0.0,0.0
56335,2018,12/2018,São Paulo,Santos,SUDOESTE DE SAPINHOÁ,9-BRSA-1043-SPS,Mar,FPSO CIDADE DE SÃO PAULO,,,...,,,1024.93086,0.0,0.0,375.71963,0.0,0.0,0.0,0.0


#### sum

O método `sum` totaliza os valores de linhas ou colunas de um `DataFrame`:

In [21]:
df[['prod_oleo', 'prod_condensado']].sum()

prod_oleo          4.239204e+08
prod_condensado    1.855508e+06
dtype: float64

Cuidado, entretanto, com o seguinte: se usarmos `sum` em colunas que contêm texto, eles serão concatenados!

In [22]:
# isso vai demorar alguns segundos e consumir bastante memória!
df['mes_ano'].sum()

'01/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/201601/20

Assim, para evitarmos que isso aconteça ao usarmos a função `sum` em um `DataFrame` completo (sem selecionar as colunas, como fizemos nos exemplos acima), devemos usar o parâmetro `numeric_only=True`:

In [23]:
# retire o numeric_only=True e talvez você precise
# reiniciar sua máquina por falta de memória! e sem
# conseguir sequer salvar o que está aberto!
df.sum(numeric_only=True)

ano                     1.136373e+08
prod_oleo               4.239204e+08
prod_condensado         1.855508e+06
prod_gas_assoc          7.701990e+07
prod_gas_nao_assoc      1.728736e+07
prod_agua               3.512881e+08
inj_gas                 2.458008e+07
ing_agua_recuperacao    6.337136e+08
inj_agua_descarte       0.000000e+00
inj_co2                 3.881120e+06
inj_nitrogenio          0.000000e+00
inj_vapor               0.000000e+00
inj_polimeros           5.042700e+02
inj_outros              0.000000e+00
dtype: float64

#### cumsum, cumprod

Soma e Produto acumulativos.

In [24]:
df['prod_oleo'].cumsum().head(20)

0        0.000
1        0.000
2        0.000
3        0.000
4        0.000
5        0.000
6        0.000
7      126.770
8      135.301
9      210.947
10     264.352
11     267.163
12     287.607
13     323.953
14     575.373
15     707.480
16     898.112
17         NaN
18         NaN
19    1038.125
Name: prod_oleo, dtype: float64

#### sort_index, sort_values

Para ordenarmos um `DataFrame` ou `Serie` por seu índice, devemos utilizar a função `sort_index`:

In [25]:
# este exemplo faria mais sentido se o índice não fosse um simples 
# número sequencial...
df.sort_index(ascending=False).head()

Unnamed: 0,ano,mes_ano,uf,bacia,campo,poco,ambiente,instalacao,prod_oleo,prod_condensado,...,prod_gas_nao_assoc,prod_agua,inj_gas,ing_agua_recuperacao,inj_agua_descarte,inj_co2,inj_nitrogenio,inj_vapor,inj_polimeros,inj_outros
56336,2018,12/2018,São Paulo,Santos,SUDOESTE DE SAPINHOÁ,9-BRSA-928-SPS,Mar,FPSO CIDADE DE SÃO PAULO,2461.97728,0.0,...,0.0,140.43252,,,,,,,,
56335,2018,12/2018,São Paulo,Santos,SUDOESTE DE SAPINHOÁ,9-BRSA-1043-SPS,Mar,FPSO CIDADE DE SÃO PAULO,,,...,,,1024.93086,0.0,0.0,375.71963,0.0,0.0,0.0,0.0
56334,2018,12/2018,São Paulo,Santos,SUDOESTE DE SAPINHOÁ,9-BRSA-1037-SPS,Mar,FPSO CIDADE DE ILHA BELA,,,...,,,0.0,3600.45721,0.0,0.0,0.0,0.0,0.0,0.0
56333,2018,12/2018,São Paulo,Santos,SUDOESTE DE SAPINHOÁ,8-SPH-9-SPS,Mar,FPSO CIDADE DE ILHA BELA,,,...,,,1593.00734,0.0,0.0,670.53673,0.0,0.0,0.0,0.0
56332,2018,12/2018,São Paulo,Santos,SUDOESTE DE SAPINHOÁ,8-SPH-24D-SPS,Mar,FPSO CIDADE DE SÃO PAULO,,,...,,,0.0,2331.90006,0.0,0.0,0.0,0.0,0.0,0.0


Se por outro lado quisermos ordenar o `DataFrame` por uma de suas colunas, usamos `sort_values`:

In [26]:
# o primeiro parâmetro é a lista das colunas pelas quais o
# resultado será ordenado
df.sort_values(['ano', 'mes_ano', 'campo', 'poco'], ascending=True).head()

Unnamed: 0,ano,mes_ano,uf,bacia,campo,poco,ambiente,instalacao,prod_oleo,prod_condensado,...,prod_gas_nao_assoc,prod_agua,inj_gas,ing_agua_recuperacao,inj_agua_descarte,inj_co2,inj_nitrogenio,inj_vapor,inj_polimeros,inj_outros
59,2016,01/2016,Espírito Santo,Campos,ABALONE,7-ABA-2D-ESS,Mar,FPSO ESPIRITO SANTO,0.0,0.0,...,0.0,0.0,,,,,,,,
149,2016,01/2016,Rio Grande do Norte,Potiguar,AGULHA,7-AG-14D-RNS,Mar,PLATAFORMA DE AGULHA 1,1289.016,0.0,...,0.0,2257.819,,,,,,,,
150,2016,01/2016,Rio Grande do Norte,Potiguar,AGULHA,7-AG-3-RNS,Mar,PLATAFORMA DE AGULHA 1,42.955,0.0,...,0.0,532.12,,,,,,,,
254,2016,01/2016,Rio de Janeiro,Campos,ALBACORA,1-RJS-297-RJ,Mar,PETROBRAS 31,,,...,,,0.0,9154.173,0.0,0.0,0.0,0.0,0.0,0.0
255,2016,01/2016,Rio de Janeiro,Campos,ALBACORA,3-RJS-329A-RJ,Mar,PETROBRAS 31,,,...,,,0.0,1315.186,0.0,0.0,0.0,0.0,0.0,0.0


#### value_counts, unique, nunique

`value_counts` conta quantas ocorrências de cada valor existem em uma `Series` (e não de um `DataFrame`!).

`unique` retorna todos os valores distintos (únicos) de uma `Series`. Também funciona apenas sobre uma `Series`.

`nunique` retorna o número de valores distintos de uma relação de `Series`.

In [27]:
df['uf'].value_counts()

Rio de Janeiro         38456
Rio Grande do Norte     6081
Espírito Santo          3957
Sergipe                 3041
Ceará                   2057
São Paulo               1765
Bahia                    872
Não Informado             72
Alagoas                   36
Name: uf, dtype: int64

In [28]:
df['uf'].unique()

array(['Alagoas', 'Bahia', 'Ceará', 'Espírito Santo',
       'Rio Grande do Norte', 'Rio de Janeiro', 'Sergipe', 'São Paulo',
       'Não Informado'], dtype=object)

In [29]:
df['ano'].unique()

array([2016, 2017, 2018])

In [30]:
df[['ano', 'uf']].nunique()

ano    3
uf     9
dtype: int64

#### mean, count, median, var, std, min, max, quantile, ...

Essas são apenas algumas das funções estatísticas disponibilizadas pelo `Pandas` para execução de cálculos sobre um `DataFrame` ou uma `Series`. Não deixe de verificar a documentação oficial para ver o que pode te interessar! Ela pode ser encontrada aqui: https://pandas.pydata.org/pandas-docs/stable/reference/frame.html#computations-descriptive-stats

In [31]:
df['prod_oleo'].mean()

9512.833489816214