<a id='section_pandas'>Pandas</a>

* [Criando um DataFrame](#sec_creation)
* [Selecionando dados](#sec_selecionandodados)
* [Carregando dados](#sec_loaddata)
* [Exportando dados](#sec_exportdata)


<a href='https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html'>https://pandas.pydata.org/pandas-docs/stable/getting_started/10min.html</a>

In [1]:
import numpy as np
import pandas as pd
import os

<h2><a id='sec_creation'>Criando DataFrame </a></h2>

Quais são as formas para criarmos  um DataFrame

In [2]:
dates = pd.date_range('20130101', periods=6)


In [3]:
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))

In [4]:
df2 = pd.DataFrame({'A': 1.,
                        'B': pd.Timestamp('20130102'),
                        'C': pd.Series(1, index=list(range(4)), dtype='float32'),
                        'D': np.array([3] * 4, dtype='int32'),
                        'E': pd.Categorical(["test", "train", "test", "train"]),
                        'F': 'foo'})

### Visualizando os dados

In [5]:
#visualizando a parte superior do DataFrame
df2.head()

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,test,foo
1,1.0,2013-01-02,1.0,3,train,foo
2,1.0,2013-01-02,1.0,3,test,foo
3,1.0,2013-01-02,1.0,3,train,foo


In [6]:
#visualizando a parte inferior do DataFrame
df2.tail()

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,test,foo
1,1.0,2013-01-02,1.0,3,train,foo
2,1.0,2013-01-02,1.0,3,test,foo
3,1.0,2013-01-02,1.0,3,train,foo


<h2><a id='sec_selecionandodados'>Selecionando Dados</a></h2>

In [7]:
df2.iloc[:,3]

0    3
1    3
2    3
3    3
Name: D, dtype: int32

In [8]:
df2.loc[2,'A']

1.0

In [9]:
df2[df2.A>0]

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,test,foo
1,1.0,2013-01-02,1.0,3,train,foo
2,1.0,2013-01-02,1.0,3,test,foo
3,1.0,2013-01-02,1.0,3,train,foo


<h2><a id='sec_creation'>Missing Data</a></h2>

In [10]:
df.dropna()

Unnamed: 0,A,B,C,D
2013-01-01,1.072894,0.858836,-0.756608,0.527958
2013-01-02,1.123209,-0.558152,-0.965399,-0.33896
2013-01-03,-0.888568,-0.085625,0.005434,0.355444
2013-01-04,-0.951728,0.17222,-0.767161,-0.724358
2013-01-05,-0.310391,0.201337,1.26605,-1.016418
2013-01-06,0.056367,1.542106,0.735961,0.65823


In [11]:
df2.isna()

Unnamed: 0,A,B,C,D,E,F
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,False,False,False,False,False
3,False,False,False,False,False,False


<h2><a id='sec_loaddata'>Carregando os dados</a></h2>

Agora será apresentado os passos necessários para ler arquivos.

In [12]:
# Vou verificar as planilhas que estão no meu diretório
%ls "Dados"

 O volume na unidade F nÆo tem nome.
 O N£mero de S‚rie do Volume ‚ FFC5-98E7

 Pasta de F:\Workspace\DataScience\Dados

06/10/2019  19:58    <DIR>          .
06/10/2019  19:58    <DIR>          ..
07/10/2019  04:54    <DIR>          .ipynb_checkpoints
07/10/2019  06:08                57 employee_file.csv
17/10/2019  07:22            12.288 fakePrices.db
06/10/2019  20:08             4.661 processamento-petroleo-m3-2019.csv
15/10/2019  18:49            70.427 producao-biodiesel-2019.xlsx
15/10/2019  19:05            50.124 venda-biodiesel-2016.xlsx
15/10/2019  19:05            51.445 venda-biodiesel-2017.xlsx
15/10/2019  19:04            51.553 venda-biodiesel-2018.xlsx
15/10/2019  19:03            49.102 venda-biodiesel-2019.xlsx
15/10/2019  09:05             1.753 vendas_.csv
07/10/2019  04:53             8.786 vendas_utf8.csv
06/10/2019  19:58             7.814 vendas-biodiesel-uf-2019.csv
              11 arquivo(s)        308.010 bytes
               3 pasta(s)   230.552.633.344 b

In [13]:
dfex = pd.read_excel("Dados/venda-biodiesel-2019.xlsx", 
                     sheetname='Vendas por Região', skiprows=3, skip_footer=4)

dfex.iloc[:,:2] = dfex.iloc[:,:2].fillna(method='ffill')
dfex.drop(labels=['Total'], axis=1, inplace=True)
col_to_index = dfex.columns[:2].tolist()
dfex = dfex.set_index(col_to_index)
dfex = dfex.stack()
dfex = dfex.reset_index()
dfex.columns = dfex.columns.tolist()[:2] + ['data', 'volume']
dfex.head()

# print('level 1 {}'.format(dfex.index.levels[0].tolist()))
# print('level 2 {}'.format(dfex.index.levels[1].tolist()))
# print('level 3 {}'.format(dfex.index.levels[2].tolist()))



  return func(*args, **kwargs)
  return func(*args, **kwargs)


Unnamed: 0,Região de Origem,Região de Destino,data,volume
0,CENTRO OESTE,CENTRO OESTE,2019-01-01,61979.077
1,CENTRO OESTE,CENTRO OESTE,2019-02-01,66918.0
2,CENTRO OESTE,CENTRO OESTE,2019-03-01,70761.641
3,CENTRO OESTE,CENTRO OESTE,2019-04-01,68578.185
4,CENTRO OESTE,CENTRO OESTE,2019-05-01,67647.594


### Lendo tudo de uma vez

Meu objetivo abaixo será ler todas as planilhas de *venda-de-biodiesel* no meu diretório. 

Para isto utilizaremos a função *ler_vendas* no módulo *leitor_arq.py* que criamos.

In [17]:
# Primeiro colocar o diretorio na path do python
import sys
sys.path.append('script')

from leitor_arq import ler_vendas

diretorio = 'Dados'

dfteste = pd.DataFrame()

for arq in os.listdir(diretorio):
    if 'venda-biodiesel' in arq:
        caminho_arq = os.path.join(diretorio, arq)
        if not dfteste.empty:
            dfteste = pd.concat((dfteste, ler_vendas(caminho_arq)), axis=0)
        else:
            dfteste = ler_vendas(caminho_arq)

print('O tamanho do dataframe todo {}'.format(dfteste.shape))
dfteste.head()

O tamanho do dataframe todo (722, 4)


Unnamed: 0,Região de Origem,Região de Destino,data,volume
0,CENTRO OESTE,CENTRO OESTE,2019-01-01,61979.1
1,CENTRO OESTE,CENTRO OESTE,2019-02-01,66918.0
2,CENTRO OESTE,CENTRO OESTE,2019-03-01,70761.6
3,CENTRO OESTE,CENTRO OESTE,2019-04-01,68578.2
4,CENTRO OESTE,CENTRO OESTE,2019-05-01,67647.6


<h2><a id='sec_exportdata'>Exportando os dados</a></h2>

O Pandas também exporta dados para varios formtos, confira as funções *to_csv, to_excel, to_...*


In [20]:
dfteste.to_csv('meus_dados.csv')