# Importando e Exportando Dados

Na última aula tivemos nosso primeiro contato com a função `pd.read_csv()` - a qual utilizamos para carregar o arquivo de veículos (um arquivo **.csv**) para um DataFrame.

Hoje veremos como carregar diferentes tipos de arquivo **.csv** através dessa função. Além disso veremos como carregar diferentes tipos de arquivo utilizando a biblioteca Pandas.

In [3]:
import pandas as pd

Para lermos arquivos **.xlsx** do Excel precisamos instalar a biblioteca `openpyxl` - podemos verificar se ela foi instalando importando o módulo `xlrd`

In [4]:
!pip install openpyxl



In [5]:
import xlrd

## Importando arquivos delimitados

Arquivos delimitados são arquivos texto que utilizam um caráctere especial para separar as colunas. A extensão mais comum para este tipo de arquivo é o **.csv**, mas muitas vezes veremos outras extensões como **.txt** ou **.tsv**.

A extensão em si não é muito importante: o importante é sabermos que o arquivo é um arquivo de texto, e como ele está estruturado. Os tipos mais comuns de separadores sáo:
    
**-- comma separated file --**

    name,year,value
    Andre,2020,100
    Fernanda,1900,1
    
**-- tab separated file --**

    name    year    value
    Andre    2020    100
    Fernanda    1900    1
    
**-- tab separated file (another way) --**

    name\tyear\tvalue
    Andre\t2020\t100
    Fernanda\t1900\t1
    
**-- hash separated file --**

    name#year#value
    Andre#2020#100
    Fernanda#1900#1

**-- pipe separated file --**

    name|year|value
    Andre|2020|100
    Fernanda|1900|1

    ...

### Descobrindo a Estrutura do Arquivo

Muitas vezes não saberemos de antemão qual a estrutura do arquivo que precisamos ler. Caso o arquivo seja pequeno (< 10mb) podemos abri-lo no Notepad ou em algum outro editor de texto simples (Notepad++, SublimeText, Vi) e ver a estrutura diretamente.

Infelizmente muitas vezes lidamos com arquivos tão grandes que é quase impossível abri-los nestes editores. Para investigar a estrutura desses arquivos podemos utilizar o próprio Python!

In [6]:
file = open('data/dados_veiculos.csv', 'rb')
file_lines = file.readlines(1000)
for line in file_lines:
    print(line.decode('utf-8'))
file.close()

Make,Model,Year,Engine Displacement,Cylinders,Transmission,Drivetrain,Vehicle Class,Fuel Type,Fuel Barrels/Year,City MPG,Highway MPG,Combined MPG,CO2 Emission Grams/Mile,Fuel Cost/Year

AM General,DJ Po Vehicle 2WD,1984,2.5,4.0,Automatic 3-spd,2-Wheel Drive,Special Purpose Vehicle 2WD,Regular,19.388823529411766,18,17,17,522.7647058823529,1950

AM General,FJ8c Post Office,1984,4.2,6.0,Automatic 3-spd,2-Wheel Drive,Special Purpose Vehicle 2WD,Regular,25.35461538461539,13,13,13,683.6153846153846,2550

AM General,Post Office DJ5 2WD,1985,2.5,4.0,Automatic 3-spd,Rear-Wheel Drive,Special Purpose Vehicle 2WD,Regular,20.600625,16,17,16,555.4375,2100

AM General,Post Office DJ8 2WD,1985,4.2,6.0,Automatic 3-spd,Rear-Wheel Drive,Special Purpose Vehicle 2WD,Regular,25.35461538461539,13,13,13,683.6153846153846,2550

ASC Incorporated,GNX,1987,3.8,6.0,Automatic 4-spd,Rear-Wheel Drive,Midsize Cars,Premium,20.600625,14,21,16,555.4375,2550

Acura,2.2CL/3.0CL,1997,2.2,4.0,Automatic 4-spd,Front-Wheel Driv

In [7]:
with open('data/dados_veiculos.csv', 'rb') as file:
    file_lines = file.readlines(1000)
    for line in file_lines:
        print(line.decode('utf-8'))

Make,Model,Year,Engine Displacement,Cylinders,Transmission,Drivetrain,Vehicle Class,Fuel Type,Fuel Barrels/Year,City MPG,Highway MPG,Combined MPG,CO2 Emission Grams/Mile,Fuel Cost/Year

AM General,DJ Po Vehicle 2WD,1984,2.5,4.0,Automatic 3-spd,2-Wheel Drive,Special Purpose Vehicle 2WD,Regular,19.388823529411766,18,17,17,522.7647058823529,1950

AM General,FJ8c Post Office,1984,4.2,6.0,Automatic 3-spd,2-Wheel Drive,Special Purpose Vehicle 2WD,Regular,25.35461538461539,13,13,13,683.6153846153846,2550

AM General,Post Office DJ5 2WD,1985,2.5,4.0,Automatic 3-spd,Rear-Wheel Drive,Special Purpose Vehicle 2WD,Regular,20.600625,16,17,16,555.4375,2100

AM General,Post Office DJ8 2WD,1985,4.2,6.0,Automatic 3-spd,Rear-Wheel Drive,Special Purpose Vehicle 2WD,Regular,25.35461538461539,13,13,13,683.6153846153846,2550

ASC Incorporated,GNX,1987,3.8,6.0,Automatic 4-spd,Rear-Wheel Drive,Midsize Cars,Premium,20.600625,14,21,16,555.4375,2550

Acura,2.2CL/3.0CL,1997,2.2,4.0,Automatic 4-spd,Front-Wheel Driv

Precisamos prestar atenção em **três pontos chaves**:

1. A primeira linha do arquivo contém um cabeçalho?
1. Qual caráctere está sendo utilizado para separar as colunas?
1. Qual caráctere é utilizado como separador decimal?
1. Os diacríticos estão sendo lidos corretamente?

### CSV (Comma Separated Values)

Quando os arquivos que estamos importando utilizam a `,` como separador de colunas ele é chamado de CSV (comma separated values). Vamos classificar nosso arquivo `dados_veiculos.csv` segundo os nossos 4 critérios:

1. Cabeçalho:
1. Caráctere Separador:
1. Caráctere Decimal:
1. Diácriticos:

In [8]:
pd.read_csv('data/dados_veiculos.csv')

Unnamed: 0,Make,Model,Year,Engine Displacement,Cylinders,Transmission,Drivetrain,Vehicle Class,Fuel Type,Fuel Barrels/Year,City MPG,Highway MPG,Combined MPG,CO2 Emission Grams/Mile,Fuel Cost/Year
0,AM General,DJ Po Vehicle 2WD,1984,2.5,4.0,Automatic 3-spd,2-Wheel Drive,Special Purpose Vehicle 2WD,Regular,19.388824,18,17,17,522.764706,1950
1,AM General,FJ8c Post Office,1984,4.2,6.0,Automatic 3-spd,2-Wheel Drive,Special Purpose Vehicle 2WD,Regular,25.354615,13,13,13,683.615385,2550
2,AM General,Post Office DJ5 2WD,1985,2.5,4.0,Automatic 3-spd,Rear-Wheel Drive,Special Purpose Vehicle 2WD,Regular,20.600625,16,17,16,555.437500,2100
3,AM General,Post Office DJ8 2WD,1985,4.2,6.0,Automatic 3-spd,Rear-Wheel Drive,Special Purpose Vehicle 2WD,Regular,25.354615,13,13,13,683.615385,2550
4,ASC Incorporated,GNX,1987,3.8,6.0,Automatic 4-spd,Rear-Wheel Drive,Midsize Cars,Premium,20.600625,14,21,16,555.437500,2550
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
35947,smart,fortwo coupe,2013,1.0,3.0,Auto(AM5),Rear-Wheel Drive,Two Seaters,Premium,9.155833,34,38,36,244.000000,1100
35948,smart,fortwo coupe,2014,1.0,3.0,Auto(AM5),Rear-Wheel Drive,Two Seaters,Premium,9.155833,34,38,36,243.000000,1100
35949,smart,fortwo coupe,2015,1.0,3.0,Auto(AM5),Rear-Wheel Drive,Two Seaters,Premium,9.155833,34,38,36,244.000000,1100
35950,smart,fortwo coupe,2016,0.9,3.0,Auto(AM6),Rear-Wheel Drive,Two Seaters,Premium,9.155833,34,39,36,246.000000,1100


A função `pd.read_csv()` não está guardando o DataFrame em nenhuma variável: se quisermos utiliza-lo posteriormente tenho que guarda-lo em uma variável.

In [9]:
tb_veic = pd.read_csv('data/dados_veiculos.csv')

In [10]:
tb_veic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35952 entries, 0 to 35951
Data columns (total 15 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Make                     35952 non-null  object 
 1   Model                    35952 non-null  object 
 2   Year                     35952 non-null  int64  
 3   Engine Displacement      35952 non-null  float64
 4   Cylinders                35952 non-null  float64
 5   Transmission             35952 non-null  object 
 6   Drivetrain               35952 non-null  object 
 7   Vehicle Class            35952 non-null  object 
 8   Fuel Type                35952 non-null  object 
 9   Fuel Barrels/Year        35952 non-null  float64
 10  City MPG                 35952 non-null  int64  
 11  Highway MPG              35952 non-null  int64  
 12  Combined MPG             35952 non-null  int64  
 13  CO2 Emission Grams/Mile  35952 non-null  float64
 14  Fuel Cost/Year        

### CSVs de `;`

Muitos países utilizam a `,` como separador decimal - muitas vezes arquivos CSV desses países utilizarão o `;` como separador de colunas (para não gerar confusão com os números decimais).

Vamos fazer a nossa avaliação de um novo arquivo:

In [2]:
with open('data/dados_veiculos_semi.csv', 'rb') as file:
    file_lines = file.readlines(1000)
    for line in file_lines:
        print(line.decode('utf-8'))

Make;Model;Year;Engine Displacement;Cylinders;Transmission;Drivetrain;Vehicle Class;Fuel Type;Fuel Barrels/Year;City MPG;Highway MPG;Combined MPG;CO2 Emission Grams/Mile;Fuel Cost/Year

AM General;DJ Po Vehicle 2WD;1984;2,5;4,0;Automatic 3-spd;2-Wheel Drive;Special Purpose Vehicle 2WD;Regular;19,388823529411766;18;17;17;522,7647058823529;1950

AM General;FJ8c Post Office;1984;4,2;6,0;Automatic 3-spd;2-Wheel Drive;Special Purpose Vehicle 2WD;Regular;25,35461538461539;13;13;13;683,6153846153846;2550

AM General;Post Office DJ5 2WD;1985;2,5;4,0;Automatic 3-spd;Rear-Wheel Drive;Special Purpose Vehicle 2WD;Regular;20,600625;16;17;16;555,4375;2100

AM General;Post Office DJ8 2WD;1985;4,2;6,0;Automatic 3-spd;Rear-Wheel Drive;Special Purpose Vehicle 2WD;Regular;25,35461538461539;13;13;13;683,6153846153846;2550

ASC Incorporated;GNX;1987;3,8;6,0;Automatic 4-spd;Rear-Wheel Drive;Midsize Cars;Premium;20,600625;14;21;16;555,4375;2550

Acura;2,2CL/3,0CL;1997;2,2;4,0;Automatic 4-spd;Front-Wheel Driv

In [11]:
pd.read_csv('data/dados_veiculos_semi.csv')

ParserError: Error tokenizing data. C error: Expected 5 fields in line 7, saw 7


O comportamento padrão do Pandas é utilizar:

1. Primeira linha como cabeçalho;
1. `,` como separador;
1. `.` como decimal.

Para alterar o separador de colunas e de decimais precisamos especificar estes carácteres diretamente.

### Arquivos TSV (Tab-Separated Values)

Alguns arquivos utilizam o `\t`, ou **tab**, como separador de valores. Vamos ver como carregar arquivos deste tipo utilizando a `pd.read_csv()`.

O arquivo abaixo, além de ser separado por **tabs**, contém diacríticos (acentos, cedilhas, etc...). Quando um arquivo contém carácters não-ASCII (como acentos) precisamos estar atentos ao **encoding** do arquivo - como ele representa esses carácteres diferentes.

Em geral, os arquivos estarão **encodados** em `UTF-8` (a maior parte dos arquivos) ou em `latin-1` (arquivos mais antigos, principalmente de sistemas Windows).

In [20]:
with open('data/tb_empenho_cnpj_osc.txt', 'rb') as file:
    file_lines = file.readlines(1000)
    for line in file_lines:
        print(line.decode('latin-1'))

codOrgao	codFuncao	txtModalidadeAplicacao	numCpfCnpj	ANO_API	valtotalempenhado	cd_identificador_osc	tx_razao_social_osc	tx_nome_fantasia_osc	dt_fundacao_osc	tx_nome_classe_atividade_economica	cd_natureza_juridica_osc	edmu_cd_municipio	edmu_nm_municipio	eduf_cd_uf	eduf_sg_uf	classif_religiao	classif_osc

1	10	Aplicações Diretas	4,37308E+13	2011	3900	4,37308E+13	ABTD ASSOCIACAO BRASILEIRA DE TREINAMENTO	NA	08/01/1973	Atividades de associações de defesa de direitos sociais	3999	3550308	São Paulo	35	SP	0	1

1	10	Aplicações Diretas	6,1047E+13	2011	3874019,86	6,1047E+13	COLSAN - ASSOCIACAO BENEFICENTE DE COLETA DE SANGUE	NA	03/01/1967	Atividades de serviços de complementação diagnóstica e terapêutica	3999	3550308	São Paulo	35	SP	0	1

1	10	Aplicações Diretas	6,16996E+13	2011	431318,5	6,16996E+13	SPDM - ASSOCIACAO PAULISTA PARA O DESENVOLVIMENTO DA MEDICINA	HOSPITAL SAO PAULO	02/01/1971	Atividades de atendimento hospitalar	3999	3550308	São Paulo	35	SP	0	1

1	10	Aplicações Diretas	6,05442E+13	2

Se tentarmos carregar um arquivo sem especificar o **encoding** correto poderemos ter um erro, ou então carregar os diacríticos de maneira errada!

In [24]:
pd.read_csv('data/tb_empenho_cnpj_osc.txt', 
            sep = '\t', 
            decimal = ',')

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe7 in position 315: invalid continuation byte

In [25]:
tb_oscsp = pd.read_csv('data/tb_empenho_cnpj_osc.txt', 
                       sep = '\t', 
                       decimal = ',', 
                       encoding = 'latin-1')

In [26]:
tb_oscsp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24385 entries, 0 to 24384
Data columns (total 18 columns):
 #   Column                              Non-Null Count  Dtype  
---  ------                              --------------  -----  
 0   codOrgao                            24385 non-null  int64  
 1   codFuncao                           24385 non-null  int64  
 2   txtModalidadeAplicacao              24385 non-null  object 
 3   numCpfCnpj                          24385 non-null  float64
 4   ANO_API                             24385 non-null  int64  
 5   valtotalempenhado                   24385 non-null  float64
 6   cd_identificador_osc                24385 non-null  float64
 7   tx_razao_social_osc                 24385 non-null  object 
 8   tx_nome_fantasia_osc                12315 non-null  object 
 9   dt_fundacao_osc                     24385 non-null  object 
 10  tx_nome_classe_atividade_economica  24380 non-null  object 
 11  cd_natureza_juridica_osc            24385

In [27]:
tb_oscsp.head()

Unnamed: 0,codOrgao,codFuncao,txtModalidadeAplicacao,numCpfCnpj,ANO_API,valtotalempenhado,cd_identificador_osc,tx_razao_social_osc,tx_nome_fantasia_osc,dt_fundacao_osc,tx_nome_classe_atividade_economica,cd_natureza_juridica_osc,edmu_cd_municipio,edmu_nm_municipio,eduf_cd_uf,eduf_sg_uf,classif_religiao,classif_osc
0,1,10,Aplicações Diretas,43730800000000.0,2011,3900.0,43730800000000.0,ABTD ASSOCIACAO BRASILEIRA DE TREINAMENTO,,08/01/1973,Atividades de associações de defesa de direito...,3999,3550308,São Paulo,35,SP,0,1
1,1,10,Aplicações Diretas,61047000000000.0,2011,3874019.86,61047000000000.0,COLSAN - ASSOCIACAO BENEFICENTE DE COLETA DE S...,,03/01/1967,Atividades de serviços de complementação diagn...,3999,3550308,São Paulo,35,SP,0,1
2,1,10,Aplicações Diretas,61699600000000.0,2011,431318.5,61699600000000.0,SPDM - ASSOCIACAO PAULISTA PARA O DESENVOLVIME...,HOSPITAL SAO PAULO,02/01/1971,Atividades de atendimento hospitalar,3999,3550308,São Paulo,35,SP,0,1
3,1,10,Aplicações Diretas,60544200000000.0,2012,172085.13,60544200000000.0,ASSOCIACAO SAMARITANO,ASSOCIACAO SAMARITANO,04/01/1967,Atividades associativas não especificadas ante...,3999,3550308,São Paulo,35,SP,0,1
4,1,10,Aplicações Diretas,60979500000000.0,2012,2236.0,60979500000000.0,ASSOCIACAO DE ASSISTENCIA A CRIANCA DEFICIENTE,AACD IBIRAPUERA,02/01/1967,Atividades de atenção ambulatorial executadas ...,3999,3550308,São Paulo,35,SP,0,1


### Arquivos separados por `|`

Outro separador comum é o `|` (**pipe**). Vamos carregar um arquivo com este separador.

In [29]:
with open('data/eletricidade_india.csv', 'rb') as file:
    file_lines = file.readlines(10000)
    for line in file_lines:
        print(line.decode('latin-1'))

index|Date|Region|Thermal Generation Actual (in MU)|Thermal Generation Estimated (in MU)|Nuclear Generation Actual (in MU)|Nuclear Generation Estimated (in MU)|Hydro Generation Actual (in MU)|Hydro Generation Estimated (in MU)

0|2017-09-01|Northern|624.23|484.21|30.36|35.57|273.27|320.81

1|2017-09-01|Western|"1|106.89"|"1|024.33"|25.17|3.81|72.0|21.53

2|2017-09-01|Southern|576.66|578.55|62.73|49.8|111.57|64.78

3|2017-09-01|Eastern|441.02|429.39|||85.94|69.36

4|2017-09-01|NorthEastern|29.11|15.91|||24.64|21.21

5|2017-09-02|Northern|624.23|507.42|30.36|35.69|273.27|317.19

6|2017-09-02|Western|"1|106.89"|"1|050.91"|25.17|3.83|72.0|23.97

7|2017-09-02|Southern|576.66|562.79|62.73|52.76|111.57|59.49

8|2017-09-02|Eastern|441.02|425.75|||85.94|74.18

9|2017-09-02|NorthEastern|29.11|16.50|||24.64|20.81

10|2017-09-03|Northern|624.23|492.69|30.36|35.65|273.27|316.69

11|2017-09-03|Western|"1|106.89"|"1|066.73"|25.17|3.8|72.0|13.94

12|2017-09-03|Southern|572.16|530.68|62.73|53.12|111.57

In [32]:
tb_elecindia = pd.read_csv('data/eletricidade_india.csv', 
                           sep = '|',
                           decimal = '.')
tb_elecindia.head()

Unnamed: 0,index,Date,Region,Thermal Generation Actual (in MU),Thermal Generation Estimated (in MU),Nuclear Generation Actual (in MU),Nuclear Generation Estimated (in MU),Hydro Generation Actual (in MU),Hydro Generation Estimated (in MU)
0,0,2017-09-01,Northern,624.23,484.21,30.36,35.57,273.27,320.81
1,1,2017-09-01,Western,1|106.89,1|024.33,25.17,3.81,72.0,21.53
2,2,2017-09-01,Southern,576.66,578.55,62.73,49.8,111.57,64.78
3,3,2017-09-01,Eastern,441.02,429.39,,,85.94,69.36
4,4,2017-09-01,NorthEastern,29.11,15.91,,,24.64,21.21


In [31]:
tb_elecindia.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4945 entries, 0 to 4944
Data columns (total 9 columns):
 #   Column                                Non-Null Count  Dtype  
---  ------                                --------------  -----  
 0   index                                 4945 non-null   int64  
 1   Date                                  4945 non-null   object 
 2   Region                                4945 non-null   object 
 3   Thermal Generation Actual (in MU)     4945 non-null   object 
 4   Thermal Generation Estimated (in MU)  4945 non-null   object 
 5   Nuclear Generation Actual (in MU)     2967 non-null   float64
 6   Nuclear Generation Estimated (in MU)  2967 non-null   float64
 7   Hydro Generation Actual (in MU)       4945 non-null   float64
 8   Hydro Generation Estimated (in MU)    4945 non-null   float64
dtypes: float64(4), int64(1), object(4)
memory usage: 347.8+ KB


Vamos utilizar os argumento `parse_dates` e `infer_datetime_format` para carregar corretamente o campo de data:

In [34]:
tb_elecindia = pd.read_csv('data/eletricidade_india.csv', 
                           sep = '|', 
                           decimal = '.',
                           parse_dates = ['Date'], 
                           infer_datetime_format = True)
tb_elecindia.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4945 entries, 0 to 4944
Data columns (total 9 columns):
 #   Column                                Non-Null Count  Dtype         
---  ------                                --------------  -----         
 0   index                                 4945 non-null   int64         
 1   Date                                  4945 non-null   datetime64[ns]
 2   Region                                4945 non-null   object        
 3   Thermal Generation Actual (in MU)     4945 non-null   object        
 4   Thermal Generation Estimated (in MU)  4945 non-null   object        
 5   Nuclear Generation Actual (in MU)     2967 non-null   float64       
 6   Nuclear Generation Estimated (in MU)  2967 non-null   float64       
 7   Hydro Generation Actual (in MU)       4945 non-null   float64       
 8   Hydro Generation Estimated (in MU)    4945 non-null   float64       
dtypes: datetime64[ns](1), float64(4), int64(1), object(3)
memory usage: 347.8+ 

In [36]:
tb_elecindia['Date'].describe()

  tb_elecindia['Date'].describe()


count                    4945
unique                    989
top       2017-09-01 00:00:00
freq                        5
first     2017-09-01 00:00:00
last      2020-08-01 00:00:00
Name: Date, dtype: object

## Importando arquivos de URLs

Muitas plataformas disponibilizam dados através de URLs - caso esses dados sejam arquivos delimitados, podemos utilizar a `pd.read_csv()` para importa-los diretamente.

Como não poderemos ler o arquivo via `.readlines()` precisamos buscar na plataforma a especificação do arquivo.

Exemplo: https://datasets.imdbws.com/

In [None]:
url_csv = 'https://datasets.imdbws.com/title.ratings.tsv.gz'
tb_imdbratings = pd.read_csv(url_csv, 
                             sep = '\t', 
                             encoding = 'utf-8', 
                             na_values = '\\N')

## Importando arquivos Excel

Podemos utilizar a função `pd.read_excel()` para ler arquivos Excel diretamente (sem precisar salvá-los como `.csv`).

Arquivos Excel tem o tipo da coluna determinado dentro do programa (numérico, data, string) e o Pandas importará essas definições. Além disso, podem conter mais que uma *aba*: para especificar qual aba queremos abrir utilizaremos o parâmetro `sheet_name` caso necessário.

Fonte: https://www.kaggle.com/sanjeetsinghnaik/most-expensive-footballers-2021

In [39]:
tb_futebol = pd.read_excel('data/Dados Jogadores Futebol.xlsx')
tb_futebol.head()

Unnamed: 0,Name,Position,Age,Markey Value In Millions(£),Country,Club,Matches,Goals,Own Goals,Assists,Yellow Cards,Second Yellow Cards,Red Cards,Number Of Substitute In,Number Of Substitute Out
0,Kylian Mbappé,Centre-Forward,22,1440,France,Paris Saint-Germain,16,7,0,11,3,0,0,0,8
1,Erling Haaland,Centre-Forward,21,1350,Norway,Borussia Dortmund,10,13,0,4,1,0,0,0,1
2,Harry Kane,Centre-Forward,28,1080,England,Tottenham Hotspur,16,7,0,2,2,0,0,2,2
3,Jack Grealish,Left Winger,26,900,England,Manchester City,15,2,0,3,1,0,0,2,8
4,Mohamed Salah,Right Winger,29,900,Egypt,Liverpool FC,15,15,0,6,1,0,0,0,3


In [40]:
tb_futebol.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 15 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   Name                         500 non-null    object
 1   Position                     500 non-null    object
 2   Age                          500 non-null    int64 
 3   Markey Value In Millions(£)  500 non-null    int64 
 4   Country                      500 non-null    object
 5   Club                         500 non-null    object
 6   Matches                      500 non-null    int64 
 7   Goals                        500 non-null    int64 
 8   Own Goals                    500 non-null    int64 
 9   Assists                      500 non-null    int64 
 10  Yellow Cards                 500 non-null    int64 
 11  Second Yellow Cards          500 non-null    int64 
 12  Red Cards                    500 non-null    int64 
 13  Number Of Substitute In      500 no

## Importando Google Sheets

Podemos importar planilhas do Google Sheet diretamente utilizando um *hack* simples através do URL de compartilhamento:
* substituir `/edit?usp=sharing` por `/export?format=csv`
    
(https://stackoverflow.com/questions/19611729/getting-google-spreadsheet-csv-into-a-pandas-dataframe)    

In [41]:
def read_from_gsheets(spreadsheet):
    """
    Transform url into csv 
    """
    working_spreadsheet = spreadsheet.replace('/edit?usp=sharing','/export?format=csv')
    
    return pd.read_csv(working_spreadsheet)

In [45]:
tb_fortune1000 = read_from_gsheets('https://docs.google.com/spreadsheets/d/1qfz8GgZbuNMI913YaCIcYHmMCHB1FCCnOLnk907ZwPM/edit?usp=sharing')

In [46]:
tb_fortune1000.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 19 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   rank                          1000 non-null   object 
 1   title                         1000 non-null   object 
 2   Previous Rank                 938 non-null    object 
 3   Revenues ($M)                 1000 non-null   object 
 4   Revenue Change                1000 non-null   object 
 5   Profits ($M)                  1000 non-null   object 
 6   Profit Change                 1000 non-null   object 
 7   Assets ($M)                   1000 non-null   object 
 8   Mkt Value as of 3/29/18 ($M)  1000 non-null   object 
 9   Employees                     1000 non-null   object 
 10  CEO                           1000 non-null   object 
 11  CEO Title                     1000 non-null   object 
 12  Sector                        1000 non-null   object 
 13  Indu

## Importando arquivos JSON

Arquivos JSON são uma forma comum de aplicações Web transferirem dados. Eles se parecem muito com dicionários e listas: são estruturas com `chaves` e `valores`:

JSON 1:
```json
{ "name":"John", "age":30, "car":null }
```

JSON 2: 
```json
{"students":[
   {"name":"Andre", "age":23, "state":"SP"},
   {"name":"Rodrigo", "age":28, "state":"SP"},
   {"name":"Raiana", "age":32, "state":"DF"},
   {"name":"Tieko", "age":28, "state":"BA"}
]}
```

Orientação de `records`, onde o JSON é uma lista de dicionários. Cada dicionário desta lista é uma linha da nossa tabela
```python
[
    {"coluna1" : valor, "coluna2" : valor},
    {"coluna1" : valor, "coluna2" : valor},
    {"coluna1" : valor, "coluna2" : valor},
    {"coluna1" : valor, "coluna2" : valor},
    {"coluna1" : valor, "coluna2" : valor},
]
```

Orientação de `index`, onde o JSON é um dicionário. Cada chave desse dicionário é uma linha de nossa tabela e guarda um outro dicionário com os dados da tabela referente àquela linha.
```python
{
    linha_1 : {"coluna1" : valor, "coluna2" : valor},
    linha_2 : {"coluna1" : valor, "coluna2" : valor},
    linha_3 : {"coluna1" : valor, "coluna2" : valor},
    linha_4 : {"coluna1" : valor, "coluna2" : valor},
}
```

In [47]:
tb_crypto = pd.read_json('data/crypto_data_records.json', orient = 'records') # orient informa a orientação do JSO
tb_crypto

Unnamed: 0,symbol,priceChange,priceChangePercent,weightedAvgPrice,prevClosePrice,lastPrice,lastQty,bidPrice,bidQty,askPrice,...,openPrice,highPrice,lowPrice,volume,quoteVolume,openTime,closeTime,firstId,lastId,count
0,ETHBTC,0.001984,2.462,0.080409,0.080578,0.082561,0.0263,0.082560,2.500,0.082561,...,0.080577,0.083190,0.077386,1.905975e+05,1.532574e+04,1638528754990,1638615154990,312788874,313313436,524563
1,LTCBTC,-0.000410,-11.360,0.003307,0.003609,0.003199,3.9800,0.003198,7.380,0.003199,...,0.003609,0.003631,0.003001,4.765519e+05,1.575992e+03,1638528754930,1638615154930,74253313,74378349,125037
2,BNBBTC,0.000384,3.506,0.011140,0.010955,0.011337,0.5880,0.011336,0.352,0.011337,...,0.010953,0.011743,0.010766,2.855011e+05,3.180430e+03,1638528754749,1638615154749,171165608,171442767,277160
3,NEOBTC,-0.000072,-10.926,0.000600,0.000660,0.000587,2.2100,0.000586,130.280,0.000588,...,0.000659,0.000674,0.000527,2.485804e+05,1.490870e+02,1638528753817,1638615153817,42499225,42516905,17681
4,QTUMETH,-0.000484,-15.068,0.002945,0.003210,0.002728,71.0000,0.002730,107.900,0.002737,...,0.003212,0.003340,0.002246,1.187975e+05,3.499137e+02,1638528750877,1638615150877,5088147,5092024,3878
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1813,SANDAUD,-1.804600,-19.462,7.820764,9.272600,7.468000,26.0000,7.429000,389.000,7.476500,...,9.272600,9.750000,6.200400,3.853750e+05,3.013927e+06,1638528754219,1638615154219,953,5339,4387
1814,SLPBIDR,-205.200000,-25.283,644.670000,811.600000,606.400000,150.0000,606.300000,2510.000,612.100000,...,811.600000,827.000000,500.000000,2.292469e+07,1.477887e+10,1638528733852,1638615133852,271,3190,2920
1815,ANYBTC,0.000051,18.023,0.000399,0.000000,0.000331,0.3100,0.000332,15.810,0.000336,...,0.000280,0.000937,0.000272,3.043959e+05,1.215819e+02,1638528755114,1638615155114,0,23608,23609
1816,ANYBUSD,0.610000,4.059,18.319224,0.000000,15.640000,1.0700,15.650000,62.750,15.800000,...,15.030000,40.000000,12.790000,4.474703e+05,8.197308e+06,1638528755046,1638615155046,0,26209,26210


In [48]:
tb_crypto = pd.read_json('data/crypto_data_index.json', orient = 'index') # orient informa a orientação do JSO
tb_crypto

Unnamed: 0,symbol,priceChange,priceChangePercent,weightedAvgPrice,prevClosePrice,lastPrice,lastQty,bidPrice,bidQty,askPrice,...,openPrice,highPrice,lowPrice,volume,quoteVolume,openTime,closeTime,firstId,lastId,count
0,ETHBTC,0.001984,2.462,0.080409,0.080578,0.082561,0.0263,0.082560,2.500,0.082561,...,0.080577,0.083190,0.077386,1.905975e+05,1.532574e+04,1638528754990,1638615154990,312788874,313313436,524563
1,LTCBTC,-0.000410,-11.360,0.003307,0.003609,0.003199,3.9800,0.003198,7.380,0.003199,...,0.003609,0.003631,0.003001,4.765519e+05,1.575992e+03,1638528754930,1638615154930,74253313,74378349,125037
2,BNBBTC,0.000384,3.506,0.011140,0.010955,0.011337,0.5880,0.011336,0.352,0.011337,...,0.010953,0.011743,0.010766,2.855011e+05,3.180430e+03,1638528754749,1638615154749,171165608,171442767,277160
3,NEOBTC,-0.000072,-10.926,0.000600,0.000660,0.000587,2.2100,0.000586,130.280,0.000588,...,0.000659,0.000674,0.000527,2.485804e+05,1.490870e+02,1638528753817,1638615153817,42499225,42516905,17681
4,QTUMETH,-0.000484,-15.068,0.002945,0.003210,0.002728,71.0000,0.002730,107.900,0.002737,...,0.003212,0.003340,0.002246,1.187975e+05,3.499137e+02,1638528750877,1638615150877,5088147,5092024,3878
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1813,SANDAUD,-1.804600,-19.462,7.820764,9.272600,7.468000,26.0000,7.429000,389.000,7.476500,...,9.272600,9.750000,6.200400,3.853750e+05,3.013927e+06,1638528754219,1638615154219,953,5339,4387
1814,SLPBIDR,-205.200000,-25.283,644.670000,811.600000,606.400000,150.0000,606.300000,2510.000,612.100000,...,811.600000,827.000000,500.000000,2.292469e+07,1.477887e+10,1638528733852,1638615133852,271,3190,2920
1815,ANYBTC,0.000051,18.023,0.000399,0.000000,0.000331,0.3100,0.000332,15.810,0.000336,...,0.000280,0.000937,0.000272,3.043959e+05,1.215819e+02,1638528755114,1638615155114,0,23608,23609
1816,ANYBUSD,0.610000,4.059,18.319224,0.000000,15.640000,1.0700,15.650000,62.750,15.800000,...,15.030000,40.000000,12.790000,4.474703e+05,8.197308e+06,1638528755046,1638615155046,0,26209,26210


## Lendo arquivos de uma pasta

Até agora vimos como abrir diferentes formatos de arquivo, sempre um por vez. Uma tarefa muito comum que encontraremos ao longo do curso (e da carreira) é importar diversos arquivos, com a mesma formatação, de uma vez só.

Para fazer isso utilizaremos a função `os.listdir()` para construir uma lista de nomes de arquivo e então carregaremos eles um por um.

In [49]:
import os
lista_arquivos = os.listdir('data/dados_censo/')
print(lista_arquivos)

['Basico_RJ.csv', 'Basico_BA.csv', 'Basico_SP2.csv', 'Basico_SP1.csv', 'Basico_MG.csv']


In [51]:
with open('data/dados_censo/Basico_BA.csv', 'rb') as file:
    file_lines = file.readlines(1000)
    for line in file_lines:
        print(line.decode('latin-1'))


Cod_setor;Cod_Grandes Regiões;Nome_Grande_Regiao;Cod_UF;Nome_da_UF ;Cod_meso;Nome_da_meso;Cod_micro;Nome_da_micro;Cod_RM;Nome_da_RM;Cod_municipio;Nome_do_municipio;Cod_distrito;Nome_do_distrito;Cod_subdistrito;Nome_do_subdistrito;Cod_bairro;Nome_do_bairro;Situacao_setor;Tipo_setor;V001;V002;V003;V004;V005;V006;V007;V008;V009;V010;V011;V012;

290010805000001;2;"Região Nordeste";29;"Bahia";2906;"Centro Sul Baiano";29023;"Seabra";00;"Municípios não pertencentes a estrutura de RM";2900108;"ABAÍRA";290010805;"ABAÍRA";29001080500;"ABAÍRA";2900108000;"ABAÍRA (todos os setores)";1;0;220;703;3,2;2,04;658,94;2059568;783,61;2353114,97;433,13;984885,48;654,56;1344341,37

290010805000002;2;"Região Nordeste";29;"Bahia";2906;"Centro Sul Baiano";29023;"Seabra";00;"Municípios não pertencentes a estrutura de RM";2900108;"ABAÍRA";290010805;"ABAÍRA";29001080500;"ABAÍRA";2900108000;"ABAÍRA (todos os setores)";1;0;138;402;2,91;2,08;860,93;1920981,89;900,06;1973474,79;530,12;951140,53;729,69;1164425,06

2900

In [52]:
lista_df_censo = []
for file in os.listdir('data/dados_censo/'):
    file_path = 'data/dados_censo/' + file
    lista_df_censo.append(pd.read_csv(file_path, sep = ";", decimal = ",", encoding = "latin-1"))

In [53]:
lista_df_censo[0].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27769 entries, 0 to 27768
Data columns (total 34 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Cod_setor            27769 non-null  int64  
 1   Cod_Grandes Regiões  27769 non-null  int64  
 2   Nome_Grande_Regiao   27769 non-null  object 
 3   Cod_UF               27769 non-null  int64  
 4   Nome_da_UF           27769 non-null  object 
 5   Cod_meso             27769 non-null  int64  
 6   Nome_da_meso         27769 non-null  object 
 7   Cod_micro            27769 non-null  int64  
 8   Nome_da_micro        27769 non-null  object 
 9   Cod_RM               27769 non-null  int64  
 10  Nome_da_RM           27769 non-null  object 
 11  Cod_municipio        27769 non-null  int64  
 12  Nome_do_municipio    27769 non-null  object 
 13  Cod_distrito         27769 non-null  int64  
 14  Nome_do_distrito     27769 non-null  object 
 15  Cod_subdistrito      27769 non-null 

## Exportando arquivos

Além de importar arquivos como DataFrames, a Pandas nos permite exportar DataFrames para arquivos.

### Exportando arquivos CSV

Para exportar um DataFrame para um arquivo `.csv` utilizaremos o método `.to_csv()`. Este método recebe argumentos muito semelhantes à função `pd.read_csv()`.

In [54]:
lista_df_censo[0].to_csv('data/tb_censo.csv', 
                         sep = ";", 
                         decimal = ",", 
                         encoding = 'utf-8')

**NOTA**: Se não utilizarmos o argumento `index=False`, o método criará uma coluna sem nome, na posição da primeira coluna, com os índices do DataFrame!

In [55]:
with open('data/tb_censo.csv', 'rb') as file:
    file_lines = file.readlines(1000)
    for line in file_lines:
        print(line.decode('utf-8'))

;Cod_setor;Cod_Grandes Regiões;Nome_Grande_Regiao;Cod_UF;Nome_da_UF ;Cod_meso;Nome_da_meso;Cod_micro;Nome_da_micro;Cod_RM;Nome_da_RM;Cod_municipio;Nome_do_municipio;Cod_distrito;Nome_do_distrito;Cod_subdistrito;Nome_do_subdistrito;Cod_bairro;Nome_do_bairro;Situacao_setor;Tipo_setor;V001;V002;V003;V004;V005;V006;V007;V008;V009;V010;V011;V012;Unnamed: 33

0;330010005000001;3;Região Sudeste;33;Rio de Janeiro;3305;Sul Fluminense;33013;Baía da Ilha Grande;0;Municípios não pertencentes a estrutura de RM;3300100;ANGRA DOS REIS;330010005;ANGRA DOS REIS;33001000500;ANGRA DOS REIS;3300100010;CENTRO;1;0;156,0;409,0;2,62;1,94;2356,8;5716056,06;2571,06;5684616,94;1565,37;4344465,56;2192,65;4711305,89;

1;330010005000002;3;Região Sudeste;33;Rio de Janeiro;3305;Sul Fluminense;33013;Baía da Ilha Grande;0;Municípios não pertencentes a estrutura de RM;3300100;ANGRA DOS REIS;330010005;ANGRA DOS REIS;33001000500;ANGRA DOS REIS;3300100010;CENTRO;1;0;57,0;143,0;2,51;1,5;2040,47;3020377,79;2236,67;2869054,77

#### Alterando o separador

Podemos utilizar a biblioteca Pandas para reformartar arquivos separados: carregamos utilizando um padrão e escrevemos utilizando outro:

In [57]:
tb_elecindia.to_csv('data/tb_elecindia_corrig.csv', 
                    sep = ",", 
                    decimal = ".", 
                    encoding = 'utf-8')

In [58]:
with open('data/tb_elecindia_corrig.csv', 'rb') as file:
    file_lines = file.readlines(1000)
    for line in file_lines:
        print(line.decode('utf-8'))

,index,Date,Region,Thermal Generation Actual (in MU),Thermal Generation Estimated (in MU),Nuclear Generation Actual (in MU),Nuclear Generation Estimated (in MU),Hydro Generation Actual (in MU),Hydro Generation Estimated (in MU)

0,0,2017-09-01,Northern,624.23,484.21,30.36,35.57,273.27,320.81

1,1,2017-09-01,Western,1|106.89,1|024.33,25.17,3.81,72.0,21.53

2,2,2017-09-01,Southern,576.66,578.55,62.73,49.8,111.57,64.78

3,3,2017-09-01,Eastern,441.02,429.39,,,85.94,69.36

4,4,2017-09-01,NorthEastern,29.11,15.91,,,24.64,21.21

5,5,2017-09-02,Northern,624.23,507.42,30.36,35.69,273.27,317.19

6,6,2017-09-02,Western,1|106.89,1|050.91,25.17,3.83,72.0,23.97

7,7,2017-09-02,Southern,576.66,562.79,62.73,52.76,111.57,59.49

8,8,2017-09-02,Eastern,441.02,425.75,,,85.94,74.18

9,9,2017-09-02,NorthEastern,29.11,16.50,,,24.64,20.81

10,10,2017-09-03,Northern,624.23,492.69,30.36,35.65,273.27,316.69

11,11,2017-09-03,Western,1|106.89,1|066.73,25.17,3.8,72.0,13.94

12,12,2017-09-03,Southern,572.16,530.68,

### Exportanto para Excel

Podemos utilizar o método `.to_excel()` para exportar um DataFrame para uma planilha de Excel. O único atributo importante é o `sheet_name`, onde determinamos o nome da aba na qual os dados serão escritos.

In [61]:
tb_crypto.to_excel('data/Tabela Crypto.xlsx', sheet_name = 'dados')

### Exportando para JSON

Para exportamos para JSON temos diferentes opções de orientação, acessadas através do parâmetro `orient`.

`'split'`: Dicionário contendo índices, colunas e dados

`'index'`: Dicionários de dicionários contendo {index:{column:value}}.

`'columns'`: Dicionários de dicionários contendo{column:{index:value}}

`'values'`: Lista de listas, onde cada sub-lista contém uma linha de nossa tabela

In [60]:
tb_oscsp.to_json('tb_oscsp.json', orient = 'index')