## Reading CSV and TXT files

Em vez de criar estruturas de `Series` ou `DataFrame`s do zero, ou até mesmo a partir de sequências básicas do Python ou `ndarrays`, o uso mais típico do **pandas** é baseado no carregamento de informações de arquivos ou fontes de informação para posterior exploração, transformação e análise.

In [1]:
import pandas as pd

### Reading data with Python


Quando você deseja trabalhar com um arquivo, a primeira coisa a fazer é abri-lo. Isso é feito invocando a função integrada `open()`.

`open()` tem um único argumento obrigatório que é o caminho para o arquivo e tem um único retorno, o objeto de arquivo.

A declaração `with` cuida automaticamente de fechar o arquivo assim que ele sai do bloco `with`, mesmo em casos de erro.

In [3]:
filepath = 'data/btc-market-price.csv'

with open(filepath, 'r') as reader:
    print(reader)

<_io.TextIOWrapper name='data/btc-market-price.csv' mode='r' encoding='cp1252'>


Assim que o arquivo estiver aberto, podemos ler o seu conteúdo fazendo o seguinte:

In [4]:
filepath = 'data/btc-market-price.csv'

with open(filepath, 'r') as reader:
    for index, line in enumerate(reader.readlines()):
        # ler apenas as primeiras 10 linhas
        if (index < 10):
            print(index, line)

0 2017-04-02 00:00:00,1099.169125

1 2017-04-03 00:00:00,1141.813

2 2017-04-04 00:00:00,1141.6003625

3 2017-04-05 00:00:00,1133.0793142857142

4 2017-04-06 00:00:00,1196.3079375

5 2017-04-07 00:00:00,1190.45425

6 2017-04-08 00:00:00,1181.1498375

7 2017-04-09 00:00:00,1208.8005

8 2017-04-10 00:00:00,1207.744875

9 2017-04-11 00:00:00,1226.6170375



### Reading data with Pandas

Provavelmente um dos tipos mais recorrentes de trabalho para análise de dados: fontes de dados públicas, logs, tabelas de informações históricas, exportações de bancos de dados. Dessa forma, a biblioteca pandas nos oferece funções para ler e escrever arquivos em vários formatos como CSV, JSON, XML e XLSX do Excel, todos eles criando um DataFrame com as informações lidas do arquivo.

Vamos aprender como ler diferentes tipos de dados, incluindo:

- Arquivos CSV (.csv)
- Arquivos de texto puro (.txt)
- Dados JSON de um arquivo e de uma API
- Dados de uma consulta SQL em um banco de dados

Há muitas outras funções de leitura disponíveis, conforme a seguinte tabela mostra:

![Data](img/data.png)

### Reading our first CSV file

Toda vez que chamamos o método `read_csv`, precisaremos passar um parâmetro de caminho explícito indicando o caminho onde nosso arquivo CSV está.

Qualquer caminho de string válido é aceitável. A string pode ser um URL. Os esquemas de URL válidos incluem HTTP, FTP, S3 e file. Para URLs de arquivo, um host é esperado. Um arquivo local poderia ser: file://localhost/caminho/para/tabela.csv.

Por exemplo, podemos usar o método `read_csv` para carregar dados diretamente de uma URL:

In [5]:
csv_url = "https://raw.githubusercontent.com/datasets/gdp/master/data/gdp.csv"

pd.read_csv(csv_url).head()

Unnamed: 0,Country Name,Country Code,Year,Value
0,Arab World,ARB,1968,25760680000.0
1,Arab World,ARB,1969,28434200000.0
2,Arab World,ARB,1970,31385500000.0
3,Arab World,ARB,1971,36426910000.0
4,Arab World,ARB,1972,43316060000.0


Ou apenas usar um arquivo local:

In [7]:
df = pd.read_csv('data/btc-market-price.csv')

df.head()

Unnamed: 0,2017-04-02 00:00:00,1099.169125
0,2017-04-03 00:00:00,1141.813
1,2017-04-04 00:00:00,1141.600363
2,2017-04-05 00:00:00,1133.079314
3,2017-04-06 00:00:00,1196.307937
4,2017-04-07 00:00:00,1190.45425


Neste caso, permitimos que o pandas infira tudo relacionado aos nossos dados, mas na maioria dos casos precisaremos dizer explicitamente ao pandas como queremos que nossos dados sejam carregados. Para fazer isso, usamos parâmetros.

### First row behavior with `header` parameter

O arquivo CSV que estamos lendo possui apenas duas colunas: `Timestamp` e `Price`. Ele não tem um cabeçalho. O Pandas automaticamente atribuiu a primeira linha de dados como cabeçalhos, o que está incorreto. Podemos sobrescrever esse comportamento com o parâmetro `header`.

In [10]:
df = pd.read_csv('data/btc-market-price.csv', header=None)
df.head()

Unnamed: 0,0,1
0,2017-04-02 00:00:00,1099.169125
1,2017-04-03 00:00:00,1141.813
2,2017-04-04 00:00:00,1141.600363
3,2017-04-05 00:00:00,1133.079314
4,2017-04-06 00:00:00,1196.307937


### Missing values with `na_values` parameter

Podemos definir um parâmetro `na_values` com os valores que queremos que sejam reconhecidos como NA/NaN. Neste caso, strings vazias `''`, `?` e `-` serão reconhecidas como valores nulos.

In [12]:
df = pd.read_csv('data/btc-market-price.csv', header=None, na_values=['', '?', '-'])
df.head()

Unnamed: 0,0,1
0,2017-04-02 00:00:00,1099.169125
1,2017-04-03 00:00:00,1141.813
2,2017-04-04 00:00:00,1141.600363
3,2017-04-05 00:00:00,1133.079314
4,2017-04-06 00:00:00,1196.307937


### Column names using `names` parameter

Iremos adicionar nomes as colunas usando o parâmetro `names`.

In [14]:
df = pd.read_csv('data/btc-market-price.csv',
                 header=None,
                 na_values=['', '?', '-'],
                 names=['Timestamp', 'Price'])

df.head()

Unnamed: 0,Timestamp,Price
0,2017-04-02 00:00:00,1099.169125
1,2017-04-03 00:00:00,1141.813
2,2017-04-04 00:00:00,1141.600363
3,2017-04-05 00:00:00,1133.079314
4,2017-04-06 00:00:00,1196.307937


### Column types using `dtype` parameter

Sem usar o parâmetro `dtype`, o pandas tentará determinar automaticamente o tipo de cada coluna. Podemos usar o parâmetro `dtype` para forçar o pandas a usar certo dtype.

Neste caso, vamos forçar a coluna `Price` a ser `float`.

In [16]:
df = pd.read_csv('data/btc-market-price.csv',
                 header=None,
                 na_values=['', '?', '-'],
                 names=['Timestamp', 'Price'],
                 dtype={'Price': 'float'})

df.head()

Unnamed: 0,Timestamp,Price
0,2017-04-02 00:00:00,1099.169125
1,2017-04-03 00:00:00,1141.813
2,2017-04-04 00:00:00,1141.600363
3,2017-04-05 00:00:00,1133.079314
4,2017-04-06 00:00:00,1196.307937


### Date parser using `parse_dates` parameter

Outra maneira de lidar com objetos de data e hora é usando o parâmetro `parse_dates` com a posição das colunas com datas.

In [18]:
df = pd.read_csv('data/btc-market-price.csv',
                 header=None,
                 na_values=['', '?', '-'],
                 names=['Timestamp', 'Price'],
                 dtype={'Price': 'float'},
                 parse_dates=[0])

df.head()

Unnamed: 0,Timestamp,Price
0,2017-04-02,1099.169125
1,2017-04-03,1141.813
2,2017-04-04,1141.600363
3,2017-04-05,1133.079314
4,2017-04-06,1196.307937


### Adding index to our data using `index_col` parameter

Por padrão, o pandas atribuirá automaticamente um índice numérico incremental ou rótulo de linha começando com zero. No entanto, é possível substituir o comportamento padrão definindo a propriedade `index_col` para uma coluna.

Em nossos dados, estamos escolhendo a primeira coluna, `Timestamp`, como índice (index=0) passando zero para o argumento `index_col`.

In [20]:
df = pd.read_csv('data/btc-market-price.csv',
                 header=None,
                 na_values=['', '?', '-'],
                 names=['Timestamp', 'Price'],
                 dtype={'Price': 'float'},
                 parse_dates=[0],
                 index_col=[0])

df.head()

Unnamed: 0_level_0,Price
Timestamp,Unnamed: 1_level_1
2017-04-02,1099.169125
2017-04-03,1141.813
2017-04-04,1141.600363
2017-04-05,1133.079314
2017-04-06,1196.307937
