In [None]:
### Importar Bibliotecas 

import pandas as pd
pd.set_option('display.max_columns', 6)

# Importando Dados

Agora que já conhecemos um pouco sobre as principais estruturas do Pandas (*Series e Dataframes*), agora é a vez de aprender a como **importar dados** para tais estruturas.

> Embora a criação de estruturas de dados de forma manual seja útil para determinadas aplicações ou até mesmo para rápidos testes e validações, na prática, a nossa fonte de 🎲🎲 normalmente será via enormes arquivos!

Em ciência de dados, muitos projetos obrigam seus cientistas a reunir uma miscelânea de padrões de fontes de dados, tais como **CSV**, **TSV**, **XLS**, **JSON**, ou outro formato. Assim, é crucial saber lidar com os principais formatos de dados em Python.

## Arquivos Texto - CSV

Um dos formatos **mais utilizados** é o CSV, que nada mais são que arquivos de texto **separados por vírgulas**. A figura abaixo mostra um arquivo CSV.

![Exemplo de Arquivo CSV](./img/CSV.png)

> **Como importar importar arquivos CSV utilizando o pandas?** 🤔

Simples! Basta segui os comandos abaixo:

In [None]:
spotify_Charts_df = pd.read_csv('./datasets/spotify_charts_complete.csv', sep=',')
spotify_Charts_df

<br>
⠀⠀⠀⠀⠀⠀⠀⠀⠀
⠀⠀⠀⠀⠀⠀⠀⠀⠀





⠀⠀⠀⠀⠀⠀⠀⠀⠀




⠀⠀⠀⠀⠀⠀⠀⠀⠀









⠀⠀⠀⠀⠀⠀⠀⠀⠀
⠀⠀⠀⠀⠀⠀⠀⠀⠀
⠀⠀⠀⠀⠀⠀⠀⠀⠀
⠀⠀⠀⠀⠀⠀⠀⠀⠀
⠀⠀⠀⠀⠀⠀⠀⠀⠀
⠀⠀⠀⠀⠀⠀⠀⠀⠀
⠀⠀⠀⠀⠀⠀⠀⠀⠀

⠀⠀⠀⠀⠀⠀⠀⠀⠀

⠀⠀⠀⠀⠀⠀⠀⠀⠀

⠀⠀⠀⠀⠀⠀⠀⠀⠀

⠀⠀⠀⠀⠀⠀⠀⠀⠀




<br>


### Erro na Linha 46: ❌


Note que nós temos **seis** colunas do arquivo de entrada: 
- chart_week
- position
- track_name
- artist
- streams
- song_id

> **Como o Pandas está enxergando a linha: 46** 🔎

 _2020-01-02$\color{#ff0000}{,}$45$\color{#ff0000}{,}$10$\color{#ff0000}{,}$**000 Hours (with Justin Bieber)**$\color{#ff0000}{,}$Dan + Shay$\color{#ff0000}{,}$10360035$\color{#ff0000}{,}$2wrJq5XKLnmhRXHIAf9xBa_

> **Como o Pandas deveria enxergar:** 👀

 _2020-01-02$\color{#ff0000}{,}$45$\color{#ff0000}{,}$**10,000 Hours (with Justin Bieber)**$\color{#ff0000}{,}$Dan + Shay$\color{#ff0000}{,}$10360035$\color{#ff0000}{,}$2wrJq5XKLnmhRXHIAf9xBa_
 
Erro de **tokenização** é um problema muito comum quando lidamos com arquivos CSV. 

> **Como resolver esse problema?** 🤔

Neste caso, para que esse tipo de erro seja evitado, teríamos que **escapar todas as Strings usando aspas (')**. Desta forma, todas as vírgulas de campos textuais não serão consideradas como separador de campo. Ou seja, todas as linhas do arquivo deveriam se parecer com:

_'2020-01-02',45,**'10,000 Hours (with Justin Bieber)'**,**'Dan + Shay'**,10360035,2wrJq5XKLnmhRXHIAf9xBa_

> Embora não seja necessário, é comum que todos os campos de arquivos CSVs sejam escapados por aspas, não se limitando apenas aos campos textuais! 🤓

#### Leitura sem erro

In [None]:
spotify_Charts_df = pd.read_csv('./datasets/spotify_charts_complete_Line45.csv', sep=',')
spotify_Charts_df.head()

## Arquivos Texto - TSV

Uma alternativa aos arquivos CSV, são os arquivos TSV (valores separados por tabulação). Neste tipo de arquivo, como o delimitador de campo é uma **tabulação**, não deparamos com o problema de tokenização. 

A figura abaixo mostra um arquivo TSV.

![Exemplo de Arquivo TSV](./img/TSV.png)

 A leitura deste tipo de arquivo é feita utilizando a mesma função **read_csv**. No entanto, precisamos especificar que o separador é a tabulação (\t). 
 
 > ⚠️ Se não for especificado o delimitador, o python retornará um erro de **Parser**.

In [None]:
spotify_Charts_df = pd.read_csv('./datasets/spotify_charts_complete.tsv', sep='\t')
spotify_Charts_df.head()

> 💡 Uma função alternativa para a leitura de arquivos deste tipo é a **read_table()**

Neste caso, não é necessário o uso de outros parâmetros.

In [None]:
# A função read_table é utilizada para ler arquivos .tsv
charts = pd.read_table('./datasets/spotify_charts_complete.tsv')
charts.head()

## Arquivos de Planilhas - XLS

Outro formato bastante popular são os arquivos que já se encontram em estrutura tabulares, tais como arquivos do Microsoft Excel. A figura abaixo mostra um arquivo XLS.

![Exemplo de Arquivo XLS](./img/XLSX.png)

O pandas possui a função **read_excel(‘arquivo.xlsx’)** para efetuar a leitura de arquivos em formato de planilhas eletrônicas.

> ⚠️ Para a importação de uma **planilha específica** em um mesmo arquivo (uma **aba**), é preciso utilizar o parâmetro **sheet_name**.

Na figura acima, o arquivo chamado ‘dados.xlsx’ possui duas abas: _**spotify_artists**_ e _**spotify_charts**_. 

Para importar apenas o conteúdo da segunda aba (**spotify_charts**) do arquivo dados.xlsx, programa-se: 

In [None]:
spotify_charts = pd.read_excel ('./datasets/dados.xlsx', sheet_name='spotify_charts')
spotify_charts.head()

#### ⚠️ Caso o `sheet_name` não seja especificado, importa-se a primeira aba.

In [None]:
spotify_artists = pd.read_excel ('./datasets/dados.xlsx')
spotify_artists.head()

## Arquivos JSON (JavaScript Object Notation)

Um arquivo JSON armazena estruturas de dados simples, além de serem leves, textuais, legíveis por humanos e editáveis com editor de texto. Arquivos JSON representam dados com o conceito de chave e valor:

cada valor tem uma chave que descreve seu significado. Por exemplo, o par de _**chave:valor**_ **name:‘Michael Jackson’** representa o artista ‘Michael Jackson’. A figura abaixo mostra um trecho de um arquivo JSON.

![Exemplo de Arquivo JSON](./img/JSON.png)

> 💡  Note que é possível compreender os dados, e alterá-los utilizando um editor de texto.


Para importar arquivos JSON, o pandas tem a função **read_json()**, com funcionamento similar às anteriores.

In [None]:
tracks = pd.read_json('./datasets/Michael_Jackson_tracks.json')
tracks.head()

No entanto, a saída acima parece um pouco desajeitada, certo? 🤔

Isso acontece pois este é um arquivo **JSON aninhado**, ou seja, ele possui vários níveis de pares [chave:valor]. 

O primeiro nível é a chave _**tracks**_, ou seja, cada linha do dataframe retornado é um valor para 'track'. Neste caso, não é possível transformar um arquivo JSON __aninhado__ diretamente em um dataframe, pois a função __*read_json*__ faz a leitura de strings JSON mais simples.

Para o nosso exemplo, a obtenção de um dataframe organizado demanda a divisão deste JSON aninhado. Para isso, a função *__json_normalize()__* é utilizada para ler a __STRING__ JSON aninhada e devolver um DataFrame.


In [None]:
# Precisamos importar a biblioteca JSON
import json

#### Primeiro Passo:
ler a string JSON com a função **json.loads()** da biblioteca JSON

In [None]:
with open('./datasets/Michael_Jackson_tracks.json','r') as f:
    data = json.loads(f.read())

#### Segundo Passo: 

Passamos o objeto JSON (data) para a função **json_normalize()** que retornará um DataFrame contendo os dados necessários. Para isso, é preciso informar o primeiro nível de chave (_tracks_)

In [None]:
tracks_df = pd.json_normalize(data['tracks'])

tracks_df.head()    

A coluna __*artists*__ também é composta por mais um nível do arquivo json. 

Para melhor visualizar esta coluna, é preciso repetir o processo acima construindo um novo dataframe, no entanto é preciso informar a linha que se deseja recuperar.

In [None]:
artist_df = pd.json_normalize(data['tracks'][0]['artists'])

artist_df.head()    

## Outros formatos

Além desses formatos, é possível carregar dados de XML e de bancos de dados.

In [1]:
# Primeiro, importa o driver para o MySQL
import mysql.connector

# O seguinte código faz a conexão:
conn = mysql.connector.connect(user='jai',              # Seu User
                                password='senha',       # Sua senha
                                host='127.0.0.1',       # Endereço do servidor
                                database='jusbd')       # Base de Dados

# Criar um cursor
cursor = conn.cursor()

# Elabora uma consulta
query = ("SELECT * from orgão limit 10")

# Executa a consulta
cursor.execute(query)

# Exibe o resultado da consulta
for l in cursor.fetchall():
    print(l)

# Fecha o cursor
cursor.close()
# Fecha a conexão
conn.close()

(1, 'TJSE')
(2, 'TRIBUNAL DE JUSTICA DO ESTADO DE GOIAS')
(3, 'TJPR')
(4, 'TRIBUNAL DE JUSTIÇA DO ESTADO DE MATO GROSSO')
(5, 'TJ-TO')
(6, 'JFTO')
(7, 'JFMG')
(8, 'Poder Judiciário do RN')
(9, 'TRIBUNAL DE JUSTIÇA DO ESTADO DO PIAUÍ')
(10, 'TRIBUNAL DE JUSTICA DO ESTADO DO CEARA')


## Conclusão

Este notebook apresentou como importar dados de diversos formatos para o pandas.

> 🔎 **Se interessou?** Dê uma olhada na documentação da biblioteca *pandas* para informações extras sobre leitura de dados:
[IO Tools](https://pandas.pydata.org/docs/user_guide/io.html)

---

O próximo notebook ([3.2.Limpeza.ipynb](3.2.Limpeza.ipynb)) apresenta como fazer a limpeza dos dados.