# Importando Dados

In [10]:
### Importar Bibliotecas 

import pandas as pd
pd.set_option('display.max_columns', 6)

## Arquivos Separados por Vírgula

Em ciência de dados, muitos projetos obrigam seus cientistas a reunir uma miscelânea de padrões de fontes de dados, tais como **CSV**, **TSV**, **XLS**, **JSON**, ou outro formato. Assim, é crucial saber lidar com os principais formatos de dados em Python.

## Arquivos Texto - CSV

Um dos formatos mais utilizados é o CSV, que são arquivos de texto separados por vírgulas. A figura abaixo mostra um arquivo CSV.

![Exemplo de Arquivo CSV](./img/CSV.png)

Para importar arquivos CSV utilizando o pandas, basta segui os comandos abaixo:

In [8]:
spotify_Charts_df = pd.read_csv('./datasets/spotify_charts_complete.csv', sep=',')
spotify_Charts_df

ParserError: Error tokenizing data. C error: Expected 6 fields in line 46, saw 7


#### Linha 46:

chart_week, position, track_name, artist, streams, song_id

_2020-01-02,45,10,000 Hours (with Justin Bieber),Dan + Shay,10360035,2wrJq5XKLnmhRXHIAf9xBa_

Erro de **tokenização** é um problema muito comum quando lidamos com arquivos CSV. Neste caso, para que esse tipo de erro seja evitado, teríamos que escapar todas as Strings com aspas. Desta forma, todas as vírgulas de campos textuais não serão consideradas como separador de campo. Ou seja, todas as linhas do arquivo deveriam se parecer com:

_2020-01-02,45,**'10,000 Hours (with Justin Bieber)'**,**'Dan + Shay'**,10360035,2wrJq5XKLnmhRXHIAf9xBa_

#### Leitura sem erro

In [10]:
spotify_Charts_df = pd.read_csv('./datasets/spotify_charts_complete_Line45.csv', sep=',')
spotify_Charts_df.head()

Unnamed: 0,chart_week,position,track_name,artist,streams,song_id
0,2020-01-02,1,Dance Monkey,Tones And I,50183626,1rgnBhdG2JDFTbYkYRZAku
1,2020-01-02,2,ROXANNE,Arizona Zervas,33254585,696DnlkuDOXcMAnKlTgXXK
2,2020-01-02,3,Tusa,KAROL G,29349573,7k4t7uLgtOxPwTpFmtJNTY
3,2020-01-02,4,Memories,Maroon 5,26067853,2b8fOow8UzyDFAE27YhOZM
4,2020-01-02,5,Falling,Trevor Daniel,25901488,4TnjEaWOeW0eKTKIEvJyCa


## Arquivos Texto - TSV

Uma alternativa aos arquivos CSV, são os arquivos TSV (separados por tabulação). Neste tipo de arquivo, como o delimitador de campo é uma **tabulação**, não deparamos com o problema de tokenização. A figura abaixo mostra um arquivo TSV.

![Exemplo de Arquivo TSV](./img/TSV.png)

A leitura deste tipo de arquivo é feita utilizando a mesma função **read_csv**. No entanto, precisamos especificar que o separador é a tabulação (\t). Caso contrário, o python retornará um erro de **Parser**.

In [15]:
spotify_Charts_df = pd.read_csv('./datasets/spotify_charts_complete.tsv', sep='\t')
spotify_Charts_df.head()

Unnamed: 0,chart_week,position,track_name,artist,streams,song_id
0,2020-01-02,1,Dance Monkey,Tones And I,50183626,1rgnBhdG2JDFTbYkYRZAku
1,2020-01-02,2,ROXANNE,Arizona Zervas,33254585,696DnlkuDOXcMAnKlTgXXK
2,2020-01-02,3,Tusa,KAROL G,29349573,7k4t7uLgtOxPwTpFmtJNTY
3,2020-01-02,4,Memories,Maroon 5,26067853,2b8fOow8UzyDFAE27YhOZM
4,2020-01-02,5,Falling,Trevor Daniel,25901488,4TnjEaWOeW0eKTKIEvJyCa


Uma função alternativa para a leitura de arquivos deste tipo é a **read_table()**

Neste caso, não é necessário o uso de outros parâmetros.

In [13]:
# A função read_table é utilizada para ler arquivos .tsv
charts = pd.read_table('./datasets/spotify_charts_complete.tsv')
charts.head()

Unnamed: 0,chart_week,position,track_name,artist,streams,song_id
0,2020-01-02,1,Dance Monkey,Tones And I,50183626,1rgnBhdG2JDFTbYkYRZAku
1,2020-01-02,2,ROXANNE,Arizona Zervas,33254585,696DnlkuDOXcMAnKlTgXXK
2,2020-01-02,3,Tusa,KAROL G,29349573,7k4t7uLgtOxPwTpFmtJNTY
3,2020-01-02,4,Memories,Maroon 5,26067853,2b8fOow8UzyDFAE27YhOZM
4,2020-01-02,5,Falling,Trevor Daniel,25901488,4TnjEaWOeW0eKTKIEvJyCa


## Arquivos de Planilhas - XLS

Outro formato bastante popular são os arquivos que já se encontram em estrutura tabulares, tais como arquivos do Microsoft Excel. A figura abaixo mostra um arquivo XLS.

![Exemplo de Arquivo XLS](./img/XLSX.png)

O pandas possui a função **read_excel(‘arquivo.xlsx’)** para efetuar a leitura de arquivos em formato de planilhas eletrônicas.

Para a importação de uma **planilha específica** em um mesmo arquivo (uma **aba**), é preciso utilizar o parâmetro _**sheet_name**_. 

Na figura acima, o arquivo chamado ‘dados.xlsx’ possui duas abas: _**spotify_artists**_ e _**spotify_charts**_. 

Para importar apenas o conteúdo da segunda aba **spotify_charts** do arquivo dados.xlsx, programa-se: 

In [18]:
spotify_charts = pd.read_excel ('./datasets/dados.xlsx', sheet_name='spotify_charts')
spotify_charts.head()

Unnamed: 0,chart_week,position,track_name,artist,streams,song_id
0,2020-01-02,1,Dance Monkey,Tones And I,50183626,1rgnBhdG2JDFTbYkYRZAku
1,2020-01-02,2,ROXANNE,Arizona Zervas,33254585,696DnlkuDOXcMAnKlTgXXK
2,2020-01-02,3,Tusa,KAROL G,29349573,7k4t7uLgtOxPwTpFmtJNTY
3,2020-01-02,4,Memories,Maroon 5,26067853,2b8fOow8UzyDFAE27YhOZM
4,2020-01-02,5,Falling,Trevor Daniel,25901488,4TnjEaWOeW0eKTKIEvJyCa


#### Caso o sheet_name não seja especificado, importa-se a primeira aba.

In [17]:
spotify_artists = pd.read_excel ('./datasets/dados.xlsx')
spotify_artists.head()

Unnamed: 0,artist_id,name,followers,popularity,genres,image_url
0,4gzpq5DPGxSnKTe4SA8HAU,Coldplay,29397183,90,"['permanent wave', 'pop']",https://i.scdn.co/image/4ffd6710617d289699cc0d...
1,6Te49r3A6f5BiIgBRxH7FH,Ninho,4239063,84,"['french hip hop', 'pop urbaine']",https://i.scdn.co/image/ab67616d0000b2733f12b1...
2,4QrBoWLm2WNlPdbFhmlaUZ,KEVVO,167419,75,"['perreo', 'reggaeton', 'reggaeton flow', 'tra...",https://i.scdn.co/image/9a75b11e5080f576bdff76...
3,1McMsnEElThX1knmY4oliG,Olivia Rodrigo,1134117,89,"['alt z', 'pop', 'post-teen pop']",https://i.scdn.co/image/5fb1f691c5d3cdbc54e193...
4,6KImCVD70vtIoJWnq6nGn3,Harry Styles,13439256,91,"['pop', 'post-teen pop']",https://i.scdn.co/image/b2163e7456f3d618a0e2a4...


## Arquivos JSON (JavaScript Object Notation)

Um arquivo JSON armazena estruturas de dados simples, além de serem leves, textuais, legíveis por humanos e editáveis com editor de texto. Arquivos JSON representam dados com o conceito de chave e valor:

cada valor tem uma chave que descreve seu significado. Por exemplo, o par de _**chave:valor**_ **name:‘Michael Jackson’** representa o artista ‘Michael Jackson’. A figura abaixo mostra um trecho de um arquivo JSON.

![Exemplo de Arquivo JSON](./img/JSON.png)

Note que é possível compreender os dados, e alterá-los utilizando um editor de texto.


Para importar arquivos JSON, o pandas tem a função **read_json()**, com funcionamento similar às anteriores.

In [19]:
tracks = pd.read_json('./datasets/Michael_Jackson_tracks.json')
tracks.head()

Unnamed: 0,tracks
0,"{'album': {'album_type': 'album', 'artists': [..."
1,"{'album': {'album_type': 'album', 'artists': [..."
2,"{'album': {'album_type': 'album', 'artists': [..."
3,"{'album': {'album_type': 'album', 'artists': [..."
4,"{'album': {'album_type': 'album', 'artists': [..."


No entanto, a saída acima parece um pouco desajeitada, certo? 

Isso acontece pois este é um arquivo **JSON aninhado**, ou seja, ele possui vários níveis de pares [chave:valor]. 

O primeiro nível é a chave *__tracks__*, ou seja, cada linha do dataframe retornado é um valor para 'track'. Neste caso, não é possível transformar um arquivo JSON __aninhado__ diretamente em um dataframe, pois a função __*read_json*__ faz a leitura de strings JSON mais simples.

Para o nosso exemplo, a obtenção de um dataframe organizado demanda a divisão deste JSON aninhado. Para isso, a função *__json_normalize()__* é utilizada para ler a __STRING__ JSON aninhada e devolver um DataFrame.


In [20]:
# Precisamos importar a biblioteca JSON
import json

#### Primeiro Passo:
ler a string JSON com a função **json.loads()** da biblioteca JSON

In [21]:
with open('./datasets/Michael_Jackson_tracks.json','r') as f:
    data = json.loads(f.read())

#### Segundo Passo: 

Passamos o objeto JSON (data) para a função **json_normalize()** que retornará um DataFrame contendo os dados necessários. Para isso, é preciso informar o primeiro nível de chave (_tracks_)

In [22]:
tracks_df = pd.json_normalize(data['tracks'])

tracks_df.head()    

Unnamed: 0,artists,disc_number,duration_ms,...,album.uri,external_ids.isrc,external_urls.spotify
0,[{'external_urls': {'spotify': 'https://open.s...,1,293826,...,spotify:album:1C2h7mLntPSeVYciMRTF4a,USSM19902991,https://open.spotify.com/track/5ChkMS8OtdzJeqy...
1,[{'external_urls': {'spotify': 'https://open.s...,1,258040,...,spotify:album:1C2h7mLntPSeVYciMRTF4a,USSM19902990,https://open.spotify.com/track/1OOtq8tRnDM8kG2...
2,[{'external_urls': {'spotify': 'https://open.s...,1,257760,...,spotify:album:24TAupSNVWSAHL0R7n71vm,USSM11204989,https://open.spotify.com/track/2bCQHF9gdG5BNDV...
3,[{'external_urls': {'spotify': 'https://open.s...,1,365466,...,spotify:album:2ZytN2cY4Zjrr9ukb2rqTP,USSM17900816,https://open.spotify.com/track/46eu3SBuFCXWsPT...
4,[{'external_urls': {'spotify': 'https://open.s...,1,220626,...,spotify:album:2ZytN2cY4Zjrr9ukb2rqTP,USSM17900817,https://open.spotify.com/track/7oOOI85fVQvVnK5...


A coluna __*artists*__ também é composta por mais um nível do arquivo json. 

Para melhor visualizar esta coluna, é preciso repetir o processo acima construindo um novo dataframe, no entanto é preciso informar a linha que se deseja recuperar.

In [35]:
artist_df = pd.json_normalize(data['tracks'][0]['artists'])

artist_df.head()    

Unnamed: 0,href,id,name,type,uri,external_urls.spotify
0,https://api.spotify.com/v1/artists/3fMbdgg4jU1...,3fMbdgg4jU18AjLCKBhRSm,Michael Jackson,artist,spotify:artist:3fMbdgg4jU18AjLCKBhRSm,https://open.spotify.com/artist/3fMbdgg4jU18Aj...


## Outros formatos

Além desses formatos, é possível carregar dados de XML e de bancos de dados.

In [9]:
# Primeiro, importa o driver para o MySQL
import mysql.connector

# O seguinte código faz a conexão:
conn = mysql.connector.connect(user='jai',              # Seu User
                                password='jupyter',     # Sua senha
                                host='127.0.0.1',       # Endereço do servidor
                                database='jusbd')       # Base de Dados

# Criar um cursor
cursor = conn.cursor()

# Elabora uma consulta
query = ("SELECT * from orgão limit 10")

# Executa a consulta
cursor.execute(query)

# Exibe o resultado da consulta
for l in cursor.fetchall():
    print(l)

# Fecha o cursor
cursor.close()
# Fecha a conexão
conn.close()

(1, 'TJSE')
(2, 'TRIBUNAL DE JUSTICA DO ESTADO DE GOIAS')
(3, 'TJPR')
(4, 'TRIBUNAL DE JUSTIÇA DO ESTADO DE MATO GROSSO')
(5, 'TJ-TO')
(6, 'JFTO')
(7, 'JFMG')
(8, 'Poder Judiciário do RN')
(9, 'TRIBUNAL DE JUSTIÇA DO ESTADO DO PIAUÍ')
(10, 'TRIBUNAL DE JUSTICA DO ESTADO DO CEARA')


## Conclusão

Este notebook apresentou como importar dados de diversos formatos para o pandas.

O próximo notebook ([3.2.Limpeza.ipynb](3.2.Limpeza.ipynb)) apresenta como fazer a limpeza dos dados.