# Importando Dados

In [1]:
import pandas as pd
import numpy as np
import json

## Arquivos Separados por Vírgula

#### Arquivos CSV

In [2]:
artistas = pd.read_csv('spotify_artists.csv')
artistas

Unnamed: 0,name,followers,popularity,genres
0,Coldplay,29397183,90.0,"['permanent wave', 'pop']"
1,Ninho,4239063,84.0,"['french hip hop', 'pop urbaine']"
2,KEVVO,167419,75.0,"['perreo', 'reggaeton', 'reggaeton flow', 'tra..."
3,Olivia Rodrigo,1134117,89.0,"['alt z', 'pop', 'post-teen pop']"
4,Harry Styles,13439256,91.0,"['pop', 'post-teen pop']"


#### Arquivos TSV

In [3]:
# A função read_table é utilizada para ler arquivos .tsv
charts = pd.read_table('spotify_charts.tsv')
charts

Unnamed: 0,chart_week,position,track_name,artist,streams
0,2020-07-16,200,Como Llora,Juanfran,4534139
1,2020-07-23,1,ROCKSTAR (feat. Roddy Ricch),DaBaby,35694103
2,2020-07-23,2,Savage Love (Laxed - Siren Beat),Jawsh 685,33897676
3,2020-07-23,3,Blinding Lights,The Weeknd,30485774
4,2020-07-23,4,Watermelon Sugar,Harry Styles,26680752


In [4]:
# De modo alternativo, pode-se utilizar a função read_csv
# e especificar o delimitardor (\t) com o parametro delimiter
charts = pd.read_csv('spotify_charts.csv', delimiter='\t')
charts

Unnamed: 0,chart_week,position,track_name,artist,streams
0,2020-07-16,200,Como Llora,Juanfran,4534139
1,2020-07-23,1,ROCKSTAR (feat. Roddy Ricch),DaBaby,35694103
2,2020-07-23,2,Savage Love (Laxed - Siren Beat),Jawsh 685,33897676
3,2020-07-23,3,Blinding Lights,The Weeknd,30485774
4,2020-07-23,4,Watermelon Sugar,Harry Styles,26680752


## Planilhas do Excel (xls e xlsx)

In [None]:
# Em arquivos excel que possuem mais de uma planilha, 
# o comando abaixo importa o conteúdo apenas da primeira

df = pd.read_excel ('dados.xlsx')
df

In [None]:
# Para selecionar uma planilha específica do arquivo excel
# basta utilizar o parametro sheet_name e informar o nome da mesma

df = pd.read_excel ('dados.xlsx', sheet_name ='Vendas')
df

## JavaScript Object Notation (JSON)

In [None]:
# Para ler arquivos JSON, basta utilizar a função abaixo

tracks = pd.read_json('Michael_Jackson_tracks.json')
tracks

No entanto, a saída acima parece um pouco desajeitada, certo? 

Isso acontece pois este é um arquivo JSON aninhado, ou seja, ele possui vários níveis de pares [chave:valor]. O primeiro nível é a chave *__tracks__*, ou seja, cada linha do dataframe retornado é um valor para 'track'. Neste caso, não é possível transformar um arquivo JSON __aninhado__ diretamente em um dataframe, pois a função __*read_json*__ faz a leitura de strings JSON mais simples.

Para o nosso exemplo, a obtenção de um dataframe organizado demanda a divisão deste JSON aninhado. Para isso, a função *__json_normalize()__* é utilizada para ler a __STRING__ JSON aninhada e devolver um DataFrame.


In [None]:
# Primeiro Passo: ler a string JSON com a função json.loads() 
# da biblioteca JSON

with open('Michael_Jackson_tracks.json','r') as f:
    data = json.loads(f.read())

# Segundo Passo: passamos objeto JSON (data) para a função json_normalize()
# que retornará um DataFrame contendo os dados necessários.
# Para isso, é preciso informar o primeiro nível de chave (tracks)

tracks_df = pd.json_normalize(data['tracks'])

tracks_df           

A coluna __*artists*__ também é composta por mais um nível do arquivo json. Para melhor visualizar esta coluna, é preciso repetir o processo acima construindo um novo dataframe.

## Outros formatos

Além desses formatos, é possível carregar dados de XML e de bancos de dados.

## Conclusão

Este notebook apresentou como importar dados de diversos formatos para o pandas.

O próximo notebook ([3.2.Limpeza.ipynb](3.2.Limpeza.ipynb)) apresenta como fazer a limpeza dos dados.