# Importando Dados

In [1]:
import pandas as pd
import numpy as np
import json

## Arquivos Separados por Vírgula

#### Arquivos CSV

In [2]:

medalhas = pd.read_csv('medalhas.csv')
medalhas

Unnamed: 0,Medalhas,Pontuação,Nº Atletas,Média de Idade,Média de Peso
0,Bronze,200,10,22,56
1,Prata,350,20,25,58
2,Ouro,550,30,28,61


#### Arquivos TSV

In [3]:
# A função read_table é utilizada para ler arquivos .tsv
iris = pd.read_table('iris.tsv')
iris

Unnamed: 0,Comprimento da sépala,Largura da sépala,Comprimento da pétala,Largura da pétala,Espécie
0,51,35,14,2,I. setosa
1,49,30,14,2,I. setosa
2,47,32,13,2,I. setosa
3,46,31,15,2,I. setosa
4,50,36,14,2,I. setosa


In [4]:
# De modo alternativo, pode-se utilizar a função read_csv
# e especificar o delimitardor (\t) com o parametro delimiter
iris = pd.read_csv('iris.tsv', delimiter='\t')
iris

Unnamed: 0,Comprimento da sépala,Largura da sépala,Comprimento da pétala,Largura da pétala,Espécie
0,51,35,14,2,I. setosa
1,49,30,14,2,I. setosa
2,47,32,13,2,I. setosa
3,46,31,15,2,I. setosa
4,50,36,14,2,I. setosa


## Planilhas do Excel (xls e xlsx)

In [5]:
# Em arquivos excel que possuem mais de uma planilha, 
# o comando abaixo importa o conteúdo apenas da primeira

df = pd.read_excel ('dados.xlsx')
df

Unnamed: 0,Funcionário,Salário,Email,Data de Início
0,Maisie,3781,eu.metus@luctusut.net,2021-09-17
1,Armand,8001,ac.orci.Ut@hendreritDonec.org,2020-06-24
2,Kuame,6605,magna@enim.net,2022-03-29
3,Dante,5775,sed@sedlibero.com,2021-06-16
4,Darryl,10270,vulputate@Morbi.org,2020-08-06
5,Cairo,11599,ante.lectus.convallis@fringillapurus.org,2020-10-19
6,Lewis,11418,odio.tristique@odio.net,2022-03-07
7,Jennifer,10415,blandit@tellus.com,2021-11-15
8,Dustin,5573,pellentesque.massa.lobortis@nullaDonec.ca,2020-12-08
9,Alexander,10098,adipiscing@Aeneangravidanunc.co.uk,2020-10-19


In [6]:
# Para selecionar uma planilha específica do arquivo excel
# basta utilizar o parametro sheet_name e informar o nome da mesma

df = pd.read_excel ('dados.xlsx', sheet_name ='Vendas')
df

Unnamed: 0,Funcionário,Nº de Vendas,Valor total
0,Maisie,10,8366.342388
1,Armand,8,5678.00232
2,Kuame,20,454.16202
3,Dante,13,7777.219345
4,Darryl,5,8692.105987
5,Cairo,16,5798.63707
6,Lewis,30,4869.680751
7,Jennifer,11,5377.980157
8,Dustin,12,7579.886997
9,Alexander,8,8506.104309


## JavaScript Object Notation (JSON)

In [7]:
# Para ler arquivos JSON, basta utilizar a função abaixo

tracks = pd.read_json('Michael_Jackson_tracks.json')
tracks

Unnamed: 0,tracks
0,"{'album': {'album_type': 'album', 'artists': [..."
1,"{'album': {'album_type': 'album', 'artists': [..."
2,"{'album': {'album_type': 'album', 'artists': [..."
3,"{'album': {'album_type': 'album', 'artists': [..."
4,"{'album': {'album_type': 'album', 'artists': [..."
5,"{'album': {'album_type': 'album', 'artists': [..."
6,"{'album': {'album_type': 'album', 'artists': [..."
7,"{'album': {'album_type': 'album', 'artists': [..."
8,"{'album': {'album_type': 'album', 'artists': [..."
9,"{'album': {'album_type': 'album', 'artists': [..."


No entanto, a saída acima parece um pouco desajeitada, certo? 

Isso acontece pois este é um arquivo JSON aninhado, ou seja, ele possui vários níveis de pares [chave:valor]. O primeiro nível é a chave *__tracks__*, ou seja, cada linha do dataframe retornado é um valor para 'track'. Neste caso, não é possível transformar um arquivo JSON __aninhado__ diretamente em um dataframe, pois a função __*read_json*__ faz a leitura de strings JSON mais simples.

Para o nosso exemplo, a obtenção de um dataframe organizado demanda a divisão deste JSON aninhado. Para isso, a função *__json_normalize()__* é utilizada para ler a __STRING__ JSON aninhada e devolver um DataFrame.


In [8]:
# Primeiro Passo: ler a string JSON com a função json.loads() 
# da biblioteca JSON

with open('Michael_Jackson_tracks.json','r') as f:
    data = json.loads(f.read())

# Segundo Passo: passamos objeto JSON (data) para a função json_normalize()
# que retornará um DataFrame contendo os dados necessários.
# Para isso, é preciso informar o primeiro nível de chave (tracks)

tracks_df = pd.json_normalize(data['tracks'])

tracks_df           

Unnamed: 0,artists,disc_number,duration_ms,explicit,href,id,is_local,is_playable,name,popularity,...,album.id,album.images,album.name,album.release_date,album.release_date_precision,album.total_tracks,album.type,album.uri,external_ids.isrc,external_urls.spotify
0,[{'external_urls': {'spotify': 'https://open.s...,1,293826,False,https://api.spotify.com/v1/tracks/5ChkMS8OtdzJ...,5ChkMS8OtdzJeqyybCc9R5,False,True,Billie Jean,84,...,1C2h7mLntPSeVYciMRTF4a,"[{'height': 640, 'url': 'https://i.scdn.co/ima...",Thriller 25 Super Deluxe Edition,1982-11-30,day,30,album,spotify:album:1C2h7mLntPSeVYciMRTF4a,USSM19902991,https://open.spotify.com/track/5ChkMS8OtdzJeqy...
1,[{'external_urls': {'spotify': 'https://open.s...,1,258040,False,https://api.spotify.com/v1/tracks/1OOtq8tRnDM8...,1OOtq8tRnDM8kG2gqUPjAj,False,True,Beat It,79,...,1C2h7mLntPSeVYciMRTF4a,"[{'height': 640, 'url': 'https://i.scdn.co/ima...",Thriller 25 Super Deluxe Edition,1982-11-30,day,30,album,spotify:album:1C2h7mLntPSeVYciMRTF4a,USSM19902990,https://open.spotify.com/track/1OOtq8tRnDM8kG2...
2,[{'external_urls': {'spotify': 'https://open.s...,1,257760,False,https://api.spotify.com/v1/tracks/2bCQHF9gdG5B...,2bCQHF9gdG5BNDVuEIEnNk,False,True,Smooth Criminal - 2012 Remaster,77,...,24TAupSNVWSAHL0R7n71vm,"[{'height': 640, 'url': 'https://i.scdn.co/ima...",Bad 25th Anniversary,1987-08-31,day,24,album,spotify:album:24TAupSNVWSAHL0R7n71vm,USSM11204989,https://open.spotify.com/track/2bCQHF9gdG5BNDV...
3,[{'external_urls': {'spotify': 'https://open.s...,1,365466,False,https://api.spotify.com/v1/tracks/46eu3SBuFCXW...,46eu3SBuFCXWsPT39Yg3tJ,False,True,Don't Stop 'Til You Get Enough,75,...,2ZytN2cY4Zjrr9ukb2rqTP,"[{'height': 640, 'url': 'https://i.scdn.co/ima...",Off the Wall,1979-08-10,day,10,album,spotify:album:2ZytN2cY4Zjrr9ukb2rqTP,USSM17900816,https://open.spotify.com/track/46eu3SBuFCXWsPT...
4,[{'external_urls': {'spotify': 'https://open.s...,1,220626,False,https://api.spotify.com/v1/tracks/7oOOI85fVQvV...,7oOOI85fVQvVnK5ynNMdW7,False,True,Rock with You - Single Version,74,...,2ZytN2cY4Zjrr9ukb2rqTP,"[{'height': 640, 'url': 'https://i.scdn.co/ima...",Off the Wall,1979-08-10,day,10,album,spotify:album:2ZytN2cY4Zjrr9ukb2rqTP,USSM17900817,https://open.spotify.com/track/7oOOI85fVQvVnK5...
5,[{'external_urls': {'spotify': 'https://open.s...,1,298120,False,https://api.spotify.com/v1/tracks/0sKlV58cODrj...,0sKlV58cODrjxGFOyf9IXY,False,True,The Way You Make Me Feel - 2012 Remaster,73,...,24TAupSNVWSAHL0R7n71vm,"[{'height': 640, 'url': 'https://i.scdn.co/ima...",Bad 25th Anniversary,1987-08-31,day,24,album,spotify:album:24TAupSNVWSAHL0R7n71vm,USSM11204981,https://open.spotify.com/track/0sKlV58cODrjxGF...
6,[{'external_urls': {'spotify': 'https://open.s...,1,247360,False,https://api.spotify.com/v1/tracks/5lWFrW5T3Jtx...,5lWFrW5T3JtxVCLDb7etPu,False,True,Bad - 2012 Remaster,72,...,24TAupSNVWSAHL0R7n71vm,"[{'height': 640, 'url': 'https://i.scdn.co/ima...",Bad 25th Anniversary,1987-08-31,day,24,album,spotify:album:24TAupSNVWSAHL0R7n71vm,USSM11204980,https://open.spotify.com/track/5lWFrW5T3JtxVCL...
7,[{'external_urls': {'spotify': 'https://open.s...,2,284160,False,https://api.spotify.com/v1/tracks/3wuCCNCnBhJl...,3wuCCNCnBhJlwkIJTBZFiv,False,True,They Don't Care About Us,71,...,3OBhnTLrvkoEEETjFA3Qfk,"[{'height': 640, 'url': 'https://i.scdn.co/ima...","HIStory - PAST, PRESENT AND FUTURE - BOOK I",1995-06-16,day,30,album,spotify:album:3OBhnTLrvkoEEETjFA3Qfk,USSM19500629,https://open.spotify.com/track/3wuCCNCnBhJlwkI...
8,[{'external_urls': {'spotify': 'https://open.s...,1,238733,False,https://api.spotify.com/v1/tracks/5lA3pwMkBdd2...,5lA3pwMkBdd24StM90QrNR,False,True,P.Y.T. (Pretty Young Thing),71,...,1C2h7mLntPSeVYciMRTF4a,"[{'height': 640, 'url': 'https://i.scdn.co/ima...",Thriller 25 Super Deluxe Edition,1982-11-30,day,30,album,spotify:album:1C2h7mLntPSeVYciMRTF4a,USSM19902993,https://open.spotify.com/track/5lA3pwMkBdd24St...
9,[{'external_urls': {'spotify': 'https://open.s...,2,245786,False,https://api.spotify.com/v1/tracks/6G8kHiVZ1jW7...,6G8kHiVZ1jW7vHMPVRNZU0,False,True,Don’t Matter To Me (with Michael Jackson),71,...,1ATL5GLyefJaxhQzSPVrLX,"[{'height': 640, 'url': 'https://i.scdn.co/ima...",Scorpion,2018-06-29,day,25,album,spotify:album:1ATL5GLyefJaxhQzSPVrLX,USCM51800208,https://open.spotify.com/track/6G8kHiVZ1jW7vHM...


A coluna __*artists*__ também é composta por mais um nível do arquivo json. Para melhor visualizar esta coluna, é preciso repetir o processo acima construindo um novo dataframe.

## Outros formatos

Além desses formatos, é possível carregar dados de XML e de bancos de dados.

## Conclusão

Este notebook apresentou como importar dados de diversos formatos para o pandas.

Este foi o fim desta parte do tutorial sobre Jupyter Básico. A próxima parte [3.Preparacao](../3.Preparacao/3.1.Limpeza.ipynb) tratará da preparação de dados para a ciência de dados.