In [1]:
### Importar Bibliotecas 

import pandas as pd
pd.set_option('display.max_columns', 6)

# Conectar com Google Drive

In [2]:
from google.colab import drive
drive.mount('/content/gdrive', force_remount=True)

%cd /content/gdrive/MyDrive/Colab/jai2021-jupyter-colab/3.Preparacao

!ls

Mounted at /content/gdrive
/content/gdrive/MyDrive/Colab/jai2021-jupyter-colab/3.Preparacao
3.1.Importacao.Dados.ipynb  3.2.Limpeza.ipynb  datasets  img


# Importando Dados

Agora que já conhecemos um pouco sobre as principais estruturas do Pandas (*Series e Dataframes*), agora é a vez de aprender a como **importar dados** para tais estruturas.

> Embora a criação de estruturas de dados de forma manual seja útil para determinadas aplicações ou até mesmo para rápidos testes e validações, na prática, a nossa fonte de 🎲🎲 normalmente será via enormes arquivos!

Em ciência de dados, muitos projetos obrigam seus cientistas a reunir uma miscelânea de padrões de fontes de dados, tais como **CSV**, **TSV**, **XLS**, **JSON**, ou outro formato. Assim, é crucial saber lidar com os principais formatos de dados em Python.

## Arquivos Texto - CSV

Um dos formatos **mais utilizados** é o CSV, que nada mais são que arquivos de texto **separados por vírgulas**. A figura abaixo mostra um arquivo CSV.

![Exemplo de Arquivo CSV](https://drive.google.com/uc?export=view&id=1rFjZh8iFTrKy0TuqDvwg8WdAO-d99oVi)

> **Como importar importar arquivos CSV utilizando o pandas?** 🤔

Simples! Basta segui os comandos abaixo:

In [3]:
!ls 

3.1.Importacao.Dados.ipynb  3.2.Limpeza.ipynb  datasets  img


In [4]:
spotify_Charts_df = pd.read_csv('./datasets/spotify_charts_complete.csv', sep=',')
spotify_Charts_df

ParserError: ignored

In [10]:
#verifica as primeiras linhas do arquivo
!cat --number ./datasets/spotify_charts_complete.csv | head -50

     1	chart_week,position,track_name,artist,streams,song_id
     2	2020-01-02,1,Dance Monkey,Tones And I,50183626,1rgnBhdG2JDFTbYkYRZAku
     3	2020-01-02,2,ROXANNE,Arizona Zervas,33254585,696DnlkuDOXcMAnKlTgXXK
     4	2020-01-02,3,Tusa,KAROL G,29349573,7k4t7uLgtOxPwTpFmtJNTY
     5	2020-01-02,4,Memories,Maroon 5,26067853,2b8fOow8UzyDFAE27YhOZM
     6	2020-01-02,5,Falling,Trevor Daniel,25901488,4TnjEaWOeW0eKTKIEvJyCa
     7	2020-01-02,6,Circles,Post Malone,25481417,21jGcNKet2qwijlDFuPiPb
     8	2020-01-02,7,Don't Start Now,Dua Lipa,25355075,6WrI0LAC5M1Rw2MnX2ZvEg
     9	2020-01-02,8,Blinding Lights,The Weeknd,24279792,0sf12qNH5qcw8qpgymFOqD
    10	2020-01-02,9,Señorita,Shawn Mendes,22341642,6v3KW9xbzN5yKLt9YKDYA2
    11	2020-01-02,10,everything i wanted,Billie Eilish,21828884,3ZCTVFBt2Brf31RLEnCkWJ
    12	2020-01-02,11,RITMO (Bad Boys For Life),Black Eyed Peas,21495411,6cy3ki60hLwimwIje7tALf
    13	2020-01-02,12,Someone You Loved,Lewis Capaldi,19926066,7qEHsqek33rTcFNT9PFqLf
    14	20

### Erro na Linha 46: ❌


Note que nós temos **seis** colunas do arquivo de entrada: 
- chart_week
- position
- track_name
- artist
- streams
- song_id

> **Como o Pandas está enxergando a linha: 46** 🔎

 _2020-01-02$\color{#ff0000}{,}$45$\color{#ff0000}{,}$10$\color{#ff0000}{,}$**000 Hours (with Justin Bieber)**$\color{#ff0000}{,}$Dan + Shay$\color{#ff0000}{,}$10360035$\color{#ff0000}{,}$2wrJq5XKLnmhRXHIAf9xBa_

> **Como o Pandas deveria enxergar:** 👀

 _2020-01-02$\color{#ff0000}{,}$45$\color{#ff0000}{,}$**10,000 Hours (with Justin Bieber)**$\color{#ff0000}{,}$Dan + Shay$\color{#ff0000}{,}$10360035$\color{#ff0000}{,}$2wrJq5XKLnmhRXHIAf9xBa_
 
Erro de **tokenização** é um problema muito comum quando lidamos com arquivos CSV. 

> **Como resolver esse problema?** 🤔

Neste caso, para que esse tipo de erro seja evitado, teríamos que **escapar todas as Strings usando aspas (')**. Desta forma, todas as vírgulas de campos textuais não serão consideradas como separador de campo. Ou seja, todas as linhas do arquivo deveriam se parecer com:

_'2020-01-02',45,**'10,000 Hours (with Justin Bieber)'**,**'Dan + Shay'**,10360035,2wrJq5XKLnmhRXHIAf9xBa_

> Embora não seja necessário, é comum que todos os campos de arquivos CSVs sejam escapados por aspas, não se limitando apenas aos campos textuais! 🤓

#### Leitura sem erro

In [11]:
spotify_Charts_df = pd.read_csv('./datasets/spotify_charts_complete_Line45.csv', sep=',')
spotify_Charts_df.head()

Unnamed: 0,chart_week,position,track_name,artist,streams,song_id
0,2020-01-02,1,Dance Monkey,Tones And I,50183626,1rgnBhdG2JDFTbYkYRZAku
1,2020-01-02,2,ROXANNE,Arizona Zervas,33254585,696DnlkuDOXcMAnKlTgXXK
2,2020-01-02,3,Tusa,KAROL G,29349573,7k4t7uLgtOxPwTpFmtJNTY
3,2020-01-02,4,Memories,Maroon 5,26067853,2b8fOow8UzyDFAE27YhOZM
4,2020-01-02,5,Falling,Trevor Daniel,25901488,4TnjEaWOeW0eKTKIEvJyCa


## Arquivos Texto - TSV

Uma alternativa aos arquivos CSV, são os arquivos TSV (valores separados por tabulação). Neste tipo de arquivo, como o delimitador de campo é uma **tabulação**, não deparamos com o problema de tokenização. 

A figura abaixo mostra um arquivo TSV.

![Exemplo de Arquivo TSV](https://drive.google.com/uc?export=view&id=1TGh2mHRpiiUeNO_GAd2UaQwFXLEDGira)

 A leitura deste tipo de arquivo é feita utilizando a mesma função **read_csv**. No entanto, precisamos especificar que o separador é a tabulação (\t). 
 
 > ⚠️ Se não for especificado o delimitador, o python retornará um erro de **Parser**.

In [12]:
spotify_Charts_df = pd.read_csv('./datasets/spotify_charts_complete.tsv', sep='\t')
spotify_Charts_df.head()

Unnamed: 0,chart_week,position,track_name,artist,streams,song_id
0,2020-01-02,1,Dance Monkey,Tones And I,50183626,1rgnBhdG2JDFTbYkYRZAku
1,2020-01-02,2,ROXANNE,Arizona Zervas,33254585,696DnlkuDOXcMAnKlTgXXK
2,2020-01-02,3,Tusa,KAROL G,29349573,7k4t7uLgtOxPwTpFmtJNTY
3,2020-01-02,4,Memories,Maroon 5,26067853,2b8fOow8UzyDFAE27YhOZM
4,2020-01-02,5,Falling,Trevor Daniel,25901488,4TnjEaWOeW0eKTKIEvJyCa


> 💡 Uma função alternativa para a leitura de arquivos deste tipo é a **read_table()**

Neste caso, não é necessário o uso de outros parâmetros.

In [13]:
# A função read_table é utilizada para ler arquivos .tsv
charts = pd.read_table('./datasets/spotify_charts_complete.tsv')
charts.head()

Unnamed: 0,chart_week,position,track_name,artist,streams,song_id
0,2020-01-02,1,Dance Monkey,Tones And I,50183626,1rgnBhdG2JDFTbYkYRZAku
1,2020-01-02,2,ROXANNE,Arizona Zervas,33254585,696DnlkuDOXcMAnKlTgXXK
2,2020-01-02,3,Tusa,KAROL G,29349573,7k4t7uLgtOxPwTpFmtJNTY
3,2020-01-02,4,Memories,Maroon 5,26067853,2b8fOow8UzyDFAE27YhOZM
4,2020-01-02,5,Falling,Trevor Daniel,25901488,4TnjEaWOeW0eKTKIEvJyCa


## Arquivos de Planilhas - XLS

Outro formato bastante popular são os arquivos que já se encontram em estrutura tabulares, tais como arquivos do Microsoft Excel. A figura abaixo mostra um arquivo XLS.

![Exemplo de Arquivo XLS](https://drive.google.com/uc?export=view&id=1rgb9TGRE64g2LAZeJ8awd5xFoy9_8JhH)

O pandas possui a função **read_excel(‘arquivo.xlsx’)** para efetuar a leitura de arquivos em formato de planilhas eletrônicas.

> ⚠️ Para a importação de uma **planilha específica** em um mesmo arquivo (uma **aba**), é preciso utilizar o parâmetro **sheet_name**.

Na figura acima, o arquivo chamado ‘dados.xlsx’ possui duas abas: _**spotify_artists**_ e _**spotify_charts**_. 

Para importar apenas o conteúdo da segunda aba (**spotify_charts**) do arquivo dados.xlsx, programa-se: 

In [14]:
spotify_charts = pd.read_excel ('./datasets/dados.xlsx', sheet_name='spotify_charts')
spotify_charts.head()

Unnamed: 0,chart_week,position,track_name,artist,streams,song_id
0,2020-01-02,1,Dance Monkey,Tones And I,50183626,1rgnBhdG2JDFTbYkYRZAku
1,2020-01-02,2,ROXANNE,Arizona Zervas,33254585,696DnlkuDOXcMAnKlTgXXK
2,2020-01-02,3,Tusa,KAROL G,29349573,7k4t7uLgtOxPwTpFmtJNTY
3,2020-01-02,4,Memories,Maroon 5,26067853,2b8fOow8UzyDFAE27YhOZM
4,2020-01-02,5,Falling,Trevor Daniel,25901488,4TnjEaWOeW0eKTKIEvJyCa


#### ⚠️ Caso o `sheet_name` não seja especificado, importa-se a primeira aba.

In [15]:
spotify_artists = pd.read_excel ('./datasets/dados.xlsx')
spotify_artists.head()

Unnamed: 0,artist_id,name,followers,popularity,genres,image_url
0,4gzpq5DPGxSnKTe4SA8HAU,Coldplay,29397183,90,"['permanent wave', 'pop']",https://i.scdn.co/image/4ffd6710617d289699cc0d...
1,6Te49r3A6f5BiIgBRxH7FH,Ninho,4239063,84,"['french hip hop', 'pop urbaine']",https://i.scdn.co/image/ab67616d0000b2733f12b1...
2,4QrBoWLm2WNlPdbFhmlaUZ,KEVVO,167419,75,"['perreo', 'reggaeton', 'reggaeton flow', 'tra...",https://i.scdn.co/image/9a75b11e5080f576bdff76...
3,1McMsnEElThX1knmY4oliG,Olivia Rodrigo,1134117,89,"['alt z', 'pop', 'post-teen pop']",https://i.scdn.co/image/5fb1f691c5d3cdbc54e193...
4,6KImCVD70vtIoJWnq6nGn3,Harry Styles,13439256,91,"['pop', 'post-teen pop']",https://i.scdn.co/image/b2163e7456f3d618a0e2a4...


## Arquivos JSON (JavaScript Object Notation)

Um arquivo JSON armazena estruturas de dados simples, além de serem leves, textuais, legíveis por humanos e editáveis com editor de texto. Arquivos JSON representam dados com o conceito de chave e valor:

cada valor tem uma chave que descreve seu significado. Por exemplo, o par de _**chave:valor**_ **name:‘Michael Jackson’** representa o artista ‘Michael Jackson’. A figura abaixo mostra um trecho de um arquivo JSON.

![Exemplo de Arquivo JSON](https://drive.google.com/uc?export=view&id=1MxLRZR00oa1xi4xq_W9kw6MH6iqT6iUT)

> 💡  Note que é possível compreender os dados, e alterá-los utilizando um editor de texto.


Para importar arquivos JSON, o pandas tem a função **read_json()**, com funcionamento similar às anteriores.

In [16]:
tracks = pd.read_json('./datasets/Michael_Jackson_tracks.json')
tracks.head()

Unnamed: 0,tracks
0,"{'album': {'album_type': 'album', 'artists': [..."
1,"{'album': {'album_type': 'album', 'artists': [..."
2,"{'album': {'album_type': 'album', 'artists': [..."
3,"{'album': {'album_type': 'album', 'artists': [..."
4,"{'album': {'album_type': 'album', 'artists': [..."


No entanto, a saída acima parece um pouco desajeitada, certo? 🤔

Isso acontece pois este é um arquivo **JSON aninhado**, ou seja, ele possui vários níveis de pares [chave:valor]. 

O primeiro nível é a chave _**tracks**_, ou seja, cada linha do dataframe retornado é um valor para 'track'. Neste caso, não é possível transformar um arquivo JSON __aninhado__ diretamente em um dataframe, pois a função __*read_json*__ faz a leitura de strings JSON mais simples.

Para o nosso exemplo, a obtenção de um dataframe organizado demanda a divisão deste JSON aninhado. Para isso, a função *__json_normalize()__* é utilizada para ler a __STRING__ JSON aninhada e devolver um DataFrame.


In [17]:
# Precisamos importar a biblioteca JSON
import json

#### Primeiro Passo:
ler a string JSON com a função **json.loads()** da biblioteca JSON

In [18]:
with open('./datasets/Michael_Jackson_tracks.json','r') as f:
    data = json.loads(f.read())

#### Segundo Passo: 

Passamos o objeto JSON (data) para a função **json_normalize()** que retornará um DataFrame contendo os dados necessários. Para isso, é preciso informar o primeiro nível de chave (_tracks_)

In [19]:
tracks_df = pd.json_normalize(data['tracks'])

tracks_df.head()    

Unnamed: 0,artists,disc_number,duration_ms,...,album.uri,external_ids.isrc,external_urls.spotify
0,[{'external_urls': {'spotify': 'https://open.s...,1,293826,...,spotify:album:1C2h7mLntPSeVYciMRTF4a,USSM19902991,https://open.spotify.com/track/5ChkMS8OtdzJeqy...
1,[{'external_urls': {'spotify': 'https://open.s...,1,258040,...,spotify:album:1C2h7mLntPSeVYciMRTF4a,USSM19902990,https://open.spotify.com/track/1OOtq8tRnDM8kG2...
2,[{'external_urls': {'spotify': 'https://open.s...,1,257760,...,spotify:album:24TAupSNVWSAHL0R7n71vm,USSM11204989,https://open.spotify.com/track/2bCQHF9gdG5BNDV...
3,[{'external_urls': {'spotify': 'https://open.s...,1,365466,...,spotify:album:2ZytN2cY4Zjrr9ukb2rqTP,USSM17900816,https://open.spotify.com/track/46eu3SBuFCXWsPT...
4,[{'external_urls': {'spotify': 'https://open.s...,1,220626,...,spotify:album:2ZytN2cY4Zjrr9ukb2rqTP,USSM17900817,https://open.spotify.com/track/7oOOI85fVQvVnK5...


A coluna __*artists*__ também é composta por mais um nível do arquivo json. 

Para melhor visualizar esta coluna, é preciso repetir o processo acima construindo um novo dataframe, no entanto é preciso informar a linha que se deseja recuperar.

In [20]:
artist_df = pd.json_normalize(data['tracks'][0]['artists'])

artist_df.head()    

Unnamed: 0,href,id,name,type,uri,external_urls.spotify
0,https://api.spotify.com/v1/artists/3fMbdgg4jU1...,3fMbdgg4jU18AjLCKBhRSm,Michael Jackson,artist,spotify:artist:3fMbdgg4jU18AjLCKBhRSm,https://open.spotify.com/artist/3fMbdgg4jU18Aj...


## Outros formatos

Além desses formatos, é possível carregar dados de XML e de bancos de dados.

In [21]:
!pip install mysql-connector-python-rf

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting mysql-connector-python-rf
  Downloading mysql-connector-python-rf-2.2.2.tar.gz (11.9 MB)
[K     |████████████████████████████████| 11.9 MB 8.0 MB/s 
[?25hBuilding wheels for collected packages: mysql-connector-python-rf
  Building wheel for mysql-connector-python-rf (setup.py) ... [?25l[?25hdone
  Created wheel for mysql-connector-python-rf: filename=mysql_connector_python_rf-2.2.2-cp37-cp37m-linux_x86_64.whl size=249476 sha256=032a1f6ba196bc4cfd5ba20aa677b87eee925c169b8d7f065ffecf47d587df05
  Stored in directory: /root/.cache/pip/wheels/68/59/cf/3b03557b26b4c75af3788a553e0ff9cf0b37a22d0c9cb01979
Successfully built mysql-connector-python-rf
Installing collected packages: mysql-connector-python-rf
Successfully installed mysql-connector-python-rf-2.2.2


In [22]:
# Primeiro, importa o driver para o MySQL
import mysql.connector

# O seguinte código faz a conexão:
conn = mysql.connector.connect(user='jai',              # Seu User
                                password='senha',       # Sua senha
                                host='127.0.0.1',       # Endereço do servidor
                                database='jusbd')       # Base de Dados

# Criar um cursor
cursor = conn.cursor()

# Elabora uma consulta
query = ("SELECT * from orgão limit 10")

# Executa a consulta
cursor.execute(query)

# Exibe o resultado da consulta
for l in cursor.fetchall():
    print(l)

# Fecha o cursor
cursor.close()
# Fecha a conexão
conn.close()

InterfaceError: ignored

## Conclusão

Este notebook apresentou como importar dados de diversos formatos para o pandas.

> 🔎 **Se interessou?** Dê uma olhada na documentação da biblioteca *pandas* para informações extras sobre leitura de dados:
[IO Tools](https://pandas.pydata.org/docs/user_guide/io.html)

---

O próximo notebook ([3.2.Limpeza.ipynb](https://drive.google.com/file/d/1BaTXyeQ-t3oWOjKcLMl1BvH7w677Pi0C/view?usp=sharing)) apresenta como fazer a limpeza dos dados.