# Pandas: Formatos diferentes de entrada e saida (IO)
__Professor:__ Guilherme Lima<br>
__Disponível:__ <a href="https://cursos.alura.com.br/course/pandas-io/task/48691" target=_blank>ALURA</a>
- Aprofunde os seus conhecimentos em análise de dados com pandas
- Aprenda a trabalhar com diferentes tipos de dados, tanto na entrada como na saída (input/output)
- Desenvolva análises descritivas dos dados
- Saiba como cruzar os dados de DataFrames diferentes
- Explore os dados de um banco sql com pandas


## 1. Lendo JSON

### Importando as bibliotecas

In [5]:
import pandas as pd

### Importando os dados JSON

In [12]:
nomes_f = pd.read_json("https://servicodados.ibge.gov.br/api/v1/censos/nomes/ranking?qtd=20&sexo=f")
nomes_f

Unnamed: 0,nome,regiao,freq,rank,sexo
0,MARIA,0,11694738,1,F
1,ANA,0,3079729,2,F
2,FRANCISCA,0,721637,3,F
3,ANTONIA,0,588783,4,F
4,ADRIANA,0,565621,5,F
5,JULIANA,0,562589,6,F
6,MARCIA,0,551855,7,F
7,FERNANDA,0,531607,8,F
8,PATRICIA,0,529446,9,F
9,ALINE,0,509869,10,F


In [13]:
nomes_m = pd.read_json("https://servicodados.ibge.gov.br/api/v1/censos/nomes/ranking?qtd=20&sexo=m")
nomes_m

Unnamed: 0,nome,regiao,freq,rank,sexo
0,JOSE,0,5732508,1,M
1,JOAO,0,2971935,2,M
2,ANTONIO,0,2567494,3,M
3,FRANCISCO,0,1765197,4,M
4,CARLOS,0,1483121,5,M
5,PAULO,0,1417907,6,M
6,PEDRO,0,1213557,7,M
7,LUCAS,0,1116818,8,M
8,LUIZ,0,1102927,9,M
9,MARCOS,0,1101126,10,M


### Trabalhando com os dados

#### Juntando dois dataframes - Criando os nomes - concat()

In [14]:
# Sorteio de dados
nomes_f.sample(5)

Unnamed: 0,nome,regiao,freq,rank,sexo
9,ALINE,0,509869,10,F
3,ANTONIA,0,588783,4,F
19,MARIANA,0,381778,20,F
11,CAMILA,0,469851,12,F
5,JULIANA,0,562589,6,F


In [15]:
nomes_m.sample(5)

Unnamed: 0,nome,regiao,freq,rank,sexo
1,JOAO,0,2971935,2,M
5,PAULO,0,1417907,6,M
8,LUIZ,0,1102927,9,M
11,GABRIEL,0,922744,12,M
2,ANTONIO,0,2567494,3,M


In [16]:
print('Quantidade de nomes: ' + str(len(nomes_f) + len(nomes_m)))

Quantidade de nomes: 40


In [17]:
frames = [nomes_f,nomes_m]
frames

[         nome  regiao      freq  rank sexo
 0       MARIA       0  11694738     1    F
 1         ANA       0   3079729     2    F
 2   FRANCISCA       0    721637     3    F
 3     ANTONIA       0    588783     4    F
 4     ADRIANA       0    565621     5    F
 5     JULIANA       0    562589     6    F
 6      MARCIA       0    551855     7    F
 7    FERNANDA       0    531607     8    F
 8    PATRICIA       0    529446     9    F
 9       ALINE       0    509869    10    F
 10     SANDRA       0    479230    11    F
 11     CAMILA       0    469851    12    F
 12     AMANDA       0    464624    13    F
 13      BRUNA       0    460770    14    F
 14    JESSICA       0    456472    15    F
 15    LETICIA       0    434056    16    F
 16      JULIA       0    430067    17    F
 17    LUCIANA       0    429769    18    F
 18    VANESSA       0    417512    19    F
 19    MARIANA       0    381778    20    F,
          nome  regiao     freq  rank sexo
 0        JOSE       0  5732508 

In [27]:
# Unindo dois dataframes
nomes = pd.concat(frames)['nome'].to_frame()
nomes.sample(5)

Unnamed: 0,nome
11,CAMILA
2,ANTONIO
5,PAULO
5,JULIANA
2,FRANCISCA


#### Adicionando nova coluna - Incluindo ID dos alunos

In [28]:
# importando bibliotecas
import numpy as np

In [29]:
# Criando números aleatórios com o NUMPY, sempre com a mesma sequência
np.random.seed(123)

In [30]:
total_alunos = len(nomes)
total_alunos

40

In [31]:
nomes.sample(5)

Unnamed: 0,nome
6,MARCIA
10,SANDRA
12,AMANDA
18,RAIMUNDO
5,JULIANA


In [32]:
# Criando uma nova coluna
nomes["id_aluno"] = np.random.permutation(total_alunos) + 1
nomes.sample(5)

Unnamed: 0,nome,id_aluno
10,LUIS,12
16,EDUARDO,35
11,GABRIEL,1
16,JULIA,20
0,JOSE,37


In [33]:
dominios = ['@dominiodoemail.com.br','@servicodoemail.com']

In [35]:
nomes['dominio'] = np.random.choice(dominios, total_alunos)
nomes.sample(5)

Unnamed: 0,nome,id_aluno,dominio
6,MARCIA,10,@dominiodoemail.com.br
11,GABRIEL,1,@dominiodoemail.com.br
7,FERNANDA,38,@dominiodoemail.com.br
12,RAFAEL,6,@servicodoemail.com
0,MARIA,9,@servicodoemail.com


In [36]:
nomes['email'] = nomes.nome.str.cat(nomes.dominio).str.lower()
nomes.sample(5)

Unnamed: 0,nome,id_aluno,dominio,email
14,JESSICA,24,@servicodoemail.com,jessica@servicodoemail.com
0,JOSE,37,@servicodoemail.com,jose@servicodoemail.com
0,MARIA,9,@servicodoemail.com,maria@servicodoemail.com
19,RODRIGO,22,@dominiodoemail.com.br,rodrigo@dominiodoemail.com.br
11,CAMILA,18,@dominiodoemail.com.br,camila@dominiodoemail.com.br


### Exercícios: Juntando DataFrames
Para criar os nomes das pessoas, usamos o comando read_json() para ler os nomes femininos e masculino. Armazenamos o resultado de cada um deles em uma variável chamada nomes_f para os nomes femininos e nomes_m para os nomes masculinos.

Porém, não queremos trabalhar com um DataFrame para os nomes masculinos e outro DataFrame para os nomes femininos.

Sabendo disso, analise as alternativas abaixo e marque aquela que contém o código que irá juntar os nomes em um único DataFrame:

In [38]:
frames = [nomes_f, nomes_m]
nomes = pd.concat(frames)['nome'].to_frame()
nomes

Unnamed: 0,nome
0,MARIA
1,ANA
2,FRANCISCA
3,ANTONIA
4,ADRIANA
5,JULIANA
6,MARCIA
7,FERNANDA
8,PATRICIA
9,ALINE


In [40]:
frames = [nomes_f, nomes_m]
nomes = pd.concat(frames)['nome']
nomes

0         MARIA
1           ANA
2     FRANCISCA
3       ANTONIA
4       ADRIANA
5       JULIANA
6        MARCIA
7      FERNANDA
8      PATRICIA
9         ALINE
10       SANDRA
11       CAMILA
12       AMANDA
13        BRUNA
14      JESSICA
15      LETICIA
16        JULIA
17      LUCIANA
18      VANESSA
19      MARIANA
0          JOSE
1          JOAO
2       ANTONIO
3     FRANCISCO
4        CARLOS
5         PAULO
6         PEDRO
7         LUCAS
8          LUIZ
9        MARCOS
10         LUIS
11      GABRIEL
12       RAFAEL
13       DANIEL
14      MARCELO
15        BRUNO
16      EDUARDO
17       FELIPE
18     RAIMUNDO
19      RODRIGO
Name: nome, dtype: object

In [41]:
frames = [nomes_f, nomes_m]
nomes = pd.concat(frames).to_frame()
nomes

AttributeError: 'DataFrame' object has no attribute 'to_frame'

### Exercícios: Json na web e local
A biblioteca do Pandas é capaz de ler diferentes tipos de arquivos, como csv, json e diversos outros.

Porém, durante a aula, usamos o comando read_json() para ler os nomes das pessoas de um json que está disponível na página do IBGE.

O que devo fazer, para ler um json que está na minha máquina local e não em uma página web?

In [42]:
# Para ler um json que está na máquina local e não na web, no lugar de passar o endereço da web como parâmetro, passamos o endereço do arquivo na nossa máquina.

## 2. Lendo HTML

## 3. Escrevenvo CSV, JSON e HTML

## 4. Lendo e escrevendo SQL

## 5. Lendo e escrevendo EXCEL