# Pandas: Formatos diferentes de entrada e saída (IO)

## Criando os nomes

In [1]:
import pandas as pd

In [2]:
nomes_f = pd.read_json('https://renatanesio.github.io/nomes_ibge/nomes-f.json')
nomes_m = pd.read_json('https://renatanesio.github.io/nomes_ibge/nomes-m.json')

In [3]:
nomes_f.sample(5)

Unnamed: 0,nome,regiao,freq,rank,sexo
145,FRANCIELE,0,111831,146,F
97,BARBARA,0,170703,98,F
75,MARLI,0,209633,76,F
81,MICHELE,0,200531,82,F
33,NATALIA,0,334157,34,F


In [4]:
nomes_m.sample(5)

Unnamed: 0,nome,regiao,freq,rank,sexo
109,CELSO,0,130837,110,M
147,ALISSON,0,94270,148,M
111,CLEITON,0,128738,112,M
53,RONALDO,0,269489,54,M
115,MILTON,0,125669,116,M


In [5]:
print("Quantidade de nomes:" + str(len(nomes_f) + len(nomes_m)))

Quantidade de nomes:400


In [6]:
frames = [nomes_f, nomes_m]

In [7]:
nomes = pd.concat(frames)['nome'].to_frame()
nomes.sample(5)

Unnamed: 0,nome
19,MARIANA
41,DANIELA
137,NAIR
131,BRENO
143,OTAVIO


## Incluindo ID dos alunos

In [8]:
import numpy as np
np.random.seed(123)

In [9]:
total_alunos = len(nomes)
total_alunos

400

In [10]:
nomes['id_aluno'] = np.random.permutation(total_alunos) + 1

In [11]:
nomes.sample(5)

Unnamed: 0,nome,id_aluno
188,POLIANA,369
57,DAIANE,303
3,FRANCISCO,382
182,CHARLES,33
30,ANDERSON,111


In [12]:
dominios = ['@dominiodoemail.com.br', '@servicodoemail.com']
nomes['dominio'] = np.random.choice(dominios, total_alunos)

In [13]:
nomes.sample(5)

Unnamed: 0,nome,id_aluno,dominio
84,SEVERINO,78,@dominiodoemail.com.br
0,JOSE,331,@servicodoemail.com
179,IAGO,340,@dominiodoemail.com.br
10,SANDRA,174,@dominiodoemail.com.br
171,TERESINHA,45,@dominiodoemail.com.br


In [14]:
nomes['email'] = nomes.nome.str.cat(nomes.dominio).str.lower()

In [15]:
nomes.sample(5)

Unnamed: 0,nome,id_aluno,dominio,email
114,ARTHUR,320,@dominiodoemail.com.br,arthur@dominiodoemail.com.br
57,DAIANE,303,@servicodoemail.com,daiane@servicodoemail.com
85,HELENA,221,@dominiodoemail.com.br,helena@dominiodoemail.com.br
183,IRACI,8,@dominiodoemail.com.br,iraci@dominiodoemail.com.br
189,DALVA,137,@dominiodoemail.com.br,dalva@dominiodoemail.com.br


## Criando a tabela Cursos

In [16]:
!pip3 install html5lib
!pip3 install lxml



In [17]:
import html5lib

In [18]:
url = 'https://tabela-cursos.herokuapp.com/index.html'
cursos = pd.read_html(url)
cursos

[                          Nome do curso
 0                 Lógica de programação
 1                         Java para Web
 2                           C# para Web
 3                         Ruby on Rails
 4                      Cursos de Python
 5                         PHP com MySql
 6                         .NET para web
 7            Novas integrações com Java
 8                          TDD com Java
 9                   Código limpo com C#
 10  Preparatório para certificação Java
 11                      Hardware básico
 12                Persistência com .NET
 13                  Desenvolvendo jogos
 14                     Análise de dados
 15                   Estatística básica
 16                  Internet das coisas
 17                Programação funcional
 18                Boas práticas em Java
 19          Orientação objetos com Java]

In [19]:
type(cursos)

list

In [20]:
cursos = cursos[0]

In [21]:
type(cursos)

pandas.core.frame.DataFrame

In [22]:
cursos.head(3)

Unnamed: 0,Nome do curso
0,Lógica de programação
1,Java para Web
2,C# para Web


## Alterando o index de cursos

In [23]:
cursos = cursos.rename(columns={'Nome do curso': 'nome_do_curso'})

In [24]:
cursos.head(2)

Unnamed: 0,nome_do_curso
0,Lógica de programação
1,Java para Web


In [25]:
cursos['id'] = cursos.index + 1

In [26]:
cursos.head(2)

Unnamed: 0,nome_do_curso,id
0,Lógica de programação,1
1,Java para Web,2


In [27]:
cursos = cursos.set_index('id')

In [28]:
cursos.head(10)

Unnamed: 0_level_0,nome_do_curso
id,Unnamed: 1_level_1
1,Lógica de programação
2,Java para Web
3,C# para Web
4,Ruby on Rails
5,Cursos de Python
6,PHP com MySql
7,.NET para web
8,Novas integrações com Java
9,TDD com Java
10,Código limpo com C#
