#  Criando uma base de dados de uma escola de programação

## Criando lista com os nomes dos alunos

In [1]:
# Importando a biblioteca Pandas
import pandas as pd

### Utilizando a API do IBGE de nome, optanod pelo Ranking de Frequência:
https://servicodados.ibge.gov.br/api/v1/censos/nomes/ranking


In [4]:
# Lendo a API através do read_json. O final da api foi alterado para trazer apenas 20 nomes do sexo feminino
alunas = pd.read_json('https://servicodados.ibge.gov.br/api/v1/censos/nomes/ranking?qtd=200&sexo=f')
alunas.head(10)

Unnamed: 0,nome,regiao,freq,rank,sexo
0,MARIA,0,11694738,1,F
1,ANA,0,3079729,2,F
2,FRANCISCA,0,721637,3,F
3,ANTONIA,0,588783,4,F
4,ADRIANA,0,565621,5,F
5,JULIANA,0,562589,6,F
6,MARCIA,0,551855,7,F
7,FERNANDA,0,531607,8,F
8,PATRICIA,0,529446,9,F
9,ALINE,0,509869,10,F


In [5]:
# Lendo a API através do read_json. O final da api foi alterado para trazer apenas 20 nomes do sexo masculino
alunos = pd.read_json('https://servicodados.ibge.gov.br/api/v1/censos/nomes/ranking?qtd=200&sexo=m')
alunos.head(10)

Unnamed: 0,nome,regiao,freq,rank,sexo
0,JOSE,0,5732508,1,M
1,JOAO,0,2971935,2,M
2,ANTONIO,0,2567494,3,M
3,FRANCISCO,0,1765197,4,M
4,CARLOS,0,1483121,5,M
5,PAULO,0,1417907,6,M
6,PEDRO,0,1213557,7,M
7,LUCAS,0,1116818,8,M
8,LUIZ,0,1102927,9,M
9,MARCOS,0,1101126,10,M


In [7]:
print('A quantidade de alunos da escola é: ' + str(len(alunas) + len(alunos)))

# para conseguir executar a concatenação das variáveis precisamos converter o numero inteiro para string

A quantidade de alunos da escola é: 400


### Criando um dataframe único

In [8]:
# Unificando as duas variáveis em uma lista
frames = [alunas, alunos]
frames

[          nome  regiao      freq  rank sexo
 0        MARIA       0  11694738     1    F
 1          ANA       0   3079729     2    F
 2    FRANCISCA       0    721637     3    F
 3      ANTONIA       0    588783     4    F
 4      ADRIANA       0    565621     5    F
 ..         ...     ...       ...   ...  ...
 195     ROSANE       0     82203   196    F
 196    IVONETE       0     81878   197    F
 197    LUCIANE       0     81230   198    F
 198    ISADORA       0     81100   199    F
 199      NILZA       0     80128   200    F
 
 [200 rows x 5 columns],
           nome  regiao     freq  rank sexo
 0         JOSE       0  5732508     1    M
 1         JOAO       0  2971935     2    M
 2      ANTONIO       0  2567494     3    M
 3    FRANCISCO       0  1765197     4    M
 4       CARLOS       0  1483121     5    M
 ..         ...     ...      ...   ...  ...
 195     WALTER       0    67207   196    M
 196    ARLINDO       0    66669   197    M
 197    MICHAEL       0    65736   19

In [31]:
# Utilizando a função do pandas Concat para concatenar esses dois frames, transformá-lo em um dataframe 
# e descartar as colunas que não nos interessa
nomes = pd.concat(frames)['nome'].to_frame()
nomes.sample(5)

Unnamed: 0,nome
86,CRISTINA
174,CLEONICE
19,MARIANA
21,VERA
19,RODRIGO


In [10]:
# Pegando uma amostra 
nomes.sample(5)

Unnamed: 0,nome
43,THIAGO
72,GILBERTO
70,JOAQUIM
150,GIOVANA
198,ISADORA


## Incluindo novas colunas no DF

### Incluindo nova coluna e criando ID randomicamente

In [12]:
# Importando a biblioteca Numpy
import numpy as np

In [13]:
# Gerando o ID do alunos de forma aleatória (pseudo aleatorio)
np.random.seed(123)

In [14]:
total_alunos = len(nomes)
total_alunos

400

In [20]:
# Criando uma nova coluna para o dataframe 'nomes' e atribuindo o id 
nomes['id_aluno'] = np.random.permutation(total_alunos) + 1
nomes.head(10)

Unnamed: 0,nome,id_aluno
0,MARIA,327
1,ANA,325
2,FRANCISCA,165
3,ANTONIA,211
4,ADRIANA,230
5,JULIANA,186
6,MARCIA,17
7,FERNANDA,63
8,PATRICIA,20
9,ALINE,159


### Incluindo coluna de e-mail

In [22]:
# Criando domínios de e-mails
dominio = ['@dominiodoemail.com.br', '@servicodeemail.com.br']

In [26]:
# Criando a coluna dominio 
nomes['dominio'] = np.random.choice(dominio, total_alunos) # nesse caso não se quer um número aleatório, mas um elemento aleatorio da lista
nomes.head(5)

Unnamed: 0,nome,id_aluno,dominio
0,MARIA,327,@servicodeemail.com.br
1,ANA,325,@dominiodoemail.com.br
2,FRANCISCA,165,@servicodeemail.com.br
3,ANTONIA,211,@dominiodoemail.com.br
4,ADRIANA,230,@servicodeemail.com.br


In [27]:
# Juntando o nome ao dominio para criar o email em uma nova coluna
nomes['e_mail'] = nomes['nome'].str.cat(nomes['dominio']).str.lower() # coluna nome concatenada com a coluna dominio e em letra minuscula
nomes.head(5)

Unnamed: 0,nome,id_aluno,dominio,e_mail
0,MARIA,327,@servicodeemail.com.br,maria@servicodeemail.com.br
1,ANA,325,@dominiodoemail.com.br,ana@dominiodoemail.com.br
2,FRANCISCA,165,@servicodeemail.com.br,francisca@servicodeemail.com.br
3,ANTONIA,211,@dominiodoemail.com.br,antonia@dominiodoemail.com.br
4,ADRIANA,230,@servicodeemail.com.br,adriana@servicodeemail.com.br
