#Criando os nomes

In [None]:
import pandas as pd

In [None]:
nomes_m = pd.read_json("https://servicodados.ibge.gov.br/api/v1/censos/nomes/ranking?qtd=200&sexo=m")

In [None]:
nomes_f = pd.read_json("https://servicodados.ibge.gov.br/api/v1/censos/nomes/ranking?qtd=200&sexo=f")

In [None]:
nomes_m.head(200)

In [None]:
print("Quantidade de nomes: " + str(len(nomes_f) + len(nomes_m)))

In [None]:
frames = [nomes_f, nomes_m]

In [None]:
frames

In [None]:
nomes = pd.concat(frames)['nome'].to_frame()

In [None]:
nomes.sample(5)

#Incluindo ID dos Alunos

In [None]:
import numpy as np
np.random.seed(123)

In [None]:
total_alunos = len(nomes)
total_alunos

In [None]:
nomes['id_aluno'] = np.random.permutation(total_alunos) + 1

In [None]:
nomes.sample(5)

In [None]:
dominios = ['@dominiodoemail.com.br', '@servicodoemail.com']
nomes['dominio'] = np.random.choice(dominios, total_alunos)

In [None]:
nomes

In [None]:
nomes['email'] = nomes.nome.str.cat(nomes.dominio).str.lower()

In [None]:
nomes

#Criando a tabela Cursos

In [None]:
!pip3 install html5lib
!pip3 install lxml


In [None]:
import html5lib

In [None]:
url = 'http://tabela-cursos.herokuapp.com/index.html'
cursos = pd.read_html(url)
cursos

In [None]:
type(cursos)

In [None]:
cursos = cursos[0]

In [None]:
type(cursos)

In [None]:
cursos.head()

#**Alterando o index de cursos**

In [None]:
cursos = cursos.rename(columns={'Nome do curso' : 'nome_do_curso'})


In [None]:
cursos.head(2)

In [None]:
cursos['id'] = cursos.index + 1

In [None]:
cursos.head()

In [None]:
cursos = cursos.set_index('id')

In [None]:
cursos.head(5)

#**Matriculando os alunos nos cursos**

In [None]:
nomes.sample(5)

In [None]:
nomes['matriculas'] = np.ceil(np.random.exponential(size=total_alunos)*1.5).astype(int)

In [None]:
nomes.sample(5)

In [None]:
nomes.matriculas.describe()

In [None]:
import seaborn as sns

In [None]:
sns.distplot(nomes.matriculas)

In [None]:
nomes.matriculas.value_counts()

#**Selecionando Cursos**

In [None]:
nomes.sample(3)

In [None]:
todas_matriculas = []
x = np.random.rand(20)
prob = x / sum(x)

In [None]:
for index, row in nomes.iterrows():
  id = row.id_aluno
  matriculas = row.matriculas
  for i in range(matriculas):
    mat = [id, np.random.choice(cursos.index, p = prob)]
    todas_matriculas.append(mat)

matriculas = pd.DataFrame(todas_matriculas, columns = ['id_aluno', 'id_curso'])

In [None]:
matriculas.head()

In [None]:
matriculas_por_curso = matriculas.groupby('id_curso').count().join(cursos['nome_do_curso']).rename(columns={'id_aluno' : 'quantidade_de_alunos'})

In [None]:
nomes.sample(3)

In [None]:
cursos.head()

In [None]:
matriculas.head()

In [None]:
matriculas_por_curso

In [None]:
matriculas_por_curso.to_csv('matriculas_por_curso.csv', index=False)

In [None]:
pd.read_csv('matriculas_por_curso.csv')

In [None]:
matriculas_json = matriculas_por_curso.to_json()

In [None]:
matriculas_json

In [None]:
matriculas_html = matriculas_por_curso.to_html()

In [None]:
print(matriculas_html)

#**Criando o banco SQL**

In [None]:
!pip install sqlalchemy

In [None]:
from sqlalchemy import create_engine, MetaData, Table

In [None]:
engine = create_engine('sqlite:///:memory')

In [None]:
engine

In [None]:
type(engine)

In [None]:
matriculas_por_curso.to_sql('matriculas', engine)

In [None]:
print(engine.table_names())

#**Buscando do banco SQL**

In [None]:
query = 'select * from matriculas where quantidade_de_alunos < 20'

In [None]:
pd.read_sql(query, engine)

In [None]:
muitas_matriculas = pd.read_sql_table('matriculas', engine, columns=['nome_do_curso', 'quantidade_de_alunos'])

In [None]:
muitas_matriculas

In [None]:
muitas_matriculas = muitas_matriculas.query('quantidade_de_alunos > 80')

In [None]:
muitas_matriculas

#**Escrevendo no banco**

In [None]:
muitas_matriculas.to_sql('muitas_matriculas', con=engine)

In [None]:
print(engine.table_names())

#**Nomes dos alunos e alunas da próxima turma**

In [None]:
matriculas_por_curso.head(20)

In [None]:
matriculas

In [None]:
id_curso = 15
proxima_turma = matriculas.query("id_curso == {}".format(id_curso))
proxima_turma

In [None]:
nomes.sample(3)

In [None]:
proxima_turma.set_index('id_aluno').join(nomes.set_index('id_aluno'))

In [None]:
proxima_turma.set_index('id_aluno').join(nomes.set_index('id_aluno'))['nome']

In [None]:
proxima_turma = proxima_turma.set_index('id_aluno').join(nomes.set_index('id_aluno'))['nome'].to_frame()
proxima_turma

In [None]:
nome_curso = cursos.loc[id_curso]
nome_curso

In [None]:
nome_curso = nome_curso.nome_do_curso
nome_curso

In [None]:
proxima_turma = proxima_turma.rename(columns = {'nome' : 'Alunos do curso {}'.format(nome_curso)})

In [None]:
proxima_turma.sample(5)

#**Excel**

In [None]:
proxima_turma.to_excel('proxima_turma.xlsx', index = False)