# Criando os nomes

In [127]:
!pip3 install html5lib
!pip3 install lxml



In [128]:
!pip install sqlalchemy



In [129]:
import pandas as pd
import numpy as np
import html5lib

In [130]:
nomes_f = pd.read_json('https://servicodados.ibge.gov.br/api/v1/censos/nomes/ranking?qtd=200&sexo=f')


In [131]:
nomes_m = pd.read_json('https://servicodados.ibge.gov.br/api/v1/censos/nomes/ranking?qtd=200&sexo=m')

In [132]:
frame = [nomes_f, nomes_m]
nomes = pd.concat(frame)['nome'].to_frame()


# Incluindo os Ids

In [133]:
np.random.seed(123)

In [134]:
total_alunos = len(nomes)

In [135]:
nomes['Id_aluno'] = np.random.permutation(total_alunos) + 1

## Criando os domínios de email

In [136]:
dominios = ['@dominio.com.br', '@serviodoemail.com']
nomes['dominio'] = np.random.choice(dominios, total_alunos)
nomes

Unnamed: 0,nome,Id_aluno,dominio
0,MARIA,235,@dominio.com.br
1,ANA,43,@serviodoemail.com
2,FRANCISCA,304,@serviodoemail.com
3,ANTONIA,156,@serviodoemail.com
4,ADRIANA,343,@serviodoemail.com
...,...,...,...
195,WALTER,231,@dominio.com.br
196,ARLINDO,99,@serviodoemail.com
197,MICHAEL,323,@dominio.com.br
198,ALVARO,383,@serviodoemail.com


## Criando o email de cada aluno

In [137]:
nomes['email'] = nomes.nome.str.cat(nomes.dominio).str.lower()
nomes


Unnamed: 0,nome,Id_aluno,dominio,email
0,MARIA,235,@dominio.com.br,maria@dominio.com.br
1,ANA,43,@serviodoemail.com,ana@serviodoemail.com
2,FRANCISCA,304,@serviodoemail.com,francisca@serviodoemail.com
3,ANTONIA,156,@serviodoemail.com,antonia@serviodoemail.com
4,ADRIANA,343,@serviodoemail.com,adriana@serviodoemail.com
...,...,...,...,...
195,WALTER,231,@dominio.com.br,walter@dominio.com.br
196,ARLINDO,99,@serviodoemail.com,arlindo@serviodoemail.com
197,MICHAEL,323,@dominio.com.br,michael@dominio.com.br
198,ALVARO,383,@serviodoemail.com,alvaro@serviodoemail.com


## Criando os cursos

In [138]:
url = 'https://tabela-cursos.herokuapp.com/index.html'
cursos = pd.read_html(url)


In [139]:
cursos = cursos[0]
cursos

Unnamed: 0,Nome do curso
0,Lógica de programação
1,Java para Web
2,C# para Web
3,Ruby on Rails
4,Cursos de Python
5,PHP com MySql
6,.NET para web
7,Novas integrações com Java
8,TDD com Java
9,Código limpo com C#


In [140]:
cursos.rename(columns={'Nome do curso' : 'Nome_do_curso'})

Unnamed: 0,Nome_do_curso
0,Lógica de programação
1,Java para Web
2,C# para Web
3,Ruby on Rails
4,Cursos de Python
5,PHP com MySql
6,.NET para web
7,Novas integrações com Java
8,TDD com Java
9,Código limpo com C#


In [141]:
cursos['Id'] = cursos.index + 1

In [142]:
cursos = cursos.set_index('Id')


## Matriculando alunos nos cursos de forma aleatória

In [143]:
nomes['matriculas'] = np.ceil(np.random.exponential(size=total_alunos) * 1.5).astype(int)

In [144]:
nomes.head(10)

Unnamed: 0,nome,Id_aluno,dominio,email,matriculas
0,MARIA,235,@dominio.com.br,maria@dominio.com.br,3
1,ANA,43,@serviodoemail.com,ana@serviodoemail.com,1
2,FRANCISCA,304,@serviodoemail.com,francisca@serviodoemail.com,1
3,ANTONIA,156,@serviodoemail.com,antonia@serviodoemail.com,3
4,ADRIANA,343,@serviodoemail.com,adriana@serviodoemail.com,1
5,JULIANA,310,@dominio.com.br,juliana@dominio.com.br,4
6,MARCIA,55,@dominio.com.br,marcia@dominio.com.br,2
7,FERNANDA,288,@dominio.com.br,fernanda@dominio.com.br,1
8,PATRICIA,379,@serviodoemail.com,patricia@serviodoemail.com,1
9,ALINE,92,@serviodoemail.com,aline@serviodoemail.com,4


In [145]:
todas_matriculas = []
x = np.random.rand(20)
prob = x / sum(x)

In [146]:
for index, row in nomes.iterrows():
    id = row.Id_aluno
    matriculas = row.matriculas
    for i in range(matriculas):
        mat = [id, np.random.choice(cursos.index, p = prob)]
        todas_matriculas.append(mat)

In [147]:
matriculas = pd.DataFrame(todas_matriculas, columns = ['Id_aluno', 'Id_curso'])
matriculas

Unnamed: 0,Id_aluno,Id_curso
0,235,11
1,235,11
2,235,2
3,43,13
4,304,10
...,...,...
850,323,13
851,383,9
852,383,6
853,383,19


## Analisando quantidade de alunos por curso

In [148]:
matriculas.groupby('Id_curso').count().join(cursos['Nome do curso']).rename(columns={'Id_aluno' : 'quantidade_de_alunos'})

Unnamed: 0_level_0,quantidade_de_alunos,Nome do curso
Id_curso,Unnamed: 1_level_1,Unnamed: 2_level_1
1,8,Lógica de programação
2,81,Java para Web
3,18,C# para Web
4,17,Ruby on Rails
5,24,Cursos de Python
6,68,PHP com MySql
7,4,.NET para web
8,54,Novas integrações com Java
9,68,TDD com Java
10,48,Código limpo com C#


In [149]:
matricula_por_curso = matriculas.groupby('Id_curso').count().join(cursos['Nome do curso']).rename(columns={'Id_aluno' : 'quantidade_de_alunos'})

## Exportando DataFrames em .csv

In [150]:
matricula_por_curso.to_csv('dados/matricula_por_curso.csv', index = False)
nomes.to_csv('dados/nomes.csv')
cursos.to_csv('dados/cursos.csv')

## Criando o banco SQL

In [151]:
from sqlalchemy import create_engine, MetaData, Table

In [152]:
engine = create_engine('sqlite:///:memory:')

In [153]:
engine

Engine(sqlite:///:memory:)

In [154]:
matricula_por_curso.to_sql('matriculas', engine)

## Buscando do banco SQL

In [155]:
query = 'select * from matriculas where quantidade_de_alunos < 20'

In [156]:
pd.read_sql(query, engine)

Unnamed: 0,Id_curso,quantidade_de_alunos,Nome do curso
0,1,8,Lógica de programação
1,3,18,C# para Web
2,4,17,Ruby on Rails
3,7,4,.NET para web
4,12,12,Hardware básico


In [157]:
pd.read_sql_table('matriculas', engine, columns=['Nome do curso', 'quantidade_de_alunos'])

Unnamed: 0,Nome do curso,quantidade_de_alunos
0,Lógica de programação,8
1,Java para Web,81
2,C# para Web,18
3,Ruby on Rails,17
4,Cursos de Python,24
5,PHP com MySql,68
6,.NET para web,4
7,Novas integrações com Java,54
8,TDD com Java,68
9,Código limpo com C#,48


In [158]:
muitas_matriculas = pd.read_sql_table('matriculas', engine, columns=['Nome do curso', 'quantidade_de_alunos'])

In [159]:
muitas_matriculas = muitas_matriculas.query('quantidade_de_alunos > 50')

## Escrevendo no banco SQL

In [160]:
muitas_matriculas.to_sql('muitas_matriculas', con=engine)

In [161]:
print(engine.table_names())

['matriculas', 'muitas_matriculas']


## Nomes dos alunos(as) da próxima turma

In [168]:
id_curso = 7
proxima_turma = matriculas.query(f"Id_curso == {id_curso}")

In [169]:
proxima_turma

Unnamed: 0,Id_aluno,Id_curso
247,106,7
286,75,7
438,24,7
809,312,7


In [172]:
proxima_turma.set_index('Id_aluno').join(nomes.set_index('Id_aluno'))['nome'].to_frame()

Unnamed: 0_level_0,nome
Id_aluno,Unnamed: 1_level_1
106,LIVIA
75,NEUSA
24,JOAO
312,WANDERSON


In [173]:
nomes_proxima_turma = proxima_turma.set_index('Id_aluno').join(nomes.set_index('Id_aluno'))['nome'].to_frame()

In [175]:
nomes_proxima_turma.rename(columns = {'nome' : 'alunos do curso.NET para web'})

Unnamed: 0_level_0,alunos do curso.NET para web
Id_aluno,Unnamed: 1_level_1
106,LIVIA
75,NEUSA
24,JOAO
312,WANDERSON


## Exportando em formato excel

In [178]:
nomes_proxima_turma.to_excel('dados/nomes_proxima_turma.xlsx', index=False)