In [3]:
# Import necessary module
from sqlalchemy import create_engine
import pandas as pd

# Create engine: engine
engine = create_engine('sqlite:///programming.sqlite')

In [4]:
# Import BoxPlot, output_notebook, and show from bokeh.charts
from bokeh.charts import BoxPlot, Donut, Bar, Histogram, output_notebook, show
from bokeh.charts.attributes import cat, color
from bokeh.charts.operations import blend
from bokeh.layouts import gridplot, row
from bokeh.models import HoverTool
from bokeh.models.widgets import Panel, Tabs
from bokeh.plotting import ColumnDataSource

In [5]:
# What are the tables in the database?

# Save the table names to a list: table_names
table_names  = engine.table_names()

# Print the table names to the shell
print(table_names)

# See the data model here: http://chinookdatabase.codeplex.com/wikipage?title=Chinook_Schema&referringTitle=Home


['Grade']


In [6]:
# The power of SQL lies in relationships between tables: INNER JOIN

# Execute query and store records in DataFrame: df
df = pd.read_sql_query("select * from Grade",engine)

# drop the unnecessary column
df = df.drop('index', 1)

# print the number of unique students
print(len(df['Aluno_ID'].unique()))

# Print head of DataFrame
df.head()

766


Unnamed: 0,Aluno_ID,Período,Disciplina,Situaçăo,Média Final,Unidade I,Unidade II,Unidade III
0,0,2014.1,IMD0012.0 - INTRODUÇĂO ŔS TÉCNICAS DE PROGRAMAÇĂO,APROVADO,7.0,4.9,9.0,7.0
1,1,2014.1,IMD0012.0 - INTRODUÇĂO ŔS TÉCNICAS DE PROGRAMAÇĂO,APROVADO,7.3,8.0,7.0,7.0
2,2,2014.1,IMD0012.0 - INTRODUÇĂO ŔS TÉCNICAS DE PROGRAMAÇĂO,APROVADO,9.3,9.5,8.3,10.0
3,3,2014.1,IMD0012.0 - INTRODUÇĂO ŔS TÉCNICAS DE PROGRAMAÇĂO,APROVADO,7.3,6.5,7.0,8.3
4,4,2014.1,IMD0012.0 - INTRODUÇĂO ŔS TÉCNICAS DE PROGRAMAÇĂO,APROVADO,7.5,5.5,8.0,9.0


### Informações do Banco de dados

- Colunas:
 - Aluno_ID
 - Período
 - Disciplina
 - Situaçăo
 - Média Final
 - Unidade I
 - Unidade II
 - Unidade III
- Nome das disciplinas:
 - IMD0012.0 - INTRODUÇĂO ŔS TÉCNICAS DE PROGRAMAÇĂO
 - IMD0012.1 - PRÁTICAS DE TÉCNICAS DE PROGRAMAÇĂO
 - IMD0029 - ESTRUTURA DE DADOS BÁSICAS I
 - IMD0030 - LINGUAGEM DE PROGRAMAÇĂO I
 - IMD0039 - ESTRUTURAS DE DADOS BÁSICAS II  
  
- numero de alunos = 695

## Média final de disciplinas por semestre

In [7]:
#Valores das matérias no primeiro período
with engine.connect() as con:
    rs = con.execute("SELECT \"Média Final\", Disciplina, Período FROM Grade")
    
    df2 = pd.DataFrame(rs.fetchall())
    df2.columns = rs.keys()

# Print head of DataFrame
df2.head()

Unnamed: 0,Média Final,Disciplina,Período
0,7.0,IMD0012.0 - INTRODUÇĂO ŔS TÉCNICAS DE PROGRAMAÇĂO,2014.1
1,7.3,IMD0012.0 - INTRODUÇĂO ŔS TÉCNICAS DE PROGRAMAÇĂO,2014.1
2,9.3,IMD0012.0 - INTRODUÇĂO ŔS TÉCNICAS DE PROGRAMAÇĂO,2014.1
3,7.3,IMD0012.0 - INTRODUÇĂO ŔS TÉCNICAS DE PROGRAMAÇĂO,2014.1
4,7.5,IMD0012.0 - INTRODUÇĂO ŔS TÉCNICAS DE PROGRAMAÇĂO,2014.1


In [8]:
df2.info()
df2 = df2[df2['Média Final'].notnull()]
df2.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3476 entries, 0 to 3475
Data columns (total 3 columns):
Média Final    2963 non-null float64
Disciplina     3476 non-null object
Período        3476 non-null float64
dtypes: float64(2), object(1)
memory usage: 81.5+ KB


Unnamed: 0,Média Final,Disciplina,Período
0,7.0,IMD0012.0 - INTRODUÇĂO ŔS TÉCNICAS DE PROGRAMAÇĂO,2014.1
1,7.3,IMD0012.0 - INTRODUÇĂO ŔS TÉCNICAS DE PROGRAMAÇĂO,2014.1
2,9.3,IMD0012.0 - INTRODUÇĂO ŔS TÉCNICAS DE PROGRAMAÇĂO,2014.1
3,7.3,IMD0012.0 - INTRODUÇĂO ŔS TÉCNICAS DE PROGRAMAÇĂO,2014.1
4,7.5,IMD0012.0 - INTRODUÇĂO ŔS TÉCNICAS DE PROGRAMAÇĂO,2014.1


In [9]:
# Make a box plot: p
p = BoxPlot(df2, values='Média Final', label='Disciplina', color='Disciplina',
             title='Distribuição da média de notas das disciplinas',
             legend='top_left')

# Set the y axis label
p.yaxis.axis_label='Média por período'
p.plot_width=1000
p.plot_height = 1000

# Call the output_notebook() 
output_notebook()
show(p)

In [10]:
#Valores das Notas por unidades
with engine.connect() as con:
    rs = con.execute("SELECT \"Unidade I\", \"Unidade II\", \"Unidade III\", Disciplina, Período FROM Grade")
    
    df_unidades = pd.DataFrame(rs.fetchall())
    df_unidades.columns = rs.keys()

# Print head of DataFrame
df_unidades.head()

Unnamed: 0,Unidade I,"""Unidade II""",Unidade III,Disciplina,Período
0,4.9,Unidade II,7.0,IMD0012.0 - INTRODUÇĂO ŔS TÉCNICAS DE PROGRAMAÇĂO,2014.1
1,8.0,Unidade II,7.0,IMD0012.0 - INTRODUÇĂO ŔS TÉCNICAS DE PROGRAMAÇĂO,2014.1
2,9.5,Unidade II,10.0,IMD0012.0 - INTRODUÇĂO ŔS TÉCNICAS DE PROGRAMAÇĂO,2014.1
3,6.5,Unidade II,8.3,IMD0012.0 - INTRODUÇĂO ŔS TÉCNICAS DE PROGRAMAÇĂO,2014.1
4,5.5,Unidade II,9.0,IMD0012.0 - INTRODUÇĂO ŔS TÉCNICAS DE PROGRAMAÇĂO,2014.1


## Relação de reprovados e unidades com mais baixo desempenho

    - Serão colhidos dados do banco de dados e esses dados serão usados para descobrir qual a unidade que foi mais dificil para os alunos na matéria que teve mais alunos reprovados.

In [219]:
import numpy as np

def get_data_from_db():
    """ Faz uso de uma query para buscar no banco as colunas desejadas. """
    df3 = pd.read_sql_query("SELECT Disciplina, Período, Situaçăo,\"Média Final\", \"Unidade I\", \"Unidade II\", \"Unidade III\" from Grade",engine)
    df3 = df3[df3['Situaçăo'] == 'REPROVADO']
    df3 = df3[df3['Situaçăo'].notnull()]
    return df3
    
def descobrir_disciplinas(df):
    lista_disciplinas = []
    for index in range(len(df)):
        try:
            disciplina = df.ix[index, 'Disciplina']
            if disciplina not in lista_disciplinas:
                lista_disciplinas.append(disciplina)
        except KeyError:
            continue
    return lista_disciplinas

def descobrir_periodos(df):
    lista_periodos = []
    for index in range(len(df)):
        try:
            periodo = df.ix[index, 'Período']
            if periodo not in lista_periodos:
                lista_periodos.append(periodo)
        except KeyError:
            continue
    return lista_periodos

def descobrir_maior_numero_reprovados(df, disciplinas):
    maior_numero = {'Disciplina': '', 'Período': 0, 'Numero de alunos': 1000000, 'Dataframe': 0}
    for disciplina in disciplinas:
        df2 = df[df['Disciplina'] == disciplina]
        if maior_numero['Numero de alunos'] > len(df2):
            maior_numero['Disciplina'] = disciplina
            maior_numero['Numero de alunos'] = len(df2)
            maior_numero['Dataframe'] = df2
    return maior_numero

def media_unidades(dicionario):
    media_final = dicionario['Dataframe']['Média Final'].sum() / dicionario['Numero de alunos']
    unidadeI = dicionario['Dataframe']['Unidade I'].sum() / dicionario['Numero de alunos']
    unidadeIII = dicionario['Dataframe']['Unidade III'].sum() / dicionario['Numero de alunos']
    return {'media_final': media_final, 'unidadeI': unidadeI, 'unidadeIII': unidadeIII}
    
###########################################

def discover_smaller_media_final(df):
    smaller = 20 # a maior nota é 10, colocando 20 então certamente esse valor inicial não influenciará em nada o resultado
    for index in range(len(df)):
        try:
            if smaller > df.ix[index, 'Média Final'] and df.ix[index, 'Média Final'] > 0.0:
                smaller = df.ix[index, 'Média Final']
        except KeyError:
            continue
    return smaller

def get_row_smaller_media_final(df, smaller):
    df2 = df[df['Média Final'] == smaller]
    return df2


In [214]:
df3 = get_data_from_db()
df3.head()

Unnamed: 0,Disciplina,Período,Situaçăo,Média Final,Unidade I,"""Unidade II""",Unidade III
30,IMD0012.0 - INTRODUÇĂO ŔS TÉCNICAS DE PROGRAMAÇĂO,2014.1,REPROVADO,2.0,1.4,Unidade II,0.0
31,IMD0012.0 - INTRODUÇĂO ŔS TÉCNICAS DE PROGRAMAÇĂO,2014.1,REPROVADO,1.4,4.3,Unidade II,0.0
32,IMD0012.0 - INTRODUÇĂO ŔS TÉCNICAS DE PROGRAMAÇĂO,2014.1,REPROVADO,3.8,4.8,Unidade II,2.5
33,IMD0012.0 - INTRODUÇĂO ŔS TÉCNICAS DE PROGRAMAÇĂO,2014.1,REPROVADO,2.2,3.1,Unidade II,1.0
34,IMD0012.0 - INTRODUÇĂO ŔS TÉCNICAS DE PROGRAMAÇĂO,2014.1,REPROVADO,1.5,2.9,Unidade II,0.0


In [215]:
lista_disciplinas = descobrir_disciplinas(df3)
lista_disciplinas

['IMD0012.0 - INTRODUÇĂO ŔS TÉCNICAS DE PROGRAMAÇĂO',
 'IMD0012.1 - PRÁTICAS DE TÉCNICAS DE PROGRAMAÇĂO']

In [216]:
disciplina_maior_reprovados = descobrir_maior_numero_reprovados(df, lista_disciplinas)

# Coloca na tela o head de do "dataframe" da matéria com mais reprovados
print('Numero de alunos: ', disciplina_maior_reprovados['Numero de alunos'], '\n')
disciplina_maior_reprovados['Dataframe'].head()

Numero de alunos:  95 



Unnamed: 0,Disciplina,Período,Situaçăo,Média Final,Unidade I,"""Unidade II""",Unidade III
86,IMD0012.1 - PRÁTICAS DE TÉCNICAS DE PROGRAMAÇĂO,2014.1,REPROVADO,2.8,8.5,Unidade II,0.0
87,IMD0012.1 - PRÁTICAS DE TÉCNICAS DE PROGRAMAÇĂO,2014.1,REPROVADO,4.2,6.8,Unidade II,3.9
88,IMD0012.1 - PRÁTICAS DE TÉCNICAS DE PROGRAMAÇĂO,2014.1,REPROVADO,0.7,2.0,Unidade II,0.0
89,IMD0012.1 - PRÁTICAS DE TÉCNICAS DE PROGRAMAÇĂO,2014.1,REPROVADO,0.2,0.5,Unidade II,0.0
90,IMD0012.1 - PRÁTICAS DE TÉCNICAS DE PROGRAMAÇĂO,2014.1,REPROVADO,2.5,4.3,Unidade II,0.0


In [217]:
lista_periodos = descobrir_periodos(disciplina_maior_reprovados['Dataframe'])
lista_periodos

[2014.0999999999999]

In [223]:
medias = media_unidades(disciplina_maior_reprovados)

print('Nome da matéria com mais reprovados: ', disciplina_maior_reprovados['Disciplina'])
print('Media da matéria: ', medias['media_final'], '\nMedia da Unidade I: ',  medias['unidadeI'], '\nMedia da Unidade III: ', medias['unidadeIII'])

Nome da matéria com mais reprovados:  IMD0012.1 - PRÁTICAS DE TÉCNICAS DE PROGRAMAÇĂO
Media da matéria:  2.0842105263157893 
Media da Unidade I:  3.4315789473684215 
Media da Unidade III:  1.3473684210526313
