In [2]:
# Importar tudo que precisamos
import pandas as pd
import plotly.express as px
from sqlalchemy import create_engine

# Conectar ao PostgreSQL
engine = create_engine("postgresql+psycopg2://user:password@localhost:5440/fadesp_db")

# Ler os dados da tabela cursos
df_cursos = pd.read_sql_table("cursos", con=engine)

print("Shape dos dados:", df_cursos.shape)
df_cursos.head()

# ------------------------------
# 1) Distribuição de cursos por Região
regiao_counts = df_cursos['NO_REGIAO'].value_counts().reset_index()
regiao_counts.columns = ['Região', 'Quantidade']

fig = px.bar(regiao_counts, x='Região', y='Quantidade',
             title='Número de Cursos por Região',
             text='Quantidade')
fig.show()

# ------------------------------
# 2) Distribuição de cursos por UF
uf_counts = df_cursos['NO_UF'].value_counts().reset_index()
uf_counts.columns = ['UF', 'Quantidade']

fig = px.bar(uf_counts, x='UF', y='Quantidade',
             title='Número de Cursos por UF',
             text='Quantidade')
fig.show()

# ------------------------------
# 3) Organização Acadêmica - Mapeada
org_map = {
    1: 'Universidade',
    2: 'Centro Universitário',
    3: 'Faculdade',
    4: 'Instituto Federal'
}

df_cursos['ORGANIZACAO_ACADEMICA_NOME'] = df_cursos['TP_ORGANIZACAO_ACADEMICA'].map(org_map)

org_counts = df_cursos['ORGANIZACAO_ACADEMICA_NOME'].value_counts(normalize=True).reset_index()
org_counts.columns = ['Organização', 'Percentual']
org_counts['Percentual'] *= 100

fig = px.bar(org_counts, x='Organização', y='Percentual',
             title='Percentual de Cursos por Organização Acadêmica',
             text='Percentual')
fig.show()

# ------------------------------
# 4) Categoria Administrativa - Mapeada
cat_map = {
    1: 'Pública Federal',
    2: 'Pública Estadual',
    3: 'Pública Municipal',
    4: 'Privada com fins lucrativos',
    5: 'Privada sem fins lucrativos'
}

df_cursos['CATEGORIA_ADMIN_NOME'] = df_cursos['TP_CATEGORIA_ADMINISTRATIVA'].map(cat_map)

cat_counts = df_cursos['CATEGORIA_ADMIN_NOME'].value_counts(normalize=True).reset_index()
cat_counts.columns = ['Categoria', 'Percentual']
cat_counts['Percentual'] *= 100

fig = px.bar(cat_counts, x='Categoria', y='Percentual',
             title='Percentual de Cursos por Categoria Administrativa',
             text='Percentual')
fig.show()

# ------------------------------
# 5) Comparação Pública vs Privada
def rede(row):
    if row in [1, 2, 3]:
        return 'Pública'
    else:
        return 'Privada'

df_cursos['REDE'] = df_cursos['TP_CATEGORIA_ADMINISTRATIVA'].apply(rede)
rede_counts = df_cursos['REDE'].value_counts(normalize=True).reset_index()
rede_counts.columns = ['Tipo', 'Percentual']
rede_counts['Percentual'] *= 100

fig = px.pie(rede_counts, names='Tipo', values='Percentual',
             title='Proporção de Cursos Públicos vs Privados',
             hole=0.4)
fig.show()

# ------------------------------
# 6) Heatmap (UF x Organização)
heatmap_data = df_cursos.groupby(['NO_UF', 'ORGANIZACAO_ACADEMICA_NOME']).size().reset_index(name='Qtd')
heatmap_pivot = heatmap_data.pivot(index='NO_UF', columns='ORGANIZACAO_ACADEMICA_NOME', values='Qtd').fillna(0)

import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(12, 8))
sns.heatmap(heatmap_pivot, annot=True, fmt=".0f", cmap='Blues')
plt.title('Heatmap: UF vs Organização Acadêmica')
plt.show()






Shape dos dados: (671610, 202)


ValueError: zero-size array to reduction operation fmin which has no identity

<Figure size 1200x800 with 0 Axes>