
**4-Engenharia-de-Dados-MVP-Análise-Dados-Escolas**

A partir de dados públicos e disponíveis sobre unidades de ensino e cursos registrados no SISTEC, é possível mapear a rede de ensino e a oferta de cursos técnicos a partir de vários recortes. Além disso, sua distribuição por estados e municípios pode servir de base para planejar a formação de novos profissionais alinhada às demandas de cada região.

**Diante disso, o objetivo deste notebook consiste em responder as seguintes questões sobre Unidades de Ensino.**

- Quais os 5 estados com maior e menor quantidade de unidades de ensino?
- Quais as 5 capitais com maior e menor quantidade de unidades de ensino?
- Quais os 5 estados com maior e menor quantidade de unidades de ensino em municípios diferentes de capitais?
- Como está a distribuição da quantidade de unidades de ensino por sistema de ensino, tipo de escola, dependência administrativa e sub-dependência administrativa?
- Quais as 5 unidades de ensino com maior e menor quantidade de cursos presenciais? Em quais municípios e estados essas unidades estão?
- Quais as 5 unidades de ensino com a maior e menor quantidade de cursos à distância? Em quais municípios e estados essas unidades estão?
- Existem unidades de ensino sem oferta de cursos? Em que estados elas estão?
- Qual o percentual de unidades de ensino com e sem cursos por UF?
- Qual o percentual de unidades de ensino em capitais e fora das capitais por UF?


In [0]:
import pandas as pd
import plotly.express as px
import pyspark.sql.functions as F

In [0]:

# Quais os 5 estados com maior quantidade de unidades de ensino?

df_5_maiores_qtd_unidades_uf = spark.sql('SELECT UF, COUNT(DISTINCT CODIGO_UNIDADE_DE_ENSINO) AS QTD_UNIDADES FROM GOLD.ESCOLAS_FINAL GROUP BY UF ORDER BY QTD_UNIDADES DESC LIMIT 5')

df_5_maiores_qtd_unidades_uf_pd = df_5_maiores_qtd_unidades_uf.toPandas()

# Criando um gráfico de barras
fig = px.bar(
    df_5_maiores_qtd_unidades_uf_pd,
    x='UF',
    y='QTD_UNIDADES',
    labels={"UF": "Unidade Federativa", "QTD_UNIDADES": "Quantidade de Unidades"},
    title="Ranking de Quantidade de Unidades de Ensino por UF (5 maiores)"
)

# Adicionando rótulos acima de cada barra
fig.update_traces(
    text=df_5_maiores_qtd_unidades_uf_pd['QTD_UNIDADES'],
    textposition="inside",
    texttemplate='%{text}'
)

fig.show()

# Resultado: no ranking dos 5 estados com maior quantidade de unidades de ensino, os 4 primeiros estão nas regiões Sudeste e Sul (SP, MG, PR, RJ, BA)


In [0]:

# Quais os 5 estados com menor quantidade de unidades de ensino?

df_5_menores_qtd_unidades_uf = spark.sql('SELECT UF, COUNT(DISTINCT CODIGO_UNIDADE_DE_ENSINO) AS QTD_UNIDADES FROM GOLD.ESCOLAS_FINAL GROUP BY UF ORDER BY QTD_UNIDADES ASC LIMIT 5')

df_5_menores_qtd_unidades_uf_pd = df_5_menores_qtd_unidades_uf.toPandas()

# Criando um gráfico de barras
fig = px.bar(
    df_5_menores_qtd_unidades_uf_pd,
    x='UF',
    y='QTD_UNIDADES',
    labels={"UF": "Unidade Federativa", "QTD_UNIDADES": "Quantidade de Unidades"},
    title="Ranking de Quantidade de Unidades de Ensino por UF (5 menores)"
)

# Adicionando rótulos acima de cada barra
fig.update_traces(
    text=df_5_menores_qtd_unidades_uf_pd['QTD_UNIDADES'],
    textposition="inside",
    texttemplate='%{text}'
)

fig.show()

# Resultado: no ranking dos 5 estados com menor quantidade de unidades de ensino, os 4 primeiros estão na região Norte (AP, AC, RR, RO AL)


In [0]:
# Quais as 5 capitais com maior quantidade de unidades de ensino?

df_5_maiores_qtd_unidades_capital = spark.sql("SELECT MUNICIPIO, COUNT(DISTINCT CODIGO_UNIDADE_DE_ENSINO) AS QTD_UNIDADES FROM GOLD.ESCOLAS_FINAL WHERE MUNICIPIO IN ('RIO BRANCO', 'MACEIÓ', 'MACAPÁ', 'MANAUS', 'SALVADOR', 'FORTALEZA', 'BRASÍLIA', 'VITÓRIA', 'GOIÂNIA', 'SÃO LUÍS', 'CUIABÁ', 'CAMPO BRANCO', 'BELO HORIZONTE', 'BELÉM', 'JOÃO PESSOA', 'CURITIBA', 'RECIFE', 'TERESINA', 'RIO DE JANEIRO', 'NATAL', 'PORTO ALEGRE', 'PORTO VELHO', 'BOA VISTA', 'FLORIANÓPOLIS', 'SÃO PAULO', 'ARACAJÚ', 'PALMAS') GROUP BY MUNICIPIO ORDER BY QTD_UNIDADES DESC LIMIT 5")

df_5_maiores_qtd_unidades_capital_pd = df_5_maiores_qtd_unidades_capital.toPandas()

# Criando um gráfico de barras
fig = px.bar(
    df_5_maiores_qtd_unidades_capital_pd,
    x='MUNICIPIO',
    y='QTD_UNIDADES',
    labels={"MUNICIPIO": "Capital", "QTD_UNIDADES": "Quantidade de Unidades"},
    title="Ranking de Quantidade de Unidades de Ensino por Capital (5 maiores)"
)

# Adicionando rótulos acima de cada barra
fig.update_traces(
    text=df_5_maiores_qtd_unidades_capital_pd['QTD_UNIDADES'],
    textposition="inside",
    texttemplate='%{text}'
)

fig.show()

# Resultado: no ranking das 5 capitais com maior quantidade de unidades de ensino, as 4 primeiras estão nas regiões Sudeste e Sul

In [0]:
# Quais as 5 capitais com menor quantidade de unidades de ensino?

df_5_menores_qtd_unidades_capital = spark.sql("SELECT MUNICIPIO, COUNT(DISTINCT CODIGO_UNIDADE_DE_ENSINO) AS QTD_UNIDADES FROM GOLD.ESCOLAS_FINAL WHERE MUNICIPIO IN ('RIO BRANCO', 'MACEIÓ', 'MACAPÁ', 'MANAUS', 'SALVADOR', 'FORTALEZA', 'BRASÍLIA', 'VITÓRIA', 'GOIÂNIA', 'SÃO LUÍS', 'CUIABÁ', 'CAMPO BRANCO', 'BELO HORIZONTE', 'BELÉM', 'JOÃO PESSOA', 'CURITIBA', 'RECIFE', 'TERESINA', 'RIO DE JANEIRO', 'NATAL', 'PORTO ALEGRE', 'PORTO VELHO', 'BOA VISTA', 'FLORIANÓPOLIS', 'SÃO PAULO', 'ARACAJÚ', 'PALMAS') GROUP BY MUNICIPIO ORDER BY QTD_UNIDADES ASC LIMIT 5")

df_5_menores_qtd_unidades_capital_pd = df_5_menores_qtd_unidades_capital.toPandas()

# Criando um gráfico de barras
fig = px.bar(
    df_5_menores_qtd_unidades_capital_pd,
    x='MUNICIPIO',
    y='QTD_UNIDADES',
    labels={"MUNICIPIO": "Capital", "QTD_UNIDADES": "Quantidade de Unidades"},
    title="Ranking de Quantidade de Unidades de Ensino por Capital (5 menores)"
)

# Adicionando rótulos acima de cada barra
fig.update_traces(
    text=df_5_menores_qtd_unidades_capital_pd['QTD_UNIDADES'],
    textposition="inside",
    texttemplate='%{text}'
)

fig.show()

# Resultado: no ranking dos 5 capitais com menor quantidade de unidades de ensino, as 4 primeiras estão na região Norte

In [0]:
%sql

-- Quais os 5 estados com maior quantidade de unidades de ensino em municípios diferentes de capitais?

SELECT UF, COUNT(DISTINCT CODIGO_UNIDADE_DE_ENSINO) AS QTD_UNIDADES FROM GOLD.ESCOLAS_FINAL WHERE MUNICIPIO NOT IN ('RIO BRANCO', 'MACEIÓ', 'MACAPÁ', 'MANAUS', 'SALVADOR', 'FORTALEZA', 'BRASÍLIA', 'VITÓRIA', 'GOIÂNIA', 'SÃO LUÍS', 'CUIABÁ', 'CAMPO BRANCO', 'BELO HORIZONTE', 'BELÉM', 'JOÃO PESSOA', 'CURITIBA', 'RECIFE', 'TERESINA', 'RIO DE JANEIRO', 'NATAL', 'PORTO ALEGRE', 'PORTO VELHO', 'BOA VISTA', 'FLORIANÓPOLIS', 'SÃO PAULO', 'ARACAJÚ', 'PALMAS') GROUP BY UF ORDER BY QTD_UNIDADES DESC LIMIT 5

-- Resultado: no ranking dos 5 estados com maior quantidade de unidades de ensino em municípios diferentes de capitais, os 4 primeiros estão nas regiões Sudeste e Sul (SP, MG, PR, RS, BA)


UF,QTD_UNIDADES
SP,3769
MG,3455
PR,1481
RS,1039
BA,1008


In [0]:
%sql

-- Quais os 5 estados com menor quantidade de unidades de ensino em municípios diferentes de capitais?

SELECT UF, COUNT(DISTINCT CODIGO_UNIDADE_DE_ENSINO) AS QTD_UNIDADES FROM GOLD.ESCOLAS_FINAL WHERE MUNICIPIO NOT IN ('RIO BRANCO', 'MACEIÓ', 'MACAPÁ', 'MANAUS', 'SALVADOR', 'FORTALEZA', 'BRASÍLIA', 'VITÓRIA', 'GOIÂNIA', 'SÃO LUÍS', 'CUIABÁ', 'CAMPO BRANCO', 'BELO HORIZONTE', 'BELÉM', 'JOÃO PESSOA', 'CURITIBA', 'RECIFE', 'TERESINA', 'RIO DE JANEIRO', 'NATAL', 'PORTO ALEGRE', 'PORTO VELHO', 'BOA VISTA', 'FLORIANÓPOLIS', 'SÃO PAULO', 'ARACAJÚ', 'PALMAS') GROUP BY UF ORDER BY QTD_UNIDADES ASC LIMIT 5

-- Resultado: no ranking dos 5 estados com menor quantidade de unidades de ensino em municípios diferentes de capitais, os 4 primeiros estão na região Norte (RR, AP, AC, AM, AL)


UF,QTD_UNIDADES
RR,21
AP,25
AC,34
AM,86
AL,100


In [0]:
# Como está a distribuição da quantidade de unidades de ensino por sistema de ensino?

df_distribuicao_sistema_ensino = spark.sql('SELECT NOME_SISTEMA_DE_ENSINO, COUNT(DISTINCT CODIGO_UNIDADE_DE_ENSINO) AS QTD_UNIDADES FROM GOLD.ESCOLAS_FINAL GROUP BY NOME_SISTEMA_DE_ENSINO ORDER BY QTD_UNIDADES DESC')

df_distribuicao_sistema_ensino_pd = df_distribuicao_sistema_ensino.toPandas()

# Criando um gráfico de pizza
fig = px.pie(
    df_distribuicao_sistema_ensino_pd,
    names='NOME_SISTEMA_DE_ENSINO',
    values='QTD_UNIDADES',
    labels={"NOME_SISTEMA_DE_ENSINO": "Nome Sistema Ensino", "QTD_UNIDADES": "Quantidade de Unidades"},
    title="Distribuição da quantidade de unidades de ensino por Sistema de Ensino"
)

# Adicionando rótulos
fig.update_traces(
    textinfo='percent+value',
    textposition="outside"
)

fig.show()

In [0]:
# Como está a distribuição da quantidade de unidades de ensino por tipo de escola?

df_distribuicao_tipo_escola = spark.sql('SELECT NOME_TIPO_ESCOLA, COUNT(DISTINCT CODIGO_UNIDADE_DE_ENSINO) AS QTD_UNIDADES FROM GOLD.ESCOLAS_FINAL GROUP BY NOME_TIPO_ESCOLA ORDER BY QTD_UNIDADES DESC')

df_distribuicao_tipo_escola_pd = df_distribuicao_tipo_escola.toPandas()

# Criando um gráfico de pizza
fig = px.pie(
    df_distribuicao_tipo_escola_pd,
    names='NOME_TIPO_ESCOLA',
    values='QTD_UNIDADES',
    labels={"NOME_TIPO_ESCOLA": "Nome Tipo Escola", "QTD_UNIDADES": "Quantidade de Unidades"},
    title="Distribuição da quantidade de unidades de ensino por Tipo de Escola"
)

# Adicionando rótulos
fig.update_traces(
    textinfo='percent+value',
    textposition="outside"
)

fig.show()

In [0]:
# Como está a distribuição da quantidade de unidades de ensino por dependência administrativa?

df_distribuicao_dependencia_administrativa = spark.sql('SELECT NOME_DEPENDENCIA_ADMINISTRATIVA, COUNT(DISTINCT CODIGO_UNIDADE_DE_ENSINO) AS QTD_UNIDADES FROM GOLD.ESCOLAS_FINAL GROUP BY NOME_DEPENDENCIA_ADMINISTRATIVA ORDER BY QTD_UNIDADES DESC')

df_distribuicao_dependencia_administrativa_pd = df_distribuicao_dependencia_administrativa.toPandas()

# Criando um gráfico de pizza
fig = px.pie(
    df_distribuicao_dependencia_administrativa_pd,
    names='NOME_DEPENDENCIA_ADMINISTRATIVA',
    values='QTD_UNIDADES',
    labels={"NOME_DEPENDENCIA_ADMINISTRATIVA": "Nome Dependência Administrativa", "QTD_UNIDADES": "Quantidade de Unidades"},
    title="Distribuição da quantidade de unidades de ensino por Dependência Administrativa"
)

# Adicionando rótulos
fig.update_traces(
    textinfo='percent+value',
    textposition="outside"
)

fig.show()

In [0]:
#Como está a distribuição da quantidade de unidades de ensino por sub-dependência administrativa?

df_distribuicao_subdependencia_administrativa = spark.sql('SELECT NOME_SUBDEPENDENCIA_ADMINISTRATIVA, COUNT(DISTINCT CODIGO_UNIDADE_DE_ENSINO) AS QTD_UNIDADES FROM GOLD.ESCOLAS_FINAL WHERE NOME_SUBDEPENDENCIA_ADMINISTRATIVA <> "NA" GROUP BY NOME_SUBDEPENDENCIA_ADMINISTRATIVA ORDER BY QTD_UNIDADES DESC')

df_distribuicao_subdependencia_administrativa_pd = df_distribuicao_subdependencia_administrativa.toPandas()

# Criando um gráfico de pizza
fig = px.pie(
    df_distribuicao_subdependencia_administrativa_pd,
    names='NOME_SUBDEPENDENCIA_ADMINISTRATIVA',
    values='QTD_UNIDADES',
    labels={"NOME_SUBDEPENDENCIA_ADMINISTRATIVA": "Nome Sub-Dependência Administrativa", "QTD_UNIDADES": "Quantidade de Unidades"},
    title="Distribuição da quantidade de unidades de ensino por Dependência Administrativa"
)

# Adicionando rótulos
fig.update_traces(
    textinfo='percent+value',
    textposition="outside"
)

fig.show()

In [0]:
%sql

-- Quais as 5 unidades de ensino com maior quantidade de cursos presenciais? Em quais municípios e estados essas unidades estão?

SELECT CODIGO_UNIDADE_DE_ENSINO, UNIDADE_DE_ENSINO, UF, MUNICIPIO, QTD_CURSOS_PRESENCIAIS FROM GOLD.ESCOLAS_FINAL WHERE QTD_CURSOS_PRESENCIAIS > 0 ORDER BY QTD_CURSOS_PRESENCIAIS DESC LIMIT 5


CODIGO_UNIDADE_DE_ENSINO,UNIDADE_DE_ENSINO,UF,MUNICIPIO,QTD_CURSOS_PRESENCIAIS
12977,UNIVERSIDADE FEDERAL DE MINAS GERAIS - COLEGIO TÉCNICO DA UFMG,MG,BELO HORIZONTE,176
12496,CETAM - UNIDADE DE MANAUS,AM,MANAUS,60
43049,IETAAM - INSTITUTO DE EDUCAÇÃO TECNOLÓGICA AVANÇADA DA AMAZÔNIA,PA,BELÉM,54
10759,SENAC CAMPINAS CENTRO,SP,CAMPINAS,48
3479,UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE - ESCOLA AGRÍCOLA DE JUNDIAÍ DA UFRN,RN,MACAÍBA,45


In [0]:
%sql

-- Quais as 5 unidades de ensino com menor quantidade de cursos presenciais? Em quais municípios e estados essas unidades estão?

SELECT CODIGO_UNIDADE_DE_ENSINO, UNIDADE_DE_ENSINO, UF, MUNICIPIO, QTD_CURSOS_PRESENCIAIS FROM GOLD.ESCOLAS_FINAL WHERE QTD_CURSOS_PRESENCIAIS > 0 ORDER BY QTD_CURSOS_PRESENCIAIS ASC LIMIT 5

CODIGO_UNIDADE_DE_ENSINO,UNIDADE_DE_ENSINO,UF,MUNICIPIO,QTD_CURSOS_PRESENCIAIS
19644,POLICURSOS COLEGIO,SP,MOGI DAS CRUZES,1
13271,COLÉGIO ESTADUAL FRANCISCO ASSUMPÇÃO,RJ,NOVA IGUAÇU,1
30705,EE JOÃO PEDRO PEDROSSIAN,MS,BODOQUENA,1
32369,SENAC- PITANGA,PR,PITANGA,1
20484,UNIVERSIDADE DO VALE DO ITAJAÍ,SC,BALNEÁRIO CAMBORIÚ,1


In [0]:
%sql

-- Quais as 5 unidades de ensino com maior quantidade de cursos à distância? Em quais municípios e estados essas unidades estão?

SELECT CODIGO_UNIDADE_DE_ENSINO, UNIDADE_DE_ENSINO, UF, MUNICIPIO, QTD_CURSOS_DISTANCIA FROM GOLD.ESCOLAS_FINAL WHERE QTD_CURSOS_DISTANCIA > 0 ORDER BY QTD_CURSOS_DISTANCIA DESC LIMIT 5


CODIGO_UNIDADE_DE_ENSINO,UNIDADE_DE_ENSINO,UF,MUNICIPIO,QTD_CURSOS_DISTANCIA
49080,FORMA CURSOS ENSINO A DISTÂNCIA LTDA,PB,JOÃO PESSOA,65
14267,ESCOLA RESIDÊNCIA SAÚDE,AL,MACEIÓ,48
50490,CIEBJA UNINTER - EF M P,PR,CURITIBA,39
52818,CENTRO DE EDUCAÇÃO E QUALIFICAÇÃO POTÊNCIA MASTER,PA,CASTANHAL,36
52544,ESCOLA TÉCNICA MERCURY,RJ,RIO DE JANEIRO,34


In [0]:
%sql

-- Quais as 5 unidades de ensino com menor quantidade de cursos à distância? Em quais municípios e estados essas unidades estão?

SELECT CODIGO_UNIDADE_DE_ENSINO, UNIDADE_DE_ENSINO, UF, MUNICIPIO, QTD_CURSOS_DISTANCIA FROM GOLD.ESCOLAS_FINAL WHERE QTD_CURSOS_DISTANCIA > 0 ORDER BY QTD_CURSOS_DISTANCIA ASC LIMIT 5


CODIGO_UNIDADE_DE_ENSINO,UNIDADE_DE_ENSINO,UF,MUNICIPIO,QTD_CURSOS_DISTANCIA
14086,COLEGIO ESTADUAL BARÃO DE ANTONINA - ENSINO FUNDAMENTAL- MEDIO- NORMAL E PROFISSIONAL,PR,RIO NEGRO,1
867,CENTRO DE FORMACAO DE CORRETORES DE IMOVEIS / SINDIMOVEIS,CE,FORTALEZA,1
46790,CENTRO UNIVERSITÁRIO LEONARDO DA VINCI - UNIASSELVI - POLO DE APOIO PRESENCIAL DE CARAZINHO/RS,RS,CARAZINHO,1
56983,ESCOLA TÉCNICA MRX CURSOS,AL,MACEIÓ,1
635,COLEGIO MONTES BELOS,GO,SÃO LUÍS DE MONTES BELOS,1


In [0]:
%sql

-- Existem unidades de ensino sem oferta de cursos? Em que estados elas estão? (visão sem gráfico)

SELECT UF, COUNT(CODIGO_UNIDADE_DE_ENSINO) AS QTD_UNIDADES FROM GOLD.ESCOLAS_FINAL WHERE QTD_CURSOS_TOTAIS = 0 GROUP BY UF ORDER BY QTD_UNIDADES DESC


UF,QTD_UNIDADES
SP,1526
MG,1113
PR,684
BA,563
RJ,527
RS,478
SC,405
GO,331
PA,263
CE,239


In [0]:
# Existem unidades de ensino sem oferta de cursos? Em que estados elas estão? (visão com gráfico)

df_unidades_sem_cursos_uf = spark.sql('SELECT UF, COUNT(CODIGO_UNIDADE_DE_ENSINO) AS QTD_UNIDADES FROM GOLD.ESCOLAS_FINAL WHERE QTD_CURSOS_TOTAIS = 0 GROUP BY UF ORDER BY QTD_UNIDADES DESC')

df_unidades_sem_cursos_uf_pd = df_unidades_sem_cursos_uf.toPandas()

# Criando um gráfico de barras
fig = px.bar(
    df_unidades_sem_cursos_uf_pd,
    x='UF',
    y='QTD_UNIDADES',
    labels={"UF": "Unidade Federativa", "QTD_UNIDADES": "Quantidade de Unidades"},
    title="Quantidade de Unidades de Ensino sem cursos por UF"
)

# Adicionando rótulos acima de cada barra
fig.update_traces(
    text=df_unidades_sem_cursos_uf_pd['QTD_UNIDADES'],
    textposition="inside",
    texttemplate='%{text}',
    textfont=dict(size=30)
)

fig.show()

In [0]:
# Qual o percentual de unidades de ensino com e sem cursos por UF?

df_unidades_uf = spark.sql('SELECT UF, COUNT(DISTINCT CODIGO_UNIDADE_DE_ENSINO) AS QTD_UNIDADES FROM GOLD.ESCOLAS_FINAL GROUP BY UF')

df_unidades_com_cursos_uf = spark.sql('SELECT UF, COUNT(DISTINCT CODIGO_UNIDADE_DE_ENSINO) AS QTD_UNIDADES_COM_CURSOS FROM GOLD.ESCOLAS_FINAL WHERE QTD_CURSOS_TOTAIS <> 0 GROUP BY UF')

df_unidades_sem_cursos_uf = spark.sql('SELECT UF, COUNT(DISTINCT CODIGO_UNIDADE_DE_ENSINO) AS QTD_UNIDADES_SEM_CURSOS FROM GOLD.ESCOLAS_FINAL WHERE QTD_CURSOS_TOTAIS = 0 GROUP BY UF')

df_mapa_uf_1 = (df_unidades_uf
            .join(df_unidades_com_cursos_uf, 'UF', 'left')
            .join(df_unidades_sem_cursos_uf, 'UF', 'left')
            .withColumn('PERC_COM_CURSOS', F.ceil((df_unidades_com_cursos_uf['QTD_UNIDADES_COM_CURSOS']/df_unidades_uf['QTD_UNIDADES'])*100))
            .withColumn('PERC_SEM_CURSOS', F.ceil((df_unidades_sem_cursos_uf['QTD_UNIDADES_SEM_CURSOS']/df_unidades_uf['QTD_UNIDADES'])*100)) 
)

df_mapa_uf_analise_1 = df_mapa_uf_1.fillna(0)

df_mapa_uf_analise_1.display()


UF,QTD_UNIDADES,QTD_UNIDADES_COM_CURSOS,QTD_UNIDADES_SEM_CURSOS,PERC_COM_CURSOS,PERC_SEM_CURSOS
SC,1022,617,405,61,40
RO,168,92,76,55,46
PI,394,304,90,78,23
AM,204,127,77,63,38
RR,74,44,30,60,41
GO,731,400,331,55,46
TO,351,141,210,41,60
MT,427,220,207,52,49
SP,4896,3370,1526,69,32
ES,533,390,143,74,27


In [0]:

# Análise estatística do dataframe de unidades com e sem cursos

df_mapa_uf_analise_1.describe().show()

+-------+----+-----------------+-----------------------+-----------------------+-----------------+-----------------+
|summary|  UF|     QTD_UNIDADES|QTD_UNIDADES_COM_CURSOS|QTD_UNIDADES_SEM_CURSOS|  PERC_COM_CURSOS|  PERC_SEM_CURSOS|
+-------+----+-----------------+-----------------------+-----------------------+-----------------+-----------------+
|  count|  27|               27|                     27|                     27|               27|               27|
|   mean|null|833.6296296296297|      533.8888888888889|     299.74074074074076|61.25925925925926| 39.7037037037037|
| stddev|null|1115.162945946195|      774.4168194560408|     347.34283580354094|8.088893585046067|8.037483412184413|
|    min|  AC|               61|                     34|                     21|               41|               23|
|    max|  TO|             4896|                   3370|                   1526|               78|               60|
+-------+----+-----------------+-----------------------+--------

In [0]:
# Qual o percentual de unidades de ensino dentro e fora de capitais por UF?

df_unidades_uf = spark.sql('SELECT UF, COUNT(DISTINCT CODIGO_UNIDADE_DE_ENSINO) AS QTD_UNIDADES FROM GOLD.ESCOLAS_FINAL GROUP BY UF')

df_unidades_capitais_uf = spark.sql("SELECT UF, COUNT(DISTINCT CODIGO_UNIDADE_DE_ENSINO) AS QTD_UNIDADES_CAPITAIS FROM GOLD.ESCOLAS_FINAL WHERE MUNICIPIO IN ('RIO BRANCO', 'MACEIÓ', 'MACAPÁ', 'MANAUS', 'SALVADOR', 'FORTALEZA', 'BRASÍLIA', 'VITÓRIA', 'GOIÂNIA', 'SÃO LUÍS', 'CUIABÁ', 'CAMPO BRANCO', 'BELO HORIZONTE', 'BELÉM', 'JOÃO PESSOA', 'CURITIBA', 'RECIFE', 'TERESINA', 'RIO DE JANEIRO', 'NATAL', 'PORTO ALEGRE', 'PORTO VELHO', 'BOA VISTA', 'FLORIANÓPOLIS', 'SÃO PAULO', 'ARACAJÚ', 'PALMAS') GROUP BY UF")

df_unidades_nao_capitais_uf = spark.sql("SELECT UF, COUNT(DISTINCT CODIGO_UNIDADE_DE_ENSINO) AS QTD_UNIDADES_NAO_CAPITAIS FROM GOLD.ESCOLAS_FINAL WHERE MUNICIPIO NOT IN ('RIO BRANCO', 'MACEIÓ', 'MACAPÁ', 'MANAUS', 'SALVADOR', 'FORTALEZA', 'BRASÍLIA', 'VITÓRIA', 'GOIÂNIA', 'SÃO LUÍS', 'CUIABÁ', 'CAMPO BRANCO', 'BELO HORIZONTE', 'BELÉM', 'JOÃO PESSOA', 'CURITIBA', 'RECIFE', 'TERESINA', 'RIO DE JANEIRO', 'NATAL', 'PORTO ALEGRE', 'PORTO VELHO', 'BOA VISTA', 'FLORIANÓPOLIS', 'SÃO PAULO', 'ARACAJÚ', 'PALMAS') GROUP BY UF")

df_mapa_uf_2 = (df_unidades_uf
            .join(df_unidades_capitais_uf, 'UF', 'left')
            .join(df_unidades_nao_capitais_uf, 'UF', 'left')
            .withColumn('PERC_CAPITAIS', F.ceil((df_unidades_capitais_uf['QTD_UNIDADES_CAPITAIS']/df_unidades_uf['QTD_UNIDADES'])*100))
            .withColumn('PERC_NAO_CAPITAIS', F.ceil((df_unidades_nao_capitais_uf['QTD_UNIDADES_NAO_CAPITAIS']/df_unidades_uf['QTD_UNIDADES'])*100))            
)

df_mapa_uf_analise_2 = df_mapa_uf_2.fillna(0)

df_mapa_uf_analise_2.display()

UF,QTD_UNIDADES,QTD_UNIDADES_CAPITAIS,QTD_UNIDADES_NAO_CAPITAIS,PERC_CAPITAIS,PERC_NAO_CAPITAIS
SC,1022,55,967,6,95
RO,168,39,129,24,77
PI,394,126,268,32,69
AM,204,118,86,58,43
RR,74,53,21,72,29
GO,731,139,592,20,81
TO,351,45,306,13,88
MT,427,69,358,17,84
SP,4896,1127,3769,24,77
ES,533,61,472,12,89


In [0]:
# Análise estatística do dataframe de unidades dentro e fora de capitais

df_mapa_uf_analise_2.describe().show()

+-------+----+-----------------+---------------------+-------------------------+------------------+------------------+
|summary|  UF|     QTD_UNIDADES|QTD_UNIDADES_CAPITAIS|QTD_UNIDADES_NAO_CAPITAIS|     PERC_CAPITAIS| PERC_NAO_CAPITAIS|
+-------+----+-----------------+---------------------+-------------------------+------------------+------------------+
|  count|  27|               27|                   27|                       27|                27|                27|
|   mean|null|833.6296296296297|    166.4814814814815|        667.1481481481482|29.333333333333332| 71.55555555555556|
| stddev|null|1115.162945946195|   222.31480977180678|        929.6091694778016| 22.82879423346415|22.851246950210115|
|    min|  AC|               61|                    0|                        0|                 0|                 0|
|    max|  TO|             4896|                 1127|                     3769|               100|               100|
+-------+----+-----------------+----------------