In [1]:
import pandas as pd
import numpy as np

In [2]:
categorical_columns = ['NU_ANO_CENSO', 'REGIAO', 'IN_CAPITAL', 'IN_ACESSO_PORTAL_CAPES', 'IN_REPOSITORIO_INSTITUCIONAL', 'IN_BUSCA_INTEGRADA', 'IN_SERVICO_INTERNET', 'IN_PARTICIPA_REDE_SOCIAL',
                       'IN_CATALOGO_ONLINE', 'IN_OUTRAS_BASES', 'NOME_CATEGORIA_ADMINISTRATIVA', 'NOME_ORGANIZACAO_ACADEMICA']
numeric_columns = ['QT_TEC_TOTAL', 'QT_PERIODICO_ELETRONICO', 'QT_LIVRO_ELETRONICO', 'QT_ALUNOS', 'QT_DOCENTES', 'QT_CURSO', 'T1_VL_RECEITAS', 'T1_VL_DESPESAS']

In [3]:
pd.set_option('display.float_format', '{:,.2f}'.format)

# Analises dos clusters

In [4]:
def get_total_categorical_values_cluster(df):
    for col in categorical_columns:
        items = df[col].value_counts().items()

        print(f"====== {col} ======")

        for item in items:
            print(f"{item[0]}: {item[1]} ({(item[1] / df.shape[0]): 0.2%})")

        print()


# Agglomerative

### First cluster

In [79]:
first_cluster_agg = pd.read_csv('./data/Agglomerative/Primeiro agrupamento (Agglomerative).csv', sep=';')

In [80]:
get_total_categorical_values_cluster(first_cluster_agg)

2016: 241 ( 25.42%)
2017: 239 ( 25.21%)
2018: 238 ( 25.11%)
2019: 230 ( 24.26%)

Sudeste: 368 ( 38.82%)
Sul: 213 ( 22.47%)
Nordeste: 198 ( 20.89%)
Norte: 95 ( 10.02%)
Centro-Oeste: 74 ( 7.81%)

0: 499 ( 52.64%)
1: 449 ( 47.36%)

1: 871 ( 91.88%)
0: 77 ( 8.12%)

1: 580 ( 61.18%)
0: 368 ( 38.82%)

1: 579 ( 61.08%)
0: 369 ( 38.92%)

1: 910 ( 95.99%)
0: 38 ( 4.01%)

1: 711 ( 75.00%)
0: 237 ( 25.00%)

1: 853 ( 89.98%)
0: 95 ( 10.02%)

1.0: 631 ( 66.56%)
0.0: 317 ( 33.44%)

Pública Federal: 411 ( 43.35%)
Privada sem fins lucrativos: 298 ( 31.43%)
Pública Estadual: 152 ( 16.03%)
Privada com fins lucrativos: 65 ( 6.86%)
Pública Municipal e Especial: 22 ( 2.32%)

Universidade: 714 ( 75.32%)
Instituto Federal de Educação, Ciência e Tecnologia: 152 ( 16.03%)
Centro Universitário: 59 ( 6.22%)
Faculdade: 15 ( 1.58%)
Centro Federal de Educação Tecnológica: 8 ( 0.84%)



In [81]:
first_cluster_agg[numeric_columns].describe()

Unnamed: 0,QT_TEC_TOTAL,QT_PERIODICO_ELETRONICO,QT_LIVRO_ELETRONICO,QT_ALUNOS,QT_DOCENTES,QT_CURSO,T1_VL_RECEITAS,T1_VL_DESPESAS
count,948.0,948.0,948.0,948.0,948.0,948.0,948.0,948.0
mean,1067.03,11002.45,30041.69,19394.41,962.64,67.27,454150088.54,479909885.36
std,1358.21,36247.98,90346.03,21687.59,836.7,48.33,653881575.29,852086400.18
min,33.0,0.0,0.0,1005.0,60.0,8.0,134763.64,10769001.91
25%,398.75,0.0,0.0,6462.75,413.75,34.0,130128444.86,147817024.68
50%,707.0,31.0,2655.0,12731.0,704.0,53.0,276350996.41,278105501.08
75%,1189.75,3525.0,12671.0,26057.75,1228.5,92.0,514270381.47,499588321.0
max,15562.0,572574.0,1000000.0,245102.0,6286.0,321.0,7599192871.0,15890130144.4


Conclusões:

- Predominância das regiões Sudeste, Sul e Nordeste  (38.82%, 22.47%, 20.89%)
- Instituições com acesso ao portal Capes (91.88%)
- Predominancia de repositorio institucional (61.18%)
- Predominancia busca integrada (61.08%)
- Possuem serviço de internet (95.99%)
- Participam em redes sociais (75.00%)
- Possuem catalogo online (89.98%)
- Possuem outras bases (66.56%)
- IES publica federal, sem fins lucrativos (43.35%, 31.43%)
- Mais da metade das IES são do tipo universidade e Instituto Federal de Educação, Ciência e Tecnologia (75.32%, 16.03%)

- Quantidade alta de técnicos na média (1,067.03)
- Quantidade de alunos média de alunos alto (19,394.41)
- Corpo docente forte na média (962.64	)
- Quantidade considerável de cursos na média (média de 67.27)
- Despesas e receitas média alta
- Alta quantidade de Quantidade de periodicos e livros eletronicos
- Quantidade de periodicos e livros eletronicos com relevância alto

### Second cluster

In [82]:
second_cluster_agg = pd.read_csv('./data/Agglomerative/Segundo agrupamento (Agglomerative).csv', sep=';')

In [83]:
get_total_categorical_values_cluster(second_cluster_agg)

2016: 577 ( 27.03%)
2017: 558 ( 26.14%)
2019: 524 ( 24.54%)
2018: 476 ( 22.30%)

Sudeste: 833 ( 39.02%)
Nordeste: 551 ( 25.81%)
Sul: 396 ( 18.55%)
Centro-Oeste: 218 ( 10.21%)
Norte: 137 ( 6.42%)

0: 1393 ( 65.25%)
1: 742 ( 34.75%)

0: 1670 ( 78.22%)
1: 465 ( 21.78%)

0: 1442 ( 67.54%)
1: 693 ( 32.46%)

1: 1298 ( 60.80%)
0: 837 ( 39.20%)

1: 1790 ( 83.84%)
0: 345 ( 16.16%)

1: 1402 ( 65.67%)
0: 733 ( 34.33%)

1: 1119 ( 52.41%)
0: 1016 ( 47.59%)

0.0: 1323 ( 61.97%)
1.0: 812 ( 38.03%)

Privada com fins lucrativos: 1285 ( 60.19%)
Privada sem fins lucrativos: 770 ( 36.07%)
Pública Municipal e Especial: 64 ( 3.00%)
Pública Estadual: 14 ( 0.66%)
Pública Federal: 2 ( 0.09%)

Faculdade: 2129 ( 99.72%)
Centro Universitário: 5 ( 0.23%)
Universidade: 1 ( 0.05%)



In [84]:
second_cluster_agg[numeric_columns].describe()

Unnamed: 0,QT_TEC_TOTAL,QT_PERIODICO_ELETRONICO,QT_LIVRO_ELETRONICO,QT_ALUNOS,QT_DOCENTES,QT_CURSO,T1_VL_RECEITAS,T1_VL_DESPESAS
count,2135.0,2135.0,2135.0,2135.0,2135.0,2135.0,2135.0,2135.0
mean,14.1,398.74,3867.71,282.62,21.21,2.75,1982280.26,2025236.5
std,18.39,2774.72,139084.54,341.36,17.92,2.34,4747147.3,6470177.04
min,1.0,0.0,0.0,1.0,1.0,1.0,0.01,2.0
25%,6.0,0.0,0.0,68.0,10.0,1.0,337634.51,351376.38
50%,10.0,5.0,0.0,166.0,16.0,2.0,886312.0,886696.0
75%,16.0,48.0,33.5,372.0,27.0,3.0,1931850.57,2007175.73
max,449.0,54365.0,6424945.0,3633.0,280.0,24.0,95894788.0,191892519.06


Conclusões:

- Predominância das regiões Sudeste e Nordeste (39.02%, 25.81% )
- Uma incidência das IES não estarem numa capital (65.25%)
- Predominância das Instituições sem acesso ao portal Capes (78.22%)
- Predominância das Instituições sem repetorio institucional (67.54%)
- Possuem busca integrada (60.80%)
- Possuem serviço de internet (83.84%)
- Participam em redes sociais (65.67%)
- Possuem predominâncai em ter outras bases (61.97%)
- Maioria das instituições são privada (com e sem fins lucrativos) (96,26%)
- Maioria dos anos da IES são Faculdade (99.72%)

- Pouca quantidade de técnicos abaixo da média (14.10)
- Quantidade de alunos média de alunos abaixo (282.62)
- Corpo docente muito pouco na média (17.92)
- Pouca quantidade de cursos (2.34)
- Despesas e receitas média baixa
- Quantidade de periodicos e livros eletronicos com relevância baixo

### Third cluster

In [85]:
third_cluster_agg = pd.read_csv('./data/Agglomerative/Terceiro agrupamento (Agglomerative).csv', sep=';')

In [86]:
get_total_categorical_values_cluster(third_cluster_agg)

2018: 528 ( 26.87%)
2019: 521 ( 26.51%)
2017: 464 ( 23.61%)
2016: 452 ( 23.00%)

Sudeste: 975 ( 49.62%)
Nordeste: 437 ( 22.24%)
Sul: 288 ( 14.66%)
Norte: 142 ( 7.23%)
Centro-Oeste: 123 ( 6.26%)

0: 1192 ( 60.66%)
1: 773 ( 39.34%)

0: 1187 ( 60.41%)
1: 778 ( 39.59%)

1: 1093 ( 55.62%)
0: 872 ( 44.38%)

1: 1515 ( 77.10%)
0: 450 ( 22.90%)

1: 1924 ( 97.91%)
0: 41 ( 2.09%)

1: 1232 ( 62.70%)
0: 733 ( 37.30%)

1: 1703 ( 86.67%)
0: 262 ( 13.33%)

1.0: 1556 ( 79.19%)
0.0: 409 ( 20.81%)

Privada sem fins lucrativos: 977 ( 49.72%)
Privada com fins lucrativos: 923 ( 46.97%)
Pública Municipal e Especial: 40 ( 2.04%)
Pública Federal: 15 ( 0.76%)
Pública Estadual: 10 ( 0.51%)

Faculdade: 1321 ( 67.23%)
Centro Universitário: 601 ( 30.59%)
Universidade: 43 ( 2.19%)



In [87]:
third_cluster_agg[numeric_columns].describe()

Unnamed: 0,QT_TEC_TOTAL,QT_PERIODICO_ELETRONICO,QT_LIVRO_ELETRONICO,QT_ALUNOS,QT_DOCENTES,QT_CURSO,T1_VL_RECEITAS,T1_VL_DESPESAS
count,1965.0,1965.0,1965.0,1965.0,1965.0,1965.0,1965.0,1965.0
mean,151.54,22190.13,16930.37,5742.87,149.49,18.09,73871411.67,79483263.76
std,204.63,295367.05,231402.09,17710.34,111.51,16.45,303142944.33,676157147.3
min,1.0,0.0,0.0,2.0,1.0,1.0,36843.47,1130746.33
25%,51.0,41.0,1226.0,1636.0,72.0,9.0,14606845.09,12133038.72
50%,93.0,320.0,6623.0,3059.0,117.0,14.0,28874918.03,24181059.2
75%,182.0,4000.0,9155.0,5374.0,191.0,22.0,62951334.0,52121930.28
max,3482.0,6437318.0,10000000.0,370652.0,807.0,183.0,6258050290.0,22161393800.0


Conclusões:

- Predominância das regiões Sudeste e Nordeste (49.62% e 22.24%)
- Predominãncia das IES não estarem numa capital (60.66%)
- Instituições sem acesso ao portal Capes (60.41%)
- Possuem predominância em possuir busca integrada (77.10%)
- Possuem predominância em serviço de internet (97.91%)
- Predominância em participar em redes sociais (62.70%)
- Possuem catalogo online (86.67%)
- Possuem predominância em ter outras bases (79.19%)
- Maioria das instituições são privada (com e sem fins lucrativos) (96,69%)
- Maioria dos anos da IES são Faculdade e centro universitario (67.23% e 30.59%)

- Quantidade média de técnicos moderada (151.54)
- Quantidade de alunos média de alunos normal (5,742.87	)
- Corpo docente com quantidade média moderada (149.49)
- Pouca quantidade de cursos (18.09)
- Despesas e receitas média moderadas para alto
- Quantidade de periodicos e livros eletronicos com relevância alto

### Forth cluster

In [88]:
forth_cluster_agg = pd.read_csv('./data/Agglomerative/Quarto agrupamento (Agglomerative).csv', sep=';')

In [89]:
get_total_categorical_values_cluster(forth_cluster_agg)

2019: 475 ( 32.03%)
2018: 417 ( 28.12%)
2017: 297 ( 20.03%)
2016: 294 ( 19.82%)

Sudeste: 496 ( 33.45%)
Sul: 357 ( 24.07%)
Nordeste: 304 ( 20.50%)
Centro-Oeste: 226 ( 15.24%)
Norte: 100 ( 6.74%)

0: 938 ( 63.25%)
1: 545 ( 36.75%)

0: 958 ( 64.60%)
1: 525 ( 35.40%)

0: 764 ( 51.52%)
1: 719 ( 48.48%)

1: 1083 ( 73.03%)
0: 400 ( 26.97%)

1: 1431 ( 96.49%)
0: 52 ( 3.51%)

1: 1043 ( 70.33%)
0: 440 ( 29.67%)

1: 1124 ( 75.79%)
0: 359 ( 24.21%)

1.0: 1024 ( 69.05%)
0.0: 459 ( 30.95%)

Privada com fins lucrativos: 867 ( 58.46%)
Privada sem fins lucrativos: 582 ( 39.24%)
Pública Municipal e Especial: 31 ( 2.09%)
Pública Federal: 3 ( 0.20%)

Faculdade: 1477 ( 99.60%)
Centro Universitário: 6 ( 0.40%)



In [90]:
forth_cluster_agg[numeric_columns].describe()

Unnamed: 0,QT_TEC_TOTAL,QT_PERIODICO_ELETRONICO,QT_LIVRO_ELETRONICO,QT_ALUNOS,QT_DOCENTES,QT_CURSO,T1_VL_RECEITAS,T1_VL_DESPESAS
count,1483.0,1483.0,1483.0,1483.0,1483.0,1483.0,1483.0,1483.0
mean,24.47,17567.76,12180.19,629.78,32.8,4.7,4533739.31,4080641.43
std,21.1,522594.48,162783.38,585.06,20.75,3.47,6067438.1,5209064.96
min,1.0,0.0,0.0,11.0,3.0,1.0,3125.0,42500.0
25%,11.0,20.0,1741.0,224.0,17.0,2.0,1242556.92,1348383.59
50%,18.0,100.0,6372.0,475.0,28.0,4.0,2751112.26,2675040.99
75%,30.0,600.0,8648.5,839.0,43.0,6.0,5580204.38,5133079.24
max,311.0,20083543.0,6229914.0,4488.0,155.0,29.0,79434370.49,79923866.93


Conclusões:

- Predominância dos anos 2018 e 2019 (60,15%)
- Predominância das regiões Sudeste e Sul (33.45%, 24.07%)
- Uma incidência das IES não estarem numa capital (63.25%)
- Predominância das Instituições sem acesso ao portal Capes ( 64.60%)
- Possuem predominância em busca integrada (73.03%)
- Possuem serviço de internet (96.49%)
- Predominância em participar em redes sociais (70.33%)
- Possuem predominância em ter catalogo online (75.79%)
- Possuem predominância em ter outras bases (69.05%)
- Maioria das iinstituições são privada (com e sem fins lucrativos) (97,7%)
- Maioria dos anos da IES são Faculdade (99.60%)

- Quantidade de técnicos na média baixo (24.47%)
- Quantidade de alunos média de alunos  moderado (629.78)
- Corpo docente abaixo da média  (32.80)
- Pouca quantidade média de cursos (4.70)
- Despesas e receitas média moderado
- Quantidade de periodicos e livros eletronicos com relevância alto

### Firth cluster

In [91]:
firth_cluster_agg = pd.read_csv('./data/Agglomerative/Quinto agrupamento (Agglomerative).csv', sep=';')

In [92]:
get_total_categorical_values_cluster(firth_cluster_agg)

2016: 321 ( 35.24%)
2017: 248 ( 27.22%)
2018: 214 ( 23.49%)
2019: 128 ( 14.05%)

Sudeste: 445 ( 48.85%)
Nordeste: 147 ( 16.14%)
Centro-Oeste: 134 ( 14.71%)
Sul: 124 ( 13.61%)
Norte: 61 ( 6.70%)

0: 634 ( 69.59%)
1: 277 ( 30.41%)

0: 646 ( 70.91%)
1: 265 ( 29.09%)

0: 572 ( 62.79%)
1: 339 ( 37.21%)

1: 635 ( 69.70%)
0: 276 ( 30.30%)

1: 834 ( 91.55%)
0: 77 ( 8.45%)

1: 618 ( 67.84%)
0: 293 ( 32.16%)

1: 665 ( 73.00%)
0: 246 ( 27.00%)

0.0: 556 ( 61.03%)
1.0: 355 ( 38.97%)

Privada sem fins lucrativos: 548 ( 60.15%)
Privada com fins lucrativos: 294 ( 32.27%)
Pública Municipal e Especial: 48 ( 5.27%)
Pública Estadual: 16 ( 1.76%)
Pública Federal: 5 ( 0.55%)

Faculdade: 885 ( 97.15%)
Centro Universitário: 25 ( 2.74%)
Universidade: 1 ( 0.11%)



In [94]:
firth_cluster_agg[numeric_columns].describe()

Unnamed: 0,QT_TEC_TOTAL,QT_PERIODICO_ELETRONICO,QT_LIVRO_ELETRONICO,QT_ALUNOS,QT_DOCENTES,QT_CURSO,T1_VL_RECEITAS,T1_VL_DESPESAS
count,911.0,911.0,911.0,911.0,911.0,911.0,911.0,911.0
mean,52.92,166.28,55.79,1429.16,65.7,7.29,18623640.27,10655911.89
std,110.52,963.53,433.94,1203.8,41.84,4.95,136380970.82,15830657.17
min,5.0,0.0,0.0,89.0,6.0,1.0,89327.57,306039.11
25%,24.0,0.0,0.0,581.5,36.0,4.0,4129303.48,4025294.12
50%,37.0,14.0,0.0,1043.0,56.0,6.0,8013288.0,7109575.5
75%,57.5,100.0,1.0,1902.0,84.0,10.0,15222986.02,12697594.68
max,2207.0,17156.0,8000.0,8367.0,300.0,30.0,4000452318.9,294064951.75


Conclusões:

- Predominancia dos anos de 2016 e 2017 (35.24% e 27.22%)
- Predominância das regiões Sudeste e Nordeste e Centro-Oeste (48.85%, 16.14%, 14.71%)
- Predominãncia das IES não estarem numa capital (69.59%)
- Instituições sem acesso ao portal Capes (70.91%)
- Instituições sem acesso repositorio institucional (62.79%)
- Possuem predominância em possuir busca integrada (69.70%)
- Possuem predominância em serviço de internet (91.55%)
- Predominância em participar em redes sociais (67.84%)
- Possuem catalogo online (73.00%)
- Possuem predominância em ter outras bases (61.03%)
- Maioria das instituições são privada (com e sem fins lucrativos) (92,42%)
- Maioria dos anos da IES são Faculdade  (97.15%)

- Quantidade média de técnicos abaixo (52.92)
- Quantidade de alunos média de alunos normal (1,429.16)
- Corpo docente com quantidade média moderada (65.70)
- Pouca quantidade de cursos (7.29)
- Despesas e receitas média moderadas para alto
- Quantidade de periodicos e livros eletronicos com relevância baixo

# K-means

### First cluster

In [112]:
first_cluster_kmeans = pd.read_csv('./data/K-means/Primeiro agrupamento (K-means).csv', sep=';')

In [113]:
get_total_categorical_values_cluster(first_cluster_kmeans)

2016: 149 ( 27.75%)
2017: 137 ( 25.51%)
2018: 132 ( 24.58%)
2019: 119 ( 22.16%)

Sudeste: 201 ( 37.43%)
Nordeste: 120 ( 22.35%)
Sul: 101 ( 18.81%)
Norte: 71 ( 13.22%)
Centro-Oeste: 44 ( 8.19%)

0: 321 ( 59.78%)
1: 216 ( 40.22%)

1: 469 ( 87.34%)
0: 68 ( 12.66%)

1: 271 ( 50.47%)
0: 266 ( 49.53%)

1: 313 ( 58.29%)
0: 224 ( 41.71%)

1: 510 ( 94.97%)
0: 27 ( 5.03%)

1: 384 ( 71.51%)
0: 153 ( 28.49%)

1: 463 ( 86.22%)
0: 74 ( 13.78%)

0.0: 281 ( 52.33%)
1.0: 256 ( 47.67%)

Pública Federal: 264 ( 49.16%)
Privada sem fins lucrativos: 123 ( 22.91%)
Pública Estadual: 113 ( 21.04%)
Privada com fins lucrativos: 24 ( 4.47%)
Pública Municipal e Especial: 13 ( 2.42%)

Universidade: 322 ( 59.96%)
Instituto Federal de Educação, Ciência e Tecnologia: 110 ( 20.48%)
Centro Universitário: 79 ( 14.71%)
Faculdade: 22 ( 4.10%)
Centro Federal de Educação Tecnológica: 4 ( 0.74%)



In [48]:
first_cluster_kmeans[numeric_columns].describe()

Unnamed: 0,QT_TEC_TOTAL,QT_PERIODICO_ELETRONICO,QT_LIVRO_ELETRONICO,QT_ALUNOS,QT_DOCENTES,QT_CURSO,T1_VL_RECEITAS,T1_VL_DESPESAS
count,537.0,537.0,537.0,537.0,537.0,537.0,537.0,537.0
mean,765.03,88.07,4257.21,12553.95,761.73,52.45,340006634.24,373171331.44
std,771.47,1633.33,18064.84,11019.01,657.55,40.42,550425214.82,878480744.42
min,20.0,0.0,0.0,375.0,51.0,1.0,102665.47,12814291.76
25%,290.0,0.0,0.0,5038.0,301.0,27.0,71049153.95,97099748.0
50%,557.0,0.0,1.0,9090.0,545.0,42.0,207574418.88,220906797.8
75%,935.0,3.0,2127.0,15797.0,951.0,63.0,366195544.48,366195544.48
max,5670.0,37835.0,223350.0,68600.0,3701.0,321.0,7599192871.0,15890130144.4


Conclusões:

- Predominância das regiões Sudeste, Nordeste e Sul (37.43%, 22.35%, 18.81%)
- Uma incidência das IES não estarem numa capital (59,78%)
- Instituições com acesso ao portal Capes (87.34%)
- Possuem serviço de internet (94.97%)
- Participam em redes sociais (71.51%)
- Possuem catalogo online (86.22%)
- Quase a métade das IES são públicas federais, Privada sem fins lucrativos, Pública Estadual (49.16%, 22.91%, 21.04%)
- Mais da metade das IES são do tipo universidade e Instituto Federal de Educação, Ciência e Tecnologia (59.96%, 20.48%)

- Quantidade alta de técnicos na média (765.03)
- Quantidade de alunos média de alunos alto (12,553.95)
- Corpo docente forte na média (761.73)
- Quantidade considerável de cursos na média (média de 52.45)
- Despesas e receitas média moderadas
- Quantidade de periodicos e livros eletronicos com relevância baixa

### Second cluster

In [53]:
second_cluster_kmeans = pd.read_csv('./data/K-means/Segundo agrupamento (K-means).csv', sep=';')

In [54]:
get_total_categorical_values_cluster(second_cluster_kmeans)

2019: 297 ( 32.00%)
2018: 261 ( 28.12%)
2016: 195 ( 21.01%)
2017: 175 ( 18.86%)

Sudeste: 325 ( 35.02%)
Nordeste: 238 ( 25.65%)
Sul: 166 ( 17.89%)
Centro-Oeste: 153 ( 16.49%)
Norte: 46 ( 4.96%)

0: 551 ( 59.38%)
1: 377 ( 40.62%)

0: 587 ( 63.25%)
1: 341 ( 36.75%)

1: 477 ( 51.40%)
0: 451 ( 48.60%)

1: 690 ( 74.35%)
0: 238 ( 25.65%)

1: 863 ( 93.00%)
0: 65 ( 7.00%)

1: 687 ( 74.03%)
0: 241 ( 25.97%)

1: 602 ( 64.87%)
0: 326 ( 35.13%)

1.0: 643 ( 69.29%)
0.0: 285 ( 30.71%)

Privada com fins lucrativos: 624 ( 67.24%)
Privada sem fins lucrativos: 291 ( 31.36%)
Pública Estadual: 5 ( 0.54%)
Pública Municipal e Especial: 5 ( 0.54%)
Pública Federal: 3 ( 0.32%)

Faculdade: 927 ( 99.89%)
Universidade: 1 ( 0.11%)



In [51]:
second_cluster_kmeans[numeric_columns].describe()

Unnamed: 0,QT_TEC_TOTAL,QT_PERIODICO_ELETRONICO,QT_LIVRO_ELETRONICO,QT_ALUNOS,QT_DOCENTES,QT_CURSO,T1_VL_RECEITAS,T1_VL_DESPESAS
count,928.0,928.0,928.0,928.0,928.0,928.0,928.0,928.0
mean,12.87,1680.8,11675.25,153.83,14.2,2.3,1475556.24,1626618.4
std,13.9,8124.14,210971.48,154.13,10.38,1.94,15700553.63,15868979.79
min,1.0,0.0,0.0,1.0,1.0,1.0,0.01,2.0
25%,6.0,20.0,200.0,53.75,9.0,1.0,211203.48,262411.89
50%,9.0,70.0,2100.0,113.0,12.0,2.0,615428.62,629806.48
75%,15.0,400.0,7726.75,215.5,18.0,3.0,1157021.17,1238916.58
max,161.0,179324.0,6424945.0,2086.0,154.0,24.0,476631170.46,481208448.88


Conclusões:

- Predominância dos anos 2018 e 2019 (60,12%)
- Predominância das regiões Sudeste e Nordeste (60,67%)
- Uma incidência das IES não estarem numa capital (59.38%)
- Predominância das Instituições sem acesso ao portal Capes (63.25%)
- Possuem busca integrada (74.35%)
- Possuem serviço de internet (93.00%)
- Participam em redes sociais (74.03%)
- Possuem predominância em catalogo online (64.87%)
- Possuem predominâncai em ter outras bases (69.29%)
- Maioria das instituições são privada (com e sem fins lucrativos) (98,6)
- Maioria dos anos da IES são Faculdade (99.89%)

- Pouca quantidade de técnicos na média (12.87)
- Quantidade de alunos média de alunos abaixo (153.83)
- Corpo docente muito pouco na média (14.20)
- Pouca quantidade de cursos (2.30)
- Despesas e receitas média moderadas
- Quantidade de periodicos e livros eletronicos com relevância baixa

### Third cluster

In [55]:
third_cluster_kmeans = pd.read_csv('./data/K-means/Terceiro agrupamento (K-means).csv', sep=';')

In [58]:
get_total_categorical_values_cluster(third_cluster_kmeans)

2016: 345 ( 27.91%)
2017: 337 ( 27.27%)
2018: 286 ( 23.14%)
2019: 268 ( 21.68%)

Sudeste: 583 ( 47.17%)
Nordeste: 237 ( 19.17%)
Sul: 216 ( 17.48%)
Centro-Oeste: 112 ( 9.06%)
Norte: 88 ( 7.12%)

0: 775 ( 62.70%)
1: 461 ( 37.30%)

0: 1027 ( 83.09%)
1: 209 ( 16.91%)

0: 923 ( 74.68%)
1: 313 ( 25.32%)

1: 651 ( 52.67%)
0: 585 ( 47.33%)

1: 978 ( 79.13%)
0: 258 ( 20.87%)

1: 774 ( 62.62%)
0: 462 ( 37.38%)

0: 668 ( 54.05%)
1: 568 ( 45.95%)

0.0: 934 ( 75.57%)
1.0: 302 ( 24.43%)

Privada sem fins lucrativos: 643 ( 52.02%)
Privada com fins lucrativos: 565 ( 45.71%)
Pública Municipal e Especial: 21 ( 1.70%)
Pública Estadual: 6 ( 0.49%)
Pública Federal: 1 ( 0.08%)

Faculdade: 1235 ( 99.92%)
Centro Universitário: 1 ( 0.08%)



In [57]:
third_cluster_kmeans[numeric_columns].describe()

Unnamed: 0,QT_TEC_TOTAL,QT_PERIODICO_ELETRONICO,QT_LIVRO_ELETRONICO,QT_ALUNOS,QT_DOCENTES,QT_CURSO,T1_VL_RECEITAS,T1_VL_DESPESAS
count,1236.0,1236.0,1236.0,1236.0,1236.0,1236.0,1236.0,1236.0
mean,10.78,38.75,17.38,185.81,16.72,2.03,1550846.21,1585898.44
std,13.17,390.28,177.16,160.48,10.01,1.39,3915629.37,6214497.12
min,1.0,0.0,0.0,1.0,1.0,1.0,0.01,2.0
25%,5.0,0.0,0.0,70.0,10.0,1.0,389521.86,387356.53
50%,8.0,0.0,0.0,143.0,15.0,2.0,855917.78,855450.93
75%,13.0,10.0,0.0,260.25,22.0,3.0,1559343.44,1567425.95
max,277.0,9331.0,4000.0,1587.0,142.0,20.0,78935409.2,191892519.06


Conclusões:

- Predominância das regiões Sudeste e Nordeste e Sul (47.17%, 19.17%, 17.48%)
- Predominãncia das IES não estarem numa capital (62.70%)
- Instituições sem acesso ao portal Capes (83.09%)
- Possuem predominância em não possuir repositorio institucional (74.68%)
- Possuem predominância em serviço de internet (79.13%)
- Predominância em participar em redes sociais (62.62%)
- Possuem predominância em ter outras bases (75.57%)
- Maioria das instituições são privada (com e sem fins lucrativos) (97,73)
- Maioria dos anos da IES são Faculdade (99.92%)

- Quantidade baixa de média de técnicos (10.78)
- Quantidade de alunos média de alunos baixo (185.81	)
- Corpo docente muito baixo na média (16.72)
- Pouca quantidade de cursos (2.03)
- Despesas e receitas média moderadas
- Quantidade de periodicos e livros eletronicos com relevância baixa

### Forth cluster

In [59]:
forth_cluster_kmeans = pd.read_csv('./data/K-means/Quarto agrupamento (K-means).csv', sep=';')

In [60]:
get_total_categorical_values_cluster(forth_cluster_kmeans)

2019: 468 ( 30.63%)
2018: 450 ( 29.45%)
2017: 318 ( 20.81%)
2016: 292 ( 19.11%)

Sudeste: 596 ( 39.01%)
Sul: 346 ( 22.64%)
Nordeste: 325 ( 21.27%)
Centro-Oeste: 159 ( 10.41%)
Norte: 102 ( 6.68%)

0: 1052 ( 68.85%)
1: 476 ( 31.15%)

0: 989 ( 64.73%)
1: 539 ( 35.27%)

1: 808 ( 52.88%)
0: 720 ( 47.12%)

1: 1181 ( 77.29%)
0: 347 ( 22.71%)

1: 1489 ( 97.45%)
0: 39 ( 2.55%)

1: 1088 ( 71.20%)
0: 440 ( 28.80%)

1: 1214 ( 79.45%)
0: 314 ( 20.55%)

1.0: 1122 ( 73.43%)
0.0: 406 ( 26.57%)

Privada com fins lucrativos: 866 ( 56.68%)
Privada sem fins lucrativos: 632 ( 41.36%)
Pública Municipal e Especial: 28 ( 1.83%)
Pública Estadual: 2 ( 0.13%)

Faculdade: 1515 ( 99.15%)
Centro Universitário: 12 ( 0.79%)
Universidade: 1 ( 0.07%)



In [61]:
forth_cluster_kmeans[numeric_columns].describe()

Unnamed: 0,QT_TEC_TOTAL,QT_PERIODICO_ELETRONICO,QT_LIVRO_ELETRONICO,QT_ALUNOS,QT_DOCENTES,QT_CURSO,T1_VL_RECEITAS,T1_VL_DESPESAS
count,1528.0,1528.0,1528.0,1528.0,1528.0,1528.0,1528.0,1528.0
mean,33.68,17212.81,19758.56,932.89,45.12,6.21,16180821.28,11879650.46
std,26.16,514813.19,301869.62,858.73,22.36,4.01,186450066.9,87466525.39
min,2.0,0.0,5.0,22.0,1.0,1.0,3125.0,248908.99
25%,17.0,29.0,2000.0,487.0,29.0,3.0,2793845.86,2633540.37
50%,27.0,129.0,7000.0,771.5,41.0,5.0,5174117.05,4541098.14
75%,41.0,559.25,8734.0,1205.25,58.0,8.0,9047620.84,7993876.03
max,346.0,20083543.0,10000000.0,24310.0,153.0,40.0,5745640000.0,2918280000.0


Conclusões:

- Predominância dos anos 2018 e 2019 (60,08%)
- Predominância das regiões Sudeste, Sul e Nordeste (82,92%)
- Uma incidência das IES não estarem numa capital (68.85%)
- Predominância das Instituições sem acesso ao portal Capes ( 64.73%)
- Possuem predominância em busca integrada (77.29%)
- Possuem serviço de internet (97.45%)
- Predominância em participar em redes sociais (71.20%)
- Possuem predominância em ter catalogo online (79.45%)
- Possuem predominância em ter outras bases (73.43%)
- Maioria das iinstituições são privada (com e sem fins lucrativos) (98,04)
- Maioria dos anos da IES são Faculdade (99.15%)

- Quantidade de técnicos na média baixo (33.68	)
- Quantidade de alunos média de alunos  moderado (932.89)
- Corpo docente muito na média (45.12)
- Pouca quantidade média de cursos (6.21)
- Despesas e receitas média acima do moderado
- Quantidade de periodicos e livros eletronicos com relevância alto

### Firth cluster

In [69]:
firth_cluster_kmeans = pd.read_csv('./data/K-means/Quinto agrupamento (K-means).csv', sep=';')

In [70]:
get_total_categorical_values_cluster(firth_cluster_kmeans)

2019: 347 ( 26.63%)
2018: 334 ( 25.63%)
2017: 322 ( 24.71%)
2016: 300 ( 23.02%)

Sudeste: 571 ( 43.82%)
Nordeste: 334 ( 25.63%)
Sul: 189 ( 14.50%)
Norte: 109 ( 8.37%)
Centro-Oeste: 100 ( 7.67%)

0: 771 ( 59.17%)
1: 532 ( 40.83%)

0: 828 ( 63.55%)
1: 475 ( 36.45%)

1: 718 ( 55.10%)
0: 585 ( 44.90%)

1: 1015 ( 77.90%)
0: 288 ( 22.10%)

1: 1270 ( 97.47%)
0: 33 ( 2.53%)

1: 787 ( 60.40%)
0: 516 ( 39.60%)

1: 1115 ( 85.57%)
0: 188 ( 14.43%)

1.0: 1020 ( 78.28%)
0.0: 283 ( 21.72%)

Privada com fins lucrativos: 715 ( 54.87%)
Privada sem fins lucrativos: 547 ( 41.98%)
Pública Municipal e Especial: 27 ( 2.07%)
Pública Federal: 9 ( 0.69%)
Pública Estadual: 5 ( 0.38%)

Faculdade: 862 ( 66.16%)
Centro Universitário: 420 ( 32.23%)
Universidade: 19 ( 1.46%)
Instituto Federal de Educação, Ciência e Tecnologia: 2 ( 0.15%)



In [71]:
firth_cluster_kmeans[numeric_columns].describe()

Unnamed: 0,QT_TEC_TOTAL,QT_PERIODICO_ELETRONICO,QT_LIVRO_ELETRONICO,QT_ALUNOS,QT_DOCENTES,QT_CURSO,T1_VL_RECEITAS,T1_VL_DESPESAS
count,1303.0,1303.0,1303.0,1303.0,1303.0,1303.0,1303.0,1303.0
mean,143.65,31306.84,11317.78,4691.86,151.18,18.49,52263088.0,61435145.7
std,136.18,362333.87,55653.4,4874.23,75.6,13.72,140361418.17,529816318.16
min,12.0,0.0,0.0,72.0,10.0,1.0,312066.18,2600437.9
25%,70.0,105.0,564.0,2496.0,97.0,11.0,20850115.51,16877562.19
50%,108.0,422.0,6157.0,3621.0,132.0,16.0,32806982.59,27917450.09
75%,180.5,5625.0,8729.5,5386.5,189.0,22.0,59547232.1,48137697.0
max,2654.0,6437318.0,1200000.0,89706.0,550.0,183.0,4158885757.32,17002300000.0


Conclusões:

- Predominância das regiões Sudeste e Nordeste (69,45%)
- Uma incidência das IES não estarem numa capital (59.17%)
- Predominância das Instituições sem acesso ao portal Capes ( 63.55%)
- Possuem predominância em busca integrada (77.90%)
- Possuem serviço de internet (97.47%)
- Predominância em participar em redes sociais (60.40%)
- Possuem catalogo online (85.57%)
- Possuem predominância em ter outras bases (78.28%)
- Maioria das instituições são privada (com e sem fins lucrativos) (96,85)
- Maioria dos anos da IES são Faculdade e centro universitário (66.16%, 32.23%)

- Quantidade de técnicos médio moderado (143.65)
- Quantidade de alunos média de alunos acima do moderado (4,691.86)
- Corpo docente muito acima da  média (151.18)
- Moderada quantidade média de cursos (18.49)
- Despesas e receitas média altas
- Quantidade de periodicos e livros eletronicos com relevância alto

### Sixth cluster

In [72]:
sixth_cluster_kmeans = pd.read_csv('./data/K-means/Sexto agrupamento (K-means).csv', sep=';')

In [73]:
get_total_categorical_values_cluster(sixth_cluster_kmeans)

2016: 471 ( 35.63%)
2017: 372 ( 28.14%)
2018: 261 ( 19.74%)
2019: 218 ( 16.49%)

Sudeste: 577 ( 43.65%)
Nordeste: 275 ( 20.80%)
Sul: 217 ( 16.41%)
Centro-Oeste: 159 ( 12.03%)
Norte: 94 ( 7.11%)

0: 915 ( 69.21%)
1: 407 ( 30.79%)

0: 967 ( 73.15%)
1: 355 ( 26.85%)

0: 899 ( 68.00%)
1: 423 ( 32.00%)

1: 865 ( 65.43%)
0: 457 ( 34.57%)

1: 1198 ( 90.62%)
0: 124 ( 9.38%)

1: 863 ( 65.28%)
0: 459 ( 34.72%)

1: 957 ( 72.39%)
0: 365 ( 27.61%)

0.0: 823 ( 62.25%)
1.0: 499 ( 37.75%)

Privada sem fins lucrativos: 667 ( 50.45%)
Privada com fins lucrativos: 523 ( 39.56%)
Pública Municipal e Especial: 100 ( 7.56%)
Pública Estadual: 24 ( 1.82%)
Pública Federal: 8 ( 0.61%)

Faculdade: 1261 ( 95.39%)
Centro Universitário: 53 ( 4.01%)
Universidade: 6 ( 0.45%)
Instituto Federal de Educação, Ciência e Tecnologia: 2 ( 0.15%)



In [74]:
sixth_cluster_kmeans[numeric_columns].describe()

Unnamed: 0,QT_TEC_TOTAL,QT_PERIODICO_ELETRONICO,QT_LIVRO_ELETRONICO,QT_ALUNOS,QT_DOCENTES,QT_CURSO,T1_VL_RECEITAS,T1_VL_DESPESAS
count,1322.0,1322.0,1322.0,1322.0,1322.0,1322.0,1322.0,1322.0
mean,46.05,181.31,20.6,1202.21,60.92,6.76,20169429.75,12427568.59
std,95.21,1624.34,157.65,1028.28,41.19,5.27,174260340.2,75731466.95
min,1.0,0.0,0.0,62.0,3.0,1.0,1.0,98800.0
25%,19.0,0.0,0.0,503.25,34.0,4.0,3080043.69,3007529.0
50%,31.0,6.0,0.0,879.0,50.0,6.0,6047025.04,5573239.5
75%,50.0,63.75,0.0,1503.25,73.0,9.0,12369185.83,11492529.14
max,2207.0,38000.0,3090.0,8316.0,300.0,113.0,4000452318.9,2255916597.0


Conclusões:

- Predominância dos anos 2016 e 2017 (35.63%, 28.14%)
- Predominância das regiões Sudeste e Nordeste (43.65%, 20.80%)
- Predominância das IES não estarem numa capital (69.21%)
- Predominância das Instituições sem acesso ao portal Capes (73.15%)
- Predominância das Instituições sem repositorio institucional (68.00%)
- Possuem predominância em busca integrada (65.43%)
- Possuem serviço de internet (90.62%)
- Predominância em participar em redes sociais (65.28%)
- Possuem catalogo online (72.39%)
- Possuem predominância em ter outras bases (62.25%)
- Maioria das instituições são privada (com e sem fins lucrativos) (90,01%)
- Maioria dos anos da IES são Faculdade (95.39%)

- Quantidade de técnicos médio baixo (46.05	)
- Quantidade de alunos média de alunos  moderado (1,202.21)
- Corpo docente moderado na  média (60.92)
- Moderada quantidade baixa de cursos (16.76)
- Despesas e receitas média altas
- Baixa quantidade de Quantidade de periodicos e livros eletronicos
- Quantidade de periodicos e livros eletronicos com relevância baixo

### Seventh cluster

In [76]:
seventh_cluster_kmeans = pd.read_csv('./data/K-means/Sétimo agrupamento (K-means).csv', sep=';')

In [77]:
get_total_categorical_values_cluster(seventh_cluster_kmeans)

2019: 161 ( 27.38%)
2018: 149 ( 25.34%)
2017: 145 ( 24.66%)
2016: 133 ( 22.62%)

Sudeste: 264 ( 44.90%)
Sul: 143 ( 24.32%)
Nordeste: 108 ( 18.37%)
Centro-Oeste: 48 ( 8.16%)
Norte: 25 ( 4.25%)

1: 317 ( 53.91%)
0: 271 ( 46.09%)

1: 516 ( 87.76%)
0: 72 ( 12.24%)

1: 414 ( 70.41%)
0: 174 ( 29.59%)

1: 395 ( 67.18%)
0: 193 ( 32.82%)

1: 581 ( 98.81%)
0: 7 ( 1.19%)

1: 423 ( 71.94%)
0: 165 ( 28.06%)

1: 545 ( 92.69%)
0: 43 ( 7.31%)

1.0: 536 ( 91.16%)
0.0: 52 ( 8.84%)

Privada sem fins lucrativos: 272 ( 46.26%)
Pública Federal: 151 ( 25.68%)
Privada com fins lucrativos: 117 ( 19.90%)
Pública Estadual: 37 ( 6.29%)
Pública Municipal e Especial: 11 ( 1.87%)

Universidade: 410 ( 69.73%)
Centro Universitário: 131 ( 22.28%)
Instituto Federal de Educação, Ciência e Tecnologia: 38 ( 6.46%)
Faculdade: 5 ( 0.85%)
Centro Federal de Educação Tecnológica: 4 ( 0.68%)



In [78]:
seventh_cluster_kmeans[numeric_columns].describe()

Unnamed: 0,QT_TEC_TOTAL,QT_PERIODICO_ELETRONICO,QT_LIVRO_ELETRONICO,QT_ALUNOS,QT_DOCENTES,QT_CURSO,T1_VL_RECEITAS,T1_VL_DESPESAS
count,588.0,588.0,588.0,588.0,588.0,588.0,588.0,588.0
mean,1170.62,20580.04,51040.33,27666.31,970.69,73.91,507239181.16,531850625.47
std,1577.99,45203.4,117262.32,37426.76,897.5,48.37,726312568.2,1146523723.87
min,42.0,0.0,0.0,933.0,90.0,10.0,796666.35,42123282.22
25%,417.75,354.5,5305.0,10074.0,409.75,40.0,148696340.42,142580692.62
50%,727.5,5416.5,10810.5,18228.0,640.5,59.0,283766807.44,260395339.91
75%,1241.5,27972.0,21087.0,32646.5,1230.75,99.0,566429608.87,506231701.56
max,15562.0,572574.0,1000000.0,370652.0,6286.0,296.0,6258050290.0,22161393800.0


Conclusões:

- Predominância das regiões Sudeste e Sul (44.90%, 24.32%)
- Predominância das Instituições com acesso ao portal Capes (87.76%)
- Predominância das Instituições com repositorio institucional (70.41%)
- Possuem predominância em busca integrada (67.18%)
- Possuem serviço de internet (98.81%)
- Predominância em participar em redes sociais (71.94%)
- Possuem catalogo online (92.69%)
- Possuem predominância em ter outras bases (91.16%)
- Maioria das instituições são privada sem fins, federal e com fins lurativos (46.26%, 25.68%, 19.90%)
- Maioria dos anos da IES são Universidade e centro universitario (69.73%, 22.28%)

- Quantidade de técnicos médio alto (1,170.62	)
- Quantidade de alunos média de alunos alto (27,666.31)
- Corpo docente alto na  média (970.69)
- altga quantidade baixa de cursos (73.91)
- Despesas e receitas média altas
- Alta quantidade de Quantidade de periodicos e livros eletronicos
- Quantidade de periodicos e livros eletronicos com relevância alto

# K-means

In [5]:
analise_kmeans = pd.DataFrame([], columns=['prompt', 'cluster', 'temperature', 'Total_suposições', 'Mapeadas_pelo_modelo', 'Ignoradas_pelo_modelo', 'alucinação_do_modelo', 'insights'])

In [6]:
def show_result_kmeans_prompt(df, temperature, cluster):
    return df.loc[(df['temperature'] == temperature) & (df['cluster'] == cluster), ['result']]['result'].tolist()[0]

In [109]:
kmeans_fase2.loc[(kmeans_fase2['temperature'] == 1) & (kmeans_fase2['cluster'] == 'primeiro'), ['result']]['result'].tolist()[0]

'A análise do conjunto de dados revela um cluster de instituições de ensino superior com características comuns que sugerem um perfil específico.  Vamos examinar as variáveis individualmente e em conjunto para identificar os fatores contribuintes para a formação deste cluster:\n\n**Variáveis Predominantes e suas Interações:**\n\n* **Setor Público Federal:** A grande maioria das instituições neste cluster é pública federal (Universidades e Institutos Federais). Isto sugere que o financiamento e a regulamentação do governo federal são fatores determinantes na formação desse grupo.\n\n* **Universidades:**  Uma grande proporção de instituições são Universidades, indicando um foco em ensino superior abrangente e pesquisa, em contraposição a Faculdades ou Centros Universitários.\n\n* **Acesso a Recursos Digitais:** A presença quase universal de acesso ao portal CAPES e, em grande parte das instituições, repositórios institucionais, indica um nível significativo de investimento em infraestrut

In [330]:
analise_kmeans

Unnamed: 0,prompt,cluster,temperature,Total_suposições,Mapeadas_pelo_modelo,Ignoradas_pelo_modelo,alucinação_do_modelo,insights
0,Fase 2,primeiro,0,15,7,8,1,0
1,Fase 2,primeiro,1,15,9,6,2,0
2,Fase 2,primeiro,2,15,5,10,2,0
3,Fase 2,segundo,0,17,2,15,4,3
4,Fase 2,segundo,1,17,5,12,2,1
5,Fase 2,segundo,2,17,2,15,3,0
6,Fase 2,terceiro,0,15,2,13,3,1
7,Fase 2,terceiro,1,15,5,10,2,4
8,Fase 2,terceiro,2,15,7,8,1,1
9,Fase 2,quarto,0,17,3,14,3,2


## Fase 2

In [287]:
kmeans_fase2 = pd.read_csv('Models/results/K-means_Fase 2_results.csv')

### First Cluster

In [288]:
print(show_result_kmeans_prompt(kmeans_fase2, 0, 'primeiro'))

Após análise do conjunto de dados fornecido, observo alguns padrões interessantes dentro do cluster:

**1. Tipo de Instituição:** A grande maioria das instituições presentes neste cluster são públicas federais (Universidades e Institutos Federais). Há uma presença menor de instituições privadas sem fins lucrativos (Universidades e Centros Universitários), e uma quantidade ainda menor de instituições públicas estaduais e privadas com fins lucrativos.  Isso sugere uma possível relação entre o tipo de financiamento e as características do cluster.

**2. Localização Geográfica:** As regiões Sudeste, Sul e Nordeste estão bem representadas, enquanto a região Centro-Oeste tem uma presença menor.  A variável `IN_CAPITAL` (indicadora de capital) não apresenta um padrão claro, com instituições tanto em capitais quanto em outras cidades.  A distribuição geográfica sugere que a característica do cluster não está fortemente ligada à localização geográfica específica, mas sim a um tipo de instituiçã

Conclusões:

- Predominância das regiões Sudeste, Nordeste e Sul (37.43%, 22.35%, 18.81%) OK
- Uma incidência das IES não estarem numa capital (59,78%) OK
- Instituições com acesso ao portal Capes (87.34%) OK
- Possuem serviço de internet (94.97%) OK
- Participam em redes sociais (71.51%) (NOT OK)
- Possuem catalogo online (86.22%) (NOT OK)
- Busca integrada (58.29%) OK
- Quase a métade das IES são públicas federais, Privada sem fins lucrativos, Pública Estadual (49.16%, 22.91%, 21.04%) OK
- Mais da metade das IES são do tipo universidade e Instituto Federal de Educação, Ciência e Tecnologia (59.96%, 20.48%) OK

- Quantidade alta de técnicos na média (765.03) (NOT OK)
- Quantidade de alunos média de alunos alto (12,553.95) (NOT OK)
- Corpo docente forte na média (761.73) (NOT OK)
- Quantidade considerável de cursos na média (média de 52.45) (NOT OK)
- Despesas e receitas média moderadas (NOT OK)
- Quantidade de periodicos e livros eletronicos com relevância baixa (NOT OK)

Insights falsos:

- A presença de repositório institucional (`IN_REPOSITORIO_INSTITUCIONAL`) também é predominante
- A quantidade de recursos tecnológicos (`QT_TEC_TOTAL`) é variável


Enfatiza a presença de analises mais detalhadas

In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2', 'primeiro', 0, 15, 7, 8, 2, 0]

In [290]:
print(show_result_kmeans_prompt(kmeans_fase2, 1, 'primeiro'))

A análise do conjunto de dados revela um cluster de instituições de ensino superior com características comuns que sugerem um perfil específico.  Vamos examinar as variáveis individualmente e em conjunto para identificar os fatores contribuintes para a formação deste cluster:

**Variáveis Predominantes e suas Interações:**

* **Setor Público Federal:** A grande maioria das instituições neste cluster é pública federal (Universidades e Institutos Federais). Isto sugere que o financiamento e a regulamentação do governo federal são fatores determinantes na formação desse grupo.

* **Universidades:**  Uma grande proporção de instituições são Universidades, indicando um foco em ensino superior abrangente e pesquisa, em contraposição a Faculdades ou Centros Universitários.

* **Acesso a Recursos Digitais:** A presença quase universal de acesso ao portal CAPES e, em grande parte das instituições, repositórios institucionais, indica um nível significativo de investimento em infraestrutura tecno

Conclusões:

- Predominância das regiões Sudeste, Nordeste e Sul (37.43%, 22.35%, 18.81%) (NOT OK)
- Uma incidência das IES não estarem numa capital (59,78%) OK
- Instituições com acesso ao portal Capes (87.34%) OK
- Possuem serviço de internet (94.97%) NOT OK
- Participam em redes sociais (71.51%) NOT OK
- Possuem catalogo online (86.22%) NOT OK
- Busca integrada (58.29%) OK
- Quase a métade das IES são públicas federais, Privada sem fins lucrativos, Pública Estadual (49.16%, 22.91%, 21.04%) OK
- Mais da metade das IES são do tipo universidade e Instituto Federal de Educação, Ciência e Tecnologia (59.96%, 20.48%) OK

- Quantidade alta de técnicos na média (765.03) NOTOK
- Quantidade de alunos média de alunos alto (12,553.95) OK
- Corpo docente forte na média (761.73) OK
- Quantidade considerável de cursos na média (média de 52.45) (NOT OK)
- Despesas e receitas média moderadas OK
- Quantidade de periodicos e livros eletronicos com relevância baixa OK

Insights falsos:

- A presença de repositório institucional (`IN_REPOSITORIO_INSTITUCIONAL`) também é predominante
- O cluster parece representar instituições de ensino superior públicas federais de grande porte, com foco em pesquisa e ensino superior abrangente,  localizadas principalmente nas regiões Sul, Sudeste e Centro-Oeste, e com um investimento significativo em infraestrutura digital.


In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'primeiro', 1, 15, 9, 6, 2, 0]

In [292]:
print(show_result_kmeans_prompt(kmeans_fase2, 2, 'primeiro'))

A análise do CSV fornecido revela um cluster de instituições de ensino superior com algumas características comuns, embora haja variabilidade em outras.  Vamos analisar as variáveis uma a uma para identificar os padrões:


**Variáveis Consistentes:**

* **`IN_ACESSO_PORTAL_CAPES`**:  A grande maioria (se não todas) das instituições possui acesso ao portal CAPES (`1`), indicando forte presença de pesquisa e pós-graduação. Isso sugere um nível acadêmico e de pesquisa mais elevado.

* **`IN_BUSCA_INTEGRADA`**: Embora com algumas exceções, a maior parte das instituições utiliza um sistema de busca integrada de informações, indicando investimento em tecnologias para acesso ao conhecimento.

* **`IN_SERVICO_INTERNET`**: Todas ou quase todas as instituições contam com serviço de internet, o que é esperado, mas reforça a dependência e investimento em infraestrutura tecnológica.


**Variáveis com alta frequência, mas com exceções:**

* **`IN_REPOSITORIO_INSTITUCIONAL`**:  Há um alto número de i

Conclusões:

- Predominância das regiões Sudeste, Nordeste e Sul (37.43%, 22.35%, 18.81%) OK
- Uma incidência das IES não estarem numa capital (59,78%) OK
- Instituições com acesso ao portal Capes (87.34%) OK
- Possuem serviço de internet (94.97%) OK
- Participam em redes sociais (71.51%) OK 
- Possuem catalogo online (86.22%) NOT OK
- Busca integrada (58.29%) NOT OK
- Quase a métade das IES são públicas federais, Privada sem fins lucrativos, Pública Estadual (49.16%, 22.91%, 21.04%) NOT OK
- Mais da metade das IES são do tipo universidade e Instituto Federal de Educação, Ciência e Tecnologia (59.96%, 20.48%) NOT OK

- Quantidade alta de técnicos na média (765.03) NOT OK
- Quantidade de alunos média de alunos alto (12,553.95) NOT OK
- Corpo docente forte na média (761.73) NOT OK
- Despesas e receitas média moderadas NOT OK
- Quantidade de periodicos e livros eletronicos com relevância baixa OK

Insights falsos:
- Há um alto número de instituições com repositório institucional (`1`), sugerindo prática comum de preservação e compartilhamento de dados e materiais de pesquisa, porém há algumas exceções que merecem investigação adicional.
- Variável não tao relevantes : **`IN_CATALOGO_ONLINE`**




In [293]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'primeiro', 2, 15, 5, 10, 2, 0]

### Second Cluster

In [294]:
print(show_result_kmeans_prompt(kmeans_fase2, 0, 'segundo'))

**Análise do Cluster:**

A análise do conjunto de dados revela um cluster de instituições de ensino superior (IES) com características predominantemente comuns, embora com algumas variações.  A análise se concentrará nas variáveis que mais contribuem para a formação desse cluster, considerando a frequência e a intensidade de suas ocorrências.

**Características Predominantes:**

* **Tipo de IES:** A grande maioria das IES neste cluster são privadas, sendo a maior parte sem fins lucrativos.  A presença de IES privadas com fins lucrativos é uma minoria, sugerindo que o fator "fins lucrativos" não é um determinante principal da formação do cluster.

* **Região:** As IES estão distribuídas em todas as regiões do Brasil, mas com maior concentração no Sudeste e Sul.  A distribuição regional sugere que a localização geográfica não é o fator primário de agrupamento.

* **Recursos tecnológicos e infraestrutura:**  A variável `QT_TEC_TOTAL` (quantidade total de tecnologias) apresenta uma grande 

Conclusões:

- Predominância dos anos 2018 e 2019 (60,12%) NOTOK
- Predominância das regiões Sudeste e Nordeste (60,67%) NOTOK
- Uma incidência das IES não estarem numa capital (59.38%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes (63.25%) NOTOK
- Possuem busca integrada (74.35%) NOTOK
- Possuem serviço de internet (93.00%) OK
- Participam em redes sociais (74.03%) NOTOK
- Possuem predominância em catalogo online (64.87%) NOTOK
- Possuem predominâncai em ter outras bases (69.29%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (98,6) OK
- Maioria dos anos da IES são Faculdade (99.89%) NOTOK

- Pouca quantidade de técnicos na média (12.87) NOTOK
- Quantidade de alunos média de alunos abaixo (153.83) NOTOK
- Corpo docente muito pouco na média (14.20) NOTOK
- Pouca quantidade de cursos (2.30) NOTOK
- Despesas e receitas média moderadas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixa NOTOK

Insights falsos:
-  A presença de IES privadas com fins lucrativos é uma minoria, sugerindo que o fator "fins lucrativos"
- A maioria das IES possui repositório institucional (`IN_REPOSITORIO_INSTITUCIONAL`)
- Embora a localização não seja o fator principal, a maior concentração no Sudeste e Sul pode indicar uma correlação com outros fatores não explicitamente medidos nos dados, como o nível socioeconômico da região ou a concentração de indústrias.
- Este cluster parece ser formado por um conjunto heterogêneo de IES privadas, principalmente sem fins lucrativos, com uma distribuição geográfica ampla, mas com maior concentração no Sudeste e Sul. 




In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'segundo', 0, 17, 3, 14, 5, 0]

In [296]:
print(show_result_kmeans_prompt(kmeans_fase2, 1, 'segundo'))

**Análise do Cluster:**

A análise do CSV fornecido sugere a existência de um cluster de instituições de ensino superior (IES) majoritariamente privadas, com características que apontam para um perfil específico.  A análise se concentrará nas variáveis que apresentam padrões consistentes dentro do cluster.

**Variáveis predominantes:**

* **Categoria Administrativa:** A grande maioria das IES pertence à categoria "Privada sem fins lucrativos" e "Privada com fins lucrativos", indicando uma ausência significativa de instituições públicas neste agrupamento.

* **Tipo de Organização Acadêmica:** O cluster é composto quase exclusivamente por "Faculdades", sugerindo um foco em instituições de menor porte em comparação com universidades.

* **Recursos Digitais:** Há uma alta incidência de acesso ao Portal CAPES (`IN_ACESSO_PORTAL_CAPES`), a maioria possui repositórios institucionais (`IN_REPOSITORIO_INSTITUCIONAL`) e, em grande parte, acesso a serviços de internet (`IN_SERVICO_INTERNET`).  Ob

Conclusões:

- Predominância dos anos 2018 e 2019 (60,12%) NOTOK
- Predominância das regiões Sudeste e Nordeste (60,67%) NOTOK 
- Uma incidência das IES não estarem numa capital (59.38%) OK
- Predominância das Instituições sem acesso ao portal Capes (63.25%) NOTOK
- Possuem busca integrada (74.35%) NOTOK
- Possuem serviço de internet (93.00%) OK
- Participam em redes sociais (74.03%) NOTOK
- Possuem predominância em catalogo online (64.87%) NOTOK
- Possuem predominâncai em ter outras bases (69.29%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (98,6) OK
- Maioria dos anos da IES são Faculdade (99.89%) OK

- Pouca quantidade de técnicos na média (12.87) NOTOK
- Quantidade de alunos média de alunos abaixo (153.83) NOTOK
- Corpo docente muito pouco na média (14.20) NOTOK
- Pouca quantidade de cursos (2.30) NOTOK
- Despesas e receitas média moderadas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixa NOTOK

Insights falsos:
- a maioria possui repositórios institucionais (`IN_REPOSITORIO_INSTITUCIONAL`)
- Observa-se que as variáveis relacionadas a outros recursos digitais (busca integrada, redes sociais, catálogos online e outras bases de dados) mostram uma variabilidade maior, sem um padrão claro.
- As instituições estão distribuídas por diversas regiões do país, sem nenhuma região predominante.

In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'segundo', 1, 17, 4, 13, 2, 0]

In [298]:
print(show_result_kmeans_prompt(kmeans_fase2, 2, 'segundo'))

**Cadeia de Pensamento:** Para analisar os fatores que levaram à formação desse cluster, vou examinar a distribuição das variáveis e procurar padrões ou correlações entre elas.  Vou começar olhando para as variáveis categóricas (região, localização, categoria administrativa, organização acadêmica) e depois as numéricas (quantidades de recursos tecnológicos, periódicos eletrônicos, livros eletrônicos, alunos, docentes, cursos, receitas e despesas).  A busca por valores atípicos também será relevante.

**Análise:**

Observando o conjunto de dados, nota-se que a maioria das instituições são **Faculdades Privadas sem fins lucrativos**, localizadas predominantemente no **Sudeste** e, em menor proporção, no **Sul**.  Já na variável  `IN_CAPITAL`, existe um pouco de diversidade, estando algumas instituições em capitais e outras não.   Embora  exista também Faculdades Privadas com fins lucrativos, elas representam uma minoria no cluster.

Em relação às variáveis numéricas,  existem valores bem

Conclusões:

- Predominância dos anos 2018 e 2019 (60,12%) NOTOK
- Predominância das regiões Sudeste e Nordeste (60,67%) OK
- Uma incidência das IES não estarem numa capital (59.38%) OK
- Predominância das Instituições sem acesso ao portal Capes (63.25%) NOTOK
- Possuem busca integrada (74.35%) OK
- Possuem serviço de internet (93.00%) OK
- Participam em redes sociais (74.03%) NOTOK
- Possuem predominância em catalogo online (64.87%) NOTOK
- Possuem predominâncai em ter outras bases (69.29%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (98,6) NOTOK
- Maioria dos anos da IES são Faculdade (99.89%) OK

- Pouca quantidade de técnicos na média (12.87) NOTOK
- Quantidade de alunos média de alunos abaixo (153.83) NOTOK
- Corpo docente muito pouco na média (14.20) NOTOK 
- Pouca quantidade de cursos (2.30) NOTOK
- Despesas e receitas média moderadas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixa NOTOK

Insights falsos:
- Observa-se alta presença de  `IN_REPOSITORIO_INSTITUCIONAL COM RELEVANCIA
-  geograficamente concentradas no Sudeste e Sul
- A variação significativa em variáveis quantitativas, como recursos financeiros, alunos e docentes,  sugere que os critérios de clusterização se concentram mais nas características qualitativas do que quantitativas.



In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'segundo', 2, 17, 4, 13, 3, 0]

### Third Cluster

In [300]:
print(show_result_kmeans_prompt(kmeans_fase2, 0, 'terceiro'))

**Cadeia de Pensamento:** Para analisar os fatores que levaram à formação deste cluster, vou examinar a distribuição de cada variável, procurando por valores atípicos ou padrões consistentes.  Vou focar em variáveis que parecem ter maior impacto, como o tipo de instituição, localização geográfica, recursos financeiros e infraestrutura tecnológica.  A análise será feita buscando correlações entre as variáveis.

**Análise das Variáveis:**

* **`NOME_CATEGORIA_ADMINISTRATIVA`:** A grande maioria das instituições neste cluster é `Privada sem fins lucrativos`.  Isso sugere que o cluster pode estar relacionado a características específicas deste tipo de instituição.  Há uma minoria de instituições `Privadas com fins lucrativos`, o que pode indicar alguma sobreposição de características ou a presença de outliers.

* **`REGIAO`:** A região `Sudeste` domina o cluster, indicando uma possível concentração geográfica dos fatores que definem este agrupamento.  A presença de outras regiões (Sul, Cen

Conclusões:

- Predominância das regiões Sudeste e Nordeste e Sul (47.17%, 19.17%, 17.48%) OK
- Predominãncia das IES não estarem numa capital (62.70%) OK
- Instituições sem acesso ao portal Capes (83.09%) NOTOK
- Possuem predominância em não possuir repositorio institucional (74.68%) NOTOK
- Possuem predominância em serviço de internet (79.13%) NOTOK
- Predominância em participar em redes sociais (62.62%) NOTOK
- Possuem predominância em ter outras bases (75.57%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (97,73)  NOTOK
- Maioria dos anos da IES são Faculdade (99.92%) NOTOK

- Quantidade baixa de média de técnicos (10.78) NOTOK
- Quantidade de alunos média de alunos baixo (185.81) NOTOK
- Corpo docente muito baixo na média (16.72) NOTOK
- Pouca quantidade de cursos (2.03) NOTOK
- Despesas e receitas média moderadas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixa NOTOK

Insights falsos:
- Há uma minoria de instituições `Privadas com fins lucrativos`
- Representa a quantidade total de equipamentos tecnológicos
- Indicam a quantidade de periódicos e livros eletrônicos disponíveis.  A análise da média e desvio padrão, assim como a correlação com `QT_TEC_TOTAL`, pode revelar a relação entre recursos tecnológicos e acesso a materiais digitais.

Insights verdadeiros:
- A grande maioria das instituições neste cluster é `Privada sem fins lucrativos`

Essa analise foi mais em relação a descrição das variáveis

In [301]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'terceiro', 0, 15, 2, 13, 3, 1]

In [302]:
print(show_result_kmeans_prompt(kmeans_fase2, 1, 'terceiro'))

A análise do CSV fornecido revela um cluster de instituições de ensino superior, predominantemente **Faculdades**, com características comuns que sugerem um perfil específico.  Vamos analisar as características individualmente e em conjunto:

**Características Predominantes:**

* **Região:** A grande maioria das instituições está localizada na região Sudeste (mais de 60%), seguida pelo Nordeste e Sul. A região Centro-Oeste possui uma representação menor. Isso sugere uma concentração geográfica do cluster.

* **Tipo de Organização:** A maior parte das instituições é **Privada sem fins lucrativos**, com uma parcela significativa sendo **Privada com fins lucrativos**. A presença de ambos os tipos indica uma diversidade interna, mas com uma tendência para o setor privado.  A ausência de instituições públicas federais sugere a exclusão deste tipo de instituição deste cluster.

* **Recursos:** A quantidade de recursos tecnológicos (QT_TEC_TOTAL) e periódicos eletrônicos (QT_PERIODICO_ELETRON

Conclusões:

- Predominância das regiões Sudeste e Nordeste e Sul (47.17%, 19.17%, 17.48%) OK
- Predominãncia das IES não estarem numa capital (62.70%) NOTOK
- Instituições sem acesso ao portal Capes (83.09%) NOTOK
- Possuem predominância em não possuir repositorio institucional (74.68%) NOTOK
- Possuem predominância em serviço de internet (79.13%) NOTOK
- Predominância em participar em redes sociais (62.62%) NOTOK
- Possuem predominância em ter outras bases (75.57%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (97,73) OK
- Maioria dos anos da IES são Faculdade (99.92%) OK

- Quantidade baixa de média de técnicos (10.78) NOTOK
- Quantidade de alunos média de alunos baixo (185.81	) NOTOK
- Corpo docente muito baixo na média (16.72) NOTOK
- Pouca quantidade de cursos (2.03) OK
- Despesas e receitas média moderadas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixa NOTOK

Insights falsos:
- A grande maioria das instituições está localizada na região Sudeste (mais de 60%)
- A quantidade de recursos tecnológicos (QT_TEC_TOTAL)

In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'terceiro', 1, 15, 4, 1, 2, 4]

In [304]:
print(show_result_kmeans_prompt(kmeans_fase2, 2, 'terceiro'))

Após analisar o conjunto de dados fornecido, podemos observar algumas características predominantes neste cluster específico:

**1. Localização Geográfica:** A grande maioria das instituições está localizada na região Sudeste do Brasil.  Isso sugere que fatores regionais, como políticas de fomento à educação, mercado de trabalho, ou concentração de recursos financeiros, podem estar influenciando a formação desse cluster.  Uma análise de frequência simples da coluna "REGIAO" confirmara essa hipótese. A ausência de significância em outras regiões precisa ser explorada.


**2. Tipo de Instituição:** Quase todas as instituições são classificadas como "Faculdade" na coluna "NOME_ORGANIZACAO_ACADEMICA", indicando um padrão na  estrutura e porte das instituições agrupadas. Uma análise de frequências simples na coluna "NOME_ORGANIZACAO_ACADEMICA" quantificaria essa observação. Entretanto o tamanho de algumas Universidades podem significar que outras variáveis  explicam melhor a segregação em c

Conclusões:

- Predominância das regiões Sudeste e Nordeste e Sul (47.17%, 19.17%, 17.48%) OK
- Predominãncia das IES não estarem numa capital (62.70%) NOTOK
- Instituições sem acesso ao portal Capes (83.09%) OK
- Possuem predominância em não possuir repositorio institucional (74.68%) OK
- Possuem predominância em serviço de internet (79.13%) NOTOK
- Predominância em participar em redes sociais (62.62%) NOTOK
- Possuem predominância em ter outras bases (75.57%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (97,73) OK
- Maioria dos anos da IES são Faculdade (99.92%) OK

- Quantidade baixa de média de técnicos (10.78) NOTOK
- Quantidade de alunos média de alunos baixo (185.81) NOTOK
- Corpo docente muito baixo na média (16.72) NOTOK
- Pouca quantidade de cursos (2.03) NOTOK
- Despesas e receitas média moderadas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixa NOTOK

Insights falsos:
- A quantidade de tecnologia total ("QT_TEC_TOTAL")

 

In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'terceiro', 2, 15, 5, 10, 1, 0]

### Forth Cluster

In [306]:
print(show_result_kmeans_prompt(kmeans_fase2, 0, 'quarto'))

**Análise do Cluster:**

A análise do CSV fornecido revela um cluster de instituições de ensino superior (IES) com características predominantemente similares, permitindo inferir alguns fatores que contribuíram para sua formação:

1. **Tipo de IES e Categoria Administrativa:** A grande maioria das IES neste cluster são classificadas como "Faculdade" e possuem categoria administrativa "Privada sem fins lucrativos" ou "Privada com fins lucrativos".  A presença significativa de ambos os tipos de instituições privadas sugere que o agrupamento não é definido exclusivamente pelo objetivo lucrativo, mas por outros fatores.

2. **Recursos e Infraestrutura:** Embora haja variação, observa-se uma tendência de quantidade moderada a alta de recursos tecnológicos (QT_TEC_TOTAL), acesso a portais como CAPES (IN_ACESSO_PORTAL_CAPES), e repositórios institucionais (IN_REPOSITORIO_INSTITUCIONAL). A presença de serviços de internet (IN_SERVICO_INTERNET) é quase universal, indicando um nível razoável de 

Conclusões:

- Predominância dos anos 2018 e 2019 (60,08%) NOTOK
- Predominância das regiões Sudeste, Sul e Nordeste (82,92%) NOTOK
- Uma incidência das IES não estarem numa capital (68.85%) OK
- Predominância das Instituições sem acesso ao portal Capes ( 64.73%) NOTOK
- Possuem predominância em busca integrada (77.29%) NOTOK
- Possuem serviço de internet (97.45%) OK
- Predominância em participar em redes sociais (71.20%) NOTOK
- Possuem predominância em ter catalogo online (79.45%) NOTOK
- Possuem predominância em ter outras bases (73.43%) NOTOK
- Maioria das iinstituições são privada (com e sem fins lucrativos) (98,04) OK
- Maioria dos anos da IES são Faculdade (99.15%) OK

- Quantidade de técnicos na média baixo (33.68	) NOTOK
- Quantidade de alunos média de alunos  moderado (932.89) NOTOK
- Corpo docente muito na média (45.12) NOTOK
- Pouca quantidade média de cursos (6.21) NOTOK
- Despesas e receitas média acima do moderado NOTOK
- Quantidade de periodicos e livros eletronicos com relevância alto NOTOK

Insights falsos:
- Embora haja variação, observa-se uma tendência de quantidade moderada a alta de recursos tecnológicos (QT_TEC_TOTAL)
- observa-se uma tendência de quantidade moderada a alta de repositórios institucionais (IN_REPOSITORIO_INSTITUCIONAL)
- As regiões representadas são diversas (Sul, Sudeste, Nordeste, Norte e Centro-Oeste), indicando que a localização geográfica não é um fator determinante para a formação do cluster.





In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'quarto', 0, 17, 4, 13, 3, 0]

In [308]:
print(show_result_kmeans_prompt(kmeans_fase2, 1, 'quarto'))

Após análise do CSV fornecido, observo que o cluster apresenta uma composição heterogênea, dificultando a identificação de um fator isolado que explique sua formação.  No entanto, algumas tendências podem ser observadas ao analisar as variáveis conjuntamente:

**Tendências Observadas:**

* **Tipo de Instituição:** A maioria das instituições pertence à categoria "Privada sem fins lucrativos",  com uma presença significativa, porém menor, de instituições "Privadas com fins lucrativos".  A presença de ambos os tipos indica que o critério de classificação não se baseia exclusivamente no objetivo lucrativo.

* **Região:** As instituições estão distribuídas por todas as regiões do Brasil, sugerindo que a localização geográfica não é um fator determinante para a formação desse cluster.

* **Infraestrutura e Recursos:** Há uma grande variação na quantidade de recursos tecnológicos ( `QT_TEC_TOTAL`, `QT_PERIODICO_ELETRONICO`, `QT_LIVRO_ELETRONICO` ).  Algumas instituições possuem um número alto

Conclusões:

- Predominância dos anos 2018 e 2019 (60,08%) NOTOK
- Predominância das regiões Sudeste, Sul e Nordeste (82,92%) NOTOK
- Uma incidência das IES não estarem numa capital (68.85%) OK
- Predominância das Instituições sem acesso ao portal Capes ( 64.73%) OK
- Possuem predominância em busca integrada (77.29%) NOTOK 
- Possuem serviço de internet (97.45%) OK
- Predominância em participar em redes sociais (71.20%) OK
- Possuem predominância em ter catalogo online (79.45%) OK
- Possuem predominância em ter outras bases (73.43%) NOTOK
- Maioria das iinstituições são privada (com e sem fins lucrativos) (98,04) OK
- Maioria dos anos da IES são Faculdade (99.15%) OK 

- Quantidade de técnicos na média baixo (33.68	) NOTOK
- Quantidade de alunos média de alunos  moderado (932.89) NOTOK
- Corpo docente muito na média (45.12) NOTOK
- Pouca quantidade média de cursos (6.21) NOTOK
- Despesas e receitas média acima do moderado NOTOK
- Quantidade de periodicos e livros eletronicos com relevância alto NOTOK

Insights falsos:
- Há uma grande variação na quantidade de recursos tecnológicos (`QT_TEC_TOTAL`)
-  A participação em repositórios, redes sociais e catálogos online IN_REPOSITORIO_INSTITUCIONA é predominantemente alta
- A participação em repositórios, redes sociais e catálogos online (`IN_REPOSITORIO_INSTITUCIONAL`, `IN_PARTICIPA_REDE_SOCIAL`, `IN_CATALOGO_ONLINE`) é predominantemente alta, mas não universal. Este fator tem baixa relevância para a classificação do cluster.

Insights:





In [309]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'quarto', 1, 17, 7, 10, 3, 0]

In [310]:
print(show_result_kmeans_prompt(kmeans_fase2, 2, 'quarto'))

A análise do CSV fornecido revela um cluster de instituições de ensino superior, predominantemente *Faculdades*, com algumas *Centros Universitários*,  caracterizadas por diversos fatores inter-relacionados.  Não há um fator único determinante, mas sim uma combinação de atributos que contribuem para a formação desse agrupamento.

**Características Predominantes:**

* **Tipo de Instituição:** A maioria das instâncias são Faculdades (Privada sem fins lucrativos), com alguns centros universitários privados e menos instituições privadas com fins lucrativos. Isto indica que a característica “categoria administrativa” está associada a “tipo de organização acadêmica”.
* **Localização Geográfica:** As instituições estão distribuídas entre as regiões Sul e Sudeste. Em menor proporção aparecem no Nordeste e Norte. Portanto o “tipo de organização acadêmica”, “categoria administrativa” e “localização geográfica” parecem estar associadas.
* **Recursos tecnológicos e infraestrutura digital:** A maio

Conclusões:

- Predominância dos anos 2018 e 2019 (60,08%) NOTOK
- Predominância das regiões Sudeste, Sul e Nordeste (82,92%) OK
- Uma incidência das IES não estarem numa capital (68.85%) OK
- Predominância das Instituições sem acesso ao portal Capes ( 64.73%) NOTOK
- Possuem predominância em busca integrada (77.29%) NOTOK
- Possuem serviço de internet (97.45%) OK
- Predominância em participar em redes sociais (71.20%) NOTOK
- Possuem predominância em ter catalogo online (79.45%) NOTOK
- Possuem predominância em ter outras bases (73.43%) OK
- Maioria das iinstituições são privada (com e sem fins lucrativos)  (98,04) OK
- Maioria dos anos da IES são Faculdade (99.15%) OK

- Quantidade de técnicos na média baixo (33.68	)  NOTOK
- Quantidade de alunos média de alunos  moderado (932.89) NOTOK
- Corpo docente muito na média (45.12) NOTOK
- Pouca quantidade média de cursos (6.21) NOTOK
- Despesas e receitas média acima do moderado NOTOK
- Quantidade de periodicos e livros eletronicos com relevância alto NOTOK

Insights falsos:
- A maioria das instâncias são Faculdades (Privada sem fins lucrativos), com alguns centros universitários privados e menos instituições privadas com fins lucrativos. Isto indica que a característica “categoria administrativa” está associada a “tipo de organização acadêmica”.
- A maioria das instituições demonstram possuir acesso a repositório institucional
- Instituições com infraestrutura digital. Isso é independente das receitas.  Este agrupamento sugere que a participação na rede social é indiferente a essas características e à receita da instituição. 



In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'quarto', 2, 17, 6, 11, 3, 0]

### Firth Cluster

In [312]:
print(show_result_kmeans_prompt(kmeans_fase2, 0, 'quinto'))

Após análise do conjunto de dados fornecido, observo algumas tendências que podem explicar a formação do cluster:

**1. Tipo de Instituição:** A grande maioria das instituições neste cluster são privadas, sem fins lucrativos.  Há uma pequena presença de instituições privadas com fins lucrativos, mas a predominância das sem fins lucrativos é significativa.  Isso sugere que o modelo de negócio e a estrutura administrativa podem ser fatores importantes para a formação deste cluster.

**2. Nível de Ensino:**  A maioria das instituições são Faculdades, com uma menor, porém significativa, quantidade de Centros Universitários.  A ausência de Universidades indica uma possível segmentação por porte e complexidade da oferta de cursos.

**3. Recursos Tecnológicos:**  Há uma alta incidência de acesso ao Portal CAPES (`IN_ACESSO_PORTAL_CAPES = 1` na maioria dos casos), indicando um investimento em recursos tecnológicos para pesquisa e desenvolvimento.  A presença de repositórios institucionais (`IN

Conclusões:

- Predominância das regiões Sudeste e Nordeste (69,45%) OK
- Uma incidência das IES não estarem numa capital (59.17%) OK
- Predominância das Instituições sem acesso ao portal Capes ( 63.55%) NOTOK
- Possuem predominância em busca integrada (77.90%) NOTOK
- Possuem serviço de internet (97.47%) NOTOK
- Predominância em participar em redes sociais (60.40%) NOTOK
- Possuem catalogo online (85.57%) NOTOK
- Possuem predominância em ter outras bases (78.28%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (96,85) OK
- Maioria dos anos da IES são Faculdade e centro universitário (66.16%, 32.23%) OK

- Quantidade de técnicos médio moderado (143.65) NOTOK
- Quantidade de alunos média de alunos acima do moderado (4,691.86) NOTOK
- Corpo docente muito acima da  média (151.18) NOTOK
- Moderada quantidade média de cursos (18.49) NOTOK
- Despesas e receitas média altas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância alto NOTOK

Insights falsos:
- Há uma pequena presença de instituições privadas com fins lucrativos, mas a predominância das sem fins lucrativos é significativa.
- Há uma alta incidência de acesso ao Portal CAPES (`IN_ACESSO_PORTAL_CAPES = 1` na maioria dos casos)
- A presença de repositórios institucionais (`IN_REPOSITORIO_INSTITUCIONAL`) também é frequente
- As instituições estão distribuídas em todas as regiões do Brasil, mas há uma concentração significativa na região Sudeste.  A localização, portanto, não parece ser um fator primário na formação do cluster.



In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'quinto', 0, 16, 4, 12, 4, 0]

In [314]:
print(show_result_kmeans_prompt(kmeans_fase2, 1, 'quinto'))

Após analisar o conjunto de dados fornecido, que representa as instâncias de um determinado cluster, podemos identificar alguns padrões e características comuns que contribuíram para a formação desse agrupamento.  A análise se concentra em identificar a frequência e correlação entre variáveis.

**Características Frequentes e Potencialmente Correlacionadas:**

* **Tipo de Instituição:** A maioria das instituições presentes neste cluster são privadas, predominantemente sem fins lucrativos.  Uma minoria significativa são instituições privadas com fins lucrativos, sugerindo uma possível divisão dentro do cluster. É preciso investigar se os subgrupos (fins lucrativos vs. sem fins lucrativos) mostram outros padrões distintos.

* **Localização Geográfica:** A região Sudeste apresenta uma alta concentração de instâncias. Isso sugere que fatores regionais, como políticas educacionais, disponibilidade de recursos ou mercado de trabalho, podem ter influência na formação do cluster.  A região Nord

Conclusões:

- Predominância das regiões Sudeste e Nordeste (69,45%) OK
- Uma incidência das IES não estarem numa capital (59.17%) OK
- Predominância das Instituições sem acesso ao portal Capes ( 63.55%) NOTOK
- Possuem predominância em busca integrada (77.90%) OK
- Possuem serviço de internet (97.47%) NOTOK
- Predominância em participar em redes sociais (60.40%) NOTOK
- Possuem catalogo online (85.57%) OK
- Possuem predominância em ter outras bases (78.28%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (96,85) OK
- Maioria dos anos da IES são Faculdade e centro universitário (66.16%, 32.23%) NOTOK

- Quantidade de técnicos médio moderado (143.65) NOTOK
- Quantidade de alunos média de alunos acima do moderado (4,691.86) NOTOK
- Corpo docente muito acima da  média (151.18) NOTOK
- Moderada quantidade média de cursos (18.49) NOTOK
- Despesas e receitas média altas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância alto NOTOK

Insights falsos:
-  Uma minoria significativa são instituições privadas com fins lucrativos
- A variável `IN_ACESSO_PORTAL_CAPES` (acesso ao portal CAPES) mostra uma forte presença (maioria de 1), indicando que a maioria das instituições possui acesso
- Isso aponta para um investimento relativamente alto em infraestrutura digital por parte das instituições neste cluster.
-  `IN_REPOSITORIO_INSTITUCIONAL` (repositório institucional) é características fortemente presentes

Insights verdadeiros:
- A região Sudeste apresenta uma alta concentração de instâncias. Isso sugere que fatores regionais, como políticas educacionais, disponibilidade de recursos ou mercado de trabalho, podem ter influência na formação do cluster

In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'quinto', 1, 16, 5, 11, 4, 0]

In [316]:
print(show_result_kmeans_prompt(kmeans_fase2, 2, 'quinto'))

A análise do CSV revela um cluster de instituições de ensino superior com características comuns, embora existam algumas variações.  A análise se concentrará nas variáveis que mais se destacam:

**Características Predominantes:**

* **Tipo de Organização:** A maioria esmagadora das instituições pertence à categoria "Privada sem fins lucrativos".  Há uma minoria significativa de instituições "Privadas com fins lucrativos", representando uma variação dentro do cluster.  A ausência quase completa de instituições públicas sugere uma possível homogeneidade no modelo de gestão.

* **Categoria Administrativa:** O cluster é composto majoritariamente por "Faculdades" e, em menor quantidade, por "Centros Universitários". Isso indica uma diversidade de portes institucionais, mas com prevalência de instituições de menor porte em comparação com Universidades.  Esta diferenciação pode indicar subgrupos internos.

* **Recursos tecnológicos:**  A maioria demonstra possuir acesso a portal CAPES (`IN_AC

Conclusões:

- Predominância das regiões Sudeste e Nordeste (69,45%) OK
- Uma incidência das IES não estarem numa capital (59.17%) OK
- Predominância das Instituições sem acesso ao portal Capes ( 63.55%) NOTOK
- Possuem predominância em busca integrada (77.90%) OK
- Possuem serviço de internet (97.47%) OK 
- Predominância em participar em redes sociais (60.40%) NOTOK
- Possuem catalogo online (85.57%) OK
- Possuem predominância em ter outras bases (78.28%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (96,85) OK
- Maioria dos anos da IES são Faculdade e centro universitário (66.16%, 32.23%) OK

- Quantidade de técnicos médio moderado (143.65) NOTOK
- Quantidade de alunos média de alunos acima do moderado (4,691.86) NOTOK
- Corpo docente muito acima da  média (151.18) NOTOK
- Moderada quantidade média de cursos (18.49) NOTOK
- Despesas e receitas média altas NOTOK 
- Quantidade de periodicos e livros eletronicos com relevância alto NOTOK

Insights falsos:
- A presença de repositórios institucionais (`IN_REPOSITORIO_INSTITUCIONAL`) é também frequente
-  A maioria demonstra possuir acesso a portal CAPES (`IN_ACESSO_PORTAL_CAPES` = 1 na maioria das instâncias)

In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'quinto', 2, 16, 7, 9, 2, 0]

### Sixth Cluster

In [318]:
print(show_result_kmeans_prompt(kmeans_fase2, 0, 'sexto'))

**Análise do Cluster:**

A análise do CSV fornecido revela um cluster de instituições de ensino superior com características diversas, dificultando a identificação de um único fator determinante para sua formação.  No entanto, algumas tendências podem ser observadas:

**1. Predominância de Faculdades Privadas:** A grande maioria das instituições no cluster são Faculdades, e a maior parte delas é privada, tanto com fins lucrativos quanto sem fins lucrativos.  Isso sugere que o cluster pode representar um segmento específico do mercado de ensino superior privado, possivelmente com características de tamanho e estrutura semelhantes.

**2. Localização Geográfica Concentrada:**  Embora haja alguma dispersão geográfica, há uma concentração significativa de instituições na região Sudeste.  Isso pode indicar fatores regionais influenciando o agrupamento, como políticas públicas, mercado de trabalho ou características demográficas específicas da região.

**3. Variabilidade em Recursos e Infraes

Conclusões:

- Predominância dos anos 2016 e 2017 (35.63%, 28.14%) NOTOK
- Predominância das regiões Sudeste e Nordeste (43.65%, 20.80%) OK
- Predominância das IES não estarem numa capital (69.21%) NOTOK 
- Predominância das Instituições sem acesso ao portal Capes (73.15%) OK
- Predominância das Instituições sem repositorio institucional (68.00%) OK
- Possuem predominância em busca integrada (65.43%) NOTOK
- Possuem serviço de internet (90.62%) NOTOK
- Predominância em participar em redes sociais (65.28%) OK
- Possuem catalogo online (72.39%) OK
- Possuem predominância em ter outras bases (62.25%) OK
- Maioria das instituições são privada (com e sem fins lucrativos) (90,01%) OK
- Maioria dos anos da IES são Faculdade (95.39%) OK

- Quantidade de técnicos médio baixo (46.05	) NOTOK
- Quantidade de alunos média de alunos  moderado (1,202.21) NOTOK
- Corpo docente moderado na  média (60.92) NOTOK
- Moderada quantidade baixa de cursos (16.76) NOTOK
- Despesas e receitas média altas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixo NOTOK

Insights falsos:
- Observa-se uma grande variação na quantidade de recursos tecnológicos (QT_TEC_TOTAL)


In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'sexto', 0, 18, 8, 10, 1, 0]

In [320]:
print(show_result_kmeans_prompt(kmeans_fase2, 1, 'sexto'))

A análise do CSV fornecido revela um cluster de instituições de ensino superior com algumas características comuns, embora com variações significativas em outros aspectos.  A análise se baseia em frequência e correlações observadas, sem testes estatísticos formais devido à ausência de um grupo de controle.


**Características Predominantes:**

* **Tipo de Instituição:** A grande maioria das instituições neste cluster são Faculdades (a frequência é muito maior comparada com Centro Universitário), apontando para um tamanho e escopo de atuação menores, normalmente.

* **Localização:**  Há uma forte concentração no Sudeste, indicando que fatores regionais podem estar influenciando a formação deste cluster.  A presença de instituições em outras regiões (Sul, Nordeste, Centro-Oeste e Norte) sugere que a localização por si só não é um fator determinante *isolado*, mas pode estar interagindo com outros fatores.

* **Recursos e Infraestrutura:**  Observa-se uma grande variabilidade na quantidad

Conclusões:

- Predominância dos anos 2016 e 2017 (35.63%, 28.14%) NOTOK
- Predominância das regiões Sudeste e Nordeste (43.65%, 20.80%) OK
- Predominância das IES não estarem numa capital (69.21%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes (73.15%) NOTOK
- Predominância das Instituições sem repositorio institucional (68.00%) NOTOK
- Possuem predominância em busca integrada (65.43%) NOTOK
- Possuem serviço de internet (90.62%) OK
- Predominância em participar em redes sociais (65.28%) NOTOK
- Possuem catalogo online (72.39%) NOTOK
- Possuem predominância em ter outras bases (62.25%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (90,01%) OK
- Maioria dos anos da IES são Faculdade (95.39%) OK

- Quantidade de técnicos médio baixo (46.05	) NOTOK
- Quantidade de alunos média de alunos  moderado (1,202.21) NOTOK
- Corpo docente moderado na  média (60.92) NOTOK
- Moderada quantidade baixa de cursos (16.76) NOTOK
- Despesas e receitas média altas NOTOK
- Quantidade de periodicos e livros eletronicos com relev ncia baixo NOTOK

Insights falsos:
- Observa-se uma grande variabilidade na quantidade de tecnologias totais (`QT_TEC_TOTAL`)


In [321]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'sexto', 1, 18, 4, 14, 1, 0]

In [322]:
print(show_result_kmeans_prompt(kmeans_fase2, 2, 'sexto'))

A análise do conjunto de dados revela um cluster caracterizado por algumas tendências notáveis.  Não há uma única característica isolada que defina completamente o cluster, mas sim uma combinação de fatores que parecem contribuir para sua formação.

**Características mais frequentes:**

* **Região Sudeste:**  A maioria das instituições está localizada na Região Sudeste do Brasil, indicando uma possível concentração geográfica deste cluster.  É necessário investigar se a região em si possui características únicas relevantes (políticas, econômicas ou de mercado) que favorecem o perfil do cluster.
* **Instituições Privadas sem Fins Lucrativos:**  Uma proporção significativa das instituições são privadas e sem fins lucrativos, sugerindo uma possível associação entre o modelo de gestão e as demais características. 
* **Tipo de Organização: Faculdade:**  O cluster se caracteriza principalmente por faculdades, mas também apresenta alguns centros universitários, o que sinaliza uma possível var

Conclusões:

- Predominância dos anos 2016 e 2017 (35.63%, 28.14%) NOTOK
- Predominância das regiões Sudeste e Nordeste (43.65%, 20.80%) OK
- Predominância das IES não estarem numa capital (69.21%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes (73.15%) NOTOK
- Predominância das Instituições sem repositorio institucional (68.00%) NOTOK
- Possuem predominância em busca integrada (65.43%) NOTOK
- Possuem serviço de internet (90.62%) NOTOK 
- Predominância em participar em redes sociais (65.28%) NOTOK
- Possuem catalogo online (72.39%) NOTOK
- Possuem predominância em ter outras bases (62.25%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (90,01%)  OK
- Maioria dos anos da IES são Faculdade (95.39%) OK
 
- Quantidade de técnicos médio baixo (46.05	) NOTOK
- Quantidade de alunos média de alunos  moderado (1,202.21) NOTOK
- Corpo docente moderado na  média (60.92) NOTOK
- Moderada quantidade baixa de cursos (16.76) NOTOK
- Despesas e receitas média altas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixo NOTOK

Insights falsos:


In [323]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'sexto', 2, 18, 3, 15, 0, 0]

### Seventh Cluster

In [324]:
print(show_result_kmeans_prompt(kmeans_fase2, 0, 'setimo'))

A análise do CSV revela um cluster de instituições de ensino superior com características comuns, permitindo inferências sobre os fatores que contribuíram para sua formação.  A análise se concentra em identificar padrões estatísticos significativos entre as variáveis.

**Características Predominantes:**

* **Tipo de Instituição:** A grande maioria das instituições neste cluster são Universidades, tanto privadas sem fins lucrativos quanto públicas federais e estaduais.  A presença de alguns Centros Universitários sugere uma possível subdivisão dentro do cluster, mas a predominância de Universidades é marcante.

* **Localização Geográfica:** A região Sul apresenta uma forte concentração de instituições neste cluster, seguida pelo Sudeste.  Isso indica uma possível influência regional nos fatores que definem este agrupamento.

* **Recursos e Infraestrutura:**  Observa-se uma grande variação na quantidade de recursos tecnológicos (`QT_TEC_TOTAL`), periódicos eletrônicos (`QT_PERIODICO_ELET

Conclusões:

- Predominância das regiões Sudeste e Sul (44.90%, 24.32%) NOTOK
- Predominância das Instituições com acesso ao portal Capes (87.76%) OK
- Predominância das Instituições com repositorio institucional (70.41%) OK
- Possuem predominância em busca integrada (67.18%) NOTOK
- Possuem serviço de internet (98.81%) NOTOK
- Predominância em participar em redes sociais (71.94%) OK
- Possuem catalogo online (92.69%) OK
- Possuem predominância em ter outras bases (91.16%) OK
- Maioria das instituições são privada sem fins, federal e com fins lurativos (46.26%, 25.68%, 19.90%) OK
- Maioria dos anos da IES são Universidade e centro universitario (69.73%, 22.28%) OK

- Quantidade de técnicos médio alto (1,170.62	) NOTOK
- Quantidade de alunos média de alunos alto (27,666.31) NOTOK
- Corpo docente alto na  média (970.69) NOTOK
- altga quantidade baixa de cursos (73.91) NOTOK
- Despesas e receitas média altas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância alto NOTOK

Insights falsos:
- Observa-se uma grande variação na quantidade de recursos tecnológicos (`QT_TEC_TOTAL`)

In [325]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'setimo', 0, 16, 7, 9, 1, 0]

In [326]:
print(show_result_kmeans_prompt(kmeans_fase2, 1, 'setimo'))

A análise do CSV revela um cluster de instituições de ensino superior com algumas características predominantes:

**Características mais frequentes:**

* **Categoria Administrativa:** A grande maioria das instituições são "Privadas sem fins lucrativos" e "Universidades", indicando um foco em instituições de ensino superior de caráter privado, mas sem fins lucrativos. A presença de "Centros Universitários" também é notável, porém em menor quantidade.

* **Acesso a recursos tecnológicos:** A maior parte das instituições apresenta acesso total ao portal CAPES (`IN_ACESSO_PORTAL_CAPES = 1`), repositório institucional (`IN_REPOSITORIO_INSTITUCIONAL = 1`) e serviço de internet (`IN_SERVICO_INTERNET = 1`). Isso sugere um bom nível de infraestrutura tecnológica.  A variável `IN_BUSCA_INTEGRADA` apresenta uma distribuição mais equilibrada (presença e ausência em quantidades similares), sugerindo que o acesso a uma busca integrada não é um fator determinante para a formação deste cluster.  O mes

Conclusões:

- Predominância das regiões Sudeste e Sul (44.90%, 24.32%) NOTOK
- Predominância das Instituições com acesso ao portal Capes (87.76%) OK
- Predominância das Instituições com repositorio institucional (70.41%) OK
- Possuem predominância em busca integrada (67.18%) OK
- Possuem serviço de internet (98.81%) OK
- Predominância em participar em redes sociais (71.94%) OK
- Possuem catalogo online (92.69%) NOTOK
- Possuem predominância em ter outras bases (91.16%)  NOTOK
- Maioria das instituições são privada sem fins, federal e com fins lurativos (46.26%, 25.68%, 19.90%) OK
- Maioria dos anos da IES são Universidade e centro universitario (69.73%, 22.28%) OK

- Quantidade de técnicos médio alto (1,170.62	) NOTOK
- Quantidade de alunos média de alunos alto (27,666.31) NOTOK
- Corpo docente alto na  média (970.69) NOTOK
- altga quantidade baixa de cursos (73.91) NOTOK
- Despesas e receitas média altas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância alto NOTOK

Insights falsos:
- A região Sul se destaca como a mais representada nesse cluster, seguida pelo Sudeste.

In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'setimo', 1, 16, 7, 9, 1, 0]

In [328]:
print(show_result_kmeans_prompt(kmeans_fase2, 2, 'setimo'))

Análise do agrupamento fornecido:

**Observações Iniciais:** O conjunto de dados apresenta informações de Instituições de Ensino Superior (IES) de diferentes regiões do Brasil, incluindo variáveis relativas à infraestrutura tecnológica, recursos eletrônicos, estrutura administrativa e acadêmica, além de dados financeiros.  A análise se concentrará na identificação de padrões e características comuns às IES dentro do cluster apresentado.


**Análise das Variáveis:**

* **Região:** Há uma concentração significativa de IES na região Sul. Embora haja presença em outras regiões, a preponderância sul sugere que fatores específicos a essa região podem estar influenciando a formação desse cluster.

* **`IN_CAPITAL` (Localização na Capital):**  A maioria das IES não se localiza em capitais (IN_CAPITAL = 0). Isso sugere uma possível relação entre localização geográfica fora de capitais e as outras características do cluster.

* **Recursos Tecnológicos:**  As variáveis `QT_TEC_TOTAL`, `QT_PERIODI

Conclusões:

- Predominância das regiões Sudeste e Sul (44.90%, 24.32%) NOTOK
- Predominância das Instituições com acesso ao portal Capes (87.76%) OK
- Predominância das Instituições com repositorio institucional (70.41%) OK
- Possuem predominância em busca integrada (67.18%) OK
- Possuem serviço de internet (98.81%) OK
- Predominância em participar em redes sociais (71.94%) OK
- Possuem catalogo online (92.69%) OK
- Possuem predominância em ter outras bases (91.16%) OK
- Maioria das instituições são privada sem fins, federal e com fins lurativos (46.26%, 25.68%, 19.90%) OK
- Maioria dos anos da IES são Universidade e centro universitario (69.73%, 22.28%) OK

- Quantidade de técnicos médio alto (1,170.62	) NOTOK
- Quantidade de alunos média de alunos alto (27,666.31) NOTOK
- Corpo docente alto na  média (970.69) NOTOK
- altga quantidade baixa de cursos (73.91) NOTOK
- Despesas e receitas média altas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância alto NOTOK

Insights falsos:
- Há uma concentração significativa de IES na região Sul
-  A maioria das IES não se localiza em capitais
- quantidade de tecnologia total como  `QT_TEC_TOTAL

In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'setimo', 2, 16, 9, 7, 3, 0]

## Fase 3

In [7]:
kmeans_fase3 = pd.read_csv('Models/results/K-means_Fase 3_results.csv')

### First Cluster

In [8]:
print(show_result_kmeans_prompt(kmeans_fase3, 0, 'primeiro'))

Após analisar o conjunto de dados fornecido, observo algumas características predominantes neste cluster:

**1. Tipo de Instituição:** A grande maioria das instituições neste cluster são públicas federais, com uma presença significativa de universidades. Há também algumas instituições privadas sem fins lucrativos e algumas públicas estaduais, mas em menor número.  A presença de Institutos Federais de Educação, Ciência e Tecnologia também é notável.  Esta homogeneidade na categoria administrativa e organização acadêmica sugere que essas características são fortes influenciadoras na formação do cluster.

**2. Porte da Instituição:** As instituições apresentam uma grande variação na quantidade de alunos, docentes e cursos.  Embora haja uma grande dispersão, é possível observar uma tendência para instituições de grande porte, especialmente as universidades públicas federais, que demonstram valores altos em `QT_ALUNOS`, `QT_DOCENTES` e `QT_CURSO`.  A análise de medidas de dispersão (desvio 

Conclusões:

- Predominância das regiões Sudeste, Nordeste e Sul (37.43%, 22.35%, 18.81%) OK
- Uma incidência das IES não estarem numa capital (59,78%) OK
- Instituições com acesso ao portal Capes (87.34%) OK
- Possuem serviço de internet (94.97%) OK
- Participam em redes sociais (71.51%) NOTOK
- Possuem catalogo online (86.22%) NOTOK
- Busca integrada (58.29%) OK
- Quase a métade das IES são públicas federais, Privada sem fins lucrativos, Pública Estadual (49.16%, 22.91%, 21.04%) OK
- Mais da metade das IES são do tipo universidade e Instituto Federal de Educação, Ciência e Tecnologia (59.96%, 20.48%) OK

- Quantidade alta de técnicos na média (765.03) NOTOK
- Quantidade de alunos média de alunos alto (12,553.95) OK
- Corpo docente forte na média (761.73) OK
- Quantidade considerável de cursos na média (média de 52.45) OK
- Despesas e receitas média moderadas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixa OK

Insights falsos:
- A presença de repositório institucional (`IN_REPOSITORIO_INSTITUCIONAL`) 

In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 3', 'primeiro', 0, 15, 11, 4, 1, 0]

In [9]:
print(show_result_kmeans_prompt(kmeans_fase3, 1, 'primeiro'))

Após analisar os dados do cluster fornecido, podemos observar algumas características predominantes que parecem ter influenciado a formação deste grupo específico de instituições de ensino.

**Características Relevantes:**

* **Tipo de Instituição:** A grande maioria das instituições são públicas federais, com uma parcela significativa sendo Universidades.  A presença de Institutos Federais de Educação, Ciência e Tecnologia também é recorrente. Há uma menor representação de instituições privadas sem fins lucrativos, principalmente universidades, algumas privadas com fins lucrativos e algumas poucas instituições estaduais e municipais.  Essa dominância de instituições públicas federais sugere uma possível segmentação baseada em recursos financeiros e políticas governamentais.

* **Porte da Instituição:** Embora haja variação, as instituições deste cluster tendem a apresentar um porte médio a grande, considerando a quantidade de alunos, docentes e cursos oferecidos.  Isso indica que o al

Conclusões:

- Predominância das regiões Sudeste, Nordeste e Sul (37.43%, 22.35%, 18.81%)  OK
- Uma incidência das IES não estarem numa capital (59,78%) NOTOK
- Instituições com acesso ao portal Capes (87.34%) OK
- Possuem serviço de internet (94.97%) NOTOK
- Participam em redes sociais (71.51%) NOTOK
- Possuem catalogo online (86.22%) NOTOK
- Busca integrada (58.29%)  NOTOK
- Quase a métade das IES são públicas federais, Privada sem fins lucrativos, Pública Estadual (49.16%, 22.91%, 21.04%)  OK
- Mais da metade das IES são do tipo universidade e Instituto Federal de Educação, Ciência e Tecnologia (59.96%, 20.48%) OK

- Quantidade alta de técnicos na média (765.03) NOTOK
- Quantidade de alunos média de alunos alto (12,553.95) OK
- Corpo docente forte na média (761.73) OK
- Quantidade considerável de cursos na média (média de 52.45)  OK
- Despesas e receitas média moderadas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixa OK

Insights falsos:

In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 3',  'primeiro', 1, 15, 8, 7, 0, 0]

In [10]:
print(show_result_kmeans_prompt(kmeans_fase3, 2, 'primeiro'))

Após analisar os dados fornecidos, observo algumas características predominantes nesse cluster.  A análise se concentra em variáveis quantitativas e qualitativas, buscando correlações e tendências:

**Características predominantes:**

* **Tipo de Instituição:** A grande maioria das instituições pertence à categoria "Pública Federal", com algumas "Pública Estadual" e poucas "Privada sem fins lucrativos". Isso indica que o algoritmo de clustering agrupou principalmente instituições públicas federais de grande porte. A presença de algumas instituições privadas sem fins lucrativos sugere que o tamanho e/ou os recursos (verificaremos mais adiante) podem ser fatores determinantes para a formação do cluster, mesmo ultrapassando diferenças entre público e privado.
* **Organização Acadêmica:** As instituições se caracterizam como Universidades e, em menor proporção, como Institutos Federais de Educação, Ciência e Tecnologia (IFs). A alta prevalência de Universidades sugere que o algoritmo pode 

Conclusões:

- Predominância das regiões Sudeste, Nordeste e Sul (37.43%, 22.35%, 18.81%) OK
- Uma incidência das IES não estarem numa capital (59,78%) NOTOK
- Instituições com acesso ao portal Capes (87.34%) OK
- Possuem serviço de internet (94.97%) OK
- Participam em redes sociais (71.51%) NOTOK
- Possuem catalogo online (86.22%) OK
- Busca integrada (58.29%) NOTOK
- Quase a métade das IES são públicas federais, Privada sem fins lucrativos, Pública Estadual (49.16%, 22.91%, 21.04%) OK
- Mais da metade das IES são do tipo universidade e Instituto Federal de Educação, Ciência e Tecnologia (59.96%, 20.48%) OK

- Quantidade alta de técnicos na média (765.03) NOTOK
- Quantidade de alunos média de alunos alto (12,553.95) NOTOK
- Corpo docente forte na média (761.73) NOTOK
- Quantidade considerável de cursos na média (média de 52.45) NOTOK
- Despesas e receitas média moderadas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixa NOTOK

Insights falsos:
- Nota-se presença significante de instituições nas regiões Sudeste, Sul e Centro-Oeste

In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 3',  'primeiro', 2, 15, 6, 9, 1, 0]

### Second Cluster

In [11]:
print(show_result_kmeans_prompt(kmeans_fase3, 0, 'segundo'))

Após analisar o conjunto de dados fornecido, observo algumas tendências significativas dentro deste cluster específico:

**Características Predominantes:**

* **Setor Privado:** A grande maioria das instituições neste cluster são privadas, com uma divisão quase igual entre fins lucrativos e sem fins lucrativos.  Isso sugere que o algoritmo pode estar agrupando instituições com modelos de financiamento semelhantes, independentemente do objetivo de lucro.

* **Faculdades:** Todas as instituições são classificadas como Faculdades, indicando que o tamanho e a estrutura organizacional da instituição são fatores importantes para a formação deste cluster.

* **Presença de Recursos Digitais:** A maioria das instituições possui periódicos eletrônicos, embora a quantidade varie bastante (de 12 a 51784).  A presença de livros eletrônicos também é comum, com uma variação similar na quantidade.  A alta variância sugere que a quantidade de recursos digitais não é o fator *principal* de agrupamento, 

Conclusões:

- Predominância dos anos 2018 e 2019 (60,12%) NOTOK
- Predominância das regiões Sudeste e Nordeste (60,67%) OK
- Uma incidência das IES não estarem numa capital (59.38%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes (63.25%) NOTOK
- Possuem busca integrada (74.35%) NOTOK
- Possuem serviço de internet (93.00%) OK
- Participam em redes sociais (74.03%) OK
- Possuem predominância em catalogo online (64.87%) OK
- Possuem predominâncai em ter outras bases (69.29%) OK
- Maioria das instituições são privada (com e sem fins lucrativos) (98,6) OK
- Maioria dos anos da IES são Faculdade (99.89%) OK

- Pouca quantidade de técnicos na média (12.87) NOTOK
- Quantidade de alunos média de alunos abaixo (153.83) OK
- Corpo docente muito pouco na média (14.20) OK
- Pouca quantidade de cursos (2.30) OK
- Despesas e receitas média moderadas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixa NOTOK

Insights falsos:
- Quase todas as instituições possuem repositório institucional 




In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 3',  'segundo', 0, 17, 10, 7, 1, 0]

In [12]:
print(show_result_kmeans_prompt(kmeans_fase3, 1, 'segundo'))

**Cadeia de Pensamento:**

Para entender os fatores que levaram à formação deste cluster, analisarei as variáveis presentes no dataset, buscando padrões e outliers que indiquem correlações entre as características das instituições e sua agrupamento.  Irei priorizar as características quantitativas (quantidades e valores financeiros) buscando média, desvio padrão e valores máximos/mínimos para observar a dispersão e possíveis tendências. Para as variáveis qualitativas (booleanas e categóricas), analisarei a frequência de cada categoria.


**Análise Detalhada:**

Observando o dataset fornecido, percebo algumas tendências que podem explicar a formação do cluster:

1. **Tipo de Instituição:** A grande maioria das instituições no cluster são **privadas sem fins lucrativos**, com uma quantidade menor de instituições **privadas com fins lucrativos**.  Essa predominância sugere que o algoritmo possivelmente separou instituições com e sem fins lucrativos como um dos principais critérios de agru

Conclusões:

- Predominância dos anos 2018 e 2019 (60,12%) NOTOK
- Predominância das regiões Sudeste e Nordeste (60,67%) NOTOK
- Uma incidência das IES não estarem numa capital (59.38%) OK
- Predominância das Instituições sem acesso ao portal Capes (63.25%) NOTOK
- Possuem busca integrada (74.35%) OK
- Possuem serviço de internet (93.00%) OK
- Participam em redes sociais (74.03%) NOTOK
- Possuem predominância em catalogo online (64.87%) OK
- Possuem predominâncai em ter outras bases (69.29%) OK
- Maioria das instituições são privada (com e sem fins lucrativos) (98,6) OK
- Maioria dos anos da IES são Faculdade (99.89%) NOTOK

- Pouca quantidade de técnicos na média (12.87) NOTOK
- Quantidade de alunos média de alunos abaixo (153.83) NOTOK
- Corpo docente muito pouco na média (14.20) NOTOK
- Pouca quantidade de cursos (2.30) NOTOK
- Despesas e receitas média moderadas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixa OK

Insights falsos:
- A quase totalidade das instituições possui `IN_REPOSITORIO_INSTITUCIONAL`

In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 3',  'segundo', 1, 17, 7, 10, 1, 0]

In [13]:
print(show_result_kmeans_prompt(kmeans_fase3, 2, 'segundo'))

Análise do Cluster:

Após analisar o conjunto de dados fornecido, observo algumas características predominantes neste cluster que podem explicar sua formação:

**1. Predominância de Instituições Privadas sem Fins Lucrativos:**  A grande maioria das instituições neste cluster são classificadas como "Privada sem fins lucrativos".  Essa característica homogênea sugere que as demais variáveis se correlacionam mais fortemente dentro deste tipo de instituição.

**2. Tamanho Pequeno a Médio:** A quantidade de alunos (`QT_ALUNOS`) e docentes (`QT_DOCENTES`) apresenta uma amplitude significativa, mas sem valores extremamente altos, indicando que a maioria das instituições no cluster são de tamanho pequeno a médio. A quantidade de cursos (`QT_CURSOS`) também se concentra em números baixos (1 a 4, predominantemente). Esta similaridade de porte pode contribuir para sua formação.

**3. Infraestrutura Digital Consistente (mas não excepcional):**  A maior parte das instituições possui serviço de inte

Conclusões:

- Predominância dos anos 2018 e 2019 (60,12%) NOTOK
- Predominância das regiões Sudeste e Nordeste (60,67%) NOTOK
- Uma incidência das IES não estarem numa capital (59.38%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes (63.25%) NOTOK
- Possuem busca integrada (74.35%) OK
- Possuem serviço de internet (93.00%) OK
- Participam em redes sociais (74.03%) OK
- Possuem predominância em catalogo online (64.87%) OK
- Possuem predominâncai em ter outras bases (69.29%)  NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (98,6) OK
- Maioria dos anos da IES são Faculdade (99.89%) NOTOK

- Pouca quantidade de técnicos na média (12.87) NOTOK
- Quantidade de alunos média de alunos abaixo (153.83) OK
- Corpo docente muito pouco na média (14.20) OK
- Pouca quantidade de cursos (2.30) OK
- Despesas e receitas média moderadas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixa NOTOK

Insights falsos:
- A maior parte das instituições possui repositório institucional (`IN_REPOSITORIO_INSTITUCIONAL`

In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 3',  'segundo', 2, 17, 8, 9, 1, 0]

### Third Cluster

In [15]:
print(show_result_kmeans_prompt(kmeans_fase3, 0, 'terceiro'))

Após análise dos dados fornecidos, podemos observar algumas características predominantes neste cluster:

**1. Localização e porte:** A grande maioria das instituições deste cluster está localizada na região Sudeste (mais de 70% das instâncias).  A maioria não se localiza na capital.  O tamanho das instituições é variável, mas há uma concentração em instituições de pequeno e médio porte, com número de alunos geralmente abaixo de 500.

**2. Tipo de Instituição:**  O cluster é composto quase exclusivamente por Faculdades, com categoria administrativa predominantemente "Privada sem fins lucrativos".  Há uma minoria de instituições "Privadas com fins lucrativos".

**3. Recursos e Infraestrutura:**  Há uma grande variabilidade na quantidade de recursos tecnológicos e materiais. Algumas instituições possuem um número significativo de periódicos e livros eletrônicos, enquanto outras apresentam valores próximos a zero.  A presença de repositório institucional e busca integrada é variável, indi

Conclusões:

- Predominância das regiões Sudeste e Nordeste e Sul (47.17%, 19.17%, 17.48%) OK
- Predominãncia das IES não estarem numa capital (62.70%) OK
- Instituições sem acesso ao portal Capes (83.09%) NOTOK
- Possuem predominância em não possuir repositorio institucional (74.68%) NOTOK
- Possuem predominância em serviço de internet (79.13%) OK
- Predominância em participar em redes sociais (62.62%) OK
- Possuem predominância em ter outras bases (75.57%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (97,73) OK
- Maioria dos anos da IES são Faculdade (99.92%) OK 

- Quantidade baixa de média de técnicos (10.78) NOTOK
- Quantidade de alunos média de alunos baixo (185.81	) NOTOK
- Corpo docente muito baixo na média (16.72) NOTOK
- Pouca quantidade de cursos (2.03) NOTOK
- Despesas e receitas média moderadas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixa OK

Insights falsos:
-  A presença de  busca integrada é variável
- O acesso ao portal CAPES é variável

In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 3',  'terceiro', 0, 15, 7, 8, 3, 1]

In [18]:
print(show_result_kmeans_prompt(kmeans_fase3, 1, 'terceiro'))

O cluster apresentado demonstra características de instituições privadas de pequeno a médio porte, majoritariamente localizadas na região Sudeste do Brasil.  A análise indica algumas tendências interessantes:

**Características predominantes:**

* **Região:** A grande maioria das instituições (mais de 70%) está localizada na região Sudeste. Isso sugere uma concentração geográfica significativa para este cluster.  Deve-se investigar se fatores regionais, como políticas de incentivo, mercado de trabalho ou densidade populacional, contribuem para a formação deste padrão.
* **Categoria Administrativa e Organização Acadêmica:** A quase totalidade das instituições é classificada como "Privada sem fins lucrativos" e opera como "Faculdade". Isso sugere homogeneidade no tipo de instituição. Uma análise mais profunda poderia explorar se o modelo de gestão sem fins lucrativos influencia outros aspectos do cluster.
* **Recursos Digitais:** Há uma variabilidade considerável na quantidade de periódi

Conclusões:

- Predominância das regiões Sudeste e Nordeste e Sul (47.17%, 19.17%, 17.48%) OK
- Predominãncia das IES não estarem numa capital (62.70%) NOTOK
- Instituições sem acesso ao portal Capes (83.09%) NOTOK
- Possuem predominância em não possuir repositorio institucional (74.68%) NOTOK
- Possuem predominância em serviço de internet (79.13%) NOTOK
- Predominância em participar em redes sociais (62.62%) NOTOK
- Possuem predominância em ter outras bases (75.57%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (97,73) OK
- Maioria dos anos da IES são Faculdade (99.92%) OK
 
- Quantidade baixa de média de técnicos (10.78) NOTOK
- Quantidade de alunos média de alunos baixo (185.81	) OK
- Corpo docente muito baixo na média (16.72) OK
- Pouca quantidade de cursos (2.03) OK
- Despesas e receitas média moderadas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixa NOTOK

Insights falsos:
- Há variação na presença de outras bases e infraestrutura tecnológica (`IN_OUTRAS_BASES`, `IN_REPOSITORIO_INSTITUCIONAL`, `IN_BUSCA_INTEGRADA`, `IN_SERVICO_INTERNET`, `IN_PARTICIPA_REDE_SOCIAL`, `IN_CATALOGO_ONLINE`, `IN_ACESSO_PORTAL_CAPES`)

In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 3',  'terceiro', 1, 15, 4, 1, 1, 0]

In [19]:
print(show_result_kmeans_prompt(kmeans_fase3, 2, 'terceiro'))

Analisando o conjunto de dados fornecido, podemos observar algumas tendências que parecem caracterizar este cluster específico.

**Características Predominantes:**

* **Região Sudeste:** A grande maioria das instituições deste cluster está localizada na região Sudeste do Brasil (aproximadamente 75%), indicando uma forte concentração geográfica. Isso sugere que fatores regionais, como políticas educacionais estaduais, mercado de trabalho ou concentração de renda, podem estar influenciando a formação deste grupo.  Uma análise de Qui-quadrado entre a variável região e outras pode confirmar o quanto essa variável afeta a classificação.

* **Instituições Privadas sem Fins Lucrativos:** A maior parte das instituições pertence a essa categoria administrativa (aproximadamente 60%), enquanto o restante se divide principalmente entre instituições privadas com fins lucrativos e algumas instituições públicas. Esse resultado mostra uma inclinação para instituições sem fins lucrativos, indicando que

Conclusões:

- Predominância das regiões Sudeste e Nordeste e Sul (47.17%, 19.17%, 17.48%) OK
- Predominãncia das IES não estarem numa capital (62.70%) NOTOK
- Instituições sem acesso ao portal Capes (83.09%) NOTOK
- Possuem predominância em não possuir repositorio institucional (74.68%) NOTOK
- Possuem predominância em serviço de internet (79.13%) NOTOK
- Predominância em participar em redes sociais (62.62%) NOTOK
- Possuem predominância em ter outras bases (75.57%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (97,73) OK
- Maioria dos anos da IES são Faculdade (99.92%) OK

- Quantidade baixa de média de técnicos (10.78) OK
- Quantidade de alunos média de alunos baixo (185.81	) NOTOK
- Corpo docente muito baixo na média (16.72) NOTOK
- Pouca quantidade de cursos (2.03) NOTOK
- Despesas e receitas média moderadas OK
- Quantidade de periodicos e livros eletronicos com relevância baixa NOTOK

Insights falsos:
-  Existe uma frequência alta (porém não absoluta) de repositórios
-  Existe uma frequência alta (porém não absoluta) de sistemas de busca integrada

In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 3',  'terceiro', 2, 15, 5, 10, 2, 0]

### Forth Cluster

In [20]:
print(show_result_kmeans_prompt(kmeans_fase3, 0, 'quarto'))

Após analisar o conjunto de dados fornecido, podemos observar algumas características predominantes neste cluster:

**1. Predominância de Instituições Privadas sem Fins Lucrativos:** A grande maioria das instituições neste cluster são classificadas como "Privada sem fins lucrativos", indicando uma possível relação entre o tipo de administração e as outras características do cluster.

**2. Quantidade de Livros e Periódicos Eletrônicos:** Há uma grande variação na quantidade de livros e periódicos eletrônicos, com alguns valores muito altos e outros baixos.  Isso sugere que a quantidade desses recursos digitais não é um fator determinante para a formação deste cluster.  Uma análise mais aprofundada, com cálculo de desvio padrão e mediana, seria necessária para confirmar se essa variação é significativa ou se há subgrupos dentro do cluster.

**3. Localização Geográfica:** A distribuição geográfica é diversificada, com instituições presentes em todas as regiões do país.  Portanto, a região

Conclusões:

- Predominância dos anos 2018 e 2019 (60,08%) NOTOK
- Predominância das regiões Sudeste, Sul e Nordeste (82,92%) NOTOK
- Uma incidência das IES não estarem numa capital (68.85%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes ( 64.73%) NOTOK
- Possuem predominância em busca integrada (77.29%) NOTOK
- Possuem serviço de internet (97.45%) NOTOK
- Predominância em participar em redes sociais (71.20%) NOTOK
- Possuem predominância em ter catalogo online (79.45%) NOTOK
- Possuem predominância em ter outras bases (73.43%) NOTOK
- Maioria das iinstituições são privada (com e sem fins lucrativos) (98,04) OK
- Maioria dos anos da IES são Faculdade (99.15%) NOTOK

- Quantidade de técnicos na média baixo (33.68	) NOTOK
- Quantidade de alunos média de alunos  moderado (932.89) NOTOK
- Corpo docente muito na média (45.12) NOTOK
- Pouca quantidade média de cursos (6.21) NOTOK
- Despesas e receitas média acima do moderado NOTOK
- Quantidade de periodicos e livros eletronicos com relevância alto NOTOK

Insights falsos:
- A presença de acesso ao repositório institucional é quase universal
- Há uma grande variação na quantidade de livros e periódicos eletrônicos, com alguns valores muito altos e outros baixos.




In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 3',  'quarto', 0, 17, 1, 16, 2, 0]

In [23]:
print(show_result_kmeans_prompt(kmeans_fase3, 1, 'quarto'))

Analisando o conjunto de dados fornecido, podemos observar algumas características predominantes neste cluster:

**Tipo de Instituição:** A grande maioria das instituições neste cluster são classificadas como "Privada sem fins lucrativos", com algumas exceções de instituições "Privadas com fins lucrativos".  Essa característica parece ser um forte indicador de pertencimento a este cluster. A presença de instituições públicas é insignificante.

**Localização:**  A maior parte das instituições está localizada na região Sul e Sudeste do Brasil. A região Nordeste também apresenta uma presença considerável, enquanto as regiões Norte e Centro-Oeste são pouco representadas. A localização na capital (IN_CAPITAL) parece não ser um fator determinante, com instituições tanto na capital quanto em outras localidades presentes no cluster.

**Recursos e Infraestrutura:**  Observa-se uma variabilidade considerável na quantidade de alunos, docentes e cursos. No entanto, a maioria das instituições apres

Conclusões:

- Predominância dos anos 2018 e 2019 (60,08%) NOTOK
- Predominância das regiões Sudeste, Sul e Nordeste (82,92%) OK
- Uma incidência das IES não estarem numa capital (68.85%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes ( 64.73%) NOTOK
- Possuem predominância em busca integrada (77.29%) OK
- Possuem serviço de internet (97.45%) OK
- Predominância em participar em redes sociais (71.20%) OK
- Possuem predominância em ter catalogo online (79.45%) OK
- Possuem predominância em ter outras bases (73.43%) OK
- Maioria das iinstituições são privada (com e sem fins lucrativos) (98,04) OK
- Maioria dos anos da IES são Faculdade (99.15%) OK

- Quantidade de técnicos na média baixo (33.68	) NOTOK
- Quantidade de alunos média de alunos  moderado (932.89) OK
- Corpo docente muito na média (45.12) OK
- Pouca quantidade média de cursos (6.21) OK
- Despesas e receitas média acima do moderado NOTOK
- Quantidade de periodicos e livros eletronicos com relevância alto OK

Insights falsos:
- apresenta uma quantidade moderada de recursos tecnológicos (QT_TEC_TOTAL)
- A grande maioria das instituições possui acesso ao repositório institucional




In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 3',  'quarto', 1, 17, 12, 5, 2, 0]

In [24]:
print(show_result_kmeans_prompt(kmeans_fase3, 2, 'quarto'))

Após análise do dataset fornecido, observamos um cluster de instituições de ensino superior predominantemente privadas, majoritariamente sem fins lucrativos, e classificadas como Faculdades.  A localização geográfica apresenta certa concentração nas regiões Sul e Sudeste, mas com presença significativa no Nordeste também. Há uma variedade considerável na quantidade de alunos (QT_ALUNOS), docentes (QT_DOCENTES) e cursos (QT_CURSO), o que sugere uma heterogeneidade no tamanho e escopo dessas instituições dentro do cluster.

**Fatores que influenciam a formação do cluster:**

* **Categoria Administrativa:**  A maioria das instituições são "Privadas sem fins lucrativos", com algumas "Privadas com fins lucrativos". A diferença na natureza administrativa parece não ser um fator decisivo para a formação deste cluster específico, visto a presença de ambas as categorias.
* **Organização Acadêmica:** Quase todas as instituições são "Faculdades". A concentração em um tipo específico de organizaçã

Conclusões:

- Predominância dos anos 2018 e 2019 (60,08%) NOTOK
- Predominância das regiões Sudeste, Sul e Nordeste (82,92%) OK
- Uma incidência das IES não estarem numa capital (68.85%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes ( 64.73%) NOTOK
- Possuem predominância em busca integrada (77.29%) NOTOK
- Possuem serviço de internet (97.45%) OK
- Predominância em participar em redes sociais (71.20%) NOTOK
- Possuem predominância em ter catalogo online (79.45%) NOTOK
- Possuem predominância em ter outras bases (73.43%) OK
- Maioria das iinstituições são privada (com e sem fins lucrativos) (98,04) OK
- Maioria dos anos da IES são Faculdade (99.15%) OK

- Quantidade de técnicos na média baixo (33.68	) NOTOK
- Quantidade de alunos média de alunos  moderado (932.89) NOTOK
- Corpo docente muito na média (45.12) NOTOK
- Pouca quantidade média de cursos (6.21) NOTOK
- Despesas e receitas média acima do moderado NOTOK
- Quantidade de periodicos e livros eletronicos com relevância alto NOTOK

Insights falsos:
- Observa-se alta presença de repositórios institucionais





In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'quarto', 2, 17, 5, 12, 1, 0]

### Firth Cluster

In [25]:
print(show_result_kmeans_prompt(kmeans_fase3, 0, 'quinto'))

Após análise dos dados fornecidos, podemos observar algumas características predominantes neste cluster:

**1. Predominância de Instituições Privadas sem Fins Lucrativos:** A grande maioria das instituições presentes neste cluster são classificadas como "Privada sem fins lucrativos", indicando uma possível relação entre o tipo de administração e as demais características do agrupamento.  Uma análise de proporção mostraria a porcentagem exata.

**2. Localização Geográfica Concentrada:**  Há uma forte concentração de instituições na região Sudeste, com uma presença significativa também no Nordeste.  A análise da distribuição geográfica, com cálculos de frequência e porcentagens para cada região, reforçaria essa observação.  A variável `IN_CAPITAL` (localização na capital) parece não ser um fator determinante, pois há instituições tanto na capital quanto em outras localidades dentro do cluster.

**3. Porte Médio das Instituições:** As quantidades de alunos (`QT_ALUNOS`), docentes (`QT_DOC

Conclusões:

- Predominância das regiões Sudeste e Nordeste (69,45%) OK
- Uma incidência das IES não estarem numa capital (59.17%) OK
- Predominância das Instituições sem acesso ao portal Capes ( 63.55%) NOTOK
- Possuem predominância em busca integrada (77.90%) OK
- Possuem serviço de internet (97.47%) NOTOK
- Predominância em participar em redes sociais (60.40%) NOTOK
- Possuem catalogo online (85.57%) NOTOK
- Possuem predominância em ter outras bases (78.28%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (96,85) OK
- Maioria dos anos da IES são Faculdade e centro universitário (66.16%, 32.23%) NOTOK

- Quantidade de técnicos médio moderado (143.65) NOTOK
- Quantidade de alunos média de alunos acima do moderado (4,691.86) OK
- Corpo docente muito acima da  média (151.18) OK
- Moderada quantidade média de cursos (18.49) OK
- Despesas e receitas média altas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância alto NOTOK

Insights falsos:
- A presença de repositórios institucionais (`IN_REPOSITORIO_INSTITUCIONAL`)


In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 3',  'quinto', 0, 16, 9, 7, 1, 0]

In [26]:
print(show_result_kmeans_prompt(kmeans_fase3, 1, 'quinto'))

Após analisar os dados fornecidos do cluster, podemos observar algumas características predominantes que parecem contribuir para a sua formação:

**1. Tipo de Instituição:** A grande maioria das instituições neste cluster são **privadas sem fins lucrativos**, com uma menor presença de instituições privadas com fins lucrativos.  Isso sugere que o modelo de gestão e o objetivo da instituição podem ser fatores importantes para a formação deste agrupamento.  A análise precisa da proporção entre instituições privadas com e sem fins lucrativos seria crucial para confirmar essa hipótese.

**2. Organização Acadêmica:**  A maior parte das instituições é classificada como **Faculdade**, com algumas como **Centro Universitário** e uma pequena minoria como **Universidade**.  Essa heterogeneidade indica que a organização acadêmica, por si só, não é o principal fator de agrupamento, embora mereça consideração em conjunto com outras variáveis.  Uma análise de frequência, mostrando a distribuição perc

Conclusões:

- Predominância das regiões Sudeste e Nordeste (69,45%) OK
- Uma incidência das IES não estarem numa capital (59.17%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes ( 63.55%) NOTOK
- Possuem predominância em busca integrada (77.90%) NOTOK
- Possuem serviço de internet (97.47%) OK
- Predominância em participar em redes sociais (60.40%) NOTOK
- Possuem catalogo online (85.57%) OK
- Possuem predominância em ter outras bases (78.28%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (96,85) OK
- Maioria dos anos da IES são Faculdade e centro universitário (66.16%, 32.23%) OK

- Quantidade de técnicos médio moderado (143.65) NOTOK
- Quantidade de alunos média de alunos acima do moderado (4,691.86) NOTOK
- Corpo docente muito acima da  média (151.18) NOTOK
- Moderada quantidade média de cursos (18.49) NOTOK 
- Despesas e receitas média altas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância alto NOTOK

Insights falsos:
- Embora a maioria das instituições possua repositórios institucionais


In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 3',  'quinto', 1, 16, 5, 11, 1, 0]

In [28]:
print(show_result_kmeans_prompt(kmeans_fase3, 2, 'quinto'))

A análise do cluster fornecido revela algumas tendências interessantes.  A maioria das instituições é **Privada sem fins lucrativos** (predominância significativa) e se configura como **Faculdade**,  indicando um foco em instituições de ensino superior menores e com essa finalidade administrativa.

Observa-se uma concentração no **Sudeste** como região de localização. Em relação à localização na capital, não há uma tendência dominante, pois há  instâncias tanto de instituições na capital (IN_CAPITAL = 1) quanto fora dela.

Embora a quantidade de **Técnicos (QT_TEC_TOTAL)** varie bastante,  existe uma porcentagem considerável de instituições com uma quantidade relativamente menor de técnicos.  

A infraestrutura digital, avaliada por variáveis como a existência de repositório institucional, busca integrada, e catálogo online (IN_REPOSITORIO_INSTITUCIONAL, IN_BUSCA_INTEGRADA, IN_CATALOGO_ONLINE) tende a estar presente em grande parte do cluster, mas não totalmente universal, indicando um

Conclusões:

- Predominância das regiões Sudeste e Nordeste (69,45%)  OK
- Uma incidência das IES não estarem numa capital (59.17%) OK
- Predominância das Instituições sem acesso ao portal Capes ( 63.55%) NOTOK
- Possuem predominância em busca integrada (77.90%) OK 
- Possuem serviço de internet (97.47%) NOTOK
- Predominância em participar em redes sociais (60.40%) NOTOK
- Possuem catalogo online (85.57%) OK
- Possuem predominância em ter outras bases (78.28%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (96,85) OK
- Maioria dos anos da IES são Faculdade e centro universitário (66.16%, 32.23%) OK

- Quantidade de técnicos médio moderado (143.65) NOTOK
- Quantidade de alunos média de alunos acima do moderado (4,691.86) NOTOK
- Corpo docente muito acima da  média (151.18) NOTOK
- Moderada quantidade média de cursos (18.49) NOTOK
- Despesas e receitas média altas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância alto NOTOK

Insights falsos:
- A infraestrutura digital, avaliada por variáveis como a existência de repositório institucional


In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 3',  'quinto', 2, 16, 6, 10, 1, 0]

### Sixth Cluster

In [None]:
print(show_result_kmeans_prompt(kmeans_fase3, 0, 'sexto'))

**Análise do Cluster:**

A análise do CSV fornecido revela um cluster de instituições de ensino superior com características diversas, dificultando a identificação de um único fator determinante para sua formação.  No entanto, algumas tendências podem ser observadas:

**1. Predominância de Faculdades Privadas:** A grande maioria das instituições no cluster são Faculdades, e a maior parte delas é privada, tanto com fins lucrativos quanto sem fins lucrativos.  Isso sugere que o cluster pode representar um segmento específico do mercado de ensino superior privado, possivelmente com características de tamanho e estrutura semelhantes.

**2. Localização Geográfica Concentrada:**  Embora haja alguma dispersão geográfica, há uma concentração significativa de instituições na região Sudeste.  Isso pode indicar fatores regionais influenciando o agrupamento, como políticas públicas, mercado de trabalho ou características demográficas específicas da região.

**3. Variabilidade em Recursos e Infraes

Conclusões:

- Predominância dos anos 2016 e 2017 (35.63%, 28.14%) NOTOK
- Predominância das regiões Sudeste e Nordeste (43.65%, 20.80%) OK
- Predominância das IES não estarem numa capital (69.21%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes (73.15%) NOTOK
- Predominância das Instituições sem repositorio institucional (68.00%) NOTOK
- Possuem predominância em busca integrada (65.43%) NOTOK
- Possuem serviço de internet (90.62%) NOTOK
- Predominância em participar em redes sociais (65.28%) OK
- Possuem catalogo online (72.39%) OK
- Possuem predominância em ter outras bases (62.25%) OK
- Maioria das instituições são privada (com e sem fins lucrativos) (90,01%) OK
- Maioria dos anos da IES são Faculdade (95.39%) OK

- Quantidade de técnicos médio baixo (46.05	) NOTOK
- Quantidade de alunos média de alunos  moderado (1,202.21) NOTOK
- Corpo docente moderado na  média (60.92) NOTOK
- Moderada quantidade baixa de cursos (16.76) NOTOK
- Despesas e receitas média altas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixo NOTOK

Insights falsos:


In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 3',  'sexto', 0, 18, 6, 12, 0, 0]

In [29]:
print(show_result_kmeans_prompt(kmeans_fase3, 1, 'sexto'))

O cluster apresentado demonstra uma grande heterogeneidade, dificultando a identificação de fatores únicos e fortemente correlacionados que expliquem sua formação.  A ausência de uma característica predominante em todas as instâncias indica que a similaridade entre as instituições se dá por uma combinação de fatores, ou por uma similaridade em um espaço multidimensional que não é facilmente captável pela inspeção individual das variáveis.

**Observações pontuais sobre algumas variáveis:**

* **Categoria Administrativa e Organização Acadêmica:**  O cluster contém tanto Faculdades quanto Centros Universitários, ambos públicos e privados (com e sem fins lucrativos). Esta variável não parece ser discriminante.
* **Região (CO_REGIAO):** A maioria das instituições está localizada no Sudeste, seguida pelo Nordeste.  A presença de instituições em outras regiões indica que a região geográfica não é um fator determinante para a formação do cluster.
* **IN_CAPITAL:** Presença de instituições tant

Conclusões:

- Predominância dos anos 2016 e 2017 (35.63%, 28.14%) NOTOK
- Predominância das regiões Sudeste e Nordeste (43.65%, 20.80%) OK
- Predominância das IES não estarem numa capital (69.21%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes (73.15%) NOTOK
- Predominância das Instituições sem repositorio institucional (68.00%) NOTOK
- Possuem predominância em busca integrada (65.43%) NOTOK
- Possuem serviço de internet (90.62%) NOTOK
- Predominância em participar em redes sociais (65.28%) NOTOK
- Possuem catalogo online (72.39%) NOTOK
- Possuem predominância em ter outras bases (62.25%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (90,01%) OK
- Maioria dos anos da IES são Faculdade (95.39%) OK

- Quantidade de técnicos médio baixo (46.05	)  NOTOK
- Quantidade de alunos média de alunos  moderado (1,202.21) NOTOK
- Corpo docente moderado na  média (60.92) NOTOK
- Moderada quantidade baixa de cursos (16.76) NOTOK
- Despesas e receitas média altas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixo NOTOK

Insights falsos:


In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 3',  'sexto', 1, 18, 3, 15, 0, 0]

In [30]:
print(show_result_kmeans_prompt(kmeans_fase3, 2, 'sexto'))

Após analisar os dados do cluster fornecido, podemos identificar alguns padrões e características que provavelmente levaram à formação desse agrupamento específico.  A análise se concentra em valores e distribuições, identificando tendências e correlações, e não em inferências causais diretas (que necessitariam de investigação complementar).


**Características Relevantes:**

* **Predominância de Instituições Privadas:** A grande maioria das instituições é classificada como "Privada sem fins lucrativos", com um número menor, porém significativo, de "Privada com fins lucrativos". Isso sugere que o algoritmo está agrupando instituições privadas com características em comum.
* **Tamanho Médio das Instituições:**  A quantidade de alunos, docentes e cursos indica um tamanho de instituição relativamente modesto, quando comparado a possíveis valores de grandes universidades federais. Não se observa uma concentração em valores extremos, ou seja, o cluster concentra instituições de médio porte.

Conclusões:

- Predominância dos anos 2016 e 2017 (35.63%, 28.14%) NOTOK
- Predominância das regiões Sudeste e Nordeste (43.65%, 20.80%) NOTOK
- Predominância das IES não estarem numa capital (69.21%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes (73.15%) NOTOK
- Predominância das Instituições sem repositorio institucional (68.00%) NOTOK
- Possuem predominância em busca integrada (65.43%) OK
- Possuem serviço de internet (90.62%) OK
- Predominância em participar em redes sociais (65.28%) NOTOK
- Possuem catalogo online (72.39%) NOTOK
- Possuem predominância em ter outras bases (62.25%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (90,01%) OK
- Maioria dos anos da IES são Faculdade (95.39%) OK

- Quantidade de técnicos médio baixo (46.05	) NOTOK
- Quantidade de alunos média de alunos  moderado (1,202.21) OK
- Corpo docente moderado na  média (60.92) OK
- Moderada quantidade baixa de cursos (16.76) OK
- Despesas e receitas média altas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixo NOTOK

Insights falsos:
- Predominância das Instituições sem acesso ao portal Capes (73.15%)
- 


In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 3',  'sexto', 2, 18, 7, 11, 1, 0]

### Seventh Cluster

In [31]:
print(show_result_kmeans_prompt(kmeans_fase3, 0, 'setimo'))

Após análise do conjunto de dados fornecido, observamos algumas características predominantes neste cluster:

**1. Tipo de Instituição:** A grande maioria das instituições neste cluster são **Universidades** e **Centros Universitários** de natureza **Privada sem fins lucrativos**.  Há uma presença menor, mas ainda significativa, de instituições **Públicas Federais** e **Públicas Estaduais**.  A ausência quase total de instituições privadas com fins lucrativos sugere que o modelo agrupou instituições com um certo perfil de gestão e missão.

**2. Porte e Recursos:**  O cluster apresenta uma grande variação na quantidade de alunos, docentes e cursos.  Existem instituições de pequeno, médio e grande porte. No entanto, mesmo as instituições menores tendem a apresentar valores relativamente altos em  `QT_PERIODICO_ELETRONICO` e `QT_LIVRO_ELETRONICO`, indicando um investimento considerável em recursos de informação eletrônica, mesmo quando comparado ao tamanho da instituição.  As receitas e d

Conclusões:

- Predominância das regiões Sudeste e Sul (44.90%, 24.32%) NOTOK
- Predominância das Instituições com acesso ao portal Capes (87.76%) OK
- Predominância das Instituições com repositorio institucional (70.41%) OK
- Possuem predominância em busca integrada (67.18%) OK
- Possuem serviço de internet (98.81%) OK
- Predominância em participar em redes sociais (71.94%) OK
- Possuem catalogo online (92.69%) OK
- Possuem predominância em ter outras bases (91.16%) OK
- Maioria das instituições são privada sem fins, federal e com fins lurativos (46.26%, 25.68%, 19.90%) OK
- Maioria dos anos da IES são Universidade e centro universitario (69.73%, 22.28%) OK


- Quantidade de técnicos médio alto (1,170.62	)  NOTOK
- Quantidade de alunos média de alunos alto (27,666.31) NOTOK
- Corpo docente alto na  média (970.69) NOTOK
- altga quantidade baixa de cursos (73.91) NOTOK
- Despesas e receitas média altas  NOTOK
- Quantidade de periodicos e livros eletronicos com relevância alto NOTOK

Insights falsos:

In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 3',  'setimo', 0, 16, 9, 7, 1, 0]

In [33]:
print(show_result_kmeans_prompt(kmeans_fase3, 1, 'setimo'))

Após análise dos dados fornecidos, podemos observar algumas características predominantes neste cluster:

**1. Tipo de Instituição:** A grande maioria das instituições neste cluster são **Universidades** privadas sem fins lucrativos. Há uma menor presença de Centros Universitários, também privados,  e uma quantidade ainda menor de instituições públicas federais e estaduais.  A presença de instituições públicas sugere a existência de um subgrupo dentro do cluster. A diversidade de categorias administrativas indica que a categorização principal foca em outras variáveis além da administração.

**2. Porte e Recursos:**  O cluster apresenta uma grande variação na quantidade de alunos (QT_ALUNOS), docentes (QT_DOCENTES) e cursos (QT_CURSO).  Há instituições com poucos alunos e docentes, e outras com números significativamente maiores, sugerindo uma grande heterogeneidade interna.  No entanto, a maioria das instituições demonstra uma forte presença de recursos tecnológicos.  A alta média de  

Conclusões:

- Predominância das regiões Sudeste e Sul (44.90%, 24.32%) NOTOK
- Predominância das Instituições com acesso ao portal Capes (87.76%) OK
- Predominância das Instituições com repositorio institucional (70.41%) OK
- Possuem predominância em busca integrada (67.18%)  NOTOK
- Possuem serviço de internet (98.81%) OK
- Predominância em participar em redes sociais (71.94%) NOTOK
- Possuem catalogo online (92.69%) NOTOK
- Possuem predominância em ter outras bases (91.16%) NOTOK
- Maioria das instituições são privada sem fins, federal e com fins lurativos (46.26%, 25.68%, 19.90%) OK
- Maioria dos anos da IES são Universidade e centro universitario (69.73%, 22.28%) OK

- Quantidade de técnicos médio alto (1,170.62	) NOTOK
- Quantidade de alunos média de alunos alto (27,666.31) NOTOK
- Corpo docente alto na  média (970.69) NOTOK
- altga quantidade baixa de cursos (73.91) NOTOK
- Despesas e receitas média altas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância alto OK

Insights falsos:

In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 3',  'setimo', 1, 16, 6, 10, 0, 0]

In [32]:
print(show_result_kmeans_prompt(kmeans_fase3, 2, 'setimo'))

A análise do cluster fornecido revela algumas características importantes que contribuem para sua formação:

**1. Tipo de Instituição:** O cluster é composto predominantemente por Instituições Privadas sem fins lucrativos, com uma quantidade substancial de Universidades e alguns Centros Universitários.  A ausência de instituições públicas federais ou estaduais neste cluster indica uma separação clara em relação a outras agrupamentos  com base na estrutura de financiamento e administração.

**2. Porte e Recursos:** Há uma variedade considerável de tamanho entre as instituições dentro do cluster, com números de alunos variando bastante. Apesar disso, podemos observar que a maioria dessas instituições possui um número de técnicos relativamente altos, quantidade considerável de periódicos e livros eletrônicos, sugerindo um investimento expressivo em recursos tecnológicos e materiais. Entretanto, é preciso notar que essa informação é contraditória para alguns exemplos na amostra. Há exemplo

Conclusões:

- Predominância das regiões Sudeste e Sul (44.90%, 24.32%) OK
- Predominância das Instituições com acesso ao portal Capes (87.76%) OK
- Predominância das Instituições com repositorio institucional (70.41%) NOTOK
- Possuem predominância em busca integrada (67.18%) NOTOK
- Possuem serviço de internet (98.81%) NOTOK
- Predominância em participar em redes sociais (71.94%) NOTOK
- Possuem catalogo online (92.69%) NOTOK
- Possuem predominância em ter outras bases (91.16%) OK
- Maioria das instituições são privada sem fins, federal e com fins lurativos (46.26%, 25.68%, 19.90%) OK
- Maioria dos anos da IES são Universidade e centro universitario (69.73%, 22.28%) OK

- Quantidade de técnicos médio alto (1,170.62	) OK
- Quantidade de alunos média de alunos alto (27,666.31) NOTOK
- Corpo docente alto na  média (970.69) NOTOK
- altga quantidade baixa de cursos (73.91) NOTOK
- Despesas e receitas média altas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância alto OK

Insights falsos:

In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 3',  'setimo', 2, 16, 7, 9, 1, 0]

## Fase 4

In [8]:
kmeans_fase4 = pd.read_csv('Models/results/K-means_Fase 4_results.csv')

### First Cluster

In [9]:
print(show_result_kmeans_prompt(kmeans_fase4, 0, 'primeiro'))

**QT_ALUNOS:** A média de alunos é consideravelmente alta, indicando instituições de grande porte.  A mediana seria um valor mais representativo para evitar o viés de outliers.  É importante analisar a correlação entre a quantidade de alunos e outras variáveis, como a quantidade de docentes, cursos e recursos disponíveis (periódicos, livros eletrônicos, etc.), para verificar se há proporcionalidade.  Uma alta quantidade de alunos com poucos docentes ou recursos pode indicar problemas de infraestrutura ou superlotação.

**QT_DOCENTES:** Similarmente à quantidade de alunos, a média de docentes é alta, sugerindo um corpo docente significativo.  A análise da proporção alunos/docentes é crucial para avaliar a relação entre o tamanho da instituição e a capacidade de atendimento.  Uma baixa proporção alunos/docentes pode indicar uma melhor qualidade de ensino, enquanto uma alta proporção pode sugerir o contrário.  A correlação com a categoria administrativa também deve ser investigada, pois i

Conclusões:

- Predominância das regiões Sudeste, Nordeste e Sul (37.43%, 22.35%, 18.81%) NOTOK
- Uma incidência das IES não estarem numa capital (59,78%) NOTOK
- Instituições com acesso ao portal Capes (87.34%) NOTOK
- Possuem serviço de internet (94.97%) NOTOK
- Participam em redes sociais (71.51%) NOTOK
- Possuem catalogo online (86.22%) NOTOK
- Busca integrada (58.29%) NOTOK
- Quase a métade das IES são públicas federais, Privada sem fins lucrativos, Pública Estadual (49.16%, 22.91%, 21.04%) OK
- Mais da metade das IES são do tipo universidade e Instituto Federal de Educação, Ciência e Tecnologia (59.96%, 20.48%) NOTOK

- Quantidade alta de técnicos na média (765.03) OK
- Quantidade de alunos média de alunos alto (12,553.95) OK
- Corpo docente forte na média (761.73) OK
- Quantidade considerável de cursos na média (média de 52.45) OK
- Despesas e receitas média moderadas OK
- Quantidade de periodicos e livros eletronicos com relevância baixa OK

Insights falsos:


Da sugestões de analises por mediana, outlier e correlação

In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 4', 'primeiro', 0, 15, 7, 8, 0, 0]

In [10]:
print(show_result_kmeans_prompt(kmeans_fase4, 1, 'primeiro'))

**QT_ALUNOS:** A quantidade de alunos apresenta alta variabilidade, com média e mediana significativamente diferentes. Isso sugere a presença de instituições com número de alunos muito distintos dentro do cluster.  Uma análise da correlação entre QT_ALUNOS e outras variáveis, como QT_DOCENTES e QT_CURSO, poderá indicar se o tamanho da instituição (número de alunos) é um fator determinante na formação desse cluster. A relação com o tipo de instituição (Pública Federal x Privada) também deve ser verificada.

**QT_DOCENTES:** Similarmente à QT_ALUNOS, a quantidade de docentes mostra variabilidade considerável, demandando análise de correlação com QT_ALUNOS e QT_CURSO para entender a proporção entre docentes e alunos, além de verificar o tamanho da instituição. A categoria administrativa também poderá influenciar na quantidade de docentes.

**QT_CURSO:** A quantidade de cursos oferecidos também precisa ser analisada em conjunto com QT_ALUNOS e QT_DOCENTES, buscando compreender o perfil da 

Conclusões:

- Predominância das regiões Sudeste, Nordeste e Sul (37.43%, 22.35%, 18.81%) NOTOK
- Uma incidência das IES não estarem numa capital (59,78%) NOTOK
- Instituições com acesso ao portal Capes (87.34%) NOTOK
- Possuem serviço de internet (94.97%) NOTOK
- Participam em redes sociais (71.51%) NOTOK
- Possuem catalogo online (86.22%) NOTOK
- Busca integrada (58.29%) NOTOK
- Quase a métade das IES são públicas federais, Privada sem fins lucrativos, Pública Estadual (49.16%, 22.91%, 21.04%) NOTOK
- Mais da metade das IES são do tipo universidade e Instituto Federal de Educação, Ciência e Tecnologia (59.96%, 20.48%) OK

- Quantidade alta de técnicos na média (765.03) NOTOK
- Quantidade de alunos média de alunos alto (12,553.95) NOTOK
- Corpo docente forte na média (761.73) NOTOK
- Quantidade considerável de cursos na média (média de 52.45) NOTOK
- Despesas e receitas média moderadas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixa NOTOK

Insights falsos:


Foi so enfatizado que as variaveis numericas são variaveis
Apenas sugestão de analise


In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 4', 'primeiro', 1, 15, 1, 14, 0, 0]

In [12]:
print(show_result_kmeans_prompt(kmeans_fase4, 2, 'primeiro'))

**QT_ALUNOS:** A média da quantidade de alunos é substancialmente alta, sugerindo que este cluster concentra instituições de grande porte.  A mediana seria um melhor indicador de tendência central, pois valores muito altos podem distorcer a média. Uma análise da correlação entre `QT_ALUNOS` e `QT_DOCENTES`, `QT_CURSO` e `T1_VL_RECEITAS`  é crucial para verificar se o aumento no número de alunos se reflete em um proporcional aumento no número de docentes e cursos, além de um maior volume de receitas.  A ausência de uma alta correlação entre essas variáveis, implicaria na necessidade de uma investigação para determinar o que está ocasionando essa falta de proporcionalidade.

**QT_DOCENTES:** A média da quantidade de docentes também indica uma alta concentração de professores. Assim como em `QT_ALUNOS`, a mediana seria um melhor estimador, e a análise da correlação com `QT_ALUNOS` e `QT_CURSO`  irá mostrar o quão essa proporção de docente e aluno varia.

**QT_CURSO:** Similarmente, a médi

Conclusões:

- Predominância das regiões Sudeste, Nordeste e Sul (37.43%, 22.35%, 18.81%) NOTOK
- Uma incidência das IES não estarem numa capital (59,78%) NOTOK
- Instituições com acesso ao portal Capes (87.34%) NOTOK
- Possuem serviço de internet (94.97%) NOTOK
- Participam em redes sociais (71.51%) NOTOK
- Possuem catalogo online (86.22%) NOTOK
- Busca integrada (58.29%) NOTOK
- Quase a métade das IES são públicas federais, Privada sem fins lucrativos, Pública Estadual (49.16%, 22.91%, 21.04%) NOTOK
- Mais da metade das IES são do tipo universidade e Instituto Federal de Educação, Ciência e Tecnologia (59.96%, 20.48%) NOTOK

- Quantidade alta de técnicos na média (765.03) NOTOK
- Quantidade de alunos média de alunos alto (12,553.95) OK
- Corpo docente forte na média (761.73) OK
- Quantidade considerável de cursos na média (média de 52.45) OK
- Despesas e receitas média moderadas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixa NOTOK

Insights falsos:



In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 4', 'primeiro', 2, 15, 3, 12, 0, 0]

### Second Cluster

In [13]:
print(show_result_kmeans_prompt(kmeans_fase4, 0, 'segundo'))

**QT_ALUNOS:** A média de alunos é de 182, com mediana de 116 e moda não definida. Observa-se uma grande variação na quantidade de alunos, indicando heterogeneidade no tamanho das instituições.  Há uma possível correlação positiva fraca entre a quantidade de alunos e o valor das receitas (T1_VL_RECEITAS),  mas mais dados seriam necessários para confirmar.

**QT_DOCENTES:** A média de docentes é de 14, com mediana de 12 e moda não definida.  Similarmente à quantidade de alunos, a quantidade de docentes apresenta grande variabilidade.  Existe uma correlação positiva entre a quantidade de docentes e a quantidade de alunos, o que é esperado.

**QT_CURSO:** A média de cursos é de 2, com mediana de 2 e moda 2. A maioria das instituições possui 2 cursos.  Não há uma correlação aparente com outras variáveis, exceto uma leve tendência de aumento com o número de alunos e docentes.

**QT_TEC_TOTAL:** A média de técnicos é de 20, com mediana de 10 e moda não definida.  Há uma grande dispersão nos 

Conclusões:

- Predominância dos anos 2018 e 2019 (60,12%) OK
- Predominância das regiões Sudeste e Nordeste (60,67%) NOTOK
- Uma incidência das IES não estarem numa capital (59.38%) OK
- Predominância das Instituições sem acesso ao portal Capes (63.25%) NOTOK
- Possuem busca integrada (74.35%) OK
- Possuem serviço de internet (93.00%) OK
- Participam em redes sociais (74.03%) OK
- Possuem predominância em catalogo online (64.87%) OK
- Possuem predominâncai em ter outras bases (69.29%) OK
- Maioria das instituições são privada (com e sem fins lucrativos) (98,6) OK
- Maioria dos anos da IES são Faculdade (99.89%) OK

- Pouca quantidade de técnicos na média (12.87) NOTOK
- Quantidade de alunos média de alunos abaixo (153.83) NOTOK
- Corpo docente muito pouco na média (14.20) OK
- Pouca quantidade de cursos (2.30) OK
- Despesas e receitas média moderadas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixa NOTOK

Insights falsos:
- A maioria das instituições possui repositório institucional (moda = 1)
-  A maioria das instituições possui acesso ao portal CAPES (moda = 1).

In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 4', 'segundo', 0, 17, 11, 6, 2, 0]

In [15]:
print(show_result_kmeans_prompt(kmeans_fase4, 1, 'segundo'))

**QT_ALUNOS:** A média de alunos é consideravelmente alta, sugerindo que a maioria das instituições nesse cluster possui um número significativo de estudantes.  A mediana poderia fornecer uma visão mais precisa, pois a média pode ser distorcida por valores extremos. Uma análise da correlação entre `QT_ALUNOS` e `QT_DOCENTES` ou `QT_CURSO` seria importante para determinar se o tamanho do corpo discente está proporcionalmente relacionado ao número de docentes e cursos oferecidos.

**QT_DOCENTES:** Similarmente a `QT_ALUNOS`, a média de docentes sugere um corpo docente relativamente grande nas instituições deste cluster.  Comparar a razão `QT_ALUNOS/QT_DOCENTES` com outros clusters poderia indicar se este cluster se caracteriza por uma razão aluno-docente tipicamente alta ou baixa.  A mediana também deve ser analisada para confirmar a média.


**QT_CURSO:** A média de cursos oferecidos parece baixa, indicando que muitas instituições nesse cluster oferecem um número limitado de cursos. Uma

Conclusões:

- Predominância dos anos 2018 e 2019 (60,12%) NOTOK
- Predominância das regiões Sudeste e Nordeste (60,67%) NOTOK
- Uma incidência das IES não estarem numa capital (59.38%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes (63.25%) NOTOK
- Possuem busca integrada (74.35%) NOTOK
- Possuem serviço de internet (93.00%) NOTOK
- Participam em redes sociais (74.03%) NOTOK
- Possuem predominância em catalogo online (64.87%) NOTOK
- Possuem predominâncai em ter outras bases (69.29%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (98,6) NOTOK
- Maioria dos anos da IES são Faculdade (99.89%) NOTOK
 
- Pouca quantidade de técnicos na média (12.87) NOTOK
- Quantidade de alunos média de alunos abaixo (153.83) NOTOK
- Corpo docente muito pouco na média (14.20) NOTOK
- Pouca quantidade de cursos (2.30) OK
- Despesas e receitas média moderadas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixa NOTOK

Insights falsos:



In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 4', 'segundo', 1, 17, 1, 16, 0, 0]

In [16]:
print(show_result_kmeans_prompt(kmeans_fase4, 2, 'segundo'))

**QT_ALUNOS:** A média de alunos é aproximadamente 190, a mediana é de 116 e não há uma moda significativa.  Observa-se uma alta variância, indicando a presença de instituições com quantidades significativamente diferentes de alunos no cluster. Não existe correlação forte entre a quantidade de alunos e a receita da instituição (T1_VL_RECEITAS). Algumas instituições com grande quantidade de alunos têm baixas receitas, enquanto outras com menos alunos possuem altas receitas, indicando que outros fatores influenciam mais na receita do que simplesmente o número de alunos.

**QT_DOCENTES:** A média é aproximadamente 15 docentes, mediana em torno de 13, e novamente, sem moda definida.  A quantidade de docentes mostra uma relação esperada com a quantidade de alunos (QT_ALUNOS), embora fraca. Isso sugere que a proporção aluno/docente varia consideravelmente entre as instituições do cluster.

**QT_CURSO:** A média de cursos oferecidos está em torno de 2,  a mediana é 2 e a moda é também 2. A ma

Conclusões:

- Predominância dos anos 2018 e 2019 (60,12%) NOTOK
- Predominância das regiões Sudeste e Nordeste (60,67%) NOTOK
- Uma incidência das IES não estarem numa capital (59.38%) OK
- Predominância das Instituições sem acesso ao portal Capes (63.25%) NOTOK
- Possuem busca integrada (74.35%) OK 
- Possuem serviço de internet (93.00%) OK
- Participam em redes sociais (74.03%) OK
- Possuem predominância em catalogo online (64.87%) OK
- Possuem predominâncai em ter outras bases (69.29%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (98,6) OK
- Maioria dos anos da IES são Faculdade (99.89%) OK

- Pouca quantidade de técnicos na média (12.87) OK
- Quantidade de alunos média de alunos abaixo (153.83) NOTOK
- Corpo docente muito pouco na média (14.20) OK
- Pouca quantidade de cursos (2.30) OK
- Despesas e receitas média moderadas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixa NOTOK

Insights falsos:
- Presença de IN_REPOSITORIO_INSTITUCIONAL 


In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 4', 'primeiro', 2, 17, 10, 7, 1, 0]

### Third Cluster

In [17]:
print(show_result_kmeans_prompt(kmeans_fase4, 0, 'terceiro'))

**QT_ALUNOS:** A média de alunos é de aproximadamente 240, com mediana próxima a 150.  Há uma grande variação na quantidade de alunos, indicando uma distribuição possivelmente assimétrica.  A relação com a variável `T1_VL_RECEITAS` sugere uma correlação positiva, ou seja, instituições com mais alunos tendem a ter maiores receitas.  No entanto, essa correlação precisa ser analisada com cautela, pois outras variáveis podem estar influenciando.

**QT_DOCENTES:** A média de docentes é aproximadamente 16, com mediana próxima a 15.  Similarmente à quantidade de alunos, a distribuição parece assimétrica.  A relação com `QT_ALUNOS` mostra uma correlação positiva, o que é esperado, mas a proporção alunos/docentes varia bastante entre as instituições.

**QT_CURSO:** A média de cursos é próxima de 2, com mediana de 2.  A maioria das instituições oferece poucos cursos.  Não há uma relação clara com outras variáveis, a não ser uma leve tendência de instituições com mais cursos terem receitas maiore

Conclusões:

- Predominância das regiões Sudeste e Nordeste e Sul (47.17%, 19.17%, 17.48%) OK
- Predominãncia das IES não estarem numa capital (62.70%) OK
- Instituições sem acesso ao portal Capes (83.09%) OK
- Possuem predominância em não possuir repositorio institucional (74.68%) OK
- Possuem predominância em serviço de internet (79.13%) OK
- Predominância em participar em redes sociais (62.62%) OK
- Possuem predominância em ter outras bases (75.57%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (97,73) OK
- Maioria dos anos da IES são Faculdade (99.92%) OK

- Quantidade baixa de média de técnicos (10.78) NOTOK
- Quantidade de alunos média de alunos baixo (185.81	) NOTOK
- Corpo docente muito baixo na média (16.72) NOTOK
- Pouca quantidade de cursos (2.03) OK
- Despesas e receitas média moderadas OK
- Quantidade de periodicos e livros eletronicos com relevância baixa OK

Insights falsos:

In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 4', 'terceiro', 0, 15, 11, 4, 2, 0]

In [18]:
print(show_result_kmeans_prompt(kmeans_fase4, 1, 'terceiro'))

**QT_ALUNOS:** A média de alunos é aproximadamente 240, com uma mediana de 170. Há uma grande variação na quantidade de alunos, indicando uma heterogeneidade no tamanho das instituições.  Observa-se uma possível correlação positiva fraca entre a quantidade de alunos e o valor das receitas (T1_VL_RECEITAS), sugerindo que instituições maiores tendem a ter receitas maiores, mas mais dados seriam necessários para confirmar essa relação.

**QT_DOCENTES:** A média de docentes é de aproximadamente 16, com uma mediana de 15. A distribuição provavelmente é assimétrica à direita, com algumas instituições tendo um número significativamente maior de docentes. Uma correlação positiva é observada entre a quantidade de docentes e a quantidade de alunos, o que é esperado, pois mais alunos geralmente requerem mais professores.  Uma relação semelhante pode ser observada com a quantidade de cursos.

**QT_CURSO:** A média de cursos é próxima de 2, com mediana 2. A maioria das instituições oferece poucos c

Conclusões:

- Predominância das regiões Sudeste e Nordeste e Sul (47.17%, 19.17%, 17.48%)  OK
- Predominãncia das IES não estarem numa capital (62.70%) OK
- Instituições sem acesso ao portal Capes (83.09%) NOTOK
- Possuem predominância em não possuir repositorio institucional (74.68%) NOTOK
- Possuem predominância em serviço de internet (79.13%) NOTOK
- Predominância em participar em redes sociais (62.62%) NOTOK
- Possuem predominância em ter outras bases (75.57%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (97,73)
- Maioria dos anos da IES são Faculdade (99.92%) OK

- Quantidade baixa de média de técnicos (10.78) OK
- Quantidade de alunos média de alunos baixo (185.81) NOTOK
- Corpo docente muito baixo na média (16.72) NOTOK
- Pouca quantidade de cursos (2.03) OK
- Despesas e receitas média moderadas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixa OK 

Insights falsos:

In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 4', 'terceiro', 1, 15, 6, 9, 0, 0]

In [19]:
print(show_result_kmeans_prompt(kmeans_fase4, 2, 'terceiro'))

**QT_ALUNOS:** A média de alunos é aproximadamente 226, a mediana é 171.5 e não há uma moda clara.  Observa-se uma alta variabilidade na quantidade de alunos, com valores variando de poucos alunos a mais de 900. Não há correlação óbvia entre a quantidade de alunos e outras variáveis no dataset apresentado, necessitando de mais dados para afirmar qualquer correlação.


**QT_DOCENTES:** A média de docentes é de aproximadamente 16, mediana é 15.  A quantidade de docentes varia consideravelmente, sugerindo heterogeneidade interna neste cluster. Mais uma vez, sem outras informações é dificil avaliar se há relação com outras variáveis.


**QT_CURSO:** A média de cursos é de aproximadamente 2, mediana é 2.  Há predominância de instituições com poucos cursos, com valores se concentrando entre 1 e 3.  Novamente sem maiores dados, é dificil dizer a relacão com outras variáveis.


**QT_TEC_TOTAL:** A média de técnicos é de aproximadamente 11, com uma mediana de 9. Há alta dispersão neste atributo

Conclusões:

- Predominância das regiões Sudeste e Nordeste e Sul (47.17%, 19.17%, 17.48%) OK
- Predominãncia das IES não estarem numa capital (62.70%) OK
- Instituições sem acesso ao portal Capes (83.09%) NOTOK
- Possuem predominância em não possuir repositorio institucional (74.68%) NOTOK
- Possuem predominância em serviço de internet (79.13%) OK
- Predominância em participar em redes sociais (62.62%) OK
- Possuem predominância em ter outras bases (75.57%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (97,73) OK
- Maioria dos anos da IES são Faculdade (99.92%) OK

- Quantidade baixa de média de técnicos (10.78) NOTOK
- Quantidade de alunos média de alunos baixo (185.81	) NOTOK
- Corpo docente muito baixo na média (16.72) NOTOK
- Pouca quantidade de cursos (2.03) OK 
- Despesas e receitas média moderadas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixa NOTOK

Insights falsos:

In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 4', 'terceiro', 2, 15, 7, 8, 0, 0]

### Forth Cluster

In [23]:
print(show_result_kmeans_prompt(kmeans_fase4, 0, 'quarto'))

**QT_ALUNOS:** A média de alunos é consideravelmente alta, sugerindo que o cluster agrupa instituições de grande porte.  A mediana seria um valor mais representativo, pois a média pode ser distorcida por outliers (instituições com número excepcionalmente alto de alunos).  Uma análise da correlação entre `QT_ALUNOS` e `QT_DOCENTES` e `QT_CURSO` ajudaria a entender se o aumento no número de alunos está acompanhado por um aumento proporcional de docentes e cursos.  Uma baixa correlação indicaria problemas de superlotação ou falta de recursos.

**QT_DOCENTES:** Similarmente a `QT_ALUNOS`, a média de docentes é alta, indicando um corpo docente numeroso.  A mediana deve ser analisada para confirmar essa observação e descartar a influência de outliers. A correlação com `QT_ALUNOS` e `QT_CURSO` é crucial para avaliar a proporcionalidade entre docentes e alunos/cursos.

**QT_CURSO:** A média de cursos oferecidos é relativamente baixa, considerando o tamanho das instituições (alta `QT_ALUNOS` e 

Conclusões:

- Predominância dos anos 2018 e 2019 (60,08%) NOTOK
- Predominância das regiões Sudeste, Sul e Nordeste (82,92%) OK
- Uma incidência das IES não estarem numa capital (68.85%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes ( 64.73%) NOTOK
- Possuem predominância em busca integrada (77.29%) NOTOK
- Possuem serviço de internet (97.45%) NOTOK
- Predominância em participar em redes sociais (71.20%) NOTOK
- Possuem predominância em ter catalogo online (79.45%) NOTOK
- Possuem predominância em ter outras bases (73.43%) NOTOK
- Maioria das iinstituições são privada (com e sem fins lucrativos) (98,04)  NOTOK
- Maioria dos anos da IES são Faculdade (99.15%) NOTOK

- Quantidade de técnicos na média baixo (33.68	) OK
- Quantidade de alunos média de alunos  moderado (932.89) OK
- Corpo docente muito na média (45.12) OK
- Pouca quantidade média de cursos (6.21) OK
- Despesas e receitas média acima do moderado NOTOK
- Quantidade de periodicos e livros eletronicos com relevância alto NOTOK

Insights falsos:

In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 4', 'quarto', 0, 17, 5, 12, 0, 0]

In [21]:
print(show_result_kmeans_prompt(kmeans_fase4, 1, 'quarto'))

**QT_ALUNOS:** A média de alunos é consideravelmente alta, indicando que o cluster se concentra em instituições com um grande número de estudantes.  A mediana forneceria um valor mais robusto caso houvesse outliers significativos.  Uma análise da correlação entre QT_ALUNOS e QT_DOCENTES, QT_CURSOS e T1_VL_RECEITAS seria crucial para entender se o aumento no número de alunos está relacionado a um aumento proporcional em recursos ou professores.

**QT_DOCENTES:** Similarmente à variável anterior, a média de docentes sugere um número substancial de professores.  Comparar a proporção alunos/docentes com a média geral de outras instituições ajudaria a determinar se a relação é adequada ou se há super ou sub-dimensionamento de docentes em relação aos alunos.  A análise de correlação com QT_ALUNOS e QT_CURSOS é fundamental.


**QT_CURSO:** A média de cursos indica que as instituições deste cluster oferecem um número moderado a alto de cursos. A relação entre QT_CURSOS e QT_ALUNOS, QT_DOCENTES

Conclusões:

- Predominância dos anos 2018 e 2019 (60,08%) NOTOK
- Predominância das regiões Sudeste, Sul e Nordeste (82,92%) NOTOK
- Uma incidência das IES não estarem numa capital (68.85%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes ( 64.73%) NOTOK
- Possuem predominância em busca integrada (77.29%) NOTOK
- Possuem serviço de internet (97.45%) NOTOK
- Predominância em participar em redes sociais (71.20%) NOTOK
- Possuem predominância em ter catalogo online (79.45%) NOTOK
- Possuem predominância em ter outras bases (73.43%) NOTOK
- Maioria das iinstituições são privada (com e sem fins lucrativos) (98,04) NOTOK
- Maioria dos anos da IES são Faculdade (99.15%) NOTOK

- Quantidade de técnicos na média baixo (33.68	) NOTOK
- Quantidade de alunos média de alunos  moderado (932.89) OK
- Corpo docente muito na média (45.12) OK
- Pouca quantidade média de cursos (6.21) NOTOK
- Despesas e receitas média acima do moderado NOTOK
- Quantidade de periodicos e livros eletronicos com relevância alto NOTOK

Insights falsos:

In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 4', 'quarto', 1, 17, 2, 15, 0, 0]

In [22]:
print(show_result_kmeans_prompt(kmeans_fase4, 2, 'quarto'))

**QT_ALUNOS:** A média da quantidade de alunos é consideravelmente alta, sugerindo que o cluster representa instituições de ensino com um grande número de estudantes.  A mediana e a moda precisariam ser calculadas para verificar se há outliers influenciando a média.  É importante analisar a correlação entre QT_ALUNOS e outras variáveis, como QT_DOCENTES e QT_CURSO, para verificar se o aumento no número de alunos está proporcionalmente relacionado ao aumento de docentes e cursos oferecidos.

**QT_DOCENTES:**  Similarmente à variável anterior, a quantidade de docentes apresenta uma média alta.  A mediana e moda seriam importantes para entender a distribuição dos dados e a existência de outliers. A correlação entre QT_DOCENTES e QT_ALUNOS seria crucial para determinar se há uma proporcionalidade entre o número de professores e estudantes. Uma baixa correlação sugere que o cluster pode conter instituições com uma proporção desbalanceada entre alunos e docentes.

**QT_CURSO:** A média de cu

Conclusões:

- Predominância dos anos 2018 e 2019 (60,08%) NOTOK
- Predominância das regiões Sudeste, Sul e Nordeste (82,92%)
- Uma incidência das IES não estarem numa capital (68.85%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes ( 64.73%) NOTOK
- Possuem predominância em busca integrada (77.29%) NOTOK
- Possuem serviço de internet (97.45%) NOTOK
- Predominância em participar em redes sociais (71.20%) NOTOK
- Possuem predominância em ter catalogo online (79.45%) NOTOK
- Possuem predominância em ter outras bases (73.43%) NOTOK
- Maioria das iinstituições são privada (com e sem fins lucrativos) (98,04) NOTOK
- Maioria dos anos da IES são Faculdade (99.15%) NOTOK
 
- Quantidade de técnicos na média baixo (33.68	) OK
- Quantidade de alunos média de alunos  moderado (932.89) OK
- Corpo docente muito na média (45.12) OK
- Pouca quantidade média de cursos (6.21) OK
- Despesas e receitas média acima do moderado NOTOK
- Quantidade de periodicos e livros eletronicos com relevância alto NOTOK

Insights falsos:

In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 4', 'quarto', 2, 15, 12, 4, 0, 0]

### Firth Cluster

In [24]:
print(show_result_kmeans_prompt(kmeans_fase4, 0, 'quinto'))

**QT_ALUNOS:** A média de alunos é de aproximadamente 4.500, com mediana próxima a 3.500.  Há uma grande variação, com alguns casos acima de 10.000 alunos e outros abaixo de 1.000.  Não há uma relação óbvia com uma única variável, mas instituições com maior quantidade de cursos tendem a ter mais alunos, o que é esperado.  Instituições com maiores receitas também tendem a ter mais alunos, sugerindo uma correlação entre recursos financeiros e tamanho da instituição.

**QT_DOCENTES:** A média de docentes é de aproximadamente 170, com mediana próxima a 120.  Similarmente à quantidade de alunos, há grande variabilidade.  Existe uma correlação positiva com a quantidade de alunos e de cursos, indicando que instituições maiores necessitam de mais docentes.  A relação com receitas é também positiva, mas menos pronunciada que a relação com a quantidade de alunos.

**QT_CURSO:** A média de cursos é de aproximadamente 15, com mediana de 14.  A maioria das instituições possui entre 10 e 20 cursos. 

Conclusões:

- Predominância das regiões Sudeste e Nordeste (69,45%) NOTOK
- Uma incidência das IES não estarem numa capital (59.17%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes ( 63.55%) NOTOK
- Possuem predominância em busca integrada (77.90%) OK
- Possuem serviço de internet (97.47%) OK
- Predominância em participar em redes sociais (60.40%) OK
- Possuem catalogo online (85.57%) OK
- Possuem predominância em ter outras bases (78.28%) OK
- Maioria das instituições são privada (com e sem fins lucrativos) (96,85) OK
- Maioria dos anos da IES são Faculdade e centro universitário (66.16%, 32.23%) OK

- Quantidade de técnicos médio moderado (143.65) NOTOK
- Quantidade de alunos média de alunos acima do moderado (4,691.86) NOTOK
- Corpo docente muito acima da  média (151.18) NOTOK
- Moderada quantidade média de cursos (18.49) NOTOK
- Despesas e receitas média altas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância alto NOTOK

Insights falsos:
- A maioria das instituições (moda) possui repositório institucional.

In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 4', 'quinto', 0, 16, 7, 9, 1, 0]

In [25]:
print(show_result_kmeans_prompt(kmeans_fase4, 1, 'quinto'))

**QT_ALUNOS:** A quantidade de alunos apresenta uma média considerável, indicando instituições de porte médio a grande.  A mediana pode fornecer uma perspectiva melhor sobre o valor central, uma vez que a média pode ser influenciada por valores extremos.  Seria útil analisar a correlação entre a quantidade de alunos e o valor das receitas (T1_VL_RECEITAS) e despesas (T1_VL_DESPESAS) para verificar se há proporcionalidade entre esses valores.  Uma análise da distribuição da variável (histograma) também ajudaria a identificar possíveis outliers.

**QT_DOCENTES:** Similarmente à quantidade de alunos, a quantidade de docentes sugere um tamanho razoável das instituições.  Comparar a razão alunos/docentes com outras métricas, como a quantidade de cursos, poderia revelar informações sobre a estrutura e a proporção de recursos humanos.  Analisar se há correlação entre a quantidade de docentes e o valor das receitas e despesas também é importante.

**QT_CURSO:** A quantidade de cursos tende a s

Conclusões:

- Predominância das regiões Sudeste e Nordeste (69,45%) NOTOK
- Uma incidência das IES não estarem numa capital (59.17%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes ( 63.55%) NOTOK
- Possuem predominância em busca integrada (77.90%) NOTOK
- Possuem serviço de internet (97.47%) NOTOK
- Predominância em participar em redes sociais (60.40%) NOTOK
- Possuem catalogo online (85.57%) NOTOK
- Possuem predominância em ter outras bases (78.28%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (96,85) NOTOK
- Maioria dos anos da IES são Faculdade e centro universitário (66.16%, 32.23%) NOTOK

- Quantidade de técnicos médio moderado (143.65) NOTOK
- Quantidade de alunos média de alunos acima do moderado (4,691.86) OK
- Corpo docente muito acima da  média (151.18) OK
- Moderada quantidade média de cursos (18.49) NOTOK
- Despesas e receitas média altas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância alto NOTOK

Insights falsos:

In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 4', 'quinto', 1, 16, 2, 14, 0, 0]

In [26]:
print(show_result_kmeans_prompt(kmeans_fase4, 2, 'quinto'))

**QT_ALUNOS:** A média da quantidade de alunos é de aproximadamente 4700, com uma mediana de cerca de 3400. A distribuição apresenta valores discrepantes, indicando alta variabilidade no tamanho das instituições. Observa-se uma correlação positiva fraca entre a quantidade de alunos e a receita (T1_VL_RECEITAS), sugerindo que maiores quantidades de alunos tendem a se relacionar com maior receita. No entanto, há grandes desvios.

**QT_DOCENTES:** A média da quantidade de docentes é próxima de 150, com mediana por volta de 100,  novamente indicando dispersão nos dados. Também se percebe uma correlação positiva moderada com QT_ALUNOS, como esperado. Instituições com mais alunos costumam ter mais docentes.

**QT_CURSO:** A média da quantidade de cursos fica em torno de 15,  com mediana entre 12 e 13, representando um intervalo razoável de cursos ofertados. A correlação com QT_ALUNOS é levemente positiva. O que significa que não tem uma relaçao tão forte.

**QT_TEC_TOTAL:** Apresenta média e

Conclusões:

- Predominância das regiões Sudeste e Nordeste (69,45%) OK
- Uma incidência das IES não estarem numa capital (59.17%) OK
- Predominância das Instituições sem acesso ao portal Capes ( 63.55%) NOTOK
- Possuem predominância em busca integrada (77.90%) NOTOK
- Possuem serviço de internet (97.47%) OK 
- Predominância em participar em redes sociais (60.40%) OK
- Possuem catalogo online (85.57%) OK
- Possuem predominância em ter outras bases (78.28%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (96,85) OK
- Maioria dos anos da IES são Faculdade e centro universitário (66.16%, 32.23%) OK

- Quantidade de técnicos médio moderado (143.65) NOTOK
- Quantidade de alunos média de alunos acima do moderado (4,691.86) NOTOK
- Corpo docente muito acima da  média (151.18) NOTOK
- Moderada quantidade média de cursos (18.49) NOTOK
- Despesas e receitas média altas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância alto NOTOK

Insights falsos:
- A grande maioria (moda 1) das instituições nesse cluster tem repositório institucional

In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 4', 'quinto', 2, 16, 7, 9, 1, 0]

### Sixth Cluster

In [27]:
print(show_result_kmeans_prompt(kmeans_fase4, 0, 'sexto'))

**QT_ALUNOS:** A média de alunos é de 1486, a mediana é 1119 e não há uma moda significativa. Observa-se uma grande variação na quantidade de alunos, indicando heterogeneidade no tamanho das instituições.  Há uma possível correlação negativa fraca entre a quantidade de alunos e o valor das receitas (T1_VL_RECEITAS), sugerindo que nem sempre instituições maiores geram mais receita.  Instituições com maior número de alunos tendem a ser públicas estaduais ou privadas sem fins lucrativos.

**QT_DOCENTES:** A média de docentes é de 70, a mediana é 51 e não há moda significativa.  Similarmente à quantidade de alunos, há uma grande dispersão nos dados.  Existe uma correlação positiva entre a quantidade de docentes e a quantidade de alunos, o que é esperado.  A correlação com receitas é positiva, mas não muito forte.

**QT_CURSO:** A média de cursos é de 7, a mediana é 6 e a moda é 4.  A quantidade de cursos oferecidos é relativamente baixa, sugerindo que a maioria das instituições são de pequ

Conclusões:

- Predominância dos anos 2016 e 2017 (35.63%, 28.14%) NOTOK
- Predominância das regiões Sudeste e Nordeste (43.65%, 20.80%) NOTOK
- Predominância das IES não estarem numa capital (69.21%) OK
- Predominância das Instituições sem acesso ao portal Capes (73.15%) NOTOK
- Predominância das Instituições sem repositorio institucional (68.00%) OK
- Possuem predominância em busca integrada (65.43%) OK
- Possuem serviço de internet (90.62%) OK
- Predominância em participar em redes sociais (65.28%) OK
- Possuem catalogo online (72.39%) OK
- Possuem predominância em ter outras bases (62.25%) OK
- Maioria das instituições são privada (com e sem fins lucrativos) (90,01%) OK
- Maioria dos anos da IES são Faculdade (95.39%) OK

- Quantidade de técnicos médio baixo (46.05	) NOTOK
- Quantidade de alunos média de alunos  moderado (1,202.21) NOTOK
- Corpo docente moderado na  média (60.92)  NOTOK
- Moderada quantidade baixa de cursos (16.76) NOTOK
- Despesas e receitas média altas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixo NOTOK

Insights falsos:

In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 4', 'sexto', 0, 19, 9, 9, 0, 0]

In [30]:
print(show_result_kmeans_prompt(kmeans_fase4, 1, 'sexto'))

**QT_ALUNOS:** A média de alunos é de 1567, com mediana de 1071. Há uma grande variância nos dados, indicando que existem instituições com uma quantidade de alunos significativamente diferentes.  Nota-se uma possível correlação negativa fraca entre a quantidade de alunos e a receita da instituição (T1_VL_RECEITAS): instituições com mais alunos nem sempre apresentam receitas maiores. Observa-se que  a maioria das instituições são privadas sem fins lucrativos, e possuem um numero pequeno de cursos.

**QT_DOCENTES:** A média de docentes é 72, com mediana de 51.  Existe alta variância, assim como na quantidade de alunos.  Há uma correlação positiva entre a quantidade de docentes e a quantidade de alunos, o que é esperado, uma vez que um maior número de alunos geralmente requer mais professores.  Essa correlação é mais forte nas instituições privadas sem fins lucrativos.

**QT_CURSO:** A média de cursos é de 7, com mediana de 6. A maior parte das instituições possui entre 3 e 12 cursos. Não

Conclusões:

- Predominância dos anos 2016 e 2017 (35.63%, 28.14%) NOTOK
- Predominância das regiões Sudeste e Nordeste (43.65%, 20.80%) NOTOK
- Predominância das IES não estarem numa capital (69.21%) OK
- Predominância das Instituições sem acesso ao portal Capes (73.15%) NOTOK
- Predominância das Instituições sem repositorio institucional (68.00%) NOTOK
- Possuem predominância em busca integrada (65.43%) OK
- Possuem serviço de internet (90.62%) OK
- Predominância em participar em redes sociais (65.28%) OK
- Possuem catalogo online (72.39%) OK
- Possuem predominância em ter outras bases (62.25%) OK
- Maioria das instituições são privada (com e sem fins lucrativos) (90,01%) OK
- Maioria dos anos da IES são Faculdade (95.39%) OK

- Quantidade de técnicos médio baixo (46.05	) NOTOK
- Quantidade de alunos média de alunos  moderado (1,202.21) NOTOK
- Corpo docente moderado na  média (60.92) NOTOK
- Moderada quantidade baixa de cursos (16.76) NOTOK
- Despesas e receitas média altas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixo NOTOK

Insights falsos:

In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 4', 'sexto', 1, 18, 8, 10, 0, 0]

In [31]:
print(show_result_kmeans_prompt(kmeans_fase4, 2, 'sexto'))

**QT_ALUNOS:** A média de alunos é de 1527, a mediana é 1184, mostrando uma distribuição assimétrica com uma cauda à direita, indicando a presença de algumas instituições com um número significativamente maior de alunos.  Observa-se uma correlação positiva entre a quantidade de alunos e a quantidade de docentes (QT_DOCENTES) e a quantidade de cursos (QT_CURSOS), como esperado, uma vez que mais alunos exigem mais professores e cursos. A correlação com receitas (T1_VL_RECEITAS) também é positiva, demonstrando que instituições com mais alunos geralmente geram mais receitas.


**QT_DOCENTES:** A média de docentes é de 70, e a mediana é 52. Assim como na variável anterior, há assimetria positiva, evidenciando a existência de algumas instituições com um número substancialmente maior de docentes. A relação com a quantidade de alunos é positiva, corroborando a expectativa de que um número maior de alunos implica em maior demanda por docentes.


**QT_CURSOS:** A média é de 7 cursos, e a mediana

Conclusões:

- Predominância dos anos 2016 e 2017 (35.63%, 28.14%) NOTOK
- Predominância das regiões Sudeste e Nordeste (43.65%, 20.80%) OK
- Predominância das IES não estarem numa capital (69.21%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes (73.15%) NOTOK
- Predominância das Instituições sem repositorio institucional (68.00%) NOTOK
- Possuem predominância em busca integrada (65.43%) OK
- Possuem serviço de internet (90.62%) OK
- Predominância em participar em redes sociais (65.28%) OK
- Possuem catalogo online (72.39%) OK
- Possuem predominância em ter outras bases (62.25%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (90,01%) OK
- Maioria dos anos da IES são Faculdade (95.39%) OK

- Quantidade de técnicos médio baixo (46.05	) NOTOK
- Quantidade de alunos média de alunos  moderado (1,202.21) NOTOK
- Corpo docente moderado na  média (60.92) NOTOK
- Moderada quantidade baixa de cursos (16.76) NOTOK
- Despesas e receitas média altas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixo NOTOK

Insights falsos:

In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 4', 'sexto', 2, 18, 7, 11, 0, 0]

### Seventh Cluster

In [9]:
print(show_result_kmeans_prompt(kmeans_fase4, 0, 'setimo'))

**QT_ALUNOS:** A quantidade de alunos varia bastante, com média e mediana significativamente diferentes, indicando uma distribuição assimétrica.  A presença de outliers (instituições com número muito maior de alunos) influencia a média.  É necessário analisar a correlação com outras variáveis, como receita e despesa, para entender se o tamanho da instituição (medido pela quantidade de alunos) impacta diretamente nos recursos financeiros.  Uma análise da moda seria pouco informativa devido à grande variabilidade.

**QT_DOCENTES:** Similarmente à quantidade de alunos, a quantidade de docentes apresenta alta variabilidade. A média e a mediana provavelmente diferem, sugerindo a presença de outliers.  A correlação com a quantidade de alunos e a quantidade de cursos é crucial para determinar se a proporção docente-aluno é consistente ou se há variações significativas entre as instituições.

**QT_CURSO:** A quantidade de cursos oferecidos também mostra variabilidade.  A correlação com a quant

Conclusões:

- Predominância das regiões Sudeste e Sul (44.90%, 24.32%) NOTOK
- Predominância das Instituições com acesso ao portal Capes (87.76%) NOTOK
- Predominância das Instituições com repositorio institucional (70.41%) NOTOK
- Possuem predominância em busca integrada (67.18%) NOTOK
- Possuem serviço de internet (98.81%) NOTOK
- Predominância em participar em redes sociais (71.94%) NOTOK
- Possuem catalogo online (92.69%) NOTOK
- Possuem predominância em ter outras bases (91.16%) NOTOK
- Maioria das instituições são privada sem fins, federal e com fins lurativos (46.26%, 25.68%, 19.90%) NOTOK
- Maioria dos anos da IES são Universidade e centro universitario (69.73%, 22.28%) NOTOK

- Quantidade de técnicos médio alto (1,170.62	) NOTOK
- Quantidade de alunos média de alunos alto (27,666.31) NOTOK
- Corpo docente alto na  média (970.69) NOTOK
- altga quantidade baixa de cursos (73.91) NOTOK
- Despesas e receitas média altas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância alto NOTOK

Insights falsos:

In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 4', 'setimo', 0, 16, 0, 16, 0, 0]

In [10]:
print(show_result_kmeans_prompt(kmeans_fase4, 1, 'setimo'))

**QT_ALUNOS:** A média de alunos é alta, sugerindo que o cluster se concentra em instituições de grande porte.  A mediana seria mais representativa caso houvesse valores discrepantes muito altos.  É necessário analisar a correlação com a receita e despesa para entender se o tamanho da instituição impacta diretamente nos recursos financeiros.

**QT_DOCENTES:** Similarmente à quantidade de alunos, a média de docentes é alta, refletindo o tamanho das instituições.  Correlação com QT_ALUNOS e a razão QT_ALUNOS/QT_DOCENTES forneceriam insights sobre a proporção aluno-docente e sua relação com o tamanho da instituição.

**QT_CURSO:** A média de cursos oferecidos é também elevada.  Analisar a correlação com QT_ALUNOS e QT_DOCENTES pode indicar se um maior número de cursos está associado a um maior número de alunos e docentes, mostrando uma possível sinergia.

**QT_TEC_TOTAL:**  A média de técnicos varia bastante, indicando possível heterogeneidade no cluster. A mediana seria mais informativa 

Conclusões:

- Predominância das regiões Sudeste e Sul (44.90%, 24.32%) NOTOK
- Predominância das Instituições com acesso ao portal Capes (87.76%) NOTOK
- Predominância das Instituições com repositorio institucional (70.41%) NOTOK
- Possuem predominância em busca integrada (67.18%) NOTOK
- Possuem serviço de internet (98.81%) NOTOK
- Predominância em participar em redes sociais (71.94%) NOTOK
- Possuem catalogo online (92.69%) NOTOK
- Possuem predominância em ter outras bases (91.16%) NOTOK
- Maioria das instituições são privada sem fins, federal e com fins lurativos (46.26%, 25.68%, 19.90%) NOTOK
- Maioria dos anos da IES são Universidade e centro universitario (69.73%, 22.28%) NOTOK

- Quantidade de técnicos médio alto (1,170.62	) NOTOK
- Quantidade de alunos média de alunos alto (27,666.31) OK
- Corpo docente alto na  média (970.69) OK
- altga quantidade baixa de cursos (73.91) OK
- Despesas e receitas média altas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância alto NOTOK

Insights falsos:

In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 4', 'setimo', 1, 16, 3, 13, 0, 0]

In [11]:
print(show_result_kmeans_prompt(kmeans_fase4, 2, 'setimo'))

**QT_ALUNOS:** A média de alunos é consideravelmente alta, indicando instituições de grande porte.  A mediana seria um melhor indicador de tendência central devido à provável existência de outliers.  Há uma possível correlação positiva entre a quantidade de alunos e o valor das receitas (T1_VL_RECEITAS) e despesas (T1_VL_DESPESAS), dado o tamanho das instituições.

**QT_DOCENTES:** A média de docentes também é alta, consistente com a grande quantidade de alunos.  Uma análise da proporção alunos/docentes poderia revelar informações sobre a relação professor-aluno. A mediana seria preferível para melhor entender a distribuição devido a prováveis outliers.  Similarmente, observa-se potencial correlação positiva com receitas e despesas.

**QT_CURSO:** A média de cursos oferecidos é relativamente alta, sugerindo uma grande diversidade de programas acadêmicos. A mediana seria um melhor indicador. É esperado uma correlação positiva com o número de alunos e de docentes, além das receitas e des

Conclusões:

- Predominância das regiões Sudeste e Sul (44.90%, 24.32%) OK
- Predominância das Instituições com acesso ao portal Capes (87.76%) NOTOK
- Predominância das Instituições com repositorio institucional (70.41%) NOTOK
- Possuem predominância em busca integrada (67.18%) NOTOK
- Possuem serviço de internet (98.81%) NOTOK
- Predominância em participar em redes sociais (71.94%) NOTOK
- Possuem catalogo online (92.69%) NOTOK
- Possuem predominância em ter outras bases (91.16%) NOTOK
- Maioria das instituições são privada sem fins, federal e com fins lurativos (46.26%, 25.68%, 19.90%) NOTOK
- Maioria dos anos da IES são Universidade e centro universitario (69.73%, 22.28%) NOTOK

- Quantidade de técnicos médio alto (1,170.62	) OK
- Quantidade de alunos média de alunos alto (27,666.31) OK
- Corpo docente alto na  média (970.69) OK
- altga quantidade baixa de cursos (73.91) OK
- Despesas e receitas média altas OK
- Quantidade de periodicos e livros eletronicos com relevância alto NOTOK

Insights falsos:

In [None]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 4', 'setimo', 2, 16, 6, 10, 0, 0]