In [584]:
import pandas as pd
import numpy as np

In [585]:
categorical_columns = ['NU_ANO_CENSO', 'REGIAO', 'IN_CAPITAL', 'IN_ACESSO_PORTAL_CAPES', 'IN_REPOSITORIO_INSTITUCIONAL', 'IN_BUSCA_INTEGRADA', 'IN_SERVICO_INTERNET', 'IN_PARTICIPA_REDE_SOCIAL',
                       'IN_CATALOGO_ONLINE', 'IN_OUTRAS_BASES', 'NOME_CATEGORIA_ADMINISTRATIVA', 'NOME_ORGANIZACAO_ACADEMICA']
numeric_columns = ['QT_TEC_TOTAL', 'QT_PERIODICO_ELETRONICO', 'QT_LIVRO_ELETRONICO', 'QT_ALUNOS', 'QT_DOCENTES', 'QT_CURSO', 'T1_VL_RECEITAS', 'T1_VL_DESPESAS']

In [586]:
pd.set_option('display.float_format', '{:,.2f}'.format)

# Analises dos clusters

In [587]:
def get_total_categorical_values_cluster(df):
    for col in categorical_columns:
        items = df[col].value_counts().items()

        print(f"====== {col} ======")

        for item in items:
            print(f"{item[0]}: {item[1]} ({(item[1] / df.shape[0]): 0.2%})")

        print()


# Agglomerative

### First cluster

In [588]:
first_cluster_agg = pd.read_csv('./data/Agglomerative/Primeiro agrupamento (Agglomerative).csv', sep=';')

In [589]:
get_total_categorical_values_cluster(first_cluster_agg)

2016: 241 ( 25.42%)
2017: 239 ( 25.21%)
2018: 238 ( 25.11%)
2019: 230 ( 24.26%)

Sudeste: 368 ( 38.82%)
Sul: 213 ( 22.47%)
Nordeste: 198 ( 20.89%)
Norte: 95 ( 10.02%)
Centro-Oeste: 74 ( 7.81%)

0: 499 ( 52.64%)
1: 449 ( 47.36%)

1: 871 ( 91.88%)
0: 77 ( 8.12%)

1: 580 ( 61.18%)
0: 368 ( 38.82%)

1: 579 ( 61.08%)
0: 369 ( 38.92%)

1: 910 ( 95.99%)
0: 38 ( 4.01%)

1: 711 ( 75.00%)
0: 237 ( 25.00%)

1: 853 ( 89.98%)
0: 95 ( 10.02%)

1.0: 631 ( 66.56%)
0.0: 317 ( 33.44%)

Pública Federal: 411 ( 43.35%)
Privada sem fins lucrativos: 298 ( 31.43%)
Pública Estadual: 152 ( 16.03%)
Privada com fins lucrativos: 65 ( 6.86%)
Pública Municipal e Especial: 22 ( 2.32%)

Universidade: 714 ( 75.32%)
Instituto Federal de Educação, Ciência e Tecnologia: 152 ( 16.03%)
Centro Universitário: 59 ( 6.22%)
Faculdade: 15 ( 1.58%)
Centro Federal de Educação Tecnológica: 8 ( 0.84%)



In [590]:
first_cluster_agg[numeric_columns].describe()

Unnamed: 0,QT_TEC_TOTAL,QT_PERIODICO_ELETRONICO,QT_LIVRO_ELETRONICO,QT_ALUNOS,QT_DOCENTES,QT_CURSO,T1_VL_RECEITAS,T1_VL_DESPESAS
count,948.0,948.0,948.0,948.0,948.0,948.0,948.0,948.0
mean,1067.03,11002.45,30041.69,19394.41,962.64,67.27,454150088.54,479909885.36
std,1358.21,36247.98,90346.03,21687.59,836.7,48.33,653881575.29,852086400.18
min,33.0,0.0,0.0,1005.0,60.0,8.0,134763.64,10769001.91
25%,398.75,0.0,0.0,6462.75,413.75,34.0,130128444.86,147817024.68
50%,707.0,31.0,2655.0,12731.0,704.0,53.0,276350996.41,278105501.08
75%,1189.75,3525.0,12671.0,26057.75,1228.5,92.0,514270381.47,499588321.0
max,15562.0,572574.0,1000000.0,245102.0,6286.0,321.0,7599192871.0,15890130144.4


Conclusões:

- Predominância das regiões Sudeste, Sul e Nordeste  (38.82%, 22.47%, 20.89%)
- Instituições com acesso ao portal Capes (91.88%)
- Predominancia de repositorio institucional (61.18%)
- Predominancia busca integrada (61.08%)
- Possuem serviço de internet (95.99%)
- Participam em redes sociais (75.00%)
- Possuem catalogo online (89.98%)
- Possuem outras bases (66.56%)
- IES publica federal, sem fins lucrativos (43.35%, 31.43%)
- Mais da metade das IES são do tipo universidade e Instituto Federal de Educação, Ciência e Tecnologia (75.32%, 16.03%)

- Quantidade alta de técnicos na média (1,067.03)
- Quantidade de alunos média de alunos alto (19,394.41)
- Corpo docente forte na média (962.64	)
- Quantidade considerável de cursos na média (média de 67.27)
- Despesas e receitas média alta
- Alta quantidade de Quantidade de periodicos e livros eletronicos
- Quantidade de periodicos e livros eletronicos com relevância alto

### Second cluster

In [591]:
second_cluster_agg = pd.read_csv('./data/Agglomerative/Segundo agrupamento (Agglomerative).csv', sep=';')

In [592]:
get_total_categorical_values_cluster(second_cluster_agg)

2016: 577 ( 27.03%)
2017: 558 ( 26.14%)
2019: 524 ( 24.54%)
2018: 476 ( 22.30%)

Sudeste: 833 ( 39.02%)
Nordeste: 551 ( 25.81%)
Sul: 396 ( 18.55%)
Centro-Oeste: 218 ( 10.21%)
Norte: 137 ( 6.42%)

0: 1393 ( 65.25%)
1: 742 ( 34.75%)

0: 1670 ( 78.22%)
1: 465 ( 21.78%)

0: 1442 ( 67.54%)
1: 693 ( 32.46%)

1: 1298 ( 60.80%)
0: 837 ( 39.20%)

1: 1790 ( 83.84%)
0: 345 ( 16.16%)

1: 1402 ( 65.67%)
0: 733 ( 34.33%)

1: 1119 ( 52.41%)
0: 1016 ( 47.59%)

0.0: 1323 ( 61.97%)
1.0: 812 ( 38.03%)

Privada com fins lucrativos: 1285 ( 60.19%)
Privada sem fins lucrativos: 770 ( 36.07%)
Pública Municipal e Especial: 64 ( 3.00%)
Pública Estadual: 14 ( 0.66%)
Pública Federal: 2 ( 0.09%)

Faculdade: 2129 ( 99.72%)
Centro Universitário: 5 ( 0.23%)
Universidade: 1 ( 0.05%)



In [593]:
second_cluster_agg[numeric_columns].describe()

Unnamed: 0,QT_TEC_TOTAL,QT_PERIODICO_ELETRONICO,QT_LIVRO_ELETRONICO,QT_ALUNOS,QT_DOCENTES,QT_CURSO,T1_VL_RECEITAS,T1_VL_DESPESAS
count,2135.0,2135.0,2135.0,2135.0,2135.0,2135.0,2135.0,2135.0
mean,14.1,398.74,3867.71,282.62,21.21,2.75,1982280.26,2025236.5
std,18.39,2774.72,139084.54,341.36,17.92,2.34,4747147.3,6470177.04
min,1.0,0.0,0.0,1.0,1.0,1.0,0.01,2.0
25%,6.0,0.0,0.0,68.0,10.0,1.0,337634.51,351376.38
50%,10.0,5.0,0.0,166.0,16.0,2.0,886312.0,886696.0
75%,16.0,48.0,33.5,372.0,27.0,3.0,1931850.57,2007175.73
max,449.0,54365.0,6424945.0,3633.0,280.0,24.0,95894788.0,191892519.06


Conclusões:

- Predominância das regiões Sudeste e Nordeste (39.02%, 25.81% )
- Uma incidência das IES não estarem numa capital (65.25%)
- Predominância das Instituições sem acesso ao portal Capes (78.22%)
- Predominância das Instituições sem repetorio institucional (67.54%)
- Possuem busca integrada (60.80%)
- Possuem serviço de internet (83.84%)
- Participam em redes sociais (65.67%)
- Possuem predominâncai em ter outras bases (61.97%)
- Maioria das instituições são privada (com e sem fins lucrativos) (96,26%)
- Maioria dos anos da IES são Faculdade (99.72%)

- Pouca quantidade de técnicos abaixo da média (14.10)
- Quantidade de alunos média de alunos abaixo (282.62)
- Corpo docente muito pouco na média (17.92)
- Pouca quantidade de cursos (2.34)
- Despesas e receitas média baixa
- Quantidade de periodicos e livros eletronicos com relevância baixo

### Third cluster

In [594]:
third_cluster_agg = pd.read_csv('./data/Agglomerative/Terceiro agrupamento (Agglomerative).csv', sep=';')

In [595]:
get_total_categorical_values_cluster(third_cluster_agg)

2018: 528 ( 26.87%)
2019: 521 ( 26.51%)
2017: 464 ( 23.61%)
2016: 452 ( 23.00%)

Sudeste: 975 ( 49.62%)
Nordeste: 437 ( 22.24%)
Sul: 288 ( 14.66%)
Norte: 142 ( 7.23%)
Centro-Oeste: 123 ( 6.26%)

0: 1192 ( 60.66%)
1: 773 ( 39.34%)

0: 1187 ( 60.41%)
1: 778 ( 39.59%)

1: 1093 ( 55.62%)
0: 872 ( 44.38%)

1: 1515 ( 77.10%)
0: 450 ( 22.90%)

1: 1924 ( 97.91%)
0: 41 ( 2.09%)

1: 1232 ( 62.70%)
0: 733 ( 37.30%)

1: 1703 ( 86.67%)
0: 262 ( 13.33%)

1.0: 1556 ( 79.19%)
0.0: 409 ( 20.81%)

Privada sem fins lucrativos: 977 ( 49.72%)
Privada com fins lucrativos: 923 ( 46.97%)
Pública Municipal e Especial: 40 ( 2.04%)
Pública Federal: 15 ( 0.76%)
Pública Estadual: 10 ( 0.51%)

Faculdade: 1321 ( 67.23%)
Centro Universitário: 601 ( 30.59%)
Universidade: 43 ( 2.19%)



In [596]:
third_cluster_agg[numeric_columns].describe()

Unnamed: 0,QT_TEC_TOTAL,QT_PERIODICO_ELETRONICO,QT_LIVRO_ELETRONICO,QT_ALUNOS,QT_DOCENTES,QT_CURSO,T1_VL_RECEITAS,T1_VL_DESPESAS
count,1965.0,1965.0,1965.0,1965.0,1965.0,1965.0,1965.0,1965.0
mean,151.54,22190.13,16930.37,5742.87,149.49,18.09,73871411.67,79483263.76
std,204.63,295367.05,231402.09,17710.34,111.51,16.45,303142944.33,676157147.3
min,1.0,0.0,0.0,2.0,1.0,1.0,36843.47,1130746.33
25%,51.0,41.0,1226.0,1636.0,72.0,9.0,14606845.09,12133038.72
50%,93.0,320.0,6623.0,3059.0,117.0,14.0,28874918.03,24181059.2
75%,182.0,4000.0,9155.0,5374.0,191.0,22.0,62951334.0,52121930.28
max,3482.0,6437318.0,10000000.0,370652.0,807.0,183.0,6258050290.0,22161393800.0


Conclusões:

- Predominância das regiões Sudeste e Nordeste (49.62% e 22.24%)
- Predominãncia das IES não estarem numa capital (60.66%)
- Instituições sem acesso ao portal Capes (60.41%)
- Possuem predominância em possuir busca integrada (77.10%)
- Possuem predominância em serviço de internet (97.91%)
- Predominância em participar em redes sociais (62.70%)
- Possuem catalogo online (86.67%)
- Possuem predominância em ter outras bases (79.19%)
- Maioria das instituições são privada (com e sem fins lucrativos) (96,69%)
- Maioria dos anos da IES são Faculdade e centro universitario (67.23% e 30.59%)

- Quantidade média de técnicos moderada (151.54)
- Quantidade de alunos média de alunos normal (5,742.87	)
- Corpo docente com quantidade média moderada (149.49)
- Pouca quantidade de cursos (18.09)
- Despesas e receitas média moderadas para alto
- Quantidade de periodicos e livros eletronicos com relevância alto

### Forth cluster

In [597]:
forth_cluster_agg = pd.read_csv('./data/Agglomerative/Quarto agrupamento (Agglomerative).csv', sep=';')

In [598]:
get_total_categorical_values_cluster(forth_cluster_agg)

2019: 475 ( 32.03%)
2018: 417 ( 28.12%)
2017: 297 ( 20.03%)
2016: 294 ( 19.82%)

Sudeste: 496 ( 33.45%)
Sul: 357 ( 24.07%)
Nordeste: 304 ( 20.50%)
Centro-Oeste: 226 ( 15.24%)
Norte: 100 ( 6.74%)

0: 938 ( 63.25%)
1: 545 ( 36.75%)

0: 958 ( 64.60%)
1: 525 ( 35.40%)

0: 764 ( 51.52%)
1: 719 ( 48.48%)

1: 1083 ( 73.03%)
0: 400 ( 26.97%)

1: 1431 ( 96.49%)
0: 52 ( 3.51%)

1: 1043 ( 70.33%)
0: 440 ( 29.67%)

1: 1124 ( 75.79%)
0: 359 ( 24.21%)

1.0: 1024 ( 69.05%)
0.0: 459 ( 30.95%)

Privada com fins lucrativos: 867 ( 58.46%)
Privada sem fins lucrativos: 582 ( 39.24%)
Pública Municipal e Especial: 31 ( 2.09%)
Pública Federal: 3 ( 0.20%)

Faculdade: 1477 ( 99.60%)
Centro Universitário: 6 ( 0.40%)



In [599]:
forth_cluster_agg[numeric_columns].describe()

Unnamed: 0,QT_TEC_TOTAL,QT_PERIODICO_ELETRONICO,QT_LIVRO_ELETRONICO,QT_ALUNOS,QT_DOCENTES,QT_CURSO,T1_VL_RECEITAS,T1_VL_DESPESAS
count,1483.0,1483.0,1483.0,1483.0,1483.0,1483.0,1483.0,1483.0
mean,24.47,17567.76,12180.19,629.78,32.8,4.7,4533739.31,4080641.43
std,21.1,522594.48,162783.38,585.06,20.75,3.47,6067438.1,5209064.96
min,1.0,0.0,0.0,11.0,3.0,1.0,3125.0,42500.0
25%,11.0,20.0,1741.0,224.0,17.0,2.0,1242556.92,1348383.59
50%,18.0,100.0,6372.0,475.0,28.0,4.0,2751112.26,2675040.99
75%,30.0,600.0,8648.5,839.0,43.0,6.0,5580204.38,5133079.24
max,311.0,20083543.0,6229914.0,4488.0,155.0,29.0,79434370.49,79923866.93


Conclusões:

- Predominância dos anos 2018 e 2019 (60,15%)
- Predominância das regiões Sudeste e Sul (33.45%, 24.07%)
- Uma incidência das IES não estarem numa capital (63.25%)
- Predominância das Instituições sem acesso ao portal Capes ( 64.60%)
- Possuem predominância em busca integrada (73.03%)
- Possuem serviço de internet (96.49%)
- Predominância em participar em redes sociais (70.33%)
- Possuem predominância em ter catalogo online (75.79%)
- Possuem predominância em ter outras bases (69.05%)
- Maioria das iinstituições são privada (com e sem fins lucrativos) (97,7%)
- Maioria dos anos da IES são Faculdade (99.60%)

- Quantidade de técnicos na média baixo (24.47%)
- Quantidade de alunos média de alunos  moderado (629.78)
- Corpo docente abaixo da média  (32.80)
- Pouca quantidade média de cursos (4.70)
- Despesas e receitas média moderado
- Quantidade de periodicos e livros eletronicos com relevância alto

### Firth cluster

In [600]:
firth_cluster_agg = pd.read_csv('./data/Agglomerative/Quinto agrupamento (Agglomerative).csv', sep=';')

In [601]:
get_total_categorical_values_cluster(firth_cluster_agg)

2016: 321 ( 35.24%)
2017: 248 ( 27.22%)
2018: 214 ( 23.49%)
2019: 128 ( 14.05%)

Sudeste: 445 ( 48.85%)
Nordeste: 147 ( 16.14%)
Centro-Oeste: 134 ( 14.71%)
Sul: 124 ( 13.61%)
Norte: 61 ( 6.70%)

0: 634 ( 69.59%)
1: 277 ( 30.41%)

0: 646 ( 70.91%)
1: 265 ( 29.09%)

0: 572 ( 62.79%)
1: 339 ( 37.21%)

1: 635 ( 69.70%)
0: 276 ( 30.30%)

1: 834 ( 91.55%)
0: 77 ( 8.45%)

1: 618 ( 67.84%)
0: 293 ( 32.16%)

1: 665 ( 73.00%)
0: 246 ( 27.00%)

0.0: 556 ( 61.03%)
1.0: 355 ( 38.97%)

Privada sem fins lucrativos: 548 ( 60.15%)
Privada com fins lucrativos: 294 ( 32.27%)
Pública Municipal e Especial: 48 ( 5.27%)
Pública Estadual: 16 ( 1.76%)
Pública Federal: 5 ( 0.55%)

Faculdade: 885 ( 97.15%)
Centro Universitário: 25 ( 2.74%)
Universidade: 1 ( 0.11%)



In [602]:
firth_cluster_agg[numeric_columns].describe()

Unnamed: 0,QT_TEC_TOTAL,QT_PERIODICO_ELETRONICO,QT_LIVRO_ELETRONICO,QT_ALUNOS,QT_DOCENTES,QT_CURSO,T1_VL_RECEITAS,T1_VL_DESPESAS
count,911.0,911.0,911.0,911.0,911.0,911.0,911.0,911.0
mean,52.92,166.28,55.79,1429.16,65.7,7.29,18623640.27,10655911.89
std,110.52,963.53,433.94,1203.8,41.84,4.95,136380970.82,15830657.17
min,5.0,0.0,0.0,89.0,6.0,1.0,89327.57,306039.11
25%,24.0,0.0,0.0,581.5,36.0,4.0,4129303.48,4025294.12
50%,37.0,14.0,0.0,1043.0,56.0,6.0,8013288.0,7109575.5
75%,57.5,100.0,1.0,1902.0,84.0,10.0,15222986.02,12697594.68
max,2207.0,17156.0,8000.0,8367.0,300.0,30.0,4000452318.9,294064951.75


Conclusões:

- Predominancia dos anos de 2016 e 2017 (35.24% e 27.22%)
- Predominância das regiões Sudeste e Nordeste e Centro-Oeste (48.85%, 16.14%, 14.71%)
- Predominãncia das IES não estarem numa capital (69.59%)
- Instituições sem acesso ao portal Capes (70.91%)
- Instituições sem acesso repositorio institucional (62.79%)
- Possuem predominância em possuir busca integrada (69.70%)
- Possuem predominância em serviço de internet (91.55%)
- Predominância em participar em redes sociais (67.84%)
- Possuem catalogo online (73.00%)
- Possuem predominância em ter outras bases (61.03%)
- Maioria das instituições são privada (com e sem fins lucrativos) (92,42%)
- Maioria dos anos da IES são Faculdade  (97.15%)

- Quantidade média de técnicos abaixo (52.92)
- Quantidade de alunos média de alunos normal (1,429.16)
- Corpo docente com quantidade média moderada (65.70)
- Pouca quantidade de cursos (7.29)
- Despesas e receitas média moderadas para alto
- Quantidade de periodicos e livros eletronicos com relevância baixo

# K-means

### First cluster

In [603]:
first_cluster_kmeans = pd.read_csv('./data/K-means/Primeiro agrupamento (K-means).csv', sep=';')

In [604]:
get_total_categorical_values_cluster(first_cluster_kmeans)

2016: 149 ( 27.75%)
2017: 137 ( 25.51%)
2018: 132 ( 24.58%)
2019: 119 ( 22.16%)

Sudeste: 201 ( 37.43%)
Nordeste: 120 ( 22.35%)
Sul: 101 ( 18.81%)
Norte: 71 ( 13.22%)
Centro-Oeste: 44 ( 8.19%)

0: 321 ( 59.78%)
1: 216 ( 40.22%)

1: 469 ( 87.34%)
0: 68 ( 12.66%)

1: 271 ( 50.47%)
0: 266 ( 49.53%)

1: 313 ( 58.29%)
0: 224 ( 41.71%)

1: 510 ( 94.97%)
0: 27 ( 5.03%)

1: 384 ( 71.51%)
0: 153 ( 28.49%)

1: 463 ( 86.22%)
0: 74 ( 13.78%)

0.0: 281 ( 52.33%)
1.0: 256 ( 47.67%)

Pública Federal: 264 ( 49.16%)
Privada sem fins lucrativos: 123 ( 22.91%)
Pública Estadual: 113 ( 21.04%)
Privada com fins lucrativos: 24 ( 4.47%)
Pública Municipal e Especial: 13 ( 2.42%)

Universidade: 322 ( 59.96%)
Instituto Federal de Educação, Ciência e Tecnologia: 110 ( 20.48%)
Centro Universitário: 79 ( 14.71%)
Faculdade: 22 ( 4.10%)
Centro Federal de Educação Tecnológica: 4 ( 0.74%)



In [605]:
first_cluster_kmeans[numeric_columns].describe()

Unnamed: 0,QT_TEC_TOTAL,QT_PERIODICO_ELETRONICO,QT_LIVRO_ELETRONICO,QT_ALUNOS,QT_DOCENTES,QT_CURSO,T1_VL_RECEITAS,T1_VL_DESPESAS
count,537.0,537.0,537.0,537.0,537.0,537.0,537.0,537.0
mean,765.03,88.07,4257.21,12553.95,761.73,52.45,340006634.24,373171331.44
std,771.47,1633.33,18064.84,11019.01,657.55,40.42,550425214.82,878480744.42
min,20.0,0.0,0.0,375.0,51.0,1.0,102665.47,12814291.76
25%,290.0,0.0,0.0,5038.0,301.0,27.0,71049153.95,97099748.0
50%,557.0,0.0,1.0,9090.0,545.0,42.0,207574418.88,220906797.8
75%,935.0,3.0,2127.0,15797.0,951.0,63.0,366195544.48,366195544.48
max,5670.0,37835.0,223350.0,68600.0,3701.0,321.0,7599192871.0,15890130144.4


Conclusões:

- Predominância das regiões Sudeste, Nordeste e Sul (37.43%, 22.35%, 18.81%)
- Uma incidência das IES não estarem numa capital (59,78%)
- Instituições com acesso ao portal Capes (87.34%)
- Possuem serviço de internet (94.97%)
- Participam em redes sociais (71.51%)
- Possuem catalogo online (86.22%)
- Quase a métade das IES são públicas federais, Privada sem fins lucrativos, Pública Estadual (49.16%, 22.91%, 21.04%)
- Mais da metade das IES são do tipo universidade e Instituto Federal de Educação, Ciência e Tecnologia (59.96%, 20.48%)

- Quantidade alta de técnicos na média (765.03)
- Quantidade de alunos média de alunos alto (12,553.95)
- Corpo docente forte na média (761.73)
- Quantidade considerável de cursos na média (média de 52.45)
- Despesas e receitas média moderadas
- Quantidade de periodicos e livros eletronicos com relevância baixa

### Second cluster

In [606]:
second_cluster_kmeans = pd.read_csv('./data/K-means/Segundo agrupamento (K-means).csv', sep=';')

In [607]:
get_total_categorical_values_cluster(second_cluster_kmeans)

2019: 297 ( 32.00%)
2018: 261 ( 28.12%)
2016: 195 ( 21.01%)
2017: 175 ( 18.86%)

Sudeste: 325 ( 35.02%)
Nordeste: 238 ( 25.65%)
Sul: 166 ( 17.89%)
Centro-Oeste: 153 ( 16.49%)
Norte: 46 ( 4.96%)

0: 551 ( 59.38%)
1: 377 ( 40.62%)

0: 587 ( 63.25%)
1: 341 ( 36.75%)

1: 477 ( 51.40%)
0: 451 ( 48.60%)

1: 690 ( 74.35%)
0: 238 ( 25.65%)

1: 863 ( 93.00%)
0: 65 ( 7.00%)

1: 687 ( 74.03%)
0: 241 ( 25.97%)

1: 602 ( 64.87%)
0: 326 ( 35.13%)

1.0: 643 ( 69.29%)
0.0: 285 ( 30.71%)

Privada com fins lucrativos: 624 ( 67.24%)
Privada sem fins lucrativos: 291 ( 31.36%)
Pública Estadual: 5 ( 0.54%)
Pública Municipal e Especial: 5 ( 0.54%)
Pública Federal: 3 ( 0.32%)

Faculdade: 927 ( 99.89%)
Universidade: 1 ( 0.11%)



In [608]:
second_cluster_kmeans[numeric_columns].describe()

Unnamed: 0,QT_TEC_TOTAL,QT_PERIODICO_ELETRONICO,QT_LIVRO_ELETRONICO,QT_ALUNOS,QT_DOCENTES,QT_CURSO,T1_VL_RECEITAS,T1_VL_DESPESAS
count,928.0,928.0,928.0,928.0,928.0,928.0,928.0,928.0
mean,12.87,1680.8,11675.25,153.83,14.2,2.3,1475556.24,1626618.4
std,13.9,8124.14,210971.48,154.13,10.38,1.94,15700553.63,15868979.79
min,1.0,0.0,0.0,1.0,1.0,1.0,0.01,2.0
25%,6.0,20.0,200.0,53.75,9.0,1.0,211203.48,262411.89
50%,9.0,70.0,2100.0,113.0,12.0,2.0,615428.62,629806.48
75%,15.0,400.0,7726.75,215.5,18.0,3.0,1157021.17,1238916.58
max,161.0,179324.0,6424945.0,2086.0,154.0,24.0,476631170.46,481208448.88


Conclusões:

- Predominância dos anos 2018 e 2019 (60,12%)
- Predominância das regiões Sudeste e Nordeste (60,67%)
- Uma incidência das IES não estarem numa capital (59.38%)
- Predominância das Instituições sem acesso ao portal Capes (63.25%)
- Possuem busca integrada (74.35%)
- Possuem serviço de internet (93.00%)
- Participam em redes sociais (74.03%)
- Possuem predominância em catalogo online (64.87%)
- Possuem predominâncai em ter outras bases (69.29%)
- Maioria das instituições são privada (com e sem fins lucrativos) (98,6)
- Maioria dos anos da IES são Faculdade (99.89%)

- Pouca quantidade de técnicos na média (12.87)
- Quantidade de alunos média de alunos abaixo (153.83)
- Corpo docente muito pouco na média (14.20)
- Pouca quantidade de cursos (2.30)
- Despesas e receitas média moderadas
- Quantidade de periodicos e livros eletronicos com relevância baixa

### Third cluster

In [609]:
third_cluster_kmeans = pd.read_csv('./data/K-means/Terceiro agrupamento (K-means).csv', sep=';')

In [610]:
get_total_categorical_values_cluster(third_cluster_kmeans)

2016: 345 ( 27.91%)
2017: 337 ( 27.27%)
2018: 286 ( 23.14%)
2019: 268 ( 21.68%)

Sudeste: 583 ( 47.17%)
Nordeste: 237 ( 19.17%)
Sul: 216 ( 17.48%)
Centro-Oeste: 112 ( 9.06%)
Norte: 88 ( 7.12%)

0: 775 ( 62.70%)
1: 461 ( 37.30%)

0: 1027 ( 83.09%)
1: 209 ( 16.91%)

0: 923 ( 74.68%)
1: 313 ( 25.32%)

1: 651 ( 52.67%)
0: 585 ( 47.33%)

1: 978 ( 79.13%)
0: 258 ( 20.87%)

1: 774 ( 62.62%)
0: 462 ( 37.38%)

0: 668 ( 54.05%)
1: 568 ( 45.95%)

0.0: 934 ( 75.57%)
1.0: 302 ( 24.43%)

Privada sem fins lucrativos: 643 ( 52.02%)
Privada com fins lucrativos: 565 ( 45.71%)
Pública Municipal e Especial: 21 ( 1.70%)
Pública Estadual: 6 ( 0.49%)
Pública Federal: 1 ( 0.08%)

Faculdade: 1235 ( 99.92%)
Centro Universitário: 1 ( 0.08%)



In [611]:
third_cluster_kmeans[numeric_columns].describe()

Unnamed: 0,QT_TEC_TOTAL,QT_PERIODICO_ELETRONICO,QT_LIVRO_ELETRONICO,QT_ALUNOS,QT_DOCENTES,QT_CURSO,T1_VL_RECEITAS,T1_VL_DESPESAS
count,1236.0,1236.0,1236.0,1236.0,1236.0,1236.0,1236.0,1236.0
mean,10.78,38.75,17.38,185.81,16.72,2.03,1550846.21,1585898.44
std,13.17,390.28,177.16,160.48,10.01,1.39,3915629.37,6214497.12
min,1.0,0.0,0.0,1.0,1.0,1.0,0.01,2.0
25%,5.0,0.0,0.0,70.0,10.0,1.0,389521.86,387356.53
50%,8.0,0.0,0.0,143.0,15.0,2.0,855917.78,855450.93
75%,13.0,10.0,0.0,260.25,22.0,3.0,1559343.44,1567425.95
max,277.0,9331.0,4000.0,1587.0,142.0,20.0,78935409.2,191892519.06


Conclusões:

- Predominância das regiões Sudeste e Nordeste e Sul (47.17%, 19.17%, 17.48%)
- Predominãncia das IES não estarem numa capital (62.70%)
- Instituições sem acesso ao portal Capes (83.09%)
- Possuem predominância em não possuir repositorio institucional (74.68%)
- Possuem predominância em serviço de internet (79.13%)
- Predominância em participar em redes sociais (62.62%)
- Possuem predominância em ter outras bases (75.57%)
- Maioria das instituições são privada (com e sem fins lucrativos) (97,73)
- Maioria dos anos da IES são Faculdade (99.92%)

- Quantidade baixa de média de técnicos (10.78)
- Quantidade de alunos média de alunos baixo (185.81	)
- Corpo docente muito baixo na média (16.72)
- Pouca quantidade de cursos (2.03)
- Despesas e receitas média moderadas
- Quantidade de periodicos e livros eletronicos com relevância baixa

### Forth cluster

In [612]:
forth_cluster_kmeans = pd.read_csv('./data/K-means/Quarto agrupamento (K-means).csv', sep=';')

In [613]:
get_total_categorical_values_cluster(forth_cluster_kmeans)

2019: 468 ( 30.63%)
2018: 450 ( 29.45%)
2017: 318 ( 20.81%)
2016: 292 ( 19.11%)

Sudeste: 596 ( 39.01%)
Sul: 346 ( 22.64%)
Nordeste: 325 ( 21.27%)
Centro-Oeste: 159 ( 10.41%)
Norte: 102 ( 6.68%)

0: 1052 ( 68.85%)
1: 476 ( 31.15%)

0: 989 ( 64.73%)
1: 539 ( 35.27%)

1: 808 ( 52.88%)
0: 720 ( 47.12%)

1: 1181 ( 77.29%)
0: 347 ( 22.71%)

1: 1489 ( 97.45%)
0: 39 ( 2.55%)

1: 1088 ( 71.20%)
0: 440 ( 28.80%)

1: 1214 ( 79.45%)
0: 314 ( 20.55%)

1.0: 1122 ( 73.43%)
0.0: 406 ( 26.57%)

Privada com fins lucrativos: 866 ( 56.68%)
Privada sem fins lucrativos: 632 ( 41.36%)
Pública Municipal e Especial: 28 ( 1.83%)
Pública Estadual: 2 ( 0.13%)

Faculdade: 1515 ( 99.15%)
Centro Universitário: 12 ( 0.79%)
Universidade: 1 ( 0.07%)



In [614]:
forth_cluster_kmeans[numeric_columns].describe()

Unnamed: 0,QT_TEC_TOTAL,QT_PERIODICO_ELETRONICO,QT_LIVRO_ELETRONICO,QT_ALUNOS,QT_DOCENTES,QT_CURSO,T1_VL_RECEITAS,T1_VL_DESPESAS
count,1528.0,1528.0,1528.0,1528.0,1528.0,1528.0,1528.0,1528.0
mean,33.68,17212.81,19758.56,932.89,45.12,6.21,16180821.28,11879650.46
std,26.16,514813.19,301869.62,858.73,22.36,4.01,186450066.9,87466525.39
min,2.0,0.0,5.0,22.0,1.0,1.0,3125.0,248908.99
25%,17.0,29.0,2000.0,487.0,29.0,3.0,2793845.86,2633540.37
50%,27.0,129.0,7000.0,771.5,41.0,5.0,5174117.05,4541098.14
75%,41.0,559.25,8734.0,1205.25,58.0,8.0,9047620.84,7993876.03
max,346.0,20083543.0,10000000.0,24310.0,153.0,40.0,5745640000.0,2918280000.0


Conclusões:

- Predominância dos anos 2018 e 2019 (60,08%)
- Predominância das regiões Sudeste, Sul e Nordeste (82,92%)
- Uma incidência das IES não estarem numa capital (68.85%)
- Predominância das Instituições sem acesso ao portal Capes ( 64.73%)
- Possuem predominância em busca integrada (77.29%)
- Possuem serviço de internet (97.45%)
- Predominância em participar em redes sociais (71.20%)
- Possuem predominância em ter catalogo online (79.45%)
- Possuem predominância em ter outras bases (73.43%)
- Maioria das iinstituições são privada (com e sem fins lucrativos) (98,04)
- Maioria dos anos da IES são Faculdade (99.15%)

- Quantidade de técnicos na média baixo (33.68	)
- Quantidade de alunos média de alunos  moderado (932.89)
- Corpo docente muito na média (45.12)
- Pouca quantidade média de cursos (6.21)
- Despesas e receitas média acima do moderado
- Quantidade de periodicos e livros eletronicos com relevância alto

### Firth cluster

In [615]:
firth_cluster_kmeans = pd.read_csv('./data/K-means/Quinto agrupamento (K-means).csv', sep=';')

In [616]:
get_total_categorical_values_cluster(firth_cluster_kmeans)

2019: 347 ( 26.63%)
2018: 334 ( 25.63%)
2017: 322 ( 24.71%)
2016: 300 ( 23.02%)

Sudeste: 571 ( 43.82%)
Nordeste: 334 ( 25.63%)
Sul: 189 ( 14.50%)
Norte: 109 ( 8.37%)
Centro-Oeste: 100 ( 7.67%)

0: 771 ( 59.17%)
1: 532 ( 40.83%)

0: 828 ( 63.55%)
1: 475 ( 36.45%)

1: 718 ( 55.10%)
0: 585 ( 44.90%)

1: 1015 ( 77.90%)
0: 288 ( 22.10%)

1: 1270 ( 97.47%)
0: 33 ( 2.53%)

1: 787 ( 60.40%)
0: 516 ( 39.60%)

1: 1115 ( 85.57%)
0: 188 ( 14.43%)

1.0: 1020 ( 78.28%)
0.0: 283 ( 21.72%)

Privada com fins lucrativos: 715 ( 54.87%)
Privada sem fins lucrativos: 547 ( 41.98%)
Pública Municipal e Especial: 27 ( 2.07%)
Pública Federal: 9 ( 0.69%)
Pública Estadual: 5 ( 0.38%)

Faculdade: 862 ( 66.16%)
Centro Universitário: 420 ( 32.23%)
Universidade: 19 ( 1.46%)
Instituto Federal de Educação, Ciência e Tecnologia: 2 ( 0.15%)



In [617]:
firth_cluster_kmeans[numeric_columns].describe()

Unnamed: 0,QT_TEC_TOTAL,QT_PERIODICO_ELETRONICO,QT_LIVRO_ELETRONICO,QT_ALUNOS,QT_DOCENTES,QT_CURSO,T1_VL_RECEITAS,T1_VL_DESPESAS
count,1303.0,1303.0,1303.0,1303.0,1303.0,1303.0,1303.0,1303.0
mean,143.65,31306.84,11317.78,4691.86,151.18,18.49,52263088.0,61435145.7
std,136.18,362333.87,55653.4,4874.23,75.6,13.72,140361418.17,529816318.16
min,12.0,0.0,0.0,72.0,10.0,1.0,312066.18,2600437.9
25%,70.0,105.0,564.0,2496.0,97.0,11.0,20850115.51,16877562.19
50%,108.0,422.0,6157.0,3621.0,132.0,16.0,32806982.59,27917450.09
75%,180.5,5625.0,8729.5,5386.5,189.0,22.0,59547232.1,48137697.0
max,2654.0,6437318.0,1200000.0,89706.0,550.0,183.0,4158885757.32,17002300000.0


Conclusões:

- Predominância das regiões Sudeste e Nordeste (69,45%)
- Uma incidência das IES não estarem numa capital (59.17%)
- Predominância das Instituições sem acesso ao portal Capes ( 63.55%)
- Possuem predominância em busca integrada (77.90%)
- Possuem serviço de internet (97.47%)
- Predominância em participar em redes sociais (60.40%)
- Possuem catalogo online (85.57%)
- Possuem predominância em ter outras bases (78.28%)
- Maioria das instituições são privada (com e sem fins lucrativos) (96,85)
- Maioria dos anos da IES são Faculdade e centro universitário (66.16%, 32.23%)

- Quantidade de técnicos médio moderado (143.65)
- Quantidade de alunos média de alunos acima do moderado (4,691.86)
- Corpo docente muito acima da  média (151.18)
- Moderada quantidade média de cursos (18.49)
- Despesas e receitas média altas
- Quantidade de periodicos e livros eletronicos com relevância alto

### Sixth cluster

In [618]:
sixth_cluster_kmeans = pd.read_csv('./data/K-means/Sexto agrupamento (K-means).csv', sep=';')

In [619]:
get_total_categorical_values_cluster(sixth_cluster_kmeans)

2016: 471 ( 35.63%)
2017: 372 ( 28.14%)
2018: 261 ( 19.74%)
2019: 218 ( 16.49%)

Sudeste: 577 ( 43.65%)
Nordeste: 275 ( 20.80%)
Sul: 217 ( 16.41%)
Centro-Oeste: 159 ( 12.03%)
Norte: 94 ( 7.11%)

0: 915 ( 69.21%)
1: 407 ( 30.79%)

0: 967 ( 73.15%)
1: 355 ( 26.85%)

0: 899 ( 68.00%)
1: 423 ( 32.00%)

1: 865 ( 65.43%)
0: 457 ( 34.57%)

1: 1198 ( 90.62%)
0: 124 ( 9.38%)

1: 863 ( 65.28%)
0: 459 ( 34.72%)

1: 957 ( 72.39%)
0: 365 ( 27.61%)

0.0: 823 ( 62.25%)
1.0: 499 ( 37.75%)

Privada sem fins lucrativos: 667 ( 50.45%)
Privada com fins lucrativos: 523 ( 39.56%)
Pública Municipal e Especial: 100 ( 7.56%)
Pública Estadual: 24 ( 1.82%)
Pública Federal: 8 ( 0.61%)

Faculdade: 1261 ( 95.39%)
Centro Universitário: 53 ( 4.01%)
Universidade: 6 ( 0.45%)
Instituto Federal de Educação, Ciência e Tecnologia: 2 ( 0.15%)



In [620]:
sixth_cluster_kmeans[numeric_columns].describe()

Unnamed: 0,QT_TEC_TOTAL,QT_PERIODICO_ELETRONICO,QT_LIVRO_ELETRONICO,QT_ALUNOS,QT_DOCENTES,QT_CURSO,T1_VL_RECEITAS,T1_VL_DESPESAS
count,1322.0,1322.0,1322.0,1322.0,1322.0,1322.0,1322.0,1322.0
mean,46.05,181.31,20.6,1202.21,60.92,6.76,20169429.75,12427568.59
std,95.21,1624.34,157.65,1028.28,41.19,5.27,174260340.2,75731466.95
min,1.0,0.0,0.0,62.0,3.0,1.0,1.0,98800.0
25%,19.0,0.0,0.0,503.25,34.0,4.0,3080043.69,3007529.0
50%,31.0,6.0,0.0,879.0,50.0,6.0,6047025.04,5573239.5
75%,50.0,63.75,0.0,1503.25,73.0,9.0,12369185.83,11492529.14
max,2207.0,38000.0,3090.0,8316.0,300.0,113.0,4000452318.9,2255916597.0


Conclusões:

- Predominância dos anos 2016 e 2017 (35.63%, 28.14%)
- Predominância das regiões Sudeste e Nordeste (43.65%, 20.80%)
- Predominância das IES não estarem numa capital (69.21%)
- Predominância das Instituições sem acesso ao portal Capes (73.15%)
- Predominância das Instituições sem repositorio institucional (68.00%)
- Possuem predominância em busca integrada (65.43%)
- Possuem serviço de internet (90.62%)
- Predominância em participar em redes sociais (65.28%)
- Possuem catalogo online (72.39%)
- Possuem predominância em ter outras bases (62.25%)
- Maioria das instituições são privada (com e sem fins lucrativos) (90,01%)
- Maioria dos anos da IES são Faculdade (95.39%)

- Quantidade de técnicos médio baixo (46.05	)
- Quantidade de alunos média de alunos  moderado (1,202.21)
- Corpo docente moderado na  média (60.92)
- Moderada quantidade baixa de cursos (16.76)
- Despesas e receitas média altas
- Baixa quantidade de Quantidade de periodicos e livros eletronicos
- Quantidade de periodicos e livros eletronicos com relevância baixo

### Seventh cluster

In [621]:
seventh_cluster_kmeans = pd.read_csv('./data/K-means/Sétimo agrupamento (K-means).csv', sep=';')

In [622]:
get_total_categorical_values_cluster(seventh_cluster_kmeans)

2019: 161 ( 27.38%)
2018: 149 ( 25.34%)
2017: 145 ( 24.66%)
2016: 133 ( 22.62%)

Sudeste: 264 ( 44.90%)
Sul: 143 ( 24.32%)
Nordeste: 108 ( 18.37%)
Centro-Oeste: 48 ( 8.16%)
Norte: 25 ( 4.25%)

1: 317 ( 53.91%)
0: 271 ( 46.09%)

1: 516 ( 87.76%)
0: 72 ( 12.24%)

1: 414 ( 70.41%)
0: 174 ( 29.59%)

1: 395 ( 67.18%)
0: 193 ( 32.82%)

1: 581 ( 98.81%)
0: 7 ( 1.19%)

1: 423 ( 71.94%)
0: 165 ( 28.06%)

1: 545 ( 92.69%)
0: 43 ( 7.31%)

1.0: 536 ( 91.16%)
0.0: 52 ( 8.84%)

Privada sem fins lucrativos: 272 ( 46.26%)
Pública Federal: 151 ( 25.68%)
Privada com fins lucrativos: 117 ( 19.90%)
Pública Estadual: 37 ( 6.29%)
Pública Municipal e Especial: 11 ( 1.87%)

Universidade: 410 ( 69.73%)
Centro Universitário: 131 ( 22.28%)
Instituto Federal de Educação, Ciência e Tecnologia: 38 ( 6.46%)
Faculdade: 5 ( 0.85%)
Centro Federal de Educação Tecnológica: 4 ( 0.68%)



In [623]:
seventh_cluster_kmeans[numeric_columns].describe()

Unnamed: 0,QT_TEC_TOTAL,QT_PERIODICO_ELETRONICO,QT_LIVRO_ELETRONICO,QT_ALUNOS,QT_DOCENTES,QT_CURSO,T1_VL_RECEITAS,T1_VL_DESPESAS
count,588.0,588.0,588.0,588.0,588.0,588.0,588.0,588.0
mean,1170.62,20580.04,51040.33,27666.31,970.69,73.91,507239181.16,531850625.47
std,1577.99,45203.4,117262.32,37426.76,897.5,48.37,726312568.2,1146523723.87
min,42.0,0.0,0.0,933.0,90.0,10.0,796666.35,42123282.22
25%,417.75,354.5,5305.0,10074.0,409.75,40.0,148696340.42,142580692.62
50%,727.5,5416.5,10810.5,18228.0,640.5,59.0,283766807.44,260395339.91
75%,1241.5,27972.0,21087.0,32646.5,1230.75,99.0,566429608.87,506231701.56
max,15562.0,572574.0,1000000.0,370652.0,6286.0,296.0,6258050290.0,22161393800.0


Conclusões:

- Predominância das regiões Sudeste e Sul (44.90%, 24.32%)
- Predominância das Instituições com acesso ao portal Capes (87.76%)
- Predominância das Instituições com repositorio institucional (70.41%)
- Possuem predominância em busca integrada (67.18%)
- Possuem serviço de internet (98.81%)
- Predominância em participar em redes sociais (71.94%)
- Possuem catalogo online (92.69%)
- Possuem predominância em ter outras bases (91.16%)
- Maioria das instituições são privada sem fins, federal e com fins lurativos (46.26%, 25.68%, 19.90%)
- Maioria dos anos da IES são Universidade e centro universitario (69.73%, 22.28%)

- Quantidade de técnicos médio alto (1,170.62	)
- Quantidade de alunos média de alunos alto (27,666.31)
- Corpo docente alto na  média (970.69)
- altga quantidade baixa de cursos (73.91)
- Despesas e receitas média altas
- Alta quantidade de Quantidade de periodicos e livros eletronicos
- Quantidade de periodicos e livros eletronicos com relevância alto

# K-means

In [624]:
analise_kmeans = pd.DataFrame([], columns=['prompt', 'cluster', 'temperature', 'Total_suposições', 'Mapeadas_pelo_modelo', 'Ignoradas_pelo_modelo', 'alucinação_do_modelo', 'insights'])

In [625]:
def show_result_kmeans_prompt(df, temperature, cluster):
    return df.loc[(df['temperature'] == temperature) & (df['cluster'] == cluster), ['result']]['result'].tolist()[0]

In [626]:
kmeans_fase2.loc[(kmeans_fase2['temperature'] == 1) & (kmeans_fase2['cluster'] == 'primeiro'), ['result']]['result'].tolist()[0]

'Entendi o desafio! Vou te guiar passo a passo para analisar os agrupamentos baseado nos dados fornecidos.\n\n**Passo 1: Preparação dos Dados**\n\nAntes de começar a analisar, é fundamental garantir que os dados estejam em ordem e sem erros. Isso inclui:\n\n* Verificar se há faltas ou valores faltantes em alguma das colunas\n* Convertê-lo para um formato fácil de processamento (por exemplo, números reais)\n* Limpar ou remover linhas com valores inconsistentes\n\n**Passo 2: Análise Exploratória**\n\nÉ fundamental entender a distribuição dos dados e identificar padrões ou tendências. Isso inclui:\n\n* Descrições estatísticas das colunas (meias, medias, desvios padrão)\n* Gráficos de barras, históricos ou box-plots para visualizar a distribuição dos valores\n* Análise de correlação entre as colunas para identificar relações estatísticas\n\n**Passo 3: Identificação de Características Principais**\n\nAgora é hora de identificar as características principais que contribuem para o agrupamento

In [719]:
analise_kmeans

Unnamed: 0,prompt,cluster,temperature,Total_suposições,Mapeadas_pelo_modelo,Ignoradas_pelo_modelo,alucinação_do_modelo,insights
0,Fase 2,primeiro,0.0,15,7,8,1,0
1,Fase 2,primeiro,0.5,15,9,6,2,0
2,Fase 2,primeiro,1.0,15,5,10,2,0
3,Fase 2,segundo,0.0,17,2,15,4,0
4,Fase 2,segundo,0.5,17,4,13,2,0
5,Fase 2,segundo,1.0,17,5,12,3,0
6,Fase 2,terceiro,0.0,15,2,13,3,1
7,Fase 2,terceiro,0.5,15,5,10,2,4
8,Fase 2,terceiro,1.0,15,7,8,1,1
9,Fase 2,quarto,0.0,17,3,14,3,2


In [720]:
analise_kmeans.to_csv('analise_kmeans.csv', index=False, encoding='utf-8')

## Fase 2

In [628]:
kmeans_fase2 = pd.read_csv('Models/webUI/results/K-means_Fase 2_results.csv')

### First Cluster

In [629]:
print(show_result_kmeans_prompt(kmeans_fase2, 0, 'primeiro'))

Para começar a analisar o arquivo CSV e entender os fatores que levaram à criação do cluster, é necessário seguir um método sistemático que considere tanto as características dos dados quanto os padrões estatísticos observados.

1. **Preparação dos Dados**: O primeiro passo é garantir que os dados estejam em ordem e pré-processados para análise. Isso pode incluir a limpeza de dados duplicados, ausentes ou anormais, bem como a transformação de variáveis não numéricas em valores numéricos.

2. **Seleção das Características Relevantes**: Em seguida, identificamos as características que são mais relevantes para entender o agrupamento do cluster. Isso pode envolver a análise de correlação entre as variáveis ou a aplicação de técnicas de seleção de características, como o Randonômico Forestal (RF), Otimização de Máxima Acuracia da Árvore (OAAS) etc.

3. **Análise Exploratória**: Realizamos uma análise exploratória dos dados para identificar padrões e tendências, seja através de gráficos simp

Conclusões:

- Predominância das regiões Sudeste, Nordeste e Sul (37.43%, 22.35%, 18.81%) (NOT OK)
- Uma incidência das IES não estarem numa capital (59,78%) (NOT OK)
- Instituições com acesso ao portal Capes (87.34%) (NOT OK)
- Possuem serviço de internet (94.97%) (NOT OK)
- Participam em redes sociais (71.51%) (NOT OK)
- Possuem catalogo online (86.22%) (NOT OK)
- Busca integrada (58.29%) (NOT OK)
- Quase a métade das IES são públicas federais, Privada sem fins lucrativos, Pública Estadual (49.16%, 22.91%, 21.04%) (NOT OK)
- Mais da metade das IES são do tipo universidade e Instituto Federal de Educação, Ciência e Tecnologia (59.96%, 20.48%) (NOT OK)

- Quantidade alta de técnicos na média (765.03) (NOT OK)
- Quantidade de alunos média de alunos alto (12,553.95) (NOT OK)
- Corpo docente forte na média (761.73) (NOT OK)
- Quantidade considerável de cursos na média (média de 52.45) (NOT OK)
- Despesas e receitas média moderadas (NOT OK)
- Quantidade de periodicos e livros eletronicos com relevância baixa (NOT OK)

Insights falsos:

- Análise de gráficos que não são gerados
- Falta de explicação sobre as variaveis 
- Detalhamento do passo a passo ao invés da análise em si


Enfatiza a presença de analises mais detalhadas

In [630]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2', 'primeiro', 0, 15, 7, 8, 1, 0]

In [631]:
print(show_result_kmeans_prompt(kmeans_fase2, 0.5, 'primeiro'))

Entendi o problema! Vou realizar uma análise estatística para entender os fatores que levaram à criação de um determinado cluster.

Primeiramente, é importante saber que um cluster é um agrupamento de dados próximos uns aos outros, com base em algum critério de distância ou similaridade. Neste caso, vou focar em encontrar as características estatísticas que definem esse agrupamento.

A primeira coisa que vou fazer é visualizar os dados do CSV. Vou criar uma tabela com as principais características dos dados, como média, moda e desvios padrão, para entender melhor a distribuição dos dados.

A seguir, vou calcular a matriz de similaridade entre as instâncias do cluster. Isso será feito calculando a distância entre cada par de instâncias, utilizando uma medida de distância como o distância euclidiana ou a distância de Manhattan.

Com essa matriz de similaridade, vou identificar os critérios que definem o agrupamento. Vou procurar por características que sejam significativas e que façam se

Conclusões:

- Predominância das regiões Sudeste, Nordeste e Sul (37.43%, 22.35%, 18.81%) (NOT OK)
- Uma incidência das IES não estarem numa capital (59,78%) NOT OK
- Instituições com acesso ao portal Capes (87.34%) NOT OK
- Possuem serviço de internet (94.97%) NOT OK
- Participam em redes sociais (71.51%) NOT OK
- Possuem catalogo online (86.22%) NOT OK
- Busca integrada (58.29%) NOT OK
- Quase a métade das IES são públicas federais, Privada sem fins lucrativos, Pública Estadual (49.16%, 22.91%, 21.04%) NOT OK
- Mais da metade das IES são do tipo universidade e Instituto Federal de Educação, Ciência e Tecnologia (59.96%, 20.48%) NOT OK

- Quantidade alta de técnicos na média (765.03) NOTOK
- Quantidade de alunos média de alunos alto (12,553.95) NOTOK
- Corpo docente forte na média (761.73) NOTOK
- Despesas e receitas média moderadas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixa NOT NOTOK

Insights falsos:

- A análise apresentou dados inconsistentes com o foco da analise(alucinou)


In [632]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'primeiro', 0.5, 15, 9, 6, 2, 0]

In [633]:
print(show_result_kmeans_prompt(kmeans_fase2, 1.0, 'primeiro'))

Entendi o desafio! Vou te guiar passo a passo para analisar os agrupamentos baseado nos dados fornecidos.

**Passo 1: Preparação dos Dados**

Antes de começar a analisar, é fundamental garantir que os dados estejam em ordem e sem erros. Isso inclui:

* Verificar se há faltas ou valores faltantes em alguma das colunas
* Convertê-lo para um formato fácil de processamento (por exemplo, números reais)
* Limpar ou remover linhas com valores inconsistentes

**Passo 2: Análise Exploratória**

É fundamental entender a distribuição dos dados e identificar padrões ou tendências. Isso inclui:

* Descrições estatísticas das colunas (meias, medias, desvios padrão)
* Gráficos de barras, históricos ou box-plots para visualizar a distribuição dos valores
* Análise de correlação entre as colunas para identificar relações estatísticas

**Passo 3: Identificação de Características Principais**

Agora é hora de identificar as características principais que contribuem para o agrupamento. Isso inclui:

* Ana

Conclusões:

- Predominância das regiões Sudeste, Nordeste e Sul (37.43%, 22.35%, 18.81%) NOT OK
- Uma incidência das IES não estarem numa capital (59,78%) NOT OK
- Instituições com acesso ao portal Capes (87.34%) OK
- Possuem serviço de internet (94.97%) NOT OK
- Participam em redes sociais (71.51%) NOT OK 
- Possuem catalogo online (86.22%) NOT OK
- Busca integrada (58.29%) NOT OK
- Quase a métade das IES são públicas federais, Privada sem fins lucrativos, Pública Estadual (49.16%, 22.91%, 21.04%) NOT OK
- Mais da metade das IES são do tipo universidade e Instituto Federal de Educação, Ciência e Tecnologia (59.96%, 20.48%) NOT OK

- Quantidade alta de técnicos na média (765.03) NOT OK
- Quantidade de alunos média de alunos alto (12,553.95) NOT OK
- Corpo docente forte na média (761.73) NOT OK
- Despesas e receitas média moderadas NOT OK
- Quantidade de periodicos e livros eletronicos com relevância baixa NOT OK

- A análise apresnetada é apenas um detalhamento das etapas que devem ser seguidas para analisar os clusters. 


In [634]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'primeiro', 1, 15, 5, 10, 2, 0]

### Second Cluster

In [635]:
print(show_result_kmeans_prompt(kmeans_fase2, 0, 'segundo'))

Para realizar essa análise, vamos seguir um passo a passo lógico:

1. **Preparação dos Dados**: O primeiro passo é preparar os dados para o análise. Isso inclui garantir que os dados estejam em uma tabela e que todos os valores estejam convertidos para o mesmo tipo (por exemplo, numéricos).

2. **Visualização Inicial**: A visualização inicial é fundamental para entender o agrupamento geral dos dados. Vamos usar um gráfico de barra ou um histograma para ver se há algum padrão ou tendência nos dados.

3. **Identificação de Características Isoladas**: Em seguida, vamos procurar características isoladas que possam estar relacionadas ao cluster. Isso pode incluir medidas estatísticas como a média, o mínimo e o máximo da característica.

4. **Análise das Conjugações entre Características**: A seguir, vamos analisar as conjugações entre características. Isso significa comparar o valor de cada caracteistic com os valores dos outros caracteres. Vamos procurar conjunções que possam estar relacio

Conclusões:

- Predominância dos anos 2018 e 2019 (60,12%) NOTOK
- Predominância das regiões Sudeste e Nordeste (60,67%) NOTOK
- Uma incidência das IES não estarem numa capital (59.38%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes (63.25%) NOTOK
- Possuem busca integrada (74.35%) OK
- Possuem serviço de internet (93.00%) NOTOK
- Participam em redes sociais (74.03%) NOTOK
- Possuem predominância em catalogo online (64.87%) NOTOK
- Possuem predominâncai em ter outras bases (69.29%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (98,6) OK
- Maioria dos anos da IES são Faculdade (99.89%) NOTOK

- Pouca quantidade de técnicos na média (12.87) NOTOK
- Quantidade de alunos média de alunos abaixo (153.83) NOTOK
- Corpo docente muito pouco na média (14.20) NOTOK
- Pouca quantidade de cursos (2.30) NOTOK
- Despesas e receitas média moderadas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixa NOTOK

Insights falsos:
-  Mudança de contexto da análise, o modelo criou váriaveis que não existiam




In [636]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'segundo', 0, 17, 2, 15, 4, 0]

In [637]:
print(show_result_kmeans_prompt(kmeans_fase2, 0.5, 'segundo'))

Entendi! Para realizar essa análise, vamos seguir um processo sistemático para entender melhor os fatores que levaram à criação do cluster.

**Etapa 1: Preparação dos Dados**

Antes de começar a analisar o cluster, é importante garantir que os dados estejam limpos e organizados. Isso inclui verificar se há erros de digitação, valores faltantes e outliers. Além disso, é fundamental entender a estrutura dos dados e identificar quais são as variáveis relevantes para a análise.

**Etapa 2: Visualização dos Dados**

A visualização dos dados é uma etapa crucial para entender melhor o agrupamento do cluster. Nessa etapa, vamos criar gráficos que ajudem a ilustrar as características dos dados e como elas se relacionam entre si.

Por exemplo, podemos criar:

*   Gráfico de barras ou linha para comparar valores da variável dependente.
*   Gráfico de dispersão (bi-plano) para visualizar a relação entre duas ou mais variáveis.
*   Distribuição de histograma para entender a forma como uma variável 

Conclusões:

- Predominância dos anos 2018 e 2019 (60,12%) NOTOK
- Predominância das regiões Sudeste e Nordeste (60,67%) NOTOK 
- Uma incidência das IES não estarem numa capital (59.38%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes (63.25%) NOTOK
- Possuem busca integrada (74.35%) NOTOK
- Possuem serviço de internet (93.00%) NOTOK
- Participam em redes sociais (74.03%) NOTOK
- Possuem predominância em catalogo online (64.87%) NOTOK
- Possuem predominâncai em ter outras bases (69.29%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (98,6) NOTOK
- Maioria dos anos da IES são Faculdade (99.89%) NOTOK

- Pouca quantidade de técnicos na média (12.87) NOTOK
- Quantidade de alunos média de alunos abaixo (153.83) NOTOK
- Corpo docente muito pouco na média (14.20) NOTOK
- Pouca quantidade de cursos (2.30) NOTOK
- Despesas e receitas média moderadas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixa NOTOK

Insights:
- Analise inconsistente

In [638]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'segundo', 0.5, 17, 4, 13, 2, 0]

In [639]:
print(show_result_kmeans_prompt(kmeans_fase2, 1.0, 'segundo'))

Entendi! Vou abordar essa análise com base nos dados estatísticos fornecidos. Para começar, gostaria de saber qual é o CSV que foi fornecido como entrada para a análise do cluster. Uma vez que receber esse arquivo, vou prosseguir com as seguintes etapas:

1.  **Carregar e limpar os dados**: Primeiro, vou carregar os dados do CSV fornecidos e verificar se há alguma linha ou coluna vazia. Em seguida, vou remover qualquer caractere não numérico ou espaço, caso exista.
2.  **Definir a métrica de agrupamento**: Vou escolher uma métrica para avaliar a estrutura dos dados e decidir quais características são relevantes para a análise do cluster. No geral, as características que são mais estáveis e possuem maior impacto nos resultados de agrupamento tendem a ser aquelas que são avaliadas como características.
3.  **Agrupar os dados**: Com base na métrica de agrupamento escolhida, vou agrupar os dados em cluster com base nas características relevantes. Em geral, é importante garantir que o númer

Conclusões:

- Predominância dos anos 2018 e 2019 (60,12%) NOTOK
- Predominância das regiões Sudeste e Nordeste (60,67%) NOTOK
- Uma incidência das IES não estarem numa capital (59.38%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes (63.25%) NOTOK
- Possuem busca integrada (74.35%) OK
- Possuem serviço de internet (93.00%) OK
- Participam em redes sociais (74.03%) NOTOK
- Possuem predominância em catalogo online (64.87%) NOTOK
- Possuem predominâncai em ter outras bases (69.29%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (98,6) NOTOK
- Maioria dos anos da IES são Faculdade (99.89%) NOTOK

- Pouca quantidade de técnicos na média (12.87) NOTOK
- Quantidade de alunos média de alunos abaixo (153.83) NOTOK
- Corpo docente muito pouco na média (14.20) NOTOK 
- Pouca quantidade de cursos (2.30) NOTOK
- Despesas e receitas média moderadas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixa NOTOK

Insights falsos:
- A análise não detalha quais as características e nem a relevancia delas
- é uma análsie superficial, como se houvesse criado um gráfico de dispersão para analisar. 



In [640]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'segundo', 1.0, 17, 5, 12, 3, 0]

### Third Cluster

In [641]:
print(show_result_kmeans_prompt(kmeans_fase2, 0, 'terceiro'))

Para iniciar a análise do cluster fornecido em formato csv, é necessário seguir um passo a passo lógico e estatístico para entender melhor as características dos agrupamentos identificados.

### Passo 1: Importância da Entidade Central (Mediana)

Primeiro, vamos verificar a mediana como ponto de partida para avaliar os valores que podem estar relacionados à formação do cluster. A escolha da mediana é uma opção popular para simplificar as análises estatísticas, especialmente em conjuntos de dados com um número não muito grande de observações.

### Passo 2: Análise das Variáveis

Em seguida, vamos avaliar a influência de cada característica no agrupamento. Isso pode incluir uma análise exploratória para entender se há características que estão relacionadas entre si e também com o cluster em questão.

#### Características Conjugadas
Uma característica conjugada é uma variável que está relacionada à outra através de uma relação matemática (por exemplo, multiplicativa ou aditiva). A presenç

Conclusões:

- Predominância das regiões Sudeste e Nordeste e Sul (47.17%, 19.17%, 17.48%) NOTOK
- Predominãncia das IES não estarem numa capital (62.70%) NOTOK
- Instituições sem acesso ao portal Capes (83.09%) NOTOK
- Possuem predominância em não possuir repositorio institucional (74.68%) NOTOK
- Possuem predominância em serviço de internet (79.13%) NOTOK
- Predominância em participar em redes sociais (62.62%) NOTOK
- Possuem predominância em ter outras bases (75.57%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (97,73)  NOTOK
- Maioria dos anos da IES são Faculdade (99.92%) NOTOK

- Quantidade baixa de média de técnicos (10.78) NOTOK
- Quantidade de alunos média de alunos baixo (185.81) NOTOK
- Corpo docente muito baixo na média (16.72) NOTOK
- Pouca quantidade de cursos (2.03) NOTOK
- Despesas e receitas média moderadas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixa NOTOK

Insights falsos:
- A análise descreve etapas para um processo de análise do cluster, mas não análisa o cluster e o contexto da base de dados. 

In [642]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'terceiro', 0, 15, 2, 13, 3, 1]

In [643]:
print(show_result_kmeans_prompt(kmeans_fase2, 0.5, 'terceiro'))

Entendido! Vamos proceder com a análise dos dados.

Primeiramente, é importante lembrar que o cluster é um agrupamento de instâncias que compartilham características semelhantes entre si. A criação de um cluster pode ser influenciada por uma variedade de fatores, incluindo características estatísticas individuais e combinações dessas características.

Para começar a análise, vamos observar as características dos dados fornecidos no CSV. Nós não temos acesso ao arquivo CSV, mas podemos criar um cenário hipotético para a sua análise.

Suponha que o CSV tenha as seguintes colunas: ID, Valor1, Valor2, Valor3 e Valor4. Vamos supor que essas características são estatísticas de desempenho de um produto ou serviço.

**Análise de características individuais**

Aqui estão algumas observações iniciais sobre as características individuais:

*   **Valor1:** Esta característica pode representar o valor unitário do produto ou serviço. Observamos que valores mais altos tendem a estar associados a prod

Conclusões:

- Predominância das regiões Sudeste e Nordeste e Sul (47.17%, 19.17%, 17.48%) NOTOK
- Predominãncia das IES não estarem numa capital (62.70%) NOTOK
- Instituições sem acesso ao portal Capes (83.09%) NOTOK
- Possuem predominância em não possuir repositorio institucional (74.68%) NOTOK
- Possuem predominância em serviço de internet (79.13%) NOTOK
- Predominância em participar em redes sociais (62.62%) NOTOK
- Possuem predominância em ter outras bases (75.57%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (97,73) OK
- Maioria dos anos da IES são Faculdade (99.92%) NOTOK

- Quantidade baixa de média de técnicos (10.78) NOTOK
- Quantidade de alunos média de alunos baixo (185.81	) NOTOK
- Corpo docente muito baixo na média (16.72) NOTOK
- Pouca quantidade de cursos (2.03) NOTOK
- Despesas e receitas média moderadas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixa NOTOK

Insights:
- A análise reconhece que se trata de informações de Nível superior, mas não apresneta detalhes.
- Também cria variaveisfora de contexto, como idade.  

In [644]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'terceiro', 0.5, 15, 5, 10, 2, 4]

In [645]:
print(show_result_kmeans_prompt(kmeans_fase2, 1.0, 'terceiro'))

**Análise do Cluster**

A primeira coisa que façamos é visualizar as características dos dados para entender melhor o agrupamento. Vamos considerar as seguintes características: idade, salário e nível de educação.

*   **Idade:** A idade parece ser um fator importante no agrupamento. Os indivíduos mais jovens estão concentrados em uma faixa específica da distribuição de idade, enquanto aqueles mais velhos formam outro grupo.
*   **Salário:** O salário também é um fator importante. Os indivíduos com salários mais altos estão concentrados em outra faixa da distribuição de salário, enquanto aqueles com salários mais baixos estão concentrados em outra.

**Característica Conjunta: Idade x Salário**

Agora vamos analisar a relação entre a idade e o salário. Vamos considerar as seguintes características:

*   **Idade - Salário:** A distribuição de idade x salário mostra que os indivíduos mais jovens tendem a ter salários mais baixos, enquanto aqueles mais velhos têm salários mais altos.
*   *

Conclusões:

- Predominância das regiões Sudeste e Nordeste e Sul (47.17%, 19.17%, 17.48%) NOTOK
- Predominãncia das IES não estarem numa capital (62.70%) NOTOK
- Instituições sem acesso ao portal Capes (83.09%) NOTOK
- Possuem predominância em não possuir repositorio institucional (74.68%) NOTOK
- Possuem predominância em serviço de internet (79.13%) NOTOK
- Predominância em participar em redes sociais (62.62%) NOTOK
- Possuem predominância em ter outras bases (75.57%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (97,73) NOTOK
- Maioria dos anos da IES são Faculdade (99.92%) NOTOK

- Quantidade baixa de média de técnicos (10.78) NOTOK
- Quantidade de alunos média de alunos baixo (185.81) NOTOK
- Corpo docente muito baixo na média (16.72) NOTOK
- Pouca quantidade de cursos (2.03) NOTOK
- Despesas e receitas média moderadas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixa NOTOK



Insights:
- A análise foca em detalhar o processo de criação de um cluster. 

In [646]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'terceiro', 1.0, 15, 7, 8, 1, 1]

### Forth Cluster

In [647]:
print(show_result_kmeans_prompt(kmeans_fase2, 0, 'quarto'))

Vamos começar com a análise do dado fornecido!

No início, observei o formato do arquivo csv e notei que as instâncias estão separadas por uma barra (";") como delimitador. Isso é um bom sinal, pois facilita a leitura e manipulação dos dados.

Agora, vamos analisar as características dos agrupamentos:

*   **Variabilidade**: A variabilidade das características é alta em muitas das instâncias do cluster. Isso sugere que essas características são importantes para definir o agrupamento.
*   **Conexão**: Algumas características estão conjugadas com outras, o que sugere uma conexão lógica entre elas. Por exemplo, uma característica pode estar relacionada a outra característica de forma direta ou indireta.
*   **Isolamento**: Uma característica está isolada, o que significa que não tem nenhuma relação com as outras características.

É importante notar que esses fatores podem variar dependendo do tipo de dados e da abordagem utilizada para análise.


Conclusões:

- Predominância dos anos 2018 e 2019 (60,08%) NOTOK
- Predominância das regiões Sudeste, Sul e Nordeste (82,92%) NOTOK
- Uma incidência das IES não estarem numa capital (68.85%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes ( 64.73%) NOTOK
- Possuem predominância em busca integrada (77.29%) NOTOK
- Possuem serviço de internet (97.45%) NOTOK
- Predominância em participar em redes sociais (71.20%) NOTOK
- Possuem predominância em ter catalogo online (79.45%) NOTOK
- Possuem predominância em ter outras bases (73.43%) NOTOK
- Maioria das iinstituições são privada (com e sem fins lucrativos) (98,04) NOTOK
- Maioria dos anos da IES são Faculdade (99.15%) NOTOK

- Quantidade de técnicos na média baixo (33.68	) NOTOK
- Quantidade de alunos média de alunos  moderado (932.89) NOTOK
- Corpo docente muito na média (45.12) NOTOK
- Pouca quantidade média de cursos (6.21) NOTOK
- Despesas e receitas média acima do moderado NOTOK
- Quantidade de periodicos e livros eletronicos com relevância alto NOTOK

Insights falsos:
- Destaca a necessidade de análises aprofundadas
- Descreve as etapas, mas não realiza a análise das variaveis. 



In [648]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'quarto', 0, 17, 3, 14, 3, 2]

In [649]:
print(show_result_kmeans_prompt(kmeans_fase2, 0.5, 'quarto'))

**Análise do Cluster**

 Ao receber o CSV com as instâncias de um determinado cluster, o objetivo é analisar os fatores que levaram à sua criação. Para isso, vou seguir uma cadeia de pensamento lógica para entender melhor os agrupamentos.

1. **Características das Instâncias**

 Primeiramente, eu vou analisar as características individuais das instâncias do cluster. Vou verificar se há características que sejam consistentes ou conjugadas entre si. Isso ajudará a identificar padrões ou tendências que possam ter contribuído para a criação do agrupamento.

2. **Distribuição dos Valores**

 Em seguida, vou verificar a distribuição dos valores das características individuais. Vou analisar se há valores que são frequentemente repetidos ou se há um rango de valores mais amplo do que outro. Isso pode indicar que certas características têm um impacto maior na formação do cluster.

3. **Correlações entre Características**

 Em seguida, vou verificar as correlações entre as características indivi

Conclusões:

- Predominância dos anos 2018 e 2019 (60,08%) NOTOK
- Predominância das regiões Sudeste, Sul e Nordeste (82,92%) NOTOK
- Uma incidência das IES não estarem numa capital (68.85%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes ( 64.73%) NOTOK
- Possuem predominância em busca integrada (77.29%) NOTOK 
- Possuem serviço de internet (97.45%) NOTOK
- Predominância em participar em redes sociais (71.20%) NOTOK
- Possuem predominância em ter catalogo online (79.45%) NOTOK
- Possuem predominância em ter outras bases (73.43%) NOTOK
- Maioria das iinstituições são privada (com e sem fins lucrativos) (98,04) NOTOK
- Maioria dos anos da IES são Faculdade (99.15%) NOTOK

- Quantidade de técnicos na média baixo (33.68	) NOTOK
- Quantidade de alunos média de alunos  moderado (932.89) NOTOK
- Corpo docente muito na média (45.12) NOTOK
- Pouca quantidade média de cursos (6.21) NOTOK
- Despesas e receitas média acima do moderado NOTOK
- Quantidade de periodicos e livros eletronicos com relevância alto NOTOK

Insights:
- A análise acaba sendo das etapas de análise do cluster,e não das variaveis.





In [650]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'quarto', 0.5, 17, 7, 10, 3, 0]

In [651]:
print(show_result_kmeans_prompt(kmeans_fase2, 1.0, 'quarto'))

Entendi o desafio! Vamos começar a análise do cluster fornecido no CSV.

**Etapa 1: Preparação dos dados**

Antes de começar a analisar os agrupamentos, é importante garantir que os dados estejam em ordem e sem erros. Isso inclui verificar se há valores faltantes ou duplicados, bem como garantir que as colunas estejam em ordem correta.

**Etapa 2: Caracterização dos agrupamentos**

Agora é hora de analisar os agrupamentos individuais. Vou começar com a caracterização da primeira instância do cluster.

* **Características**: A primeira instância tem as seguintes características:
 + Coluna 1: valor A
 + Coluna 2: valor B
 + Coluna 3: valor C
* **Relacionamento com outras instâncias**: Verificarei se há alguma conexão ou padrão entre essa instância e as demais.

Agora, vou fazer a mesma análise para as outras instâncias do cluster. Em seguida, farei uma análise geral dos agrupamentos como um todo.

**Análise de agrupamento**

Ao analisar as características individuais das instâncias do cl

Conclusões:

- Predominância dos anos 2018 e 2019 (60,08%) NOTOK
- Predominância das regiões Sudeste, Sul e Nordeste (82,92%) NOTOK
- Uma incidência das IES não estarem numa capital (68.85%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes ( 64.73%) NOTOK
- Possuem predominância em busca integrada (77.29%) NOTOK
- Possuem serviço de internet (97.45%) NOTOK
- Predominância em participar em redes sociais (71.20%) NOTOK
- Possuem predominância em ter catalogo online (79.45%) NOTOK
- Possuem predominância em ter outras bases (73.43%) NOTOK
- Maioria das iinstituições são privada (com e sem fins lucrativos)  (98,04) OK
- Maioria dos anos da IES são Faculdade (99.15%) OK

- Quantidade de técnicos na média baixo (33.68	)  NOTOK
- Quantidade de alunos média de alunos  moderado (932.89) NOTOK
- Corpo docente muito na média (45.12) NOTOK
- Pouca quantidade média de cursos (6.21) NOTOK
- Despesas e receitas média acima do moderado NOTOK
- Quantidade de periodicos e livros eletronicos com relevância alto NOTOK

Insights falsos:
- A análise que é fieta acaba sendo da distribuição dos dados e não das caracteristicas das variaveis. 


In [652]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'quarto', 1.0, 17, 4, 13, 3, 1]

### Firth Cluster

In [653]:
print(show_result_kmeans_prompt(kmeans_fase2, 0, 'quinto'))

**Análise do Clustering**

A partir dos dados fornecidos, é possível identificar alguns fatores que levaram à criação do cluster. Vamos analisar os agrupamentos e encontrar as características que são isoladas ou conjugadas.

**Características Isoladas**

Uma das primeiras coisas que observamos é a presença de características isoladas, como:

* A característica "Idade" tem um valor médio de 35 anos, o que pode indicar uma faixa etária específica da população.
* A característica "Gênero" tem uma distribuição desigual, com mais homens do que mulheres.

Essas características isoladas podem ter contribuído para a criação do cluster, pois elas podem ter criado um agrupamento de indivíduos com características semelhantes.

**Características Conjugadas**

Além disso, também observamos algumas características conjugadas, como:

* A característica "Idade" e a característica "Gênero" estão correlacionadas, pois a maioria das pessoas mais velhas é composta por mulheres.
* A característica "Salário

Conclusões:

- Predominância das regiões Sudeste e Nordeste (69,45%) NOTOK
- Uma incidência das IES não estarem numa capital (59.17%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes ( 63.55%) NOTOK
- Possuem predominância em busca integrada (77.90%) NOTOK
- Possuem serviço de internet (97.47%) NOTOK
- Predominância em participar em redes sociais (60.40%) NOTOK
- Possuem catalogo online (85.57%) NOTOK
- Possuem predominância em ter outras bases (78.28%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (96,85) OK
- Maioria dos anos da IES são Faculdade e centro universitário (66.16%, 32.23%) OK

- Quantidade de técnicos médio moderado (143.65) NOTOK
- Quantidade de alunos média de alunos acima do moderado (4,691.86) NOTOK
- Corpo docente muito acima da  média (151.18) NOTOK
- Moderada quantidade média de cursos (18.49) NOTOK
- Despesas e receitas média altas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância alto NOTOK

Insights:
- Não realiza a análise das variaveis, apenas sugere etapas de analise e o contexto. 

In [654]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'quinto', 0, 16, 4, 12, 3, 0]

In [655]:
print(show_result_kmeans_prompt(kmeans_fase2, 0.5, 'quinto'))

Entendo! Vou criar um cenário de análise para entender os fatores que levaram à criação de um determinado cluster.

Suponha que o CSV fornece as seguintes informações sobre 10 instâncias de um cluster:

| Instância | Variável A (A) | Variável B (B) | Variável C (C) |
| --- | --- | --- | --- |
| 1   | 0,5       | 8           | 6         |
| 2   | 0,7       | 9           | 7         |
| 3   | 0,4       | 7           | 5         |
| 4   | 0,8       | 10          | 8         |
| 5   | 0,6       | 8           | 6         |
| 6   | 0,9       | 11          | 9         |
| 7   | 0,3       | 5           | 4         |
| 8   | 0,1       | 4           | 3         |
| 9   | 0,2       | 6           | 5         |
| 10  | 0,7       | 9           | 7         |

Para analisar os fatores que levaram à criação desse cluster, vou seguir uma cadeia de pensamento:

**Pergunta inicial**: Quais são as características únicas presentes nas instâncias do cluster?

Ao examinar as instâncias, observo que há uma var

Conclusões:

- Predominância das regiões Sudeste e Nordeste (69,45%) NOTOK
- Uma incidência das IES não estarem numa capital (59.17%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes ( 63.55%) NOTOK
- Possuem predominância em busca integrada (77.90%) NOTOK
- Possuem serviço de internet (97.47%) NOTOK
- Predominância em participar em redes sociais (60.40%) NOTOK
- Possuem catalogo online (85.57%) NOTOK
- Possuem predominância em ter outras bases (78.28%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (96,85) NOTOK
- Maioria dos anos da IES são Faculdade e centro universitário (66.16%, 32.23%) NOTOK

- Quantidade de técnicos médio moderado (143.65) NOTOK
- Quantidade de alunos média de alunos acima do moderado (4,691.86) NOTOK
- Corpo docente muito acima da  média (151.18) NOTOK
- Moderada quantidade média de cursos (18.49) NOTOK
- Despesas e receitas média altas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância alto NOTOK

Insights :
- Apenas detalha o processo de criação do cluster, mas não análisa a relevancia das variaveis. 

In [656]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'quinto', 0.5, 16, 5, 11, 3, 1]

In [657]:
print(show_result_kmeans_prompt(kmeans_fase2, 1.0, 'quinto'))

Para realizar essa análise, vamos seguir uma cadeia de pensamento lógica para entender os fatores que levaram à criação do cluster.

**Passo 1: Entendendo o Cluster**

Antes de mais nada, é importante entender o que é um cluster e como ele foi criado. Um cluster é um agrupamento de dados que compartilham características semelhantes entre si. Nesse caso, vamos analisar as instâncias do cluster fornecido no csv.

**Passo 2: Analisando as Características**

A próxima etapa é analisar as características presentes no dataset e identificar quaisquer padrões ou tendências significativas. Em seguida, vamos considerar a ocorrência de cada característica isolado e conjugada com outra característica.

**Passo 3: Identificando Características Importantes**

Durante a análise, é provável que algumas características se destacem como mais importantes do que outras. Isso pode ser evidenciado por meio da análise estatística, como a média, mediana e desvios padrão das variáveis.

**Passo 4: Verificando 

Conclusões:

- Predominância das regiões Sudeste e Nordeste (69,45%) NOTOK
- Uma incidência das IES não estarem numa capital (59.17%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes ( 63.55%) NOTOK
- Possuem predominância em busca integrada (77.90%) NOTOK
- Possuem serviço de internet (97.47%) NOTOK 
- Predominância em participar em redes sociais (60.40%) NOTOK
- Possuem catalogo online (85.57%) NOTOK
- Possuem predominância em ter outras bases (78.28%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (96,85) NOTOK
- Maioria dos anos da IES são Faculdade e centro universitário (66.16%, 32.23%) NOTOK

- Quantidade de técnicos médio moderado (143.65) NOTOK
- Quantidade de alunos média de alunos acima do moderado (4,691.86) NOTOK
- Corpo docente muito acima da  média (151.18) NOTOK
- Moderada quantidade média de cursos (18.49) NOTOK
- Despesas e receitas média altas NOTOK 
- Quantidade de periodicos e livros eletronicos com relevância alto NOTOK

Insights falsos:
- A analise que é feita é sobre a distribuição do cluster. 

In [658]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'quinto', 1.0, 16, 6, 10, 1, 0]

### Sixth Cluster

In [659]:
print(show_result_kmeans_prompt(kmeans_fase2, 0, 'sexto'))

Para iniciar essa análise, é importante considerar alguns passos iniciais para entender o problema e definir a linha de pensamento:

1. **Entendendo o Dado**: O dado fornecido em formato csv contém as instâncias de um determinado cluster. É fundamental entender que o objetivo aqui não é realizar uma análise estatística comum, como a mediação ou variança, mas sim analisar os agrupamentos gerados pelo cluster.

2. **Definindo o Cluster**: Antes de começar, preciso entender qual é o alvo do clustering e quais características são relevantes para essa análise. Isso é crucial para determinar como abordar as características que podem influenciar a criação do cluster.

3. **Preparação dos Dados**: A análise será realizada apenas com base nos dados estatísticos, portanto é importante preparar os dados de forma a que seja possível realizar as análises necessárias, como a mediana, percentis, dispersão, etc.

4. **Análise dos Agrupamentos**: Para entender como o cluster foi criado, preciso analisa

Conclusões:

- Predominância dos anos 2016 e 2017 (35.63%, 28.14%) NOTOK
- Predominância das regiões Sudeste e Nordeste (43.65%, 20.80%)  NOTOK
- Predominância das IES não estarem numa capital (69.21%)  NOTOK
- Predominância das Instituições sem acesso ao portal Capes (73.15%)  NOTOK
- Predominância das Instituições sem repositorio institucional (68.00%)  NOTOK
- Possuem predominância em busca integrada (65.43%) NOTOK
- Possuem serviço de internet (90.62%) NOTOK
- Predominância em participar em redes sociais (65.28%)  NOTOK
- Possuem catalogo online (72.39%)  NOTOK
- Possuem predominância em ter outras bases (62.25%)  NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (90,01%)  NOTOK
- Maioria dos anos da IES são Faculdade (95.39%)  NOTOK

- Quantidade de técnicos médio baixo (46.05	) NOTOK
- Quantidade de alunos média de alunos  moderado (1,202.21) NOTOK
- Corpo docente moderado na  média (60.92) NOTOK
- Moderada quantidade baixa de cursos (16.76) NOTOK
- Despesas e receitas média altas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixo NOTOK

Insights falsos:
- Analisa a distibuição do cluster, mas não leva em consideraçãpo o contexto. 


In [660]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'sexto', 0, 18, 9, 9, 1, 0]

In [661]:
print(show_result_kmeans_prompt(kmeans_fase2, 0.5, 'sexto'))

Entendi! Como analista de dados, vou seguir uma abordagem estruturada para entender os fatores que levaram à criação do cluster.

Primeiramente, é importante considerar a qualidade e a quantidade dos dados fornecidos. Vou assumir que o csv fornece as instâncias do cluster em formato de tabulação, com cada linha representando uma instância e cada coluna representando uma característica.

O primeiro passo é identificar os clusters existentes no conjunto de dados. Isso pode ser feito visualizando o gráfico de clusterização, como um gráfico de densidade ou um gráfico de dispersão das características.

Após identificar os clusters, vou analisar as características individuais para entender melhor a estrutura do agrupamento. Isso inclui considerar as seguintes perguntas:

- Qual é a frequência relativa de cada característica dentro e fora dos clusters?
- Quais são as características mais relevantes para o agrupamento?

Para responder essas perguntas, vou utilizar técnicas estatísticas como an

Conclusões:

- Predominância dos anos 2016 e 2017 (35.63%, 28.14%) NOTOK
- Predominância das regiões Sudeste e Nordeste (43.65%, 20.80%)  NOTOK
- Predominância das IES não estarem numa capital (69.21%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes (73.15%) NOTOK
- Predominância das Instituições sem repositorio institucional (68.00%) NOTOK
- Possuem predominância em busca integrada (65.43%) NOTOK
- Possuem serviço de internet (90.62%)  NOTOK
- Predominância em participar em redes sociais (65.28%) NOTOK
- Possuem catalogo online (72.39%) NOTOK
- Possuem predominância em ter outras bases (62.25%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (90,01%)  NOTOK
- Maioria dos anos da IES são Faculdade (95.39%)  NOTOK

- Quantidade de técnicos médio baixo (46.05	) NOTOK
- Quantidade de alunos média de alunos  moderado (1,202.21) NOTOK
- Corpo docente moderado na  média (60.92) NOTOK
- Moderada quantidade baixa de cursos (16.76) NOTOK
- Despesas e receitas média altas NOTOK
- Quantidade de periodicos e livros eletronicos com relev ncia baixo NOTOK

Insights falsos:
- A análise cria variaveis que não estão no contexto do projeto. 

In [662]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'sexto', 0.5, 18, 4, 14, 1, 0]

In [663]:
print(show_result_kmeans_prompt(kmeans_fase2, 1.0, 'sexto'))

Para realizar essa análise, vou seguir um método sistemático para entender os fatores que levaram à criação do cluster.

**Passo 1: Carregar e Preparar os Dados**

Primeiramente, carregarei o arquivo CSV fornecido e prepararei os dados para análise. Isso inclui limpezas de dados, remoção de valores nulos e transformações de escalas.

**Passo 2: Identificar as Características Relevantes**

A próxima etapa é identificar as características relevantes que podem estar relacionadas ao agrupamento do cluster. Isso pode ser feito analisando a distribuição dos dados, o número de valores únicos e a relação entre as variáveis.

**Passo 3: Visualização Exploratória**

Vou criar uma visualização exploratória para entender melhor os padrões nos dados. Isso pode incluir gráficos de barras, histogramas, dispersões e outros tipos de gráficos que ajudem a identificar as relações entre as variáveis.

**Passo 4: Análise Estatística**

Agora, vou realizar análises estatísticas para entender melhor os padrõ

Conclusões:

- Predominância dos anos 2016 e 2017 (35.63%, 28.14%) NOTOK
- Predominância das regiões Sudeste e Nordeste (43.65%, 20.80%)  NOTOK
- Predominância das IES não estarem numa capital (69.21%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes (73.15%) NOTOK
- Predominância das Instituições sem repositorio institucional (68.00%) NOTOK
- Possuem predominância em busca integrada (65.43%) NOTOK
- Possuem serviço de internet (90.62%) NOTOK 
- Predominância em participar em redes sociais (65.28%) NOTOK
- Possuem catalogo online (72.39%) NOTOK
- Possuem predominância em ter outras bases (62.25%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (90,01%)  OK
- Maioria dos anos da IES são Faculdade (95.39%) OK
 
- Quantidade de técnicos médio baixo (46.05	) NOTOK
- Quantidade de alunos média de alunos  moderado (1,202.21) NOTOK
- Corpo docente moderado na  média (60.92) NOTOK
- Moderada quantidade baixa de cursos (16.76) NOTOK
- Despesas e receitas média altas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixo NOTOK

Insights falsos:
- Suposições incondizentes com a realidade;
- A análsie não é feita para as avariaveis e sim sobre uma suposta distribuição do cluster. 


In [664]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'sexto', 1.0, 18, 3, 15, 0, 0]

### Seventh Cluster

In [665]:
print(show_result_kmeans_prompt(kmeans_fase2, 0, 'setimo'))

Entendo que você gostaria que eu analise um arquivo CSV fornecido e identifique os fatores que levaram à criação do cluster. Para isso, precisamos seguir uma cadeia de pensamentos para entender o comportamento dos dados.

Primeiramente, é fundamental entender o que é um cluster em análise de clustering. Um cluster é um agrupamento de pontos próximos uns dos outros no espaço de características, onde os pontos não são afins e não têm relações entre si. Os clusters podem ser formados por uma variedade de técnicas, incluindo a aglomeragem, a hierarquia, o k-medoids e a densidade.

Antes de começarmos a analisar o arquivo CSV, é importante saber qual técnica foi utilizada para criar o cluster. Infelizmente não tenho acesso ao código utilizado no procedimento, portanto farei apenas uma análise geral dos agrupamentos que se encontram no arquivo e farei um levantamento de possíveis fatores que podem ter influenciado a formação do cluster.

O primeiro passo é analisar as características do conj

Conclusões:

- Predominância das regiões Sudeste e Sul (44.90%, 24.32%) NOTOK
- Predominância das Instituições com acesso ao portal Capes (87.76%) NOTOK
- Predominância das Instituições com repositorio institucional (70.41%)  NOTOK
- Possuem predominância em busca integrada (67.18%) NOTOK
- Possuem serviço de internet (98.81%) NOTOK
- Predominância em participar em redes sociais (71.94%)  NOTOK
- Possuem catalogo online (92.69%)  NOTOK
- Possuem predominância em ter outras bases (91.16%)  NOTOK
- Maioria das instituições são privada sem fins, federal e com fins lurativos (46.26%, 25.68%, 19.90%)  NOTOK
- Maioria dos anos da IES são Universidade e centro universitario (69.73%, 22.28%)  NOTOK

- Quantidade de técnicos médio alto (1,170.62	) NOTOK
- Quantidade de alunos média de alunos alto (27,666.31) NOTOK
- Corpo docente alto na  média (970.69) NOTOK
- altga quantidade baixa de cursos (73.91) NOTOK
- Despesas e receitas média altas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância alto NOTOK

Insights falsos:
- Detalha uma etapa de análise dos clusters, mas não analisa o cluster. 

In [666]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'setimo', 0, 16, 7, 9, 1, 0]

In [667]:
print(show_result_kmeans_prompt(kmeans_fase2, 0.5, 'setimo'))

Vou te guiar através do processo de análise de dados para entender o agrupamento em questão.

Primeiramente, é importante lembrar que a análise de cluster é uma técnica estatística usada para identificar padrões ou estruturas não visíveis nos dados. O objetivo é dividir os dados em subconjuntos (clusters) com características semelhantes entre si.

**Passo 1: Preparação dos Dados**

Ao receber o CSV, a primeira coisa que faço é verificar se ele está bem estruturado e se as colunas estão sendo separadas corretamente. Nesse caso, suponho que as instâncias do cluster estarão em uma única linha, com todas as características separadas por vírgulas.

**Passo 2: Exploração dos Dados**

Em seguida, faço uma exploração dos dados para entender a distribuição das características e identificar possíveis tendências ou padrões. Isso inclui:

*   Análise de medidas centrais (média, média deslocada, mediana) e dispersão (desvio padrão, interquartilidade).
*   Gráficos de distribuição para visualizar a 

Conclusões:

- Predominância das regiões Sudeste e Sul (44.90%, 24.32%) NOTOK
- Predominância das Instituições com acesso ao portal Capes (87.76%) NOTOK
- Predominância das Instituições com repositorio institucional (70.41%) NOTOK
- Possuem predominância em busca integrada (67.18%)  NOTOK
- Possuem serviço de internet (98.81%)  NOTOK
- Predominância em participar em redes sociais (71.94%)  NOTOK
- Possuem catalogo online (92.69%) NOTOK
- Possuem predominância em ter outras bases (91.16%)
- Maioria das instituições são privada sem fins, federal e com fins lurativos (46.26%, 25.68%, 19.90%)  NOTOK
- Maioria dos anos da IES são Universidade e centro universitario (69.73%, 22.28%)  NOTOK

- Quantidade de técnicos médio alto (1,170.62	) NOTOK
- Quantidade de alunos média de alunos alto (27,666.31) NOTOK
- Corpo docente alto na  média (970.69) NOTOK
- altga quantidade baixa de cursos (73.91) NOTOK
- Despesas e receitas média altas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância alto NOTOK

Insights falsos:
- A análise feita é da distribuição do cluster, mas não das características do cluster. 

In [668]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'setimo', 0.5, 16, 7, 9, 1, 0]

In [669]:
print(show_result_kmeans_prompt(kmeans_fase2, 1.0, 'setimo'))

Entendo que você deseja que eu analise um conjunto de dados em formato CSV para identificar os fatores que levaram à criação de um determinado cluster. Vou seguir uma cadeia de pensamento lógica para alcançar essa análise.

**Passo 1: Carregar e Preparar os Dados**

O primeiro passo é carregar o conjunto de dados em formato CSV e prepará-lo para a análise. Isso inclui converter as colunas numéricas em tipo "número" e remover quaisquer valores nulos ou duplicados.

**Passo 2: Visualização Inicial**

Agora que os dados estão preparados, é importante visualizá-los inicialmente para entender a distribuição geral das características. Isso pode incluir gráficos de barras, histogramas e scatter plots para cada característica individual. Essa etapa ajuda a identificar quais são as variáveis mais relevantes e se há algum padrão ou tendência aparente.

**Passo 3: Análise de Correlação**

A próxima etapa é analisar a correlação entre as características individuais para entender como elas estão re

Conclusões:

- Predominância das regiões Sudeste e Sul (44.90%, 24.32%) NOTOK
- Predominância das Instituições com acesso ao portal Capes (87.76%)  NOTOK
- Predominância das Instituições com repositorio institucional (70.41%)  NOTOK
- Possuem predominância em busca integrada (67.18%)  NOTOK
- Possuem serviço de internet (98.81%)  NOTOK
- Predominância em participar em redes sociais (71.94%)  NOTOK
- Possuem catalogo online (92.69%)  NOTOK
- Possuem predominância em ter outras bases (91.16%)  NOTOK
- Maioria das instituições são privada sem fins, federal e com fins lurativos (46.26%, 25.68%, 19.90%)  NOTOK
- Maioria dos anos da IES são Universidade e centro universitario (69.73%, 22.28%)  NOTOK

- Quantidade de técnicos médio alto (1,170.62	) NOTOK
- Quantidade de alunos média de alunos alto (27,666.31) NOTOK
- Corpo docente alto na  média (970.69) NOTOK
- altga quantidade baixa de cursos (73.91) NOTOK
- Despesas e receitas média altas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância alto NOTOK

Insights:
- A análise cria outras variaveis fora do contexto do cluster. 

In [670]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'setimo', 1.0, 16, 9, 7, 3, 0]

# K-means

### Fase 4

In [671]:
analise_kmeans_fase4 = pd.DataFrame([], columns=['prompt', 'cluster', 'temperature', 'Total_suposições', 'Mapeadas_pelo_modelo', 'Ignoradas_pelo_modelo', 'alucinação_do_modelo', 'insights'])

In [672]:
kmeans_fase4 = pd.read_csv('Models/results/K-means_Fase 4_results.csv')

In [673]:
kmeans_fase4.loc[(kmeans_fase4['temperature'] == 1) & (kmeans_fase2['cluster'] == 'primeiro'), ['result']]['result'].tolist()[0]

'**QT_ALUNOS**\n\n* Analise estatística: A média da variável QT_ALUNOS é de 500,00 alunos. A mediana é de 450,00 alunos e a moda não é estatisticamente significativa.\n* Relação com outra variável: Existem um padrão de crescimento linear entre a quantidade de alunos e a quantidade de cursos. Isso sugere que as instituições com mais alunos tendem a ter mais cursos.\n\n**QT_DOCENTES**\n\n* Analise estatística: A média da variável QT_DOCENTES é de 200,00 docentes. A mediana é de 180,00 docentes e a moda não é estatisticamente significativa.\n* Relação com outra variável: Existem um padrão de inversão entre a quantidade de docentes e a quantidade de receita da instituição. Isso sugere que as instituições com mais docentes tendem a ter menos receita.\n\n**QT_CURSO**\n\n* Analise estatística: A média da variável QT_CURSO é de 20,00 cursos. A mediana é de 15,00 cursos e a moda não é estatisticamente significativa.\n* Relação com outra variável: Existem um padrão de positividade entre a quanti

In [717]:
analise_kmeans_fase4 

Unnamed: 0,prompt,cluster,temperature,Total_suposições,Mapeadas_pelo_modelo,Ignoradas_pelo_modelo,alucinação_do_modelo,insights
0,Fase 4,primeiro,0.0,15,7,8,1,0
1,Fase 4,primeiro,0.5,15,9,6,2,0
2,Fase 4,primeiro,1.0,15,9,6,2,0
3,Fase 4,segundo,0.0,17,2,15,4,0
4,Fase 4,segundo,0.5,17,4,13,2,0
5,Fase 4,segundo,1.0,17,4,13,2,0
6,Fase 4,terceiro,0.0,15,2,13,3,1
7,Fase 4,terceiro,0.5,15,5,10,2,4
8,Fase 4,terceiro,1.0,15,5,10,2,4
9,Fase 4,quarto,0.0,17,3,14,3,2


In [718]:
analise_kmeans_fase4.to_csv('analise_kmeans_fase4.csv', index=False, encoding='utf-8')

### First Cluster


In [675]:
print(show_result_kmeans_prompt(kmeans_fase4, 0, 'primeiro'))

**QT_ALUNOS**: 
 - Analise estatística: média da variável é 200,00 e a mediana é 180,00 com um modo de 100. 
 - Relação com outra variável: Verificar a relação entre o número de alunos e o tamanho do quadro-rio. 

**QT_DOCENTES**: 
 - Analise estatística: média da variável é 30,00 e a mediana é 20,00 com um modo de 10. 
 - Relação com outra variável: Verificar a relação entre o número de docentes e a quantidade de cursos oferecidos.

**QT_CURSO**: 
 - Analise estatística: média da variável é 40,00 e a mediana é 30,00 com um modo de 20. 
 - Relação com outra variável: Verificar a relação entre o número de cursos e o tamanho do quadro-rio.

**QT_TEC_TOTAL**: 
 - Analise estatística: média da variável é 60,00 e a mediana é 50,00 com um modo de 30. 
 - Relação com outra variável: Verificar a relação entre o número de técnicos e o tamanho do quadro-rio.

**QT_PERIODICO_ELETRONICO**: 
 - Analise estatística: média da variável é 100,00 e a mediana é 80,00 com um modo de 50. 
 - Relação com ou

Conclusões:

- Predominância das regiões Sudeste, Nordeste e Sul (37.43%, 22.35%, 18.81%) NOT OK
- Uma incidência das IES não estarem numa capital (59,78%) NOT OK
- Instituições com acesso ao portal Capes (87.34%) NOT OK
- Possuem serviço de internet (94.97%) NOT OK
- Participam em redes sociais (71.51%) NOT OK
- Possuem catalogo online (86.22%) NOT OK
- Busca integrada (58.29%) NOT OK
- Quase a métade das IES são públicas federais, Privada sem fins lucrativos, Pública Estadual (49.16%, 22.91%, 21.04%) NOT OK
- Mais da metade das IES são do tipo universidade e Instituto Federal de Educação, Ciência e Tecnologia (59.96%, 20.48%) NOT OK

- Quantidade alta de técnicos na média (765.03) NOT OK
- Quantidade de alunos média de alunos alto (12,553.95) NOT OK
- Corpo docente forte na média (761.73) NOT OK
- Quantidade considerável de cursos na média (média de 52.45) NOT OK
- Despesas e receitas média moderadas NOT OK
- Quantidade de periodicos e livros eletronicos com relevância baixa OK

InsightS:
- A análise trouxe  variaveis relevantes condizentes com a base de dados, mas não detalha a importancia no cluster 
 


In [676]:
analise_kmeans_fase4.loc[len(analise_kmeans_fase4)] = ['Fase 4', 'primeiro', 0, 15, 7, 8, 1, 0]

In [677]:
print(show_result_kmeans_prompt(kmeans_fase4, 0.5, 'primeiro'))

**Análise Estatística**

A seguir, apresento as análises estatísticas das variáveis para cada uma das colunas do CSV:

* **QT_ALUNOS**: 
 + Média: 150
 + Mediana: 120
 + Moda: 100
 + Relação com T1_VL_RECEITAS: Positiva, com uma média de 3000
 + Relação com NOME_CATEGORIA_ADMINISTRATIVA: Positiva, com uma maior frequência em instituições públicas
* **QT_DOCENTES**: 
 + Média: 80
 + Mediana: 60
 + Moda: 50
 + Relação com T1_VL_RECEITAS: Negativa, com uma média de -1000
 + Relação com IN_OUTRAS_BASES: Positiva, com uma maior frequência em instituições que têm outras bases
* **QT_CURSO**: 
 + Média: 30
 + Mediana: 20
 + Moda: 10
 + Relação com NOME_ORGANIZACAO_ACADEMICA: Positiva, com uma maior frequência em universidades públicas
* **QT_TEC_TOTAL**: 
 + Média: 100
 + Mediana: 80
 + Moda: 60
 + Relação com IN_REPOSITORIO_INSTITUCIONAL: Positiva, com uma maior frequência em instituições que têm repositorio institucional
* **QT_PERIODICO_ELETRONICO**: 
 + Média: 10
 + Mediana: 5
 + Moda: 0


Conclusões:

- Predominância das regiões Sudeste, Nordeste e Sul (37.43%, 22.35%, 18.81%)  NOT OK
- Uma incidência das IES não estarem numa capital (59,78%)  NOT OK
- Instituições com acesso ao portal Capes (87.34%) NOT OK
- Possuem serviço de internet (94.97%) OK
- Participam em redes sociais (71.51%) NOT OK
- Possuem catalogo online (86.22%) NOT OK
- Busca integrada (58.29%) NOT OK
- Quase a métade das IES são públicas federais, Privada sem fins lucrativos, Pública Estadual (49.16%, 22.91%, 21.04%) OK
- Mais da metade das IES são do tipo universidade e Instituto Federal de Educação, Ciência e Tecnologia (59.96%, 20.48%) NOT OK

- Quantidade alta de técnicos na média (765.03) NOT OK
- Quantidade de alunos média de alunos alto (12,553.95) OK 
- Corpo docente forte na média (761.73) OK
- Quantidade considerável de cursos na média (média de 52.45)  NOT OK
- Despesas e receitas média moderadas OK
- Quantidade de periodicos e livros eletronicos com relevância baixa NOT OK

Insights:
- A análise trás uma relaçãoe ntre universidade públicas e o número de docentes onde os alunos tem mais chance de vir a ser docente quando são de uma universidade pública.


In [678]:
analise_kmeans_fase4.loc[len(analise_kmeans_fase4)] = ['Fase 4',  'primeiro', 0.5, 15, 9, 6, 2, 0]

In [679]:
print(show_result_kmeans_prompt(kmeans_fase4, 1.0, 'primeiro'))

**QT_ALUNOS**

* Analise estatística: A média da variável QT_ALUNOS é de 500,00 alunos. A mediana é de 450,00 alunos e a moda não é estatisticamente significativa.
* Relação com outra variável: Existem um padrão de crescimento linear entre a quantidade de alunos e a quantidade de cursos. Isso sugere que as instituições com mais alunos tendem a ter mais cursos.

**QT_DOCENTES**

* Analise estatística: A média da variável QT_DOCENTES é de 200,00 docentes. A mediana é de 180,00 docentes e a moda não é estatisticamente significativa.
* Relação com outra variável: Existem um padrão de inversão entre a quantidade de docentes e a quantidade de receita da instituição. Isso sugere que as instituições com mais docentes tendem a ter menos receita.

**QT_CURSO**

* Analise estatística: A média da variável QT_CURSO é de 20,00 cursos. A mediana é de 15,00 cursos e a moda não é estatisticamente significativa.
* Relação com outra variável: Existem um padrão de positividade entre a quantidade de cursos

Conclusões:

- Predominância das regiões Sudeste, Nordeste e Sul (37.43%, 22.35%, 18.81%)  NOT OK
- Uma incidência das IES não estarem numa capital (59,78%) NOT OK
- Instituições com acesso ao portal Capes (87.34%) NOT OK
- Possuem serviço de internet (94.97%) NOT OK
- Participam em redes sociais (71.51%) NOT OK
- Possuem catalogo online (86.22%) NOT OK
- Busca integrada (58.29%) NOT OK
- Quase a métade das IES são públicas federais, Privada sem fins lucrativos, Pública Estadual (49.16%, 22.91%, 21.04%) 
- Mais da metade das IES são do tipo universidade e Instituto Federal de Educação, Ciência e Tecnologia (59.96%, 20.48%) 

- Quantidade alta de técnicos na média (765.03) OK
- Quantidade de alunos média de alunos alto (12,553.95) 
- Corpo docente forte na média (761.73) OK
- Quantidade considerável de cursos na média (média de 52.45) NOT OK 
- Despesas e receitas média moderadas  OK
- Quantidade de periodicos e livros eletronicos com relevância baixa  NOT OK

Insights :
- Padrão de positividade entre a quantidade de periodicos eletronicos e a quantidade de receita da instituição (instituições com o maior número de periodicos eletronicos tendem a ter mais receita)


In [680]:
analise_kmeans_fase4.loc[len(analise_kmeans_fase4)] = ['Fase 4',  'primeiro', 1.0, 15, 9, 6, 2, 0]

### Second Cluster


In [681]:
print(show_result_kmeans_prompt(kmeans_fase4, 0, 'segundo'))

**Coluna**: QT_ALUNOS
"Analise estatística: média (15.200), mediana (12) e moda (0). Verificar relação com T1_VL_RECEITAS. A média é significativamente maior do que a mediana, indicando uma tendência de concentração de alunos em cursos mais rentáveis."

**Inferências**: Existem instituições que investiram em quantidade de alunos para aumentar as receitas da instituição, mas não necessariamente com um impacto positivo na qualidade do ensino.

**Análise geral do agrupamento**: A variável QT_ALUNOS parece estar relacionada à categoria administrativa da instituição (NOME_CATEGORIA_ADMINISTRATIVA). Instituições de categorias administrativas mais altas tendem a ter mais alunos. No entanto, é importante notar que esta relação pode ser influenciada por outros fatores.

**Coluna**: QT_DOCENTES
"Analise estatística: média (25), mediana (20) e moda (10). Verificar relação com IN_CAPITAL e NOME_CATEGORIA_ADMINISTRATIVA. A média é significativamente maior do que a mediana, indicando uma tendência d

Conclusões:

- Predominância dos anos 2018 e 2019 (60,12%) NOTOK
- Predominância das regiões Sudeste e Nordeste (60,67%) NOTOK
- Uma incidência das IES não estarem numa capital (59.38%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes (63.25%) NOTOK
- Possuem busca integrada (74.35%) OK
- Possuem serviço de internet (93.00%) NOTOK
- Participam em redes sociais (74.03%) NOTOK
- Possuem predominância em catalogo online (64.87%) NOTOK
- Possuem predominâncai em ter outras bases (69.29%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (98,6) NOTOK
- Maioria dos anos da IES são Faculdade (99.89%) NOTOK

- Pouca quantidade de técnicos na média (12.87) NOTOK
- Quantidade de alunos média de alunos abaixo (153.83) NOTOK
- Corpo docente muito pouco na média (14.20) NOTOK
- Pouca quantidade de cursos (2.30) NOTOK
- Despesas e receitas média moderadas OK
- Quantidade de periodicos e livros eletronicos com relevância baixa  NOTOK

Insights:
- Não são apresnetadas Características aprofundadas a respeito das variaveis
- A análsie destaca a necessidade de analises complementares




In [682]:
analise_kmeans_fase4.loc[len(analise_kmeans_fase4)] = ['Fase 4',  'segundo', 0, 17, 2, 15, 4, 0]

In [683]:
print(show_result_kmeans_prompt(kmeans_fase4, 0.5, 'segundo'))

**Analise Estatística e Inferências**

**QT_ALUNOS**: A média é de 200,00 com uma variação padrão de 50,00. Há uma relação positiva entre a quantidade de alunos e a receita da instituição (R = 0,85), indicando que as instituições com mais alunos tendem a ter mais receita.

**QT_DOCENTES**: A média é de 120,00 com uma variação padrão de 30,00. Há uma relação positiva entre a quantidade de docentes e a receita da instituição (R = 0,80), indicando que as instituições com mais docentes tendem a ter mais receita.

**QT_CURSO**: A média é de 5,00 com uma variação padrão de 2,00. Não há relação significativa entre a quantidade de cursos e a receita da instituição.

**QT_TEC_TOTAL**: A média é de 20,00 com uma variação padrão de 10,00. Há uma relação negativa entre a quantidade de técnicos e a receita da instituição (R = -0,60), indicando que as instituições com mais técnicos tendem a ter menos receita.

**QT_PERIODICO_ELETRONICO**: A média é de 30,00 com uma variação padrão de 15,00. Há uma r

Conclusões:

- Predominância dos anos 2018 e 2019 (60,12%) NOTOK
- Predominância das regiões Sudeste e Nordeste (60,67%) NOT OK
- Uma incidência das IES não estarem numa capital (59.38%) NOT OK
- Predominância das Instituições sem acesso ao portal Capes (63.25%) NOT OK
- Possuem busca integrada (74.35%) NOT OK
- Possuem serviço de internet (93.00%) NOT OK
- Participam em redes sociais (74.03%) NOT OK
- Possuem predominância em catalogo online (64.87%) NOT OK
- Possuem predominâncai em ter outras bases (69.29%) NOT OK
- Maioria das instituições são privada (com e sem fins lucrativos) (98,6) NOT OK
- Maioria dos anos da IES são Faculdade (99.89%) NOT OK

- Pouca quantidade de técnicos na média (12.87) NOT OK
- Quantidade de alunos média de alunos abaixo (153.83) NOT OK
- Corpo docente muito pouco na média (14.20) NOT OK
- Pouca quantidade de cursos (2.30) NOT OK
- Despesas e receitas média moderadas OK
- Quantidade de periodicos e livros eletronicos com relevância baixa NOT OK

Insights :
- A análise é focada entre a relação das receitas e despesas e as variaveis( instituições com mais técnicos tendem a termais despesas enquanto que com mais docentes tendem a ter mais receita).




In [684]:
analise_kmeans_fase4.loc[len(analise_kmeans_fase4)] = ['Fase 4',  'segundo', 0.5, 17, 4, 13, 2, 0]

In [685]:
print(show_result_kmeans_prompt(kmeans_fase4, 1.0, 'segundo'))

**Coluna**: QT_ALUNOS

*   Analise estatística: A média da variável é de 200, a mediana é de 180 e a moda é de 150. 
*   Relação com outra variável: Não há uma relação estatística clara entre a quantidade de alunos e outras variáveis. No entanto, pode-se observar que instituições com mais alunos tendem a ter mais recursos financeiros (T1_VL_RECEITAS).

**Inferências**: A quantidade de alunos não parece ser um fator determinante na formação do agrupamento. Além disso, é possível que as instituições com mais recursos financeiros possam oferecer cursos e programas mais atraentes para os estudantes.

**Análise geral do agrupamento**: É importante notar que o agrupamento não parece estar diretamente relacionado à quantidade de alunos. Em vez disso, pode-se observar uma tendência de instituições com mais recursos financeiros oferecerem programas e cursos mais atraentes para os estudantes.

**Coluna**: QT_DOCENTES

*   Analise estatística: A média da variável é de 50, a mediana é de 40 e a mo

Conclusões:

- Predominância dos anos 2018 e 2019 (60,12%) NOTOK
- Predominância das regiões Sudeste e Nordeste (60,67%) NOTOK
- Uma incidência das IES não estarem numa capital (59.38%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes (63.25%) NOTOK
- Possuem busca integrada (74.35%) NOTOK
- Possuem serviço de internet (93.00%) NOTOK
- Participam em redes sociais (74.03%) NOTOK
- Possuem predominância em catalogo online (64.87%) NOTOK
- Possuem predominâncai em ter outras bases (69.29%)NOTOK 
- Maioria das instituições são privada (com e sem fins lucrativos) (98,6) NOTOK
- Maioria dos anos da IES são Faculdade (99.89%) NOTOK

- Pouca quantidade de técnicos na média (12.87) NOTOK
- Quantidade de alunos média de alunos abaixo (153.83) NOTOK
- Corpo docente muito pouco na média (14.20) NOTOK
- Pouca quantidade de cursos (2.30) NOTOK
- Despesas e receitas média moderadas OK
- Quantidade de periodicos e livros eletronicos com relevância baixa NOTOK

Insights:
- A análsie só foca em 3 variaveis
- Destaca um relação negativa entre a quantidade de docentes e a quantidade de técnicos




In [686]:
analise_kmeans_fase4.loc[len(analise_kmeans_fase4)] = ['Fase 4',  'segundo', 1.0, 17, 4, 13, 2, 0]

### Third Cluster

In [687]:
print(show_result_kmeans_prompt(kmeans_fase4, 0, 'terceiro'))

**Análise Estatística e Exploratória dos Agrupamentos**

Considerando as informações fornecidas, podemos começar a analisar os agrupamentos com base nas colunas apresentadas.

**Coluna:** QT_ALUNOS
"Analise estatística: A média de QT_ALUNOS é de 200, a mediana é de 150 e a moda é de 100. Verificar relação com outra variável: há uma correlação positiva entre QT_ALUNOS e T1_VL_RECEITAS (receita da instituição), sugerindo que as instituições com mais alunos tendem a ter mais receita."

**Inferências:** A relação entre a quantidade de alunos e a receita sugere que as instituições com mais recursos econômicos tendem a ter mais alunos.

**Análise geral do agrupamento:** Os dados indicam que as instituições com mais alunos tendem a ter mais recursos econômicos, o que pode ser um fator importante para a criação de agrupamentos.

**Coluna:** QT_DOCENTES
"Analise estatística: A média de QT_DOCENTES é de 50, a mediana é de 30 e a moda é de 20. Verificar relação com outra variável: há uma correlaç

Conclusões:

- Predominância das regiões Sudeste e Nordeste e Sul (47.17%, 19.17%, 17.48%) NOT OK
- Predominãncia das IES não estarem numa capital (62.70%) NOT OK
- Instituições sem acesso ao portal Capes (83.09%) NOT OK
- Possuem predominância em não possuir repositorio institucional (74.68%) NOT OK
- Possuem predominância em serviço de internet (79.13%) NOT OK
- Predominância em participar em redes sociais (62.62%) NOT OK
- Possuem predominância em ter outras bases (75.57%) NOT OK
- Maioria das instituições são privada (com e sem fins lucrativos) (97,73)  NOT OK
- Maioria dos anos da IES são Faculdade (99.92%) NOT OK

- Quantidade baixa de média de técnicos (10.78) NOT OK
- Quantidade de alunos média de alunos baixo (185.81) NOT OK
- Corpo docente muito baixo na média (16.72) NOT OK
- Pouca quantidade de cursos (2.03) NOT OK
- Despesas e receitas média moderadas NOT OK
- Quantidade de periodicos e livros eletronicos com relevância baixaNOT OK

Insights:
- Análise foca em 3 variaveis `QT_ALUNOS`, `IN_CAPITAL`, `QT_DOCENTES`  e a relação com a receitas e despesas 
- instituições com recursos de informação mais avançados tendem a ter uma administração mais eficiente. 


In [688]:
analise_kmeans_fase4.loc[len(analise_kmeans_fase4)] = ['Fase 4',  'terceiro', 0, 15, 2, 13, 3, 1]

In [689]:
print(show_result_kmeans_prompt(kmeans_fase4, 0.5, 'terceiro'))

**Análise dos Agrupamentos**

**Coluna**: QT_ALUNOS

*   Analise estatística: Média = 120, Mediana = 100, Moda = 90
*   Relação com outra variável: Não há relação significativa com outras variáveis, exceto por uma média ligeiramente maior na região Norte.
*   Inferências: A instituição tem um número médio de alunos em todo o país, mas uma tendência ligeira para mais alunos no Norte.

**Coluna**: QT_DOCENTES

*   Analise estatística: Média = 50, Mediana = 40, Moda = 30
*   Relação com outra variável: Existe uma relação positiva com a quantidade de alunos, pois instituições com mais alunos tendem a ter mais docentes.
*   Inferências: A instituição tem um número médio de docentes em todo o país e está em um relacionamento positivo com a quantidade de alunos.

**Coluna**: QT_CURSO

*   Analise estatística: Média = 20, Mediana = 15, Moda = 10
*   Relação com outra variável: Não há relação significativa com outras variáveis.
*   Inferências: A instituição tem um número médio de cursos em tod

Conclusões:

- Predominância das regiões Sudeste e Nordeste e Sul (47.17%, 19.17%, 17.48%) NOT OK
- Predominãncia das IES não estarem numa capital (62.70%) NOT OK
- Instituições sem acesso ao portal Capes (83.09%) NOT OK
- Possuem predominância em não possuir repositorio institucional (74.68%) NOT OK
- Possuem predominância em serviço de internet (79.13%) NOT OK
- Predominância em participar em redes sociais (62.62%) NOT OK
- Possuem predominância em ter outras bases (75.57%) NOT OK
- Maioria das instituições são privada (com e sem fins lucrativos) (97,73) NOT OK
- Maioria dos anos da IES são Faculdade (99.92%) NOT OK

- Quantidade baixa de média de técnicos (10.78) NOT OK
- Quantidade de alunos média de alunos baixo (185.81) NOT OK
- Corpo docente muito baixo na média (16.72) NOT OK
- Pouca quantidade de cursos (2.03) NOT OK
- Despesas e receitas média moderadas NOT OK
- Quantidade de periodicos e livros eletronicos com relevância baixa NOT OK

Insights falsos:
- A instituição tem maior insidência na região norte
- Quantidade de Alunos e docentes é positiva 
- A nálise naão destaca todas as variaveis relevantes e apresenta uma descrição superficial das caracteríticas. 

In [690]:
analise_kmeans_fase4.loc[len(analise_kmeans_fase4)] = ['Fase 4',  'terceiro', 0.5, 15, 5, 10, 2, 4]

In [691]:
print(show_result_kmeans_prompt(kmeans_fase4, 1.0, 'terceiro'))

**QT_ALUNOS**: "A média da quantidade de alunos é de 200, com uma mediana de 180 e uma moda de 150. Observa-se que a variabilidade é relativamente baixa, indicando um tamanho moderado do agrupamento."

**QT_DOCENTES**: "A média da quantidade de docentes é de 50, com uma mediana de 40 e uma moda de 30. A relação entre o número de alunos e o número de docentes é significativa, pois podemos observar que a quantidade de alunos está inversamente relacionada à quantidade de docentes."

**QT_CURSO**: "A média da quantidade de cursos é de 20, com uma mediana de 15 e uma moda de 10. A relação entre a quantidade de cursos e o número de alunos é positiva, pois as instituições com mais cursos tendem a ter mais alunos."

**QT_TEC_TOTAL**: "A média da quantidade de técnicos é de 5, com uma mediana de 4 e uma moda de 3. A relação entre o número de técnicos e o número de alunos é positiva, pois as instituições com mais técnicos tendem a ter mais alunos."

**QT_PERIODICO_ELETRONICO**: "A média da quant

Conclusões:

- Predominância das regiões Sudeste e Nordeste e Sul (47.17%, 19.17%, 17.48%) NOT OK
- Predominãncia das IES não estarem numa capital (62.70%) NOT OK
- Instituições sem acesso ao portal Capes (83.09%) NOT OK
- Possuem predominância em não possuir repositorio institucional (74.68%) NOT OK
- Possuem predominância em serviço de internet (79.13%) NOT OK
- Predominância em participar em redes sociais (62.62%) NOT OK
- Possuem predominância em ter outras bases (75.57%) NOT OK
- Maioria das instituições são privada (com e sem fins lucrativos) (97,73)  NOT OK
- Maioria dos anos da IES são Faculdade (99.92%) NOT OK

- Quantidade baixa de média de técnicos (10.78) NOT OK
- Quantidade de alunos média de alunos baixo (185.81) NOT OK
- Corpo docente muito baixo na média (16.72) NOT OK
- Pouca quantidade de cursos (2.03) NOT OK
- Despesas e receitas média moderadas NOT OK
- Quantidade de periodicos e livros eletronicos com relevância baixaNOT OK

Insights falsos:
- Apesar de trazer as variaveis de influência, detalhou que todas elas eram positivas. 

In [692]:
analise_kmeans_fase4.loc[len(analise_kmeans_fase4)] = ['Fase 4',  'terceiro', 1.0, 15, 5, 10, 2, 4]

### Forth Cluster

In [693]:
print(show_result_kmeans_prompt(kmeans_fase4, 0, 'quarto'))

**Análise Estatística das Colunas**

*   **QT_ALUNOS**: A média é de 250 alunos. A mediana é de 200 e a moda não é relevante neste caso. A relação com outra variável pode ser feita com a coluna **T1_VL_RECEITAS**, pois instituições com mais alunos tendem a ter mais receitas.
*   **QT_DOCENTES**: A média é de 80 docentes. A mediana é de 75 e a moda não é relevante neste caso. A relação com outra variável pode ser feita com a coluna **T1_VL_RECEITAS**, pois instituições com mais docentes tendem a ter mais receitas.
*   **QT_CURSO**: A média é de 15 cursos. A mediana é de 12 e a moda não é relevante neste caso. A relação com outra variável pode ser feita com a coluna **CO_REGIAO**, pois instituições na mesma região tendem a ter mais cursos.
*   **QT_TEC_TOTAL**: A média é de 30 técnicos. A mediana é de 25 e a moda não é relevante neste caso. A relação com outra variável pode ser feita com a coluna **IN_CAPITAL**, pois instituições na capital tendem a ter mais técnicos.
*   **QT_PERIODICO_

Conclusões:

- Predominância dos anos 2018 e 2019 (60,08%) NOT OK
- Predominância das regiões Sudeste, Sul e Nordeste (82,92%) NOT OK
- Uma incidência das IES não estarem numa capital (68.85%)NOT OK
- Predominância das Instituições sem acesso ao portal Capes ( 64.73%) NOT OK
- Possuem predominância em busca integrada (77.29%) NOTOK
- Possuem serviço de internet (97.45%) NOT OK
- Predominância em participar em redes sociais (71.20%) NOT OK
- Possuem predominância em ter catalogo online (79.45%) NOT OK
- Possuem predominância em ter outras bases (73.43%) NOT OK
- Maioria das iinstituições são privada (com e sem fins lucrativos) (98,04) NOT OK
- Maioria dos anos da IES são Faculdade (99.15%) NOT OK

- Quantidade de técnicos na média baixo (33.68	) NOT OK
- Quantidade de alunos média de alunos  moderado (932.89)NOT OK
- Corpo docente muito na média (45.12) NOT OK
- Pouca quantidade média de cursos (6.21) NOT OK
- Despesas e receitas média acima do moderado NOT OK
- Quantidade de periodicos e livros eletronicos com relevância alto NOT OK

Insights:
- A maioria das instituiçẽos não esta localizada na rgião norte 
- instituições com mais receitas tendem a ter mais livros eletrônicos.
- A análise realizada é de correlação 



In [694]:
analise_kmeans_fase4.loc[len(analise_kmeans_fase4)] = ['Fase 4',  'quarto', 0, 17, 3, 14, 3, 2]

In [695]:
print(show_result_kmeans_prompt(kmeans_fase4, 0.5, 'quarto'))

**Análise do Cluster**

Considerando o CSV fornecido, vamos realizar uma análise estatística e exploratória para entender melhor o cluster.

** QT_ALUNOS**: "A média de alunos é de 500, com uma mediana de 400 e uma moda de 300. É interessante notar que a distribuição dos alunos parece ser simétrica, sugerindo que pode haver uma relação entre a quantidade de alunos e o tamanho da instituição."

** QT_DOCENTES**: "A média de docentes é de 20, com uma mediana de 15 e uma moda de 10. É surpreendente notar que a quantidade de docentes parece estar inversamente relacionada à quantidade de alunos, sugerindo que possivelmente as instituições com mais alunos têm menos docentes."

** QT_CURSO**: "A média de cursos é de 5, com uma mediana de 3 e uma moda de 2. É interessante notar que a quantidade de cursos parece estar relacionada à quantidade de alunos e docentes, sugerindo que as instituições com mais alunos e docentes podem ter mais cursos."

** QT_TEC_TOTAL**: "A média de técnicos é de 5, co

Conclusões:

- Predominância dos anos 2018 e 2019 (60,08%) NOT OK
- Predominância das regiões Sudeste, Sul e Nordeste (82,92%) NOT OK
- Uma incidência das IES não estarem numa capital (68.85%)NOT OK
- Predominância das Instituições sem acesso ao portal Capes ( 64.73%) NOT OK
- Possuem predominância em busca integrada (77.29%) NOTOK
- Possuem serviço de internet (97.45%) NOT OK
- Predominância em participar em redes sociais (71.20%) NOT OK
- Possuem predominância em ter catalogo online (79.45%) NOT OK
- Possuem predominância em ter outras bases (73.43%) NOT OK
- Maioria das iinstituições são privada (com e sem fins lucrativos) (98,04) NOT OK
- Maioria dos anos da IES são Faculdade (99.15%) NOT OK

- Quantidade de técnicos na média baixo (33.68	) NOT OK
- Quantidade de alunos média de alunos  moderado (932.89)NOT OK
- Corpo docente muito na média (45.12) NOT OK
- Pouca quantidade média de cursos (6.21) NOT OK
- Despesas e receitas média acima do moderado NOT OK
- Quantidade de periodicos e livros eletronicos com relevância alto NOT OK

Insights:
- instituições com mais alunos e docentes podem ter mais chances de ter um repositorio institucional




In [696]:
analise_kmeans_fase4.loc[len(analise_kmeans_fase4)] = ['Fase 4',  'quarto', 0.5, 17, 7, 10, 3, 0]

In [697]:
print(show_result_kmeans_prompt(kmeans_fase4, 1.0, 'quarto'))

**Análise Estatística**

A seguir, apresentamos as análises estatísticas para cada variável:

* **QT_ALUNOS**: Média = 500, Mediana = 450, Moda = 400 (aparece mais de uma vez). Verificar relação com: QT_DOCENTES.
* **QT_DOCENTES**: Média = 80, Mediana = 70, Moda = 60 (aparece mais de uma vez). Verificar relação com: QT_ALUNOS.
* **QT_CURSO**: Média = 10, Mediana = 9, Moda = 8. Não há relação estatística significativa com outras variáveis.
* **QT_TEC_TOTAL**: Média = 20, Mediana = 18, Moda = 15 (aparece mais de uma vez). Verificar relação com: QT-periodico_eletronico e QT_LIVRO_ELETRONICO.
* **QT_PERIODICO_ELETRONICO**: Média = 5, Mediana = 4, Moda = 3. Verificar relação com: QT_TEC_TOTAL e QT_LIVRO_ELETRONICO.
* **QT_LIVRO_ELETRONICO**: Média = 2, Mediana = 1, Moda = 0 (aparece mais de uma vez). Verificar relação com: QT_PERIODICO_ELETRONICO e QT_TEC_TOTAL.
* **T1_VL_RECEITAS**: Média = 10.000.000, Mediana = 8.500.000, Moda = 7.000.000. Verificar relação com: T1_VL_DESPESAS e IN_CAPITA

Conclusões:

- Predominância dos anos 2018 e 2019 (60,08%) NOT OK
- Predominância das regiões Sudeste, Sul e Nordeste (82,92%) NOT OK
- Uma incidência das IES não estarem numa capital (68.85%)NOT OK
- Predominância das Instituições sem acesso ao portal Capes ( 64.73%) NOT OK
- Possuem predominância em busca integrada (77.29%) NOTOK
- Possuem serviço de internet (97.45%) NOT OK
- Predominância em participar em redes sociais (71.20%) NOT OK
- Possuem predominância em ter catalogo online (79.45%) NOT OK
- Possuem predominância em ter outras bases (73.43%) NOT OK
- Maioria das iinstituições são privada (com e sem fins lucrativos) (98,04) NOT OK
- Maioria dos anos da IES são Faculdade (99.15%) NOT OK

- Quantidade de técnicos na média baixo (33.68	) NOT OK
- Quantidade de alunos média de alunos  moderado (932.89)NOT OK
- Corpo docente muito na média (45.12) NOT OK
- Pouca quantidade média de cursos (6.21) NOT OK
- Despesas e receitas média acima do moderado NOT OK
- Quantidade de periodicos e livros eletronicos com relevância alto NOT OK

Insights:
-  instituições na capital tendem a ter uma receita maior e um custo menor, o que sugere que elas podem ter mais recursos disponíveis
- A análise é baseada ter relevancia significativa ou não. 




In [698]:
analise_kmeans_fase4.loc[len(analise_kmeans_fase4)] = ['Fase 4',  'quarto', 1.0, 17, 4, 13, 3, 1]

### Firth Cluster


In [699]:
print(show_result_kmeans_prompt(kmeans_fase4, 0, 'quinto'))

**Coluna**: QT_ALUNOS
"Analise estatística: A média da variável é de 150, a mediana é de 120 e a moda é de 100. Essa variável está relacionada com a quantidade de alunos que compõem o agrupamento. É provável que a instituição tenha uma população acadêmica em crescimento."

**Inferências**: "A alta média da variável pode indicar uma instituição com uma população academia mais desenvolvida, o que pode estar relacionado à qualidade dos cursos oferecidos."

**Análise geral do agrupamento**: "Essa variável está estreitamente relacionada com a quantidade de alunos e pode ser um indicador da importância da educação no agrupamento. A instituição pode estar enfatizando a educação como uma prioridade."

**Coluna**: QT_DOCENTES
"Analise estatística: A média da variável é de 50, a mediana é de 40 e a moda é de 30. Essa variável está relacionada com a quantidade de docentes que compõem o agrupamento. É provável que a instituição tenha uma equipe docente relativamente pequena."

**Inferências**: "A 

Conclusões:

- Predominância das regiões Sudeste e Nordeste (69,45%) NOT OK
- Uma incidência das IES não estarem numa capital (59.17%)NOT OK
- Predominância das Instituições sem acesso ao portal Capes ( 63.55%) NOT OK
- Possuem predominância em busca integrada (77.90%) NOT OK
- Possuem serviço de internet (97.47%) NOT OK
- Predominância em participar em redes sociais (60.40%) NOT OK
- Possuem catalogo online (85.57%) NOT OK
- Possuem predominância em ter outras bases (78.28%) NOT OK
- Maioria das instituições são privada (com e sem fins lucrativos) (96,85) NOT OK
- Maioria dos anos da IES são Faculdade e centro universitário (66.16%, 32.23%) NOT OK

- Quantidade de técnicos médio moderado (143.65) NOT OK
- Quantidade de alunos média de alunos acima do moderado (4,691.86) NOT OK
- Corpo docente muito acima da  média (151.18) NOT OK
- Moderada quantidade média de cursos (18.49)NOT OK
- Despesas e receitas média altas OK
- Quantidade de periodicos e livros eletronicos com relevância alto  OK

Insights:
- equipe docente relativamente pequena
- A análise é pautada entre análise estatítica e inferências

In [700]:
analise_kmeans_fase4.loc[len(analise_kmeans_fase4)] = ['Fase 4',  'quinto', 0, 16, 4, 12, 3, 0]

In [701]:
print(show_result_kmeans_prompt(kmeans_fase4, 0.5, 'quinto'))

**Coluna**: QT_ALUNOS
"Analise estatística: Mediana = 250,0, Variância = 120,00. Verificar relação com T1_VL_RECEITAS e IN_CAPITAL"

**Inferências**: A instituição com maior quantidade de alunos tem uma média de 250 alunos, o que pode indicar um grande número de estudantes. Além disso, a variância é alta, sugerindo uma distribuição desigual dos alunos.

**Análise geral do agrupamento**: O cluster tende a ter instituições com números significativos de alunos, o que pode ser relacionado à sua categorização administrativa (NOME_CATEGORIA_ADMINISTRATIVA) e à sua localização geográfica (CO_REGIAO).

**Coluna**: QT_DOCENTES
"Analise estatística: Média = 150,0, Variância = 90,00. Verificar relação com IN_CAPITAL e IN_REPOSITORIO_INSTITUCIONAL"

**Inferências**: A instituição com maior quantidade de docentes tem uma média de 150 docentes, o que pode indicar um professorado comprometido com a educação. A variância é alta, sugerindo uma distribuição desigual dos docentes.

**Análise geral do agr

Conclusões:

- Predominância das regiões Sudeste e Nordeste (69,45%) NOT OK 
- Uma incidência das IES não estarem numa capital (59.17%) NOT OK
- Predominância das Instituições sem acesso ao portal Capes ( 63.55%) NOT OK
- Possuem predominância em busca integrada (77.90%)  OK
- Possuem serviço de internet (97.47%) NOT OK
- Predominância em participar em redes sociais (60.40%) NOT OK
- Possuem catalogo online (85.57%) NOT OK
- Possuem predominância em ter outras bases (78.28%) OK
- Maioria das instituições são privada (com e sem fins lucrativos) (96,85) 
- Maioria dos anos da IES são Faculdade e centro universitário (66.16%, 32.23%) NOT OK

- Quantidade de técnicos médio moderado (143.65) NOT OK
- Quantidade de alunos média de alunos acima do moderado (4,691.86) NOT OK
- Corpo docente muito acima da  média (151.18) NOT OK
- Moderada quantidade média de cursos (18.49)NOT OK
- Despesas e receitas média altas NOT OK
- Quantidade de periodicos e livros eletronicos com relevância alto NOT OK

Insights:
- Não detalha todas as variaveis de influência 

In [702]:
analise_kmeans_fase4.loc[len(analise_kmeans_fase4)] = ['Fase 4',  'quinto', 0.5, 16, 5, 11, 3, 1]

In [703]:
print(show_result_kmeans_prompt(kmeans_fase4, 1.0, 'quinto'))

**Coluna**: QT_ALUNOS
"Analise estatística da variável: Mediana = 50,00, Variação padrão (σ) = 20,00. Verificar relação com IN_CAPITAL, pois instituições na capital tendem a ter mais alunos."

**Inferências**: Conclusão: A mediana de QT_ALUNOS é significativamente maior do que a média geral de instituições, indicando uma relação inversa entre a localização da instituição e a quantidade de alunos.

**Análise geral do agrupamento**: O agrupamento tem uma concentração grande de instituições com mais alunos, sugerindo que essas instituições podem ter um foco na educação ou em outros serviços que atraem mais estudantes. Além disso, as instituições na capital tendem a ter mais alunos, indicando uma relação positiva entre a localização e a quantidade de alunos.

**Coluna**: QT_DOCENTES
"Analise estatística da variável: Média = 30,00, Variação padrão (σ) = 10,00. Verificar relação com IN_CAPITAL, pois instituições na capital tendem a ter mais docentes."

**Inferências**: Conclusão: A média de 

Conclusões:

- Predominância das regiões Sudeste e Nordeste (69,45%) NOT OK
- Uma incidência das IES não estarem numa capital (59.17%) NOT OK
- Predominância das Instituições sem acesso ao portal Capes ( 63.55%) NOT OK
- Possuem predominância em busca integrada (77.90%) OK
- Possuem serviço de internet (97.47%) OK
- Predominância em participar em redes sociais (60.40%) NOT OK
- Possuem catalogo online (85.57%) OK
- Possuem predominância em ter outras bases (78.28%) NOT OK
- Maioria das instituições são privada (com e sem fins lucrativos) (96,85) NOT OK
- Maioria dos anos da IES são Faculdade e centro universitário (66.16%, 32.23%) NOT OK

- Quantidade de técnicos médio moderado (143.65) NOT OK
- Quantidade de alunos média de alunos acima do moderado (4,691.86) NOT OK
- Corpo docente muito acima da  média (151.18) NOT OK
- Moderada quantidade média de cursos (18.49)NOT OK
- Despesas e receitas média altas NOT OK
- Quantidade de periodicos e livros eletronicos com relevância alto NOT OK

Insights:
- `IN_SERVICO_INTERNET`, pois instituições com serviço de internet tendem a ter mais técnicos.
- As instituições na capital tendem a ter mais recursos humanos e mais serviços, sugerindo uma relação positiva entre a localização e a quantidade de recursos administrativos. (Isto é evidenciado por ter um corpo docente acima da média)

In [704]:
analise_kmeans_fase4.loc[len(analise_kmeans_fase4)] = ['Fase 4',  'quinto', 1.0, 16, 6, 10, 1, 0]

### Sixth Cluster

In [705]:
print(show_result_kmeans_prompt(kmeans_fase4, 0, 'sexto'))

**Coluna**: Quantidade de alunos (QT_ALUNOS)

* Analise estatística: Mediana da variável é 200, com uma moda de 300 e uma média de 250. 
* Relação com outra variável: Existe uma relação positiva entre a quantidade de alunos e a média das receitas da instituição (T1_VL_RECEITAS), com uma correlação de Pearson de 0,8.

**Inferências**: Pode-se concluir que as instituições com mais alunos tendem a ter maior receita, sugerindo que o tamanho do grupo pode ser um fator importante para o sucesso da instituição.

**Análise geral do agrupamento**: A quantidade de alunos é um dos principais fatores que contribuem para o sucesso das instituições. Além disso, existem instituições com quantidades médias e baixas de alunos que ainda possuem receita significativa, sugerindo que outros fatores, como a qualidade da educação ou a disponibilidade de recursos, também desempenham um papel importante.

**Coluna**: Quantidade de docentes (QT_DOCENTES)

* Analise estatística: A moda da variável é 50, com uma 

Conclusões:

- Predominância dos anos 2016 e 2017 (35.63%, 28.14%) NOT OK
- Predominância das regiões Sudeste e Nordeste (43.65%, 20.80%) NOT OK
- Predominância das IES não estarem numa capital (69.21%) NOT OK
- Predominância das Instituições sem acesso ao portal Capes (73.15%) NOT OK
- Predominância das Instituições sem repositorio institucional (68.00%) NOT OK
- Possuem predominância em busca integrada (65.43%) NOTOK
- Possuem serviço de internet (90.62%) OK
- Predominância em participar em redes sociais (65.28%) NOT OK
- Possuem catalogo online (72.39%) NOT OK
- Possuem predominância em ter outras bases (62.25%) NOT OK
- Maioria das instituições são privada (com e sem fins lucrativos) (90,01%)NOT OK
- Maioria dos anos da IES são Faculdade (95.39%) NOT OK

- Quantidade de técnicos médio baixo (46.05	)  OK
- Quantidade de alunos média de alunos  moderado (1,202.21) NOT OK
- Corpo docente moderado na  média (60.92) NOT OK
- Moderada quantidade baixa de cursos (16.76) NOT OK
- Despesas e receitas média altas  NOT OK
- Quantidade de periodicos e livros eletronicos com relevância baixo NOT OK

Insights falso:
- As instituições com mais cursos, periodicos eletronicos e livros eletronicos tendem a ter maior receitas.

In [706]:
analise_kmeans_fase4.loc[len(analise_kmeans_fase4)] = ['Fase 4',  'sexto', 0, 18, 9, 9, 1, 0]

In [707]:
print(show_result_kmeans_prompt(kmeans_fase4, 0.5, 'sexto'))

**Análise Estatística e Inferências**

A seguir, apresentaremos as análises estatísticas e inferências para cada variável:

*   **QT_ALUNOS**: A média da quantidade de alunos é de 200. A mediana é de 150 e a moda é de 100. Verificar relação com T1_VL_RECEITAS.
    *   Inferências: A relação entre a quantidade de alunos e a receita da instituição pode indicar que as instituições com mais alunos têm maior receita.
*   **QT_DOCENTES**: A média da quantidade de docentes é de 50. A mediana é de 40 e a moda é de 30. Verificar relação com IN_CAPITAL.
    *   Inferências: As instituições na capital tendem a ter mais docentes, sugerindo uma maior importância política e econômica das instituições no censo.
*   **QT_CURSO**: A média da quantidade de cursos é de 5. A mediana é de 3 e a moda é de 2. Verificar relação com NOME_ORGANIZACAO_ACADEMICA.
    *   Inferências: As instituições com categorias administrativas mais altas tendem a ter mais cursos, sugerindo uma maior variedade e abrangência das

Conclusões:

- Predominância dos anos 2016 e 2017 (35.63%, 28.14%) 
- Predominância das regiões Sudeste e Nordeste (43.65%, 20.80%) 
- Predominância das IES não estarem numa capital (69.21%) 
- Predominância das Instituições sem acesso ao portal Capes (73.15%) 
- Predominância das Instituições sem repositorio institucional (68.00%) 
- Possuem predominância em busca integrada (65.43%) NOTOK
- Possuem serviço de internet (90.62%) 
- Predominância em participar em redes sociais (65.28%) 
- Possuem catalogo online (72.39%) 
- Possuem predominância em ter outras bases (62.25%) 
- Maioria das instituições são privada (com e sem fins lucrativos) (90,01%)
- Maioria dos anos da IES são Faculdade (95.39%) 

- Quantidade de técnicos médio baixo (46.05	) 
- Quantidade de alunos média de alunos  moderado (1,202.21) 
- Corpo docente moderado na  média (60.92) 
- Moderada quantidade baixa de cursos (16.76) 
- Despesas e receitas média altas 
- Quantidade de periodicos e livros eletronicos com relevância baixo

Insights :


In [708]:
analise_kmeans_fase4.loc[len(analise_kmeans_fase4)] = ['Fase 4',  'sexto', 0.5, 18, 4, 14, 1, 0]

In [709]:
print(show_result_kmeans_prompt(kmeans_fase4, 1.0, 'sexto'))

**Agrupamento dos Dados**

**Coluna:** QT_ALUNOS
*   **Análise estatística**: Mediana: 500,00; Média: 525,00 e Moda: 550,00. A quantidade de alunos é a variável mais comum no agrupamento.
*   **Relação com outra variável**: Relacionada com QT_CURSO e T1_VL_RECEITAS.

**Inferências**: Conclusão pode ser feita que as instituições com maior quantidade de alunos tendem a ter mais cursos e receita, o que sugere uma relação positiva entre o tamanho do agrupamento e sua capacidade de geração de receita.

**Análise geral do agrupamento**: Embora a quantidade de alunos seja a variável mais presente, observa-se que a instituição com maior quantidade de alunos não é necessariamente a única com maior receita, o que sugere que outras variáveis são importantes para explicar o tamanho e os resultados das instituições.

**Coluna:** QT_DOCENTES
*   **Análise estatística**: Mediana: 250,00; Média: 300,00 e Moda: 350,00. A quantidade de docentes é menor do que a de alunos.
*   **Relação com outra variáve

Conclusões:

- Predominância dos anos 2016 e 2017 (35.63%, 28.14%) NOT OK
- Predominância das regiões Sudeste e Nordeste (43.65%, 20.80%) NOT OK
- Predominância das IES não estarem numa capital (69.21%) NOT OK
- Predominância das Instituições sem acesso ao portal Capes (73.15%) 
- Predominância das Instituições sem repositorio institucional (68.00%) NOT OK
- Possuem predominância em busca integrada (65.43%) NOTOK
- Possuem serviço de internet (90.62%) NOT OK
- Predominância em participar em redes sociais (65.28%) NOT OK
- Possuem catalogo online (72.39%) NOT OK
- Possuem predominância em ter outras bases (62.25%) NOT OK
- Maioria das instituições são privada (com e sem fins lucrativos) (90,01%)NOT OK
- Maioria dos anos da IES são Faculdade (95.39%) NOT OK

- Quantidade de técnicos médio baixo (46.05	) OK
- Quantidade de alunos média de alunos  moderado (1,202.21) NOT OK
- Corpo docente moderado na  média (60.92) NOT OK
- Moderada quantidade baixa de cursos (16.76) NOT OK
- Despesas e receitas média altas NOT OK
- Quantidade de periodicos e livros eletronicos com relevância baixoNOT OK

Insights :
- Verificar relação com `IN_REPOSITORIO_INSTITUCIONAL`.

In [710]:
analise_kmeans_fase4.loc[len(analise_kmeans_fase4)] = ['Fase 4',  'sexto', 1.0, 18, 3, 15, 0, 0]

### Seventh Cluster

In [711]:
print(show_result_kmeans_prompt(kmeans_fase4, 0, 'setimo'))

**Coluna**: QT_ALUNOS
"Análise estatística: A média da quantidade de alunos é de 250. A mediana é de 200 e a moda é de 100. Verificar relação com outras variáveis, como QT_CURSO e T1_VL_RECEITAS."

**Inferências**: "É possível que instituições com mais cursos tenham mais alunos, já que a média da quantidade de cursos é de 80, o que está abaixo da média geral do cluster (50). Além disso, as instituições com maior receita tendem a ter mais alunos."

**Análise geral do agrupamento**: "As instituições com mais alunos tendem a ser aquelas com mais cursos e maior receita. É possível que essas instituições tenham uma estrutura de ensino mais completa e eficaz."

**Coluna**: QT_DOCENTES
"Análise estatística: A média da quantidade de docentes é de 120. A mediana é de 100 e a moda é de 80. Verificar relação com outras variáveis, como IN_CAPITAL e NOME_CATEGORIA_ADMINISTRATIVA."

**Inferências**: "As instituições na capital tendem a ter mais docentes, já que 60% dos docentes estão localizados nes

Conclusões:

- Predominância das regiões Sudeste e Sul (44.90%, 24.32%) NOT OK 
- Predominância das Instituições com acesso ao portal Capes (87.76%) NOT OK 
- Predominância das Instituições com repositorio institucional (70.41%) OK 
- Possuem predominância em busca integrada (67.18%) NOT OK 
- Possuem serviço de internet (98.81%) NOT OK 
- Predominância em participar em redes sociais (71.94%) NOT OK 
- Possuem catalogo online (92.69%) NOT OK 
- Possuem predominância em ter outras bases (91.16%) NOT OK 
- Maioria das instituições são privada sem fins, federal e com fins lurativos (46.26%, 25.68%, 19.90%)  OK 
- Maioria dos anos da IES são Universidade e centro universitario (69.73%, 22.28%) NOT OK 

- Quantidade de técnicos médio alto (1,170.62	) NOT OK 
- Quantidade de alunos média de alunos alto (27,666.31) NOT OK 
- Corpo docente alto na  média (970.69)  OK 
- altga quantidade baixa de cursos (73.91) NOT OK 
- Despesas e receitas média altas NOT OK 
- Quantidade de periodicos e livros eletronicos com relevância alto NOT OK 

Insights:
- As instituições com mais alunos tendem a ser aquelas com mais cursos e maior receita

In [712]:
analise_kmeans_fase4.loc[len(analise_kmeans_fase4)] = ['Fase 4',  'setimo', 0, 16, 7, 9, 1, 0]

In [713]:
print(show_result_kmeans_prompt(kmeans_fase4, 0.5, 'setimo'))

**Agrupamento e Análise Estatística**

**Coluna**: QT_ALUNOS
"Analise estatistica de mediana da variavel. Além disso verificar relação com outra variavel como NOME_CATEGORIA_ADMINISTRATIVA, pois instituções que pertencem a categorias administrativas diferentes podem ter diferentes quantidades de alunos."

**Inferências**: Conclusão: "Instituicoes com maior mediana de quantidade de alunos pertencem a categorias administrativas mais pequenas ou menores."

**Análise geral do agrupamento**: "A maioria das instituicoes com maior quantidade de alunos pertence a categorias administrativas menores, sugerindo que essas instituicoes podem ter uma estrutura organizacional mais centralizada ou terem menos opcoes de carreira para os estudantes."

**Coluna**: QT_DOCENTES
"Analise estatistica de moda da variavel. Além disso verificar relação com outra variavel como IN_SERVICO_INTERNET, pois instituicoes que possuem um serviço de internet mais eficiente podem ter mais docentes."

**Inferências**: Conc

Conclusões:

- Predominância das regiões Sudeste e Sul (44.90%, 24.32%) NOT OK 
- Predominância das Instituições com acesso ao portal Capes (87.76%) NOT OK 
- Predominância das Instituições com repositorio institucional (70.41%)NOT OK 
- Possuem predominância em busca integrada (67.18%) OK 
- Possuem serviço de internet (98.81%)OK 
- Predominância em participar em redes sociais (71.94%) NOT OK 
- Possuem catalogo online (92.69%) NOT OK 
- Possuem predominância em ter outras bases (91.16%) OK 
- Maioria das instituições são privada sem fins, federal e com fins lurativos (46.26%, 25.68%, 19.90%)  OK 
- Maioria dos anos da IES são Universidade e centro universitario (69.73%, 22.28%) NOT OK 

- Quantidade de técnicos médio alto (1,170.62	) NOT OK 
- Quantidade de alunos média de alunos alto (27,666.31) NOT OK 
- Corpo docente alto na  média (970.69)  OK 
- altga quantidade baixa de cursos (73.91) NOT OK 
- Despesas e receitas média altas  OK 
- Quantidade de periodicos e livros eletronicos com relevância alto NOT OK 

Insights:
- instituicoes que possuem um serviço de internet mais eficiente podem ter mais docentes
- instituicoes que possuem uma busca integrada mais eficiente podem ter mais tecnicos

In [714]:
analise_kmeans_fase4.loc[len(analise_kmeans_fase4)] = ['Fase 4',  'setimo', 0.5, 16, 7, 9, 1, 0]

In [715]:
print(show_result_kmeans_prompt(kmeans_fase4, 1.0, 'setimo'))

**Agrupamento 1: Instituições na Capital**

* **QT_ALUNOS**: Mediana = 120,0
* **IN_CAPITAL**: 100% das instituições estão na capital (não há valores nulas)

Análise estatística da média e relação com outra variável:
A mediana de QT_ALUNOS é alta, sugerindo que as instituições na capital possuem mais alunos. Além disso, a frequência máxima de IN_CAPITAL é de 100%, o que sugere uma forte relação entre ser instituição na capital e o tamanho dos alunos.

Inferências:
A presença de instituições na capital está relacionada à quantidade de alunos, sugerindo que essas instituições podem ter políticas educacionais mais abrangentes ou terem acesso a recursos mais abundantes.

Análise geral do agrupamento:
As instituições na capital tendem a ter mais alunos e recursos, o que pode indicar uma maior capacidade de atração de estudantes e investimento em infraestrutura.

**Agrupamento 2: Instituições com Busca Integrada**

* **IN_BUSCA_INTEGRADA**: 50% das instituições possuem busca integrada (não h

Conclusões:

- Predominância das regiões Sudeste e Sul (44.90%, 24.32%) NOT OK 
- Predominância das Instituições com acesso ao portal Capes (87.76%) OK
- Predominância das Instituições com repositorio institucional (70.41%) not OK 
- Possuem predominância em busca integrada (67.18%) OK
- Possuem serviço de internet (98.81%) OK
- Predominância em participar em redes sociais (71.94%)  NOT OK 
- Possuem catalogo online (92.69%)  NOT OK 
- Possuem predominância em ter outras bases (91.16%)  NOT OK 
- Maioria das instituições são privada sem fins, federal e com fins lurativos (46.26%, 25.68%, 19.90%)  NOT OK 
- Maioria dos anos da IES são Universidade e centro universitario (69.73%, 22.28%) OK

- Quantidade de técnicos médio alto (1,170.62	) NOT OK 
- Quantidade de alunos média de alunos alto (27,666.31)  NOT OK 
- Corpo docente alto na  média (970.69)  NOT OK 
- altga quantidade baixa de cursos (73.91)  NOT OK 
- Despesas e receitas média altas  NOT OK 
- Quantidade de periodicos e livros eletronicos com relevância alto  NOT OK 

Insights:
- As instituições na capital tendem a ter mais alunos e recursos
- O foco desta analise se deu em `IN_BUSCA_INTEGRADA`e `IN_CAPITAL`

In [716]:
analise_kmeans_fase4.loc[len(analise_kmeans_fase4)] = ['Fase 4',  'setimo', 1.0, 16, 9, 7, 3, 0]