In [179]:
import pandas as pd
import numpy as np

In [180]:
categorical_columns = ['NU_ANO_CENSO', 'REGIAO', 'IN_CAPITAL', 'IN_ACESSO_PORTAL_CAPES', 'IN_REPOSITORIO_INSTITUCIONAL', 'IN_BUSCA_INTEGRADA', 'IN_SERVICO_INTERNET', 'IN_PARTICIPA_REDE_SOCIAL',
                       'IN_CATALOGO_ONLINE', 'IN_OUTRAS_BASES', 'NOME_CATEGORIA_ADMINISTRATIVA', 'NOME_ORGANIZACAO_ACADEMICA']
numeric_columns = ['QT_TEC_TOTAL', 'QT_PERIODICO_ELETRONICO', 'QT_LIVRO_ELETRONICO', 'QT_ALUNOS', 'QT_DOCENTES', 'QT_CURSO', 'T1_VL_RECEITAS', 'T1_VL_DESPESAS']

In [181]:
pd.set_option('display.float_format', '{:,.2f}'.format)

# Analises dos clusters

In [182]:
def get_total_categorical_values_cluster(df):
    for col in categorical_columns:
        items = df[col].value_counts().items()

        print(f"====== {col} ======")

        for item in items:
            print(f"{item[0]}: {item[1]} ({(item[1] / df.shape[0]): 0.2%})")

        print()


# Agglomerative

### First cluster

In [183]:
first_cluster_agg = pd.read_csv('./data/Agglomerative/Primeiro agrupamento (Agglomerative).csv', sep=';')

In [184]:
get_total_categorical_values_cluster(first_cluster_agg)

2016: 241 ( 25.42%)
2017: 239 ( 25.21%)
2018: 238 ( 25.11%)
2019: 230 ( 24.26%)

Sudeste: 368 ( 38.82%)
Sul: 213 ( 22.47%)
Nordeste: 198 ( 20.89%)
Norte: 95 ( 10.02%)
Centro-Oeste: 74 ( 7.81%)

0: 499 ( 52.64%)
1: 449 ( 47.36%)

1: 871 ( 91.88%)
0: 77 ( 8.12%)

1: 580 ( 61.18%)
0: 368 ( 38.82%)

1: 579 ( 61.08%)
0: 369 ( 38.92%)

1: 910 ( 95.99%)
0: 38 ( 4.01%)

1: 711 ( 75.00%)
0: 237 ( 25.00%)

1: 853 ( 89.98%)
0: 95 ( 10.02%)

1.0: 631 ( 66.56%)
0.0: 317 ( 33.44%)

Pública Federal: 411 ( 43.35%)
Privada sem fins lucrativos: 298 ( 31.43%)
Pública Estadual: 152 ( 16.03%)
Privada com fins lucrativos: 65 ( 6.86%)
Pública Municipal e Especial: 22 ( 2.32%)

Universidade: 714 ( 75.32%)
Instituto Federal de Educação, Ciência e Tecnologia: 152 ( 16.03%)
Centro Universitário: 59 ( 6.22%)
Faculdade: 15 ( 1.58%)
Centro Federal de Educação Tecnológica: 8 ( 0.84%)



In [185]:
first_cluster_agg[numeric_columns].describe()

Unnamed: 0,QT_TEC_TOTAL,QT_PERIODICO_ELETRONICO,QT_LIVRO_ELETRONICO,QT_ALUNOS,QT_DOCENTES,QT_CURSO,T1_VL_RECEITAS,T1_VL_DESPESAS
count,948.0,948.0,948.0,948.0,948.0,948.0,948.0,948.0
mean,1067.03,11002.45,30041.69,19394.41,962.64,67.27,454150088.54,479909885.36
std,1358.21,36247.98,90346.03,21687.59,836.7,48.33,653881575.29,852086400.18
min,33.0,0.0,0.0,1005.0,60.0,8.0,134763.64,10769001.91
25%,398.75,0.0,0.0,6462.75,413.75,34.0,130128444.86,147817024.68
50%,707.0,31.0,2655.0,12731.0,704.0,53.0,276350996.41,278105501.08
75%,1189.75,3525.0,12671.0,26057.75,1228.5,92.0,514270381.47,499588321.0
max,15562.0,572574.0,1000000.0,245102.0,6286.0,321.0,7599192871.0,15890130144.4


Conclusões:

- Predominância das regiões Sudeste, Sul e Nordeste  (38.82%, 22.47%, 20.89%)
- Instituições com acesso ao portal Capes (91.88%)
- Predominancia de repositorio institucional (61.18%)
- Predominancia busca integrada (61.08%)
- Possuem serviço de internet (95.99%)
- Participam em redes sociais (75.00%)
- Possuem catalogo online (89.98%)
- Possuem outras bases (66.56%)
- IES publica federal, sem fins lucrativos (43.35%, 31.43%)
- Mais da metade das IES são do tipo universidade e Instituto Federal de Educação, Ciência e Tecnologia (75.32%, 16.03%)

- Quantidade alta de técnicos na média (1,067.03)
- Quantidade de alunos média de alunos alto (19,394.41)
- Corpo docente forte na média (962.64	)
- Quantidade considerável de cursos na média (média de 67.27)
- Despesas e receitas média alta
- Alta quantidade de Quantidade de periodicos e livros eletronicos
- Quantidade de periodicos e livros eletronicos com relevância alto

### Second cluster

In [186]:
second_cluster_agg = pd.read_csv('./data/Agglomerative/Segundo agrupamento (Agglomerative).csv', sep=';')

In [187]:
get_total_categorical_values_cluster(second_cluster_agg)

2016: 577 ( 27.03%)
2017: 558 ( 26.14%)
2019: 524 ( 24.54%)
2018: 476 ( 22.30%)

Sudeste: 833 ( 39.02%)
Nordeste: 551 ( 25.81%)
Sul: 396 ( 18.55%)
Centro-Oeste: 218 ( 10.21%)
Norte: 137 ( 6.42%)

0: 1393 ( 65.25%)
1: 742 ( 34.75%)

0: 1670 ( 78.22%)
1: 465 ( 21.78%)

0: 1442 ( 67.54%)
1: 693 ( 32.46%)

1: 1298 ( 60.80%)
0: 837 ( 39.20%)

1: 1790 ( 83.84%)
0: 345 ( 16.16%)

1: 1402 ( 65.67%)
0: 733 ( 34.33%)

1: 1119 ( 52.41%)
0: 1016 ( 47.59%)

0.0: 1323 ( 61.97%)
1.0: 812 ( 38.03%)

Privada com fins lucrativos: 1285 ( 60.19%)
Privada sem fins lucrativos: 770 ( 36.07%)
Pública Municipal e Especial: 64 ( 3.00%)
Pública Estadual: 14 ( 0.66%)
Pública Federal: 2 ( 0.09%)

Faculdade: 2129 ( 99.72%)
Centro Universitário: 5 ( 0.23%)
Universidade: 1 ( 0.05%)



In [188]:
second_cluster_agg[numeric_columns].describe()

Unnamed: 0,QT_TEC_TOTAL,QT_PERIODICO_ELETRONICO,QT_LIVRO_ELETRONICO,QT_ALUNOS,QT_DOCENTES,QT_CURSO,T1_VL_RECEITAS,T1_VL_DESPESAS
count,2135.0,2135.0,2135.0,2135.0,2135.0,2135.0,2135.0,2135.0
mean,14.1,398.74,3867.71,282.62,21.21,2.75,1982280.26,2025236.5
std,18.39,2774.72,139084.54,341.36,17.92,2.34,4747147.3,6470177.04
min,1.0,0.0,0.0,1.0,1.0,1.0,0.01,2.0
25%,6.0,0.0,0.0,68.0,10.0,1.0,337634.51,351376.38
50%,10.0,5.0,0.0,166.0,16.0,2.0,886312.0,886696.0
75%,16.0,48.0,33.5,372.0,27.0,3.0,1931850.57,2007175.73
max,449.0,54365.0,6424945.0,3633.0,280.0,24.0,95894788.0,191892519.06


Conclusões:

- Predominância das regiões Sudeste e Nordeste (39.02%, 25.81% )
- Uma incidência das IES não estarem numa capital (65.25%)
- Predominância das Instituições sem acesso ao portal Capes (78.22%)
- Predominância das Instituições sem repetorio institucional (67.54%)
- Possuem busca integrada (60.80%)
- Possuem serviço de internet (83.84%)
- Participam em redes sociais (65.67%)
- Possuem predominâncai em ter outras bases (61.97%)
- Maioria das instituições são privada (com e sem fins lucrativos) (96,26%)
- Maioria dos anos da IES são Faculdade (99.72%)

- Pouca quantidade de técnicos abaixo da média (14.10)
- Quantidade de alunos média de alunos abaixo (282.62)
- Corpo docente muito pouco na média (17.92)
- Pouca quantidade de cursos (2.34)
- Despesas e receitas média baixa
- Quantidade de periodicos e livros eletronicos com relevância baixo

### Third cluster

In [189]:
third_cluster_agg = pd.read_csv('./data/Agglomerative/Terceiro agrupamento (Agglomerative).csv', sep=';')

In [190]:
get_total_categorical_values_cluster(third_cluster_agg)

2018: 528 ( 26.87%)
2019: 521 ( 26.51%)
2017: 464 ( 23.61%)
2016: 452 ( 23.00%)

Sudeste: 975 ( 49.62%)
Nordeste: 437 ( 22.24%)
Sul: 288 ( 14.66%)
Norte: 142 ( 7.23%)
Centro-Oeste: 123 ( 6.26%)

0: 1192 ( 60.66%)
1: 773 ( 39.34%)

0: 1187 ( 60.41%)
1: 778 ( 39.59%)

1: 1093 ( 55.62%)
0: 872 ( 44.38%)

1: 1515 ( 77.10%)
0: 450 ( 22.90%)

1: 1924 ( 97.91%)
0: 41 ( 2.09%)

1: 1232 ( 62.70%)
0: 733 ( 37.30%)

1: 1703 ( 86.67%)
0: 262 ( 13.33%)

1.0: 1556 ( 79.19%)
0.0: 409 ( 20.81%)

Privada sem fins lucrativos: 977 ( 49.72%)
Privada com fins lucrativos: 923 ( 46.97%)
Pública Municipal e Especial: 40 ( 2.04%)
Pública Federal: 15 ( 0.76%)
Pública Estadual: 10 ( 0.51%)

Faculdade: 1321 ( 67.23%)
Centro Universitário: 601 ( 30.59%)
Universidade: 43 ( 2.19%)



In [191]:
third_cluster_agg[numeric_columns].describe()

Unnamed: 0,QT_TEC_TOTAL,QT_PERIODICO_ELETRONICO,QT_LIVRO_ELETRONICO,QT_ALUNOS,QT_DOCENTES,QT_CURSO,T1_VL_RECEITAS,T1_VL_DESPESAS
count,1965.0,1965.0,1965.0,1965.0,1965.0,1965.0,1965.0,1965.0
mean,151.54,22190.13,16930.37,5742.87,149.49,18.09,73871411.67,79483263.76
std,204.63,295367.05,231402.09,17710.34,111.51,16.45,303142944.33,676157147.3
min,1.0,0.0,0.0,2.0,1.0,1.0,36843.47,1130746.33
25%,51.0,41.0,1226.0,1636.0,72.0,9.0,14606845.09,12133038.72
50%,93.0,320.0,6623.0,3059.0,117.0,14.0,28874918.03,24181059.2
75%,182.0,4000.0,9155.0,5374.0,191.0,22.0,62951334.0,52121930.28
max,3482.0,6437318.0,10000000.0,370652.0,807.0,183.0,6258050290.0,22161393800.0


Conclusões:

- Predominância das regiões Sudeste e Nordeste (49.62% e 22.24%)
- Predominãncia das IES não estarem numa capital (60.66%)
- Instituições sem acesso ao portal Capes (60.41%)
- Possuem predominância em possuir busca integrada (77.10%)
- Possuem predominância em serviço de internet (97.91%)
- Predominância em participar em redes sociais (62.70%)
- Possuem catalogo online (86.67%)
- Possuem predominância em ter outras bases (79.19%)
- Maioria das instituições são privada (com e sem fins lucrativos) (96,69%)
- Maioria dos anos da IES são Faculdade e centro universitario (67.23% e 30.59%)

- Quantidade média de técnicos moderada (151.54)
- Quantidade de alunos média de alunos normal (5,742.87	)
- Corpo docente com quantidade média moderada (149.49)
- Pouca quantidade de cursos (18.09)
- Despesas e receitas média moderadas para alto
- Quantidade de periodicos e livros eletronicos com relevância alto

### Forth cluster

In [192]:
forth_cluster_agg = pd.read_csv('./data/Agglomerative/Quarto agrupamento (Agglomerative).csv', sep=';')

In [193]:
get_total_categorical_values_cluster(forth_cluster_agg)

2019: 475 ( 32.03%)
2018: 417 ( 28.12%)
2017: 297 ( 20.03%)
2016: 294 ( 19.82%)

Sudeste: 496 ( 33.45%)
Sul: 357 ( 24.07%)
Nordeste: 304 ( 20.50%)
Centro-Oeste: 226 ( 15.24%)
Norte: 100 ( 6.74%)

0: 938 ( 63.25%)
1: 545 ( 36.75%)

0: 958 ( 64.60%)
1: 525 ( 35.40%)

0: 764 ( 51.52%)
1: 719 ( 48.48%)

1: 1083 ( 73.03%)
0: 400 ( 26.97%)

1: 1431 ( 96.49%)
0: 52 ( 3.51%)

1: 1043 ( 70.33%)
0: 440 ( 29.67%)

1: 1124 ( 75.79%)
0: 359 ( 24.21%)

1.0: 1024 ( 69.05%)
0.0: 459 ( 30.95%)

Privada com fins lucrativos: 867 ( 58.46%)
Privada sem fins lucrativos: 582 ( 39.24%)
Pública Municipal e Especial: 31 ( 2.09%)
Pública Federal: 3 ( 0.20%)

Faculdade: 1477 ( 99.60%)
Centro Universitário: 6 ( 0.40%)



In [194]:
forth_cluster_agg[numeric_columns].describe()

Unnamed: 0,QT_TEC_TOTAL,QT_PERIODICO_ELETRONICO,QT_LIVRO_ELETRONICO,QT_ALUNOS,QT_DOCENTES,QT_CURSO,T1_VL_RECEITAS,T1_VL_DESPESAS
count,1483.0,1483.0,1483.0,1483.0,1483.0,1483.0,1483.0,1483.0
mean,24.47,17567.76,12180.19,629.78,32.8,4.7,4533739.31,4080641.43
std,21.1,522594.48,162783.38,585.06,20.75,3.47,6067438.1,5209064.96
min,1.0,0.0,0.0,11.0,3.0,1.0,3125.0,42500.0
25%,11.0,20.0,1741.0,224.0,17.0,2.0,1242556.92,1348383.59
50%,18.0,100.0,6372.0,475.0,28.0,4.0,2751112.26,2675040.99
75%,30.0,600.0,8648.5,839.0,43.0,6.0,5580204.38,5133079.24
max,311.0,20083543.0,6229914.0,4488.0,155.0,29.0,79434370.49,79923866.93


Conclusões:

- Predominância dos anos 2018 e 2019 (60,15%)
- Predominância das regiões Sudeste e Sul (33.45%, 24.07%)
- Uma incidência das IES não estarem numa capital (63.25%)
- Predominância das Instituições sem acesso ao portal Capes ( 64.60%)
- Possuem predominância em busca integrada (73.03%)
- Possuem serviço de internet (96.49%)
- Predominância em participar em redes sociais (70.33%)
- Possuem predominância em ter catalogo online (75.79%)
- Possuem predominância em ter outras bases (69.05%)
- Maioria das iinstituições são privada (com e sem fins lucrativos) (97,7%)
- Maioria dos anos da IES são Faculdade (99.60%)

- Quantidade de técnicos na média baixo (24.47%)
- Quantidade de alunos média de alunos  moderado (629.78)
- Corpo docente abaixo da média  (32.80)
- Pouca quantidade média de cursos (4.70)
- Despesas e receitas média moderado
- Quantidade de periodicos e livros eletronicos com relevância alto

### Firth cluster

In [195]:
firth_cluster_agg = pd.read_csv('./data/Agglomerative/Quinto agrupamento (Agglomerative).csv', sep=';')

In [196]:
get_total_categorical_values_cluster(firth_cluster_agg)

2016: 321 ( 35.24%)
2017: 248 ( 27.22%)
2018: 214 ( 23.49%)
2019: 128 ( 14.05%)

Sudeste: 445 ( 48.85%)
Nordeste: 147 ( 16.14%)
Centro-Oeste: 134 ( 14.71%)
Sul: 124 ( 13.61%)
Norte: 61 ( 6.70%)

0: 634 ( 69.59%)
1: 277 ( 30.41%)

0: 646 ( 70.91%)
1: 265 ( 29.09%)

0: 572 ( 62.79%)
1: 339 ( 37.21%)

1: 635 ( 69.70%)
0: 276 ( 30.30%)

1: 834 ( 91.55%)
0: 77 ( 8.45%)

1: 618 ( 67.84%)
0: 293 ( 32.16%)

1: 665 ( 73.00%)
0: 246 ( 27.00%)

0.0: 556 ( 61.03%)
1.0: 355 ( 38.97%)

Privada sem fins lucrativos: 548 ( 60.15%)
Privada com fins lucrativos: 294 ( 32.27%)
Pública Municipal e Especial: 48 ( 5.27%)
Pública Estadual: 16 ( 1.76%)
Pública Federal: 5 ( 0.55%)

Faculdade: 885 ( 97.15%)
Centro Universitário: 25 ( 2.74%)
Universidade: 1 ( 0.11%)



In [197]:
firth_cluster_agg[numeric_columns].describe()

Unnamed: 0,QT_TEC_TOTAL,QT_PERIODICO_ELETRONICO,QT_LIVRO_ELETRONICO,QT_ALUNOS,QT_DOCENTES,QT_CURSO,T1_VL_RECEITAS,T1_VL_DESPESAS
count,911.0,911.0,911.0,911.0,911.0,911.0,911.0,911.0
mean,52.92,166.28,55.79,1429.16,65.7,7.29,18623640.27,10655911.89
std,110.52,963.53,433.94,1203.8,41.84,4.95,136380970.82,15830657.17
min,5.0,0.0,0.0,89.0,6.0,1.0,89327.57,306039.11
25%,24.0,0.0,0.0,581.5,36.0,4.0,4129303.48,4025294.12
50%,37.0,14.0,0.0,1043.0,56.0,6.0,8013288.0,7109575.5
75%,57.5,100.0,1.0,1902.0,84.0,10.0,15222986.02,12697594.68
max,2207.0,17156.0,8000.0,8367.0,300.0,30.0,4000452318.9,294064951.75


Conclusões:

- Predominancia dos anos de 2016 e 2017 (35.24% e 27.22%)
- Predominância das regiões Sudeste e Nordeste e Centro-Oeste (48.85%, 16.14%, 14.71%)
- Predominãncia das IES não estarem numa capital (69.59%)
- Instituições sem acesso ao portal Capes (70.91%)
- Instituições sem acesso repositorio institucional (62.79%)
- Possuem predominância em possuir busca integrada (69.70%)
- Possuem predominância em serviço de internet (91.55%)
- Predominância em participar em redes sociais (67.84%)
- Possuem catalogo online (73.00%)
- Possuem predominância em ter outras bases (61.03%)
- Maioria das instituições são privada (com e sem fins lucrativos) (92,42%)
- Maioria dos anos da IES são Faculdade  (97.15%)

- Quantidade média de técnicos abaixo (52.92)
- Quantidade de alunos média de alunos normal (1,429.16)
- Corpo docente com quantidade média moderada (65.70)
- Pouca quantidade de cursos (7.29)
- Despesas e receitas média moderadas para alto
- Quantidade de periodicos e livros eletronicos com relevância baixo

# K-means

### First cluster

In [198]:
first_cluster_kmeans = pd.read_csv('./data/K-means/Primeiro agrupamento (K-means).csv', sep=';')

In [199]:
get_total_categorical_values_cluster(first_cluster_kmeans)

2016: 149 ( 27.75%)
2017: 137 ( 25.51%)
2018: 132 ( 24.58%)
2019: 119 ( 22.16%)

Sudeste: 201 ( 37.43%)
Nordeste: 120 ( 22.35%)
Sul: 101 ( 18.81%)
Norte: 71 ( 13.22%)
Centro-Oeste: 44 ( 8.19%)

0: 321 ( 59.78%)
1: 216 ( 40.22%)

1: 469 ( 87.34%)
0: 68 ( 12.66%)

1: 271 ( 50.47%)
0: 266 ( 49.53%)

1: 313 ( 58.29%)
0: 224 ( 41.71%)

1: 510 ( 94.97%)
0: 27 ( 5.03%)

1: 384 ( 71.51%)
0: 153 ( 28.49%)

1: 463 ( 86.22%)
0: 74 ( 13.78%)

0.0: 281 ( 52.33%)
1.0: 256 ( 47.67%)

Pública Federal: 264 ( 49.16%)
Privada sem fins lucrativos: 123 ( 22.91%)
Pública Estadual: 113 ( 21.04%)
Privada com fins lucrativos: 24 ( 4.47%)
Pública Municipal e Especial: 13 ( 2.42%)

Universidade: 322 ( 59.96%)
Instituto Federal de Educação, Ciência e Tecnologia: 110 ( 20.48%)
Centro Universitário: 79 ( 14.71%)
Faculdade: 22 ( 4.10%)
Centro Federal de Educação Tecnológica: 4 ( 0.74%)



In [200]:
first_cluster_kmeans[numeric_columns].describe()

Unnamed: 0,QT_TEC_TOTAL,QT_PERIODICO_ELETRONICO,QT_LIVRO_ELETRONICO,QT_ALUNOS,QT_DOCENTES,QT_CURSO,T1_VL_RECEITAS,T1_VL_DESPESAS
count,537.0,537.0,537.0,537.0,537.0,537.0,537.0,537.0
mean,765.03,88.07,4257.21,12553.95,761.73,52.45,340006634.24,373171331.44
std,771.47,1633.33,18064.84,11019.01,657.55,40.42,550425214.82,878480744.42
min,20.0,0.0,0.0,375.0,51.0,1.0,102665.47,12814291.76
25%,290.0,0.0,0.0,5038.0,301.0,27.0,71049153.95,97099748.0
50%,557.0,0.0,1.0,9090.0,545.0,42.0,207574418.88,220906797.8
75%,935.0,3.0,2127.0,15797.0,951.0,63.0,366195544.48,366195544.48
max,5670.0,37835.0,223350.0,68600.0,3701.0,321.0,7599192871.0,15890130144.4


Conclusões:

- Predominância das regiões Sudeste, Nordeste e Sul (37.43%, 22.35%, 18.81%)
- Uma incidência das IES não estarem numa capital (59,78%)
- Instituições com acesso ao portal Capes (87.34%)
- Possuem serviço de internet (94.97%)
- Participam em redes sociais (71.51%)
- Possuem catalogo online (86.22%)
- Quase a métade das IES são públicas federais, Privada sem fins lucrativos, Pública Estadual (49.16%, 22.91%, 21.04%)
- Mais da metade das IES são do tipo universidade e Instituto Federal de Educação, Ciência e Tecnologia (59.96%, 20.48%)

- Quantidade alta de técnicos na média (765.03)
- Quantidade de alunos média de alunos alto (12,553.95)
- Corpo docente forte na média (761.73)
- Quantidade considerável de cursos na média (média de 52.45)
- Despesas e receitas média moderadas
- Quantidade de periodicos e livros eletronicos com relevância baixa

### Second cluster

In [201]:
second_cluster_kmeans = pd.read_csv('./data/K-means/Segundo agrupamento (K-means).csv', sep=';')

In [202]:
get_total_categorical_values_cluster(second_cluster_kmeans)

2019: 297 ( 32.00%)
2018: 261 ( 28.12%)
2016: 195 ( 21.01%)
2017: 175 ( 18.86%)

Sudeste: 325 ( 35.02%)
Nordeste: 238 ( 25.65%)
Sul: 166 ( 17.89%)
Centro-Oeste: 153 ( 16.49%)
Norte: 46 ( 4.96%)

0: 551 ( 59.38%)
1: 377 ( 40.62%)

0: 587 ( 63.25%)
1: 341 ( 36.75%)

1: 477 ( 51.40%)
0: 451 ( 48.60%)

1: 690 ( 74.35%)
0: 238 ( 25.65%)

1: 863 ( 93.00%)
0: 65 ( 7.00%)

1: 687 ( 74.03%)
0: 241 ( 25.97%)

1: 602 ( 64.87%)
0: 326 ( 35.13%)

1.0: 643 ( 69.29%)
0.0: 285 ( 30.71%)

Privada com fins lucrativos: 624 ( 67.24%)
Privada sem fins lucrativos: 291 ( 31.36%)
Pública Estadual: 5 ( 0.54%)
Pública Municipal e Especial: 5 ( 0.54%)
Pública Federal: 3 ( 0.32%)

Faculdade: 927 ( 99.89%)
Universidade: 1 ( 0.11%)



In [203]:
second_cluster_kmeans[numeric_columns].describe()

Unnamed: 0,QT_TEC_TOTAL,QT_PERIODICO_ELETRONICO,QT_LIVRO_ELETRONICO,QT_ALUNOS,QT_DOCENTES,QT_CURSO,T1_VL_RECEITAS,T1_VL_DESPESAS
count,928.0,928.0,928.0,928.0,928.0,928.0,928.0,928.0
mean,12.87,1680.8,11675.25,153.83,14.2,2.3,1475556.24,1626618.4
std,13.9,8124.14,210971.48,154.13,10.38,1.94,15700553.63,15868979.79
min,1.0,0.0,0.0,1.0,1.0,1.0,0.01,2.0
25%,6.0,20.0,200.0,53.75,9.0,1.0,211203.48,262411.89
50%,9.0,70.0,2100.0,113.0,12.0,2.0,615428.62,629806.48
75%,15.0,400.0,7726.75,215.5,18.0,3.0,1157021.17,1238916.58
max,161.0,179324.0,6424945.0,2086.0,154.0,24.0,476631170.46,481208448.88


Conclusões:

- Predominância dos anos 2018 e 2019 (60,12%)
- Predominância das regiões Sudeste e Nordeste (60,67%)
- Uma incidência das IES não estarem numa capital (59.38%)
- Predominância das Instituições sem acesso ao portal Capes (63.25%)
- Possuem busca integrada (74.35%)
- Possuem serviço de internet (93.00%)
- Participam em redes sociais (74.03%)
- Possuem predominância em catalogo online (64.87%)
- Possuem predominâncai em ter outras bases (69.29%)
- Maioria das instituições são privada (com e sem fins lucrativos) (98,6)
- Maioria dos anos da IES são Faculdade (99.89%)

- Pouca quantidade de técnicos na média (12.87)
- Quantidade de alunos média de alunos abaixo (153.83)
- Corpo docente muito pouco na média (14.20)
- Pouca quantidade de cursos (2.30)
- Despesas e receitas média moderadas
- Quantidade de periodicos e livros eletronicos com relevância baixa

### Third cluster

In [204]:
third_cluster_kmeans = pd.read_csv('./data/K-means/Terceiro agrupamento (K-means).csv', sep=';')

In [205]:
get_total_categorical_values_cluster(third_cluster_kmeans)

2016: 345 ( 27.91%)
2017: 337 ( 27.27%)
2018: 286 ( 23.14%)
2019: 268 ( 21.68%)

Sudeste: 583 ( 47.17%)
Nordeste: 237 ( 19.17%)
Sul: 216 ( 17.48%)
Centro-Oeste: 112 ( 9.06%)
Norte: 88 ( 7.12%)

0: 775 ( 62.70%)
1: 461 ( 37.30%)

0: 1027 ( 83.09%)
1: 209 ( 16.91%)

0: 923 ( 74.68%)
1: 313 ( 25.32%)

1: 651 ( 52.67%)
0: 585 ( 47.33%)

1: 978 ( 79.13%)
0: 258 ( 20.87%)

1: 774 ( 62.62%)
0: 462 ( 37.38%)

0: 668 ( 54.05%)
1: 568 ( 45.95%)

0.0: 934 ( 75.57%)
1.0: 302 ( 24.43%)

Privada sem fins lucrativos: 643 ( 52.02%)
Privada com fins lucrativos: 565 ( 45.71%)
Pública Municipal e Especial: 21 ( 1.70%)
Pública Estadual: 6 ( 0.49%)
Pública Federal: 1 ( 0.08%)

Faculdade: 1235 ( 99.92%)
Centro Universitário: 1 ( 0.08%)



In [206]:
third_cluster_kmeans[numeric_columns].describe()

Unnamed: 0,QT_TEC_TOTAL,QT_PERIODICO_ELETRONICO,QT_LIVRO_ELETRONICO,QT_ALUNOS,QT_DOCENTES,QT_CURSO,T1_VL_RECEITAS,T1_VL_DESPESAS
count,1236.0,1236.0,1236.0,1236.0,1236.0,1236.0,1236.0,1236.0
mean,10.78,38.75,17.38,185.81,16.72,2.03,1550846.21,1585898.44
std,13.17,390.28,177.16,160.48,10.01,1.39,3915629.37,6214497.12
min,1.0,0.0,0.0,1.0,1.0,1.0,0.01,2.0
25%,5.0,0.0,0.0,70.0,10.0,1.0,389521.86,387356.53
50%,8.0,0.0,0.0,143.0,15.0,2.0,855917.78,855450.93
75%,13.0,10.0,0.0,260.25,22.0,3.0,1559343.44,1567425.95
max,277.0,9331.0,4000.0,1587.0,142.0,20.0,78935409.2,191892519.06


Conclusões:

- Predominância das regiões Sudeste e Nordeste e Sul (47.17%, 19.17%, 17.48%)
- Predominãncia das IES não estarem numa capital (62.70%)
- Instituições sem acesso ao portal Capes (83.09%)
- Possuem predominância em não possuir repositorio institucional (74.68%)
- Possuem predominância em serviço de internet (79.13%)
- Predominância em participar em redes sociais (62.62%)
- Possuem predominância em ter outras bases (75.57%)
- Maioria das instituições são privada (com e sem fins lucrativos) (97,73)
- Maioria dos anos da IES são Faculdade (99.92%)

- Quantidade baixa de média de técnicos (10.78)
- Quantidade de alunos média de alunos baixo (185.81	)
- Corpo docente muito baixo na média (16.72)
- Pouca quantidade de cursos (2.03)
- Despesas e receitas média moderadas
- Quantidade de periodicos e livros eletronicos com relevância baixa

### Forth cluster

In [207]:
forth_cluster_kmeans = pd.read_csv('./data/K-means/Quarto agrupamento (K-means).csv', sep=';')

In [208]:
get_total_categorical_values_cluster(forth_cluster_kmeans)

2019: 468 ( 30.63%)
2018: 450 ( 29.45%)
2017: 318 ( 20.81%)
2016: 292 ( 19.11%)

Sudeste: 596 ( 39.01%)
Sul: 346 ( 22.64%)
Nordeste: 325 ( 21.27%)
Centro-Oeste: 159 ( 10.41%)
Norte: 102 ( 6.68%)

0: 1052 ( 68.85%)
1: 476 ( 31.15%)

0: 989 ( 64.73%)
1: 539 ( 35.27%)

1: 808 ( 52.88%)
0: 720 ( 47.12%)

1: 1181 ( 77.29%)
0: 347 ( 22.71%)

1: 1489 ( 97.45%)
0: 39 ( 2.55%)

1: 1088 ( 71.20%)
0: 440 ( 28.80%)

1: 1214 ( 79.45%)
0: 314 ( 20.55%)

1.0: 1122 ( 73.43%)
0.0: 406 ( 26.57%)

Privada com fins lucrativos: 866 ( 56.68%)
Privada sem fins lucrativos: 632 ( 41.36%)
Pública Municipal e Especial: 28 ( 1.83%)
Pública Estadual: 2 ( 0.13%)

Faculdade: 1515 ( 99.15%)
Centro Universitário: 12 ( 0.79%)
Universidade: 1 ( 0.07%)



In [209]:
forth_cluster_kmeans[numeric_columns].describe()

Unnamed: 0,QT_TEC_TOTAL,QT_PERIODICO_ELETRONICO,QT_LIVRO_ELETRONICO,QT_ALUNOS,QT_DOCENTES,QT_CURSO,T1_VL_RECEITAS,T1_VL_DESPESAS
count,1528.0,1528.0,1528.0,1528.0,1528.0,1528.0,1528.0,1528.0
mean,33.68,17212.81,19758.56,932.89,45.12,6.21,16180821.28,11879650.46
std,26.16,514813.19,301869.62,858.73,22.36,4.01,186450066.9,87466525.39
min,2.0,0.0,5.0,22.0,1.0,1.0,3125.0,248908.99
25%,17.0,29.0,2000.0,487.0,29.0,3.0,2793845.86,2633540.37
50%,27.0,129.0,7000.0,771.5,41.0,5.0,5174117.05,4541098.14
75%,41.0,559.25,8734.0,1205.25,58.0,8.0,9047620.84,7993876.03
max,346.0,20083543.0,10000000.0,24310.0,153.0,40.0,5745640000.0,2918280000.0


Conclusões:

- Predominância dos anos 2018 e 2019 (60,08%)
- Predominância das regiões Sudeste, Sul e Nordeste (82,92%)
- Uma incidência das IES não estarem numa capital (68.85%)
- Predominância das Instituições sem acesso ao portal Capes ( 64.73%)
- Possuem predominância em busca integrada (77.29%)
- Possuem serviço de internet (97.45%)
- Predominância em participar em redes sociais (71.20%)
- Possuem predominância em ter catalogo online (79.45%)
- Possuem predominância em ter outras bases (73.43%)
- Maioria das iinstituições são privada (com e sem fins lucrativos) (98,04)
- Maioria dos anos da IES são Faculdade (99.15%)

- Quantidade de técnicos na média baixo (33.68	)
- Quantidade de alunos média de alunos  moderado (932.89)
- Corpo docente muito na média (45.12)
- Pouca quantidade média de cursos (6.21)
- Despesas e receitas média acima do moderado
- Quantidade de periodicos e livros eletronicos com relevância alto

### Firth cluster

In [210]:
firth_cluster_kmeans = pd.read_csv('./data/K-means/Quinto agrupamento (K-means).csv', sep=';')

In [211]:
get_total_categorical_values_cluster(firth_cluster_kmeans)

2019: 347 ( 26.63%)
2018: 334 ( 25.63%)
2017: 322 ( 24.71%)
2016: 300 ( 23.02%)

Sudeste: 571 ( 43.82%)
Nordeste: 334 ( 25.63%)
Sul: 189 ( 14.50%)
Norte: 109 ( 8.37%)
Centro-Oeste: 100 ( 7.67%)

0: 771 ( 59.17%)
1: 532 ( 40.83%)

0: 828 ( 63.55%)
1: 475 ( 36.45%)

1: 718 ( 55.10%)
0: 585 ( 44.90%)

1: 1015 ( 77.90%)
0: 288 ( 22.10%)

1: 1270 ( 97.47%)
0: 33 ( 2.53%)

1: 787 ( 60.40%)
0: 516 ( 39.60%)

1: 1115 ( 85.57%)
0: 188 ( 14.43%)

1.0: 1020 ( 78.28%)
0.0: 283 ( 21.72%)

Privada com fins lucrativos: 715 ( 54.87%)
Privada sem fins lucrativos: 547 ( 41.98%)
Pública Municipal e Especial: 27 ( 2.07%)
Pública Federal: 9 ( 0.69%)
Pública Estadual: 5 ( 0.38%)

Faculdade: 862 ( 66.16%)
Centro Universitário: 420 ( 32.23%)
Universidade: 19 ( 1.46%)
Instituto Federal de Educação, Ciência e Tecnologia: 2 ( 0.15%)



In [212]:
firth_cluster_kmeans[numeric_columns].describe()

Unnamed: 0,QT_TEC_TOTAL,QT_PERIODICO_ELETRONICO,QT_LIVRO_ELETRONICO,QT_ALUNOS,QT_DOCENTES,QT_CURSO,T1_VL_RECEITAS,T1_VL_DESPESAS
count,1303.0,1303.0,1303.0,1303.0,1303.0,1303.0,1303.0,1303.0
mean,143.65,31306.84,11317.78,4691.86,151.18,18.49,52263088.0,61435145.7
std,136.18,362333.87,55653.4,4874.23,75.6,13.72,140361418.17,529816318.16
min,12.0,0.0,0.0,72.0,10.0,1.0,312066.18,2600437.9
25%,70.0,105.0,564.0,2496.0,97.0,11.0,20850115.51,16877562.19
50%,108.0,422.0,6157.0,3621.0,132.0,16.0,32806982.59,27917450.09
75%,180.5,5625.0,8729.5,5386.5,189.0,22.0,59547232.1,48137697.0
max,2654.0,6437318.0,1200000.0,89706.0,550.0,183.0,4158885757.32,17002300000.0


Conclusões:

- Predominância das regiões Sudeste e Nordeste (69,45%)
- Uma incidência das IES não estarem numa capital (59.17%)
- Predominância das Instituições sem acesso ao portal Capes ( 63.55%)
- Possuem predominância em busca integrada (77.90%)
- Possuem serviço de internet (97.47%)
- Predominância em participar em redes sociais (60.40%)
- Possuem catalogo online (85.57%)
- Possuem predominância em ter outras bases (78.28%)
- Maioria das instituições são privada (com e sem fins lucrativos) (96,85)
- Maioria dos anos da IES são Faculdade e centro universitário (66.16%, 32.23%)

- Quantidade de técnicos médio moderado (143.65)
- Quantidade de alunos média de alunos acima do moderado (4,691.86)
- Corpo docente muito acima da  média (151.18)
- Moderada quantidade média de cursos (18.49)
- Despesas e receitas média altas
- Quantidade de periodicos e livros eletronicos com relevância alto

### Sixth cluster

In [213]:
sixth_cluster_kmeans = pd.read_csv('./data/K-means/Sexto agrupamento (K-means).csv', sep=';')

In [214]:
get_total_categorical_values_cluster(sixth_cluster_kmeans)

2016: 471 ( 35.63%)
2017: 372 ( 28.14%)
2018: 261 ( 19.74%)
2019: 218 ( 16.49%)

Sudeste: 577 ( 43.65%)
Nordeste: 275 ( 20.80%)
Sul: 217 ( 16.41%)
Centro-Oeste: 159 ( 12.03%)
Norte: 94 ( 7.11%)

0: 915 ( 69.21%)
1: 407 ( 30.79%)

0: 967 ( 73.15%)
1: 355 ( 26.85%)

0: 899 ( 68.00%)
1: 423 ( 32.00%)

1: 865 ( 65.43%)
0: 457 ( 34.57%)

1: 1198 ( 90.62%)
0: 124 ( 9.38%)

1: 863 ( 65.28%)
0: 459 ( 34.72%)

1: 957 ( 72.39%)
0: 365 ( 27.61%)

0.0: 823 ( 62.25%)
1.0: 499 ( 37.75%)

Privada sem fins lucrativos: 667 ( 50.45%)
Privada com fins lucrativos: 523 ( 39.56%)
Pública Municipal e Especial: 100 ( 7.56%)
Pública Estadual: 24 ( 1.82%)
Pública Federal: 8 ( 0.61%)

Faculdade: 1261 ( 95.39%)
Centro Universitário: 53 ( 4.01%)
Universidade: 6 ( 0.45%)
Instituto Federal de Educação, Ciência e Tecnologia: 2 ( 0.15%)



In [215]:
sixth_cluster_kmeans[numeric_columns].describe()

Unnamed: 0,QT_TEC_TOTAL,QT_PERIODICO_ELETRONICO,QT_LIVRO_ELETRONICO,QT_ALUNOS,QT_DOCENTES,QT_CURSO,T1_VL_RECEITAS,T1_VL_DESPESAS
count,1322.0,1322.0,1322.0,1322.0,1322.0,1322.0,1322.0,1322.0
mean,46.05,181.31,20.6,1202.21,60.92,6.76,20169429.75,12427568.59
std,95.21,1624.34,157.65,1028.28,41.19,5.27,174260340.2,75731466.95
min,1.0,0.0,0.0,62.0,3.0,1.0,1.0,98800.0
25%,19.0,0.0,0.0,503.25,34.0,4.0,3080043.69,3007529.0
50%,31.0,6.0,0.0,879.0,50.0,6.0,6047025.04,5573239.5
75%,50.0,63.75,0.0,1503.25,73.0,9.0,12369185.83,11492529.14
max,2207.0,38000.0,3090.0,8316.0,300.0,113.0,4000452318.9,2255916597.0


Conclusões:

- Predominância dos anos 2016 e 2017 (35.63%, 28.14%)
- Predominância das regiões Sudeste e Nordeste (43.65%, 20.80%)
- Predominância das IES não estarem numa capital (69.21%)
- Predominância das Instituições sem acesso ao portal Capes (73.15%)
- Predominância das Instituições sem repositorio institucional (68.00%)
- Possuem predominância em busca integrada (65.43%)
- Possuem serviço de internet (90.62%)
- Predominância em participar em redes sociais (65.28%)
- Possuem catalogo online (72.39%)
- Possuem predominância em ter outras bases (62.25%)
- Maioria das instituições são privada (com e sem fins lucrativos) (90,01%)
- Maioria dos anos da IES são Faculdade (95.39%)

- Quantidade de técnicos médio baixo (46.05	)
- Quantidade de alunos média de alunos  moderado (1,202.21)
- Corpo docente moderado na  média (60.92)
- Moderada quantidade baixa de cursos (16.76)
- Despesas e receitas média altas
- Baixa quantidade de Quantidade de periodicos e livros eletronicos
- Quantidade de periodicos e livros eletronicos com relevância baixo

### Seventh cluster

In [216]:
seventh_cluster_kmeans = pd.read_csv('./data/K-means/Sétimo agrupamento (K-means).csv', sep=';')

In [217]:
get_total_categorical_values_cluster(seventh_cluster_kmeans)

2019: 161 ( 27.38%)
2018: 149 ( 25.34%)
2017: 145 ( 24.66%)
2016: 133 ( 22.62%)

Sudeste: 264 ( 44.90%)
Sul: 143 ( 24.32%)
Nordeste: 108 ( 18.37%)
Centro-Oeste: 48 ( 8.16%)
Norte: 25 ( 4.25%)

1: 317 ( 53.91%)
0: 271 ( 46.09%)

1: 516 ( 87.76%)
0: 72 ( 12.24%)

1: 414 ( 70.41%)
0: 174 ( 29.59%)

1: 395 ( 67.18%)
0: 193 ( 32.82%)

1: 581 ( 98.81%)
0: 7 ( 1.19%)

1: 423 ( 71.94%)
0: 165 ( 28.06%)

1: 545 ( 92.69%)
0: 43 ( 7.31%)

1.0: 536 ( 91.16%)
0.0: 52 ( 8.84%)

Privada sem fins lucrativos: 272 ( 46.26%)
Pública Federal: 151 ( 25.68%)
Privada com fins lucrativos: 117 ( 19.90%)
Pública Estadual: 37 ( 6.29%)
Pública Municipal e Especial: 11 ( 1.87%)

Universidade: 410 ( 69.73%)
Centro Universitário: 131 ( 22.28%)
Instituto Federal de Educação, Ciência e Tecnologia: 38 ( 6.46%)
Faculdade: 5 ( 0.85%)
Centro Federal de Educação Tecnológica: 4 ( 0.68%)



In [218]:
seventh_cluster_kmeans[numeric_columns].describe()

Unnamed: 0,QT_TEC_TOTAL,QT_PERIODICO_ELETRONICO,QT_LIVRO_ELETRONICO,QT_ALUNOS,QT_DOCENTES,QT_CURSO,T1_VL_RECEITAS,T1_VL_DESPESAS
count,588.0,588.0,588.0,588.0,588.0,588.0,588.0,588.0
mean,1170.62,20580.04,51040.33,27666.31,970.69,73.91,507239181.16,531850625.47
std,1577.99,45203.4,117262.32,37426.76,897.5,48.37,726312568.2,1146523723.87
min,42.0,0.0,0.0,933.0,90.0,10.0,796666.35,42123282.22
25%,417.75,354.5,5305.0,10074.0,409.75,40.0,148696340.42,142580692.62
50%,727.5,5416.5,10810.5,18228.0,640.5,59.0,283766807.44,260395339.91
75%,1241.5,27972.0,21087.0,32646.5,1230.75,99.0,566429608.87,506231701.56
max,15562.0,572574.0,1000000.0,370652.0,6286.0,296.0,6258050290.0,22161393800.0


Conclusões:

- Predominância das regiões Sudeste e Sul (44.90%, 24.32%)
- Predominância das Instituições com acesso ao portal Capes (87.76%)
- Predominância das Instituições com repositorio institucional (70.41%)
- Possuem predominância em busca integrada (67.18%)
- Possuem serviço de internet (98.81%)
- Predominância em participar em redes sociais (71.94%)
- Possuem catalogo online (92.69%)
- Possuem predominância em ter outras bases (91.16%)
- Maioria das instituições são privada sem fins, federal e com fins lurativos (46.26%, 25.68%, 19.90%)
- Maioria dos anos da IES são Universidade e centro universitario (69.73%, 22.28%)

- Quantidade de técnicos médio alto (1,170.62	)
- Quantidade de alunos média de alunos alto (27,666.31)
- Corpo docente alto na  média (970.69)
- altga quantidade baixa de cursos (73.91)
- Despesas e receitas média altas
- Alta quantidade de Quantidade de periodicos e livros eletronicos
- Quantidade de periodicos e livros eletronicos com relevância alto

# K-means

In [219]:
analise_kmeans = pd.DataFrame([], columns=['prompt', 'cluster', 'temperature', 'Total_suposições', 'Mapeadas_pelo_modelo', 'Ignoradas_pelo_modelo', 'alucinação_do_modelo', 'insights'])

In [220]:
def show_result_kmeans_prompt(df, temperature, cluster):
    return df.loc[(df['temperature'] == temperature) & (df['cluster'] == cluster), ['result']]['result'].tolist()[0]

In [221]:
kmeans_fase2.loc[(kmeans_fase2['temperature'] == 1) & (kmeans_fase2['cluster'] == 'primeiro'), ['result']]['result'].tolist()[0]

'Para iniciar nossa análise do cluster fornecido no CSV, é fundamental entender o conceito de cluster e como ele pode estar relacionado com as características dos dados. Um cluster é um grupo de pontos no espaço de dados que se agrupam de acordo com suas características e tendências em comum.\n\nAqui está a cadeia de pensamento para iniciar a análise:\n\n1. **Entendendo o conceito de cluster**: Antes de analisar os dados, é crucial entender o que um cluster significa e como ele pode ser aplicado à nossa análise.\n2. **Verificando a estrutura do dataset**: Ao examinar o CSV fornecido, precisamos verificar se há alguma estrutura ou padrão em como as características estão relacionadas entre si.\n3. **Identificando características relevantes**: Nossas primeiras etapas envolverão analisar cada característica isolada para determinar sua importância no agrupamento dos dados.\n4. **Conjunta análise de características**: A análise conjunta de características significa que vamos avaliar como as 

In [222]:
analise_kmeans

Unnamed: 0,prompt,cluster,temperature,Total_suposições,Mapeadas_pelo_modelo,Ignoradas_pelo_modelo,alucinação_do_modelo,insights


## Fase 2

In [223]:
kmeans_fase2 = pd.read_csv('Models/webUI/results/K-means_Fase 2_results.csv')

### First Cluster

In [224]:
print(show_result_kmeans_prompt(kmeans_fase2, 0, 'primeiro'))

Aqui está o meu processo de análise:

**Passo 1: Entendendo o Dados**

Ao receber o CSV contendo as instâncias do cluster, o primeiro passo é entender a natureza dos dados. Qual é o objetivo da análise? Quais características estamos considerando? Neste caso, não há informações sobre o objetivo ou as características específicas, então vou me concentrar em analisar os dados estatísticos.

**Passo 2: Visuais Iniciais**

Para obter uma visão geral dos agrupamentos, vou criar alguns gráficos simples. Vou plotar um gráfico de dispersão para visualizar as características principais do dataset. Isso ajudará a identificar quais características estão mais relacionadas entre si e se há algum padrão ou tendência.

**Gráfico de Dispersão**

A análise dos dados estatísticos sugere que o cluster tem uma distribuição simétrica para algumas características, enquanto outras têm uma distribuição não simétrica. O gráfico de dispersão sugere que as duas primeiras características são principais no agrupamen

Conclusões:

- Predominância das regiões Sudeste, Nordeste e Sul (37.43%, 22.35%, 18.81%) (NOT OK)
- Uma incidência das IES não estarem numa capital (59,78%) (NOT OK)
- Instituições com acesso ao portal Capes (87.34%) (NOT OK)
- Possuem serviço de internet (94.97%) (NOT OK)
- Participam em redes sociais (71.51%) (NOT OK)
- Possuem catalogo online (86.22%) (NOT OK)
- Busca integrada (58.29%) (NOT OK)
- Quase a métade das IES são públicas federais, Privada sem fins lucrativos, Pública Estadual (49.16%, 22.91%, 21.04%) (NOT OK)
- Mais da metade das IES são do tipo universidade e Instituto Federal de Educação, Ciência e Tecnologia (59.96%, 20.48%) (NOT OK)

- Quantidade alta de técnicos na média (765.03) (NOT OK)
- Quantidade de alunos média de alunos alto (12,553.95) (NOT OK)
- Corpo docente forte na média (761.73) (NOT OK)
- Quantidade considerável de cursos na média (média de 52.45) (NOT OK)
- Despesas e receitas média moderadas (NOT OK)
- Quantidade de periodicos e livros eletronicos com relevância baixa (NOT OK)

Insights falsos:

- Análise de gráficos que não são gerados
- Falta de explicação sobre as variaveis 
- Detalhamento do passo a passo ao invés da análise em si


Enfatiza a presença de analises mais detalhadas

In [225]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2', 'primeiro', 0, 15, 7, 8, 1, 0]

In [226]:
print(show_result_kmeans_prompt(kmeans_fase2, 0.5, 'primeiro'))

**Análise do Cluster**

A análise do cluster será realizada com base em estatísticas e padrões observados nos dados fornecidos. O objetivo é identificar os fatores que levaram à criação desse agrupamento específico.

**Características Principais**

Ao analisar as instâncias do cluster, podemos observar as seguintes características principais:

* **Distribuição de Vários Attributos**: A distribuição dos atributos (como idade, salário e nível de educação) não é uniforme em todas as instâncias do cluster. Isso sugere que há uma correlação entre essas variáveis.
* **Concentração de Valor**: Algumas características apresentam valores concentrados em certos intervalos (por exemplo, um grupo de pessoas com salário extremamente alto ou baixo). Isso pode indicar uma tendência ou uma característica específica associada a esse cluster.

**Análise Estatística**

* **Medidas de Desvios**: A mediana da idade é 30 anos e o valor médio do salário é de R$ 10.000,00. Isso sugere que as pessoas nesse clu

Conclusões:

- Predominância das regiões Sudeste, Nordeste e Sul (37.43%, 22.35%, 18.81%) (NOT OK)
- Uma incidência das IES não estarem numa capital (59,78%) NOT OK
- Instituições com acesso ao portal Capes (87.34%) NOT OK
- Possuem serviço de internet (94.97%) NOT OK
- Participam em redes sociais (71.51%) NOT OK
- Possuem catalogo online (86.22%) NOT OK
- Busca integrada (58.29%) NOT OK
- Quase a métade das IES são públicas federais, Privada sem fins lucrativos, Pública Estadual (49.16%, 22.91%, 21.04%) NOT OK
- Mais da metade das IES são do tipo universidade e Instituto Federal de Educação, Ciência e Tecnologia (59.96%, 20.48%) NOT OK

- Quantidade alta de técnicos na média (765.03) NOTOK
- Quantidade de alunos média de alunos alto (12,553.95) NOTOK
- Corpo docente forte na média (761.73) NOTOK
- Despesas e receitas média moderadas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixa NOT NOTOK

Insights falsos:

- A análise apresentou dados inconsistentes com o foco da analise(alucinou)


In [227]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'primeiro', 1, 15, 9, 6, 2, 0]

In [228]:
print(show_result_kmeans_prompt(kmeans_fase2, 1.0, 'primeiro'))

Para iniciar nossa análise do cluster fornecido no CSV, é fundamental entender o conceito de cluster e como ele pode estar relacionado com as características dos dados. Um cluster é um grupo de pontos no espaço de dados que se agrupam de acordo com suas características e tendências em comum.

Aqui está a cadeia de pensamento para iniciar a análise:

1. **Entendendo o conceito de cluster**: Antes de analisar os dados, é crucial entender o que um cluster significa e como ele pode ser aplicado à nossa análise.
2. **Verificando a estrutura do dataset**: Ao examinar o CSV fornecido, precisamos verificar se há alguma estrutura ou padrão em como as características estão relacionadas entre si.
3. **Identificando características relevantes**: Nossas primeiras etapas envolverão analisar cada característica isolada para determinar sua importância no agrupamento dos dados.
4. **Conjunta análise de características**: A análise conjunta de características significa que vamos avaliar como as diferent

Conclusões:

- Predominância das regiões Sudeste, Nordeste e Sul (37.43%, 22.35%, 18.81%) OK
- Uma incidência das IES não estarem numa capital (59,78%) OK
- Instituições com acesso ao portal Capes (87.34%) OK
- Possuem serviço de internet (94.97%) OK
- Participam em redes sociais (71.51%) OK 
- Possuem catalogo online (86.22%) NOT OK
- Busca integrada (58.29%) NOT OK
- Quase a métade das IES são públicas federais, Privada sem fins lucrativos, Pública Estadual (49.16%, 22.91%, 21.04%) NOT OK
- Mais da metade das IES são do tipo universidade e Instituto Federal de Educação, Ciência e Tecnologia (59.96%, 20.48%) NOT OK

- Quantidade alta de técnicos na média (765.03) NOT OK
- Quantidade de alunos média de alunos alto (12,553.95) NOT OK
- Corpo docente forte na média (761.73) NOT OK
- Despesas e receitas média moderadas NOT OK
- Quantidade de periodicos e livros eletronicos com relevância baixa NOT OK

Insights falsos:
- Há um alto número de instituições com repositório institucional (`1`), sugerindo prática comum de preservação e compartilhamento de dados e materiais de pesquisa, porém há algumas exceções que merecem investigação adicional.
- Variável não tao relevantes : **`IN_CATALOGO_ONLINE`**




In [229]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'primeiro', 2, 15, 5, 10, 2, 0]

### Second Cluster

In [230]:
print(show_result_kmeans_prompt(kmeans_fase2, 0, 'segundo'))

Uma abordagem para entender o agrupamento dos dados em um cluster é analisar os padrões estatísticos e as relações entre as variáveis presentes nos dados.

**Primeiro Passo: Entendendo o Cluster**

Antes de começar a análise, é importante entender que um cluster é uma coleção de pontos próximos uns dos outros no espaço de dados. O objetivo aqui é identificar os fatores que levaram à formação desse agrupamento.

**Análise Estatística**

Para fazer isso, precisamos analisar as variáveis presentes nos dados e entender como elas interagem entre si. Vamos considerar algumas características importantes:

*   **Central Tendência**: a tendência média dos valores de cada característica.
*   **Variância**: a dispersão dos valores ao redor da tendência média.
*   **Correlação**: a relação linear ou não linear entre as variáveis.

Aqui estão alguns possíveis fatores que podem ter levado à criação do cluster:

1.  **Características Isoladas**: uma característica pode ser única e separada dos outros

Conclusões:

- Predominância dos anos 2018 e 2019 (60,12%) NOTOK
- Predominância das regiões Sudeste e Nordeste (60,67%) NOTOK
- Uma incidência das IES não estarem numa capital (59.38%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes (63.25%) NOTOK
- Possuem busca integrada (74.35%) OK
- Possuem serviço de internet (93.00%) NOTOK
- Participam em redes sociais (74.03%) NOTOK
- Possuem predominância em catalogo online (64.87%) NOTOK
- Possuem predominâncai em ter outras bases (69.29%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (98,6) OK
- Maioria dos anos da IES são Faculdade (99.89%) NOTOK

- Pouca quantidade de técnicos na média (12.87) NOTOK
- Quantidade de alunos média de alunos abaixo (153.83) NOTOK
- Corpo docente muito pouco na média (14.20) NOTOK
- Pouca quantidade de cursos (2.30) NOTOK
- Despesas e receitas média moderadas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixa NOTOK

Insights falsos:
-  Mudança de contexto da análise, o modelo criou váriaveis que não existiam




In [231]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'segundo', 0, 17, 2, 15, 4, 0]

In [232]:
print(show_result_kmeans_prompt(kmeans_fase2, 0.5, 'segundo'))

**Análise de Clustering**

A análise de clustering é um processo que visa identificar e entender agrupamentos significativos em dados estatísticos. Nesse contexto, recebi um conjunto de dados em formato CSV que representa instâncias de um determinado cluster. O objetivo é analisar essas instâncias e explicar a criação do cluster.

**Características do Dados**

Ao analisar o conjunto de dados, percebei que ele consiste em várias características estatísticas, incluindo:

*   Variável de Medida de Dispersão (VMD): uma medida que representa a espessura ou distância entre os pontos.
*   Vértice de Dispersion (VD): um valor que representa a coordenada x do vértice de dispersão.
*   Coordenada y da Mediana: uma medida que representa a posição média das instâncias em relação à variável de medida de dispersão.

**Análise de Clustering**

Ao analisar as instâncias, percebi que elas podem ser agrupadas em diferentes formas. A forma mais significativa é a criação de um cluster isolado na extremida

Conclusões:

- Predominância dos anos 2018 e 2019 (60,12%) NOTOK
- Predominância das regiões Sudeste e Nordeste (60,67%) NOTOK 
- Uma incidência das IES não estarem numa capital (59.38%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes (63.25%) NOTOK
- Possuem busca integrada (74.35%) NOTOK
- Possuem serviço de internet (93.00%) NOTOK
- Participam em redes sociais (74.03%) NOTOK
- Possuem predominância em catalogo online (64.87%) NOTOK
- Possuem predominâncai em ter outras bases (69.29%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (98,6) NOTOK
- Maioria dos anos da IES são Faculdade (99.89%) NOTOK

- Pouca quantidade de técnicos na média (12.87) NOTOK
- Quantidade de alunos média de alunos abaixo (153.83) NOTOK
- Corpo docente muito pouco na média (14.20) NOTOK
- Pouca quantidade de cursos (2.30) NOTOK
- Despesas e receitas média moderadas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixa NOTOK

Insights falsos:
- a maioria possui repositórios institucionais (`IN_REPOSITORIO_INSTITUCIONAL`)
- Observa-se que as variáveis relacionadas a outros recursos digitais (busca integrada, redes sociais, catálogos online e outras bases de dados) mostram uma variabilidade maior, sem um padrão claro.
- As instituições estão distribuídas por diversas regiões do país, sem nenhuma região predominante.

In [233]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'segundo', 1, 17, 4, 13, 2, 0]

In [234]:
print(show_result_kmeans_prompt(kmeans_fase2, 1.0, 'segundo'))

**Análise do Cluster**

Recebido o arquivo CSV com as instâncias do cluster, farei uma análise estatística detalhada para entender os fatores que levaram à criação desse agrupamento.

**Etapas da Análise**

1. **Visualização Inicial**: Comecei visualizando a distribuição das instâncias no espaço de características. Isso me permitiu identificar rapidamente se o cluster era isolado ou se existia algum padrão de comportamento interessante.
2. **Análise das Medidas Centrícias**: Aproximadamente 70% das instâncias se concentravam em um único quadrante do espaço de características, sugerindo que houve uma relação forte entre as características.
3. **Comparação entre Categorias de Variações**: Ao comparar as variações entre os diferentes quadrantes do espaço de características, observei que as primeiras três características (X1, X2 e X3) apresentavam uma grande variabilidade nos valores da classe, enquanto as últimas duas características (X4 e X5) tinham valores mais estacionários.
4. **Análi

Conclusões:

- Predominância dos anos 2018 e 2019 (60,12%) NOTOK
- Predominância das regiões Sudeste e Nordeste (60,67%) NOTOK
- Uma incidência das IES não estarem numa capital (59.38%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes (63.25%) NOTOK
- Possuem busca integrada (74.35%) OK
- Possuem serviço de internet (93.00%) OK
- Participam em redes sociais (74.03%) NOTOK
- Possuem predominância em catalogo online (64.87%) NOTOK
- Possuem predominâncai em ter outras bases (69.29%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (98,6) NOTOK
- Maioria dos anos da IES são Faculdade (99.89%) NOTOK

- Pouca quantidade de técnicos na média (12.87) NOTOK
- Quantidade de alunos média de alunos abaixo (153.83) NOTOK
- Corpo docente muito pouco na média (14.20) NOTOK 
- Pouca quantidade de cursos (2.30) NOTOK
- Despesas e receitas média moderadas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixa NOTOK

Insights falsos:
- A análise não detalha quais as características e nem a relevancia delas
- é uma análsie superficial, como se houvesse criado um gráfico de dispersão para analisar. 



In [235]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'segundo', 2, 17, 5, 12, 3, 0]

### Third Cluster

In [236]:
print(show_result_kmeans_prompt(kmeans_fase2, 0, 'terceiro'))

**Análise do Cluster**

Ao receber o CSV com as instâncias de um determinado cluster, meu primeiro passo é entender o objetivo da análise e os fatores que podem influenciar a criação desse agrupamento.

**Perguntas Iniciais**

Para começar, eu me pergunto:

* Qual é o objetivo do cluster? (por exemplo: segmentação de mercado, segmentação de clientes)
* Quais são as características relevantes para o cluster?
* Há alguma informação adicional disponível que possa ajudar na análise?

**Análise das Características**

Depois de identificar as características relevantes, eu procedo com a análise estatística das mesmas. Aqui estão algumas perguntas que eu faria:

* Qual é a distribuição dos valores das características? (por exemplo: normal, fatial, uniforme)
* Há variação significativa nas características ao longo do dataset?
* Existem padrões ou tendências nas características?

**Análise das Conexões entre Características**

Em seguida, eu analiso as conexões entre as características, procura

Conclusões:

- Predominância das regiões Sudeste e Nordeste e Sul (47.17%, 19.17%, 17.48%) NOTOK
- Predominãncia das IES não estarem numa capital (62.70%) NOTOK
- Instituições sem acesso ao portal Capes (83.09%) NOTOK
- Possuem predominância em não possuir repositorio institucional (74.68%) NOTOK
- Possuem predominância em serviço de internet (79.13%) NOTOK
- Predominância em participar em redes sociais (62.62%) NOTOK
- Possuem predominância em ter outras bases (75.57%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (97,73)  NOTOK
- Maioria dos anos da IES são Faculdade (99.92%) NOTOK

- Quantidade baixa de média de técnicos (10.78) NOTOK
- Quantidade de alunos média de alunos baixo (185.81) NOTOK
- Corpo docente muito baixo na média (16.72) NOTOK
- Pouca quantidade de cursos (2.03) NOTOK
- Despesas e receitas média moderadas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixa NOTOK

Insights falsos:
- A análise descreve etapas para um processo de análise do cluster, mas não análisa o cluster e o contexto da base de dados. 

In [237]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'terceiro', 0, 15, 2, 13, 3, 1]

In [238]:
print(show_result_kmeans_prompt(kmeans_fase2, 0.5, 'terceiro'))

**Análise do Cluster**

Ao analisar o dataset fornecido, podemos identificar alguns fatores que podem ter contribuído para a criação do cluster.

**Características isoladas**

A primeira coisa que chamou a atenção foi a presença de características isoladas que não estão conjugadas com outras características. Por exemplo, a característica "Idade" está presente em todas as instâncias do cluster, mas não está relacionada com outras características como "Salário", "Nível de Educação" ou "Localização".

**Características conjugadas**

Outro fator que chamou a atenção foi a presença de características conjugadas. Por exemplo, as instâncias do cluster têm valores próximos entre si para as características "Salário" e "Nível de Educação". Isso pode indicar que essas características estão relacionadas e podem ter contribuído para o agrupamento.

**Distribuição das características**

A análise da distribuição das características também é importante. Por exemplo, a característica "Salário" tem uma

Conclusões:

- Predominância das regiões Sudeste e Nordeste e Sul (47.17%, 19.17%, 17.48%) NOTOK
- Predominãncia das IES não estarem numa capital (62.70%) NOTOK
- Instituições sem acesso ao portal Capes (83.09%) NOTOK
- Possuem predominância em não possuir repositorio institucional (74.68%) NOTOK
- Possuem predominância em serviço de internet (79.13%) NOTOK
- Predominância em participar em redes sociais (62.62%) NOTOK
- Possuem predominância em ter outras bases (75.57%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (97,73) OK
- Maioria dos anos da IES são Faculdade (99.92%) NOTOK

- Quantidade baixa de média de técnicos (10.78) NOTOK
- Quantidade de alunos média de alunos baixo (185.81	) NOTOK
- Corpo docente muito baixo na média (16.72) NOTOK
- Pouca quantidade de cursos (2.03) NOTOK
- Despesas e receitas média moderadas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixa NOTOK

Insights:
- A análise reconhece que se trata de informações de Nível superior, mas não apresneta detalhes.
- Também cria variaveisfora de contexto, como idade.  

In [239]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'terceiro', 1, 15, 5, 10, 2, 4]

In [240]:
print(show_result_kmeans_prompt(kmeans_fase2, 1.0, 'terceiro'))

Entendo o desafio! Vou te guiar por uma análise detalhada dos dados estatísticos para entender os fatores que levaram à criação do cluster.

**Passo 1: Obter visão geral**

Antes de começar, é importante ter uma visão geral do dataset fornecido. Nesse caso, o CSV contém as instâncias de um determinado cluster. Vamos observar os dados e entender se há algum padrão ou tendência aparente.

**Passo 2: Analisar características individuais**

Vamos analisar cada característica individualmente para entender se há algum padrão ou tendência significativa. Isso inclui calcular medidas de tendência central (média, mediana, moda) e dispersão (desvio padrão, variança).

**Observação:** Ao analisar as características individuais, observamos que a característica "features" tem uma distribuição simétrica com um desvio padrão de 0,5. A característica "target" também tem uma distribuição simétrica com um desvio padrão de 0,2.

**Passo 3: Analisar características conjuntas**

Agora, vamos analisar as car

Conclusões:

- Predominância das regiões Sudeste e Nordeste e Sul (47.17%, 19.17%, 17.48%) NOTOK
- Predominãncia das IES não estarem numa capital (62.70%) NOTOK
- Instituições sem acesso ao portal Capes (83.09%) NOTOK
- Possuem predominância em não possuir repositorio institucional (74.68%) NOTOK
- Possuem predominância em serviço de internet (79.13%) NOTOK
- Predominância em participar em redes sociais (62.62%) NOTOK
- Possuem predominância em ter outras bases (75.57%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (97,73) NOTOK
- Maioria dos anos da IES são Faculdade (99.92%) NOTOK

- Quantidade baixa de média de técnicos (10.78) NOTOK
- Quantidade de alunos média de alunos baixo (185.81) NOTOK
- Corpo docente muito baixo na média (16.72) NOTOK
- Pouca quantidade de cursos (2.03) NOTOK
- Despesas e receitas média moderadas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixa NOTOK



Insights:
- A análise foca em detalhar o processo de criação de um cluster. 

In [241]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'terceiro', 2, 15, 7, 8, 1, 1]

### Forth Cluster

In [242]:
print(show_result_kmeans_prompt(kmeans_fase2, 0, 'quarto'))

Vamos analisar o dado fornecido!

A primeira coisa que fiz é verificar se há alguma característica isolada que possa ser identificada como um "ponto" inicial do cluster. Isso significa que uma única instância de uma característica pode estar presente no conjunto de dados e que possa ter sido a origem da formação do agrupamento.

Ao analisar as características, observei que existem algumas características que são muito consistentes entre si. Por exemplo:

* A característica "idade" tem valores muito próximos entre si, com uma média de 30 anos e uma amplitude padrão de 5 anos.
* A característica "salário" também tem valores próximos, com uma média de R$ 5.000,00 e uma amplitude padrão de R$ 1.000,00.

Essas características consistentes sugerem que o cluster pode estar relacionado a alguma característica mais amplamente presente no conjunto de dados.

A próxima coisa que fiz é verificar se há alguma característica que esteja conjuntamente com essas características consistentes. Isso signi

Conclusões:

- Predominância dos anos 2018 e 2019 (60,08%) NOTOK
- Predominância das regiões Sudeste, Sul e Nordeste (82,92%) NOTOK
- Uma incidência das IES não estarem numa capital (68.85%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes ( 64.73%) NOTOK
- Possuem predominância em busca integrada (77.29%) NOTOK
- Possuem serviço de internet (97.45%) NOTOK
- Predominância em participar em redes sociais (71.20%) NOTOK
- Possuem predominância em ter catalogo online (79.45%) NOTOK
- Possuem predominância em ter outras bases (73.43%) NOTOK
- Maioria das iinstituições são privada (com e sem fins lucrativos) (98,04) NOTOK
- Maioria dos anos da IES são Faculdade (99.15%) NOTOK

- Quantidade de técnicos na média baixo (33.68	) NOTOK
- Quantidade de alunos média de alunos  moderado (932.89) NOTOK
- Corpo docente muito na média (45.12) NOTOK
- Pouca quantidade média de cursos (6.21) NOTOK
- Despesas e receitas média acima do moderado NOTOK
- Quantidade de periodicos e livros eletronicos com relevância alto NOTOK

Insights falsos:
- Destaca a necessidade de análises aprofundadas
- Descreve as etapas, mas não realiza a análise das variaveis. 



In [243]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'quarto', 0, 17, 3, 14, 3, 2]

In [244]:
print(show_result_kmeans_prompt(kmeans_fase2, 0.5, 'quarto'))

Para iniciar essa análise, é fundamental entender o conceito de cluster e suas implicações estatísticas. Um cluster é um agrupamento de dados próximos uns aos outros na estrutura ou no espaço. Em outras palavras, os dados dentro de um cluster têm características semelhantes.

**Pertencimento dos Dados ao Cluster**

O primeiro passo que tomaria é analisar a distribuição dos dados para entender como eles estão agrupados. Será necessário visualizar as distâncias entre cada instância do dado e os pontos de referência. Uma das formas mais comuns de representar essas relações são utilizando a técnica de Agulha-Flecha, que permite visualizar uma distribuição dos dados em um plano 2D.

**Características Conjugadas**

A próxima etapa seria identificar características conjugadas dentro do cluster, ou seja, variáveis estatísticas que estão relacionadas entre si. Isso pode ser feito por meio da análise de correlação e co-variância.

Por exemplo, se estamos lidando com dados de clientes, uma caract

Conclusões:

- Predominância dos anos 2018 e 2019 (60,08%) NOTOK
- Predominância das regiões Sudeste, Sul e Nordeste (82,92%) NOTOK
- Uma incidência das IES não estarem numa capital (68.85%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes ( 64.73%) NOTOK
- Possuem predominância em busca integrada (77.29%) NOTOK 
- Possuem serviço de internet (97.45%) NOTOK
- Predominância em participar em redes sociais (71.20%) NOTOK
- Possuem predominância em ter catalogo online (79.45%) NOTOK
- Possuem predominância em ter outras bases (73.43%) NOTOK
- Maioria das iinstituições são privada (com e sem fins lucrativos) (98,04) NOTOK
- Maioria dos anos da IES são Faculdade (99.15%) NOTOK

- Quantidade de técnicos na média baixo (33.68	) NOTOK
- Quantidade de alunos média de alunos  moderado (932.89) NOTOK
- Corpo docente muito na média (45.12) NOTOK
- Pouca quantidade média de cursos (6.21) NOTOK
- Despesas e receitas média acima do moderado NOTOK
- Quantidade de periodicos e livros eletronicos com relevância alto NOTOK

Insights:
- A análise acaba sendo das etapas de análise do cluster,e não das variaveis.





In [245]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'quarto', 1, 17, 7, 10, 3, 0]

In [246]:
print(show_result_kmeans_prompt(kmeans_fase2, 1.0, 'quarto'))

Vamos analisar o dado de forma estruturada e identificar os fatores que podem ter contribuído para a criação do cluster.

**Orientação**

A primeira coisa que notamos é que as instâncias do cluster apresentam uma distribuição simétrica nos valores, o que sugere que não há um padrão ou uma tendência dominante. Isso indica que o agrupamento pode ser considerado representativo da população em questão.

**Características**

Agora, vamos analisar as características individuais das instâncias do cluster. Embora não seja possível identificar uma única característica que "defina" o cluster, notamos que há alguns padrões interessantes:

*   **Variação nos valores de uma característica**: Uma característica específica apresenta uma variação mais alta do que a média, indicando uma distribuição de valores mais ampla. Isso pode sugerir que essa característica é crítica para o agrupamento.
*   **Conjunção entre características**: Algumas características estão conjugadas, ou seja, apresentam um relac

Conclusões:

- Predominância dos anos 2018 e 2019 (60,08%) NOTOK
- Predominância das regiões Sudeste, Sul e Nordeste (82,92%) NOTOK
- Uma incidência das IES não estarem numa capital (68.85%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes ( 64.73%) NOTOK
- Possuem predominância em busca integrada (77.29%) NOTOK
- Possuem serviço de internet (97.45%) NOTOK
- Predominância em participar em redes sociais (71.20%) NOTOK
- Possuem predominância em ter catalogo online (79.45%) NOTOK
- Possuem predominância em ter outras bases (73.43%) NOTOK
- Maioria das iinstituições são privada (com e sem fins lucrativos)  (98,04) OK
- Maioria dos anos da IES são Faculdade (99.15%) OK

- Quantidade de técnicos na média baixo (33.68	)  NOTOK
- Quantidade de alunos média de alunos  moderado (932.89) NOTOK
- Corpo docente muito na média (45.12) NOTOK
- Pouca quantidade média de cursos (6.21) NOTOK
- Despesas e receitas média acima do moderado NOTOK
- Quantidade de periodicos e livros eletronicos com relevância alto NOTOK

Insights falsos:
- A análise que é fieta acaba sendo da distribuição dos dados e não das caracteristicas das variaveis. 


In [247]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'quarto', 2, 17, 4, 13, 3, 1]

### Firth Cluster

In [248]:
print(show_result_kmeans_prompt(kmeans_fase2, 0, 'quinto'))

**Análise do Clustering**

Ao receber o CSV contendo as instâncias de um determinado cluster, é necessário primeiro entender a estrutura dos dados e identificar os fatores que podem estar relacionados à formação desse agrupamento.

**Pensamento Inicial**

A primeira pergunta que se faz é: "Qual é a característica principal que está ligando as instâncias do CSV?".

Uma possível abordagem é analisar a média e a variança das características para entender se há algum padrão ou tendência dominante. Além disso, é importante considerar a distribuição das características, como se elas seguem uma distribuição normal ou se há uma tendência de extremos.

**Análise dos Fatores**

Ao analisar os dados, é possível identificar alguns fatores que podem estar relacionados à formação do cluster:

*   **Característica 'Age'**: A idade das instâncias do CSV parece ser um fator importante. As instâncias mais velhas estão concentradas em um lado do gráfico, enquanto as mais jovens estão no outro.
*   **Cara

Conclusões:

- Predominância das regiões Sudeste e Nordeste (69,45%) NOTOK
- Uma incidência das IES não estarem numa capital (59.17%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes ( 63.55%) NOTOK
- Possuem predominância em busca integrada (77.90%) NOTOK
- Possuem serviço de internet (97.47%) NOTOK
- Predominância em participar em redes sociais (60.40%) NOTOK
- Possuem catalogo online (85.57%) NOTOK
- Possuem predominância em ter outras bases (78.28%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (96,85) OK
- Maioria dos anos da IES são Faculdade e centro universitário (66.16%, 32.23%) OK

- Quantidade de técnicos médio moderado (143.65) NOTOK
- Quantidade de alunos média de alunos acima do moderado (4,691.86) NOTOK
- Corpo docente muito acima da  média (151.18) NOTOK
- Moderada quantidade média de cursos (18.49) NOTOK
- Despesas e receitas média altas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância alto NOTOK

Insights:
- Não realiza a análise das variaveis, apenas sugere etapas de analise e o contexto. 

In [249]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'quinto', 0, 16, 4, 12, 3, 0]

In [250]:
print(show_result_kmeans_prompt(kmeans_fase2, 0.5, 'quinto'))

**Análise do Cluster**

Para realizar essa análise, é necessário entender o conceito de cluster e seus fatores que podem contribuir para sua formação. Um cluster é um agrupamento de pontos ou instâncias em um espaço de dados que compartilham características semelhantes.

**Características do Cluster**

Com base nos dados fornecidos, identificamos as seguintes características que podem ter contribuído para a criação desse cluster:

* **Densidade**: O cluster apresenta uma densidade relativamente alta, o que sugere que as instâncias estão próximas entre si em termos de valores.
* **Escala**: As instâncias do cluster variam em escala, com alguns valores sendo muito pequenos ou grandes em comparação com os outros.
* **Simetria**: O cluster apresenta uma certa simetria ao redor da média, o que sugere que as distâncias entre as instâncias são regulares.

**Fatores que Contribuíram para a Formação do Cluster**

Com base nas características observadas, podemos inferir os seguintes fatores que 

Conclusões:

- Predominância das regiões Sudeste e Nordeste (69,45%) NOTOK
- Uma incidência das IES não estarem numa capital (59.17%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes ( 63.55%) NOTOK
- Possuem predominância em busca integrada (77.90%) NOTOK
- Possuem serviço de internet (97.47%) NOTOK
- Predominância em participar em redes sociais (60.40%) NOTOK
- Possuem catalogo online (85.57%) NOTOK
- Possuem predominância em ter outras bases (78.28%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (96,85) NOTOK
- Maioria dos anos da IES são Faculdade e centro universitário (66.16%, 32.23%) NOTOK

- Quantidade de técnicos médio moderado (143.65) NOTOK
- Quantidade de alunos média de alunos acima do moderado (4,691.86) NOTOK
- Corpo docente muito acima da  média (151.18) NOTOK
- Moderada quantidade média de cursos (18.49) NOTOK
- Despesas e receitas média altas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância alto NOTOK

Insights :
- Apenas detalha o processo de criação do cluster, mas não análisa a relevancia das variaveis. 

In [251]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'quinto', 1, 16, 5, 11, 3, 1]

In [252]:
print(show_result_kmeans_prompt(kmeans_fase2, 1.0, 'quinto'))

Para realizar essa análise, vou seguir um processo sistemático para entender as características do cluster fornecido e identificar os fatores que levaram à sua criação.

**Passo 1: Visualização Inicial**

Primeiramente, é importante visualizar o conjunto de dados de forma geral, usando uma representação gráfica como um grafico com todas as características por lado. Isso nos dá uma ideia da distribuição dos dados e identifica possíveis agrupamentos.

**Passo 2: Identificação das Características Principais**

A seguir, identificarei as características que têm a maior influência sobre o cluster. Isso pode ser feito selecionando as características com a maior variação de valores entre os instâncias do cluster ou observando quais são as características mais significativas em termos de distribuição.

**Passo 3: Análise Estatística**

Realizarei análises estatísticas para entender melhor as características que levaram à formação do cluster. Isso pode incluir:

*   **Média**: Verificar a média

Conclusões:

- Predominância das regiões Sudeste e Nordeste (69,45%) NOTOK
- Uma incidência das IES não estarem numa capital (59.17%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes ( 63.55%) NOTOK
- Possuem predominância em busca integrada (77.90%) NOTOK
- Possuem serviço de internet (97.47%) NOTOK 
- Predominância em participar em redes sociais (60.40%) NOTOK
- Possuem catalogo online (85.57%) NOTOK
- Possuem predominância em ter outras bases (78.28%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (96,85) NOTOK
- Maioria dos anos da IES são Faculdade e centro universitário (66.16%, 32.23%) NOTOK

- Quantidade de técnicos médio moderado (143.65) NOTOK
- Quantidade de alunos média de alunos acima do moderado (4,691.86) NOTOK
- Corpo docente muito acima da  média (151.18) NOTOK
- Moderada quantidade média de cursos (18.49) NOTOK
- Despesas e receitas média altas NOTOK 
- Quantidade de periodicos e livros eletronicos com relevância alto NOTOK

Insights falsos:
- A analise que é feita é sobre a distribuição do cluster. 

In [253]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'quinto', 2, 16, 6, 10, 1, 0]

### Sixth Cluster

In [254]:
print(show_result_kmeans_prompt(kmeans_fase2, 0, 'sexto'))

Vamos a análise!

**Passo 1: Entendendo o Dados**

Antes de começar a analisar os dados, é importante entender o contexto e a natureza dos dados que foram fornecidos. No entanto, não tenho acesso ao CSV atualmente. Suponha que tenhamos um conjunto de dados com várias características ou atributos que definem as instâncias do cluster.

**Passo 2: Identificando Características Importantes**

Uma das primeiras etapas é identificar quais são as características mais importantes que definem o cluster. Isso pode ser feito analisando a distribuição dos dados, medindo a variância e a dispersão das instâncias.

Por exemplo, se temos um conjunto de dados com características como idade, renda, educação e localização, podemos começar a analisar como essas características estão relacionadas entre si e ao cluster.

**Passo 3: Identificando Fatores que Levaram à Criação do Cluster**

Agora é hora de examinar os fatores que podem ter contribuído para a criação desse cluster. Isso pode incluir:

*   Cara

Conclusões:

- Predominância dos anos 2016 e 2017 (35.63%, 28.14%) NOTOK
- Predominância das regiões Sudeste e Nordeste (43.65%, 20.80%)  NOTOK
- Predominância das IES não estarem numa capital (69.21%)  NOTOK
- Predominância das Instituições sem acesso ao portal Capes (73.15%)  NOTOK
- Predominância das Instituições sem repositorio institucional (68.00%)  NOTOK
- Possuem predominância em busca integrada (65.43%) NOTOK
- Possuem serviço de internet (90.62%) NOTOK
- Predominância em participar em redes sociais (65.28%)  NOTOK
- Possuem catalogo online (72.39%)  NOTOK
- Possuem predominância em ter outras bases (62.25%)  NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (90,01%)  NOTOK
- Maioria dos anos da IES são Faculdade (95.39%)  NOTOK

- Quantidade de técnicos médio baixo (46.05	) NOTOK
- Quantidade de alunos média de alunos  moderado (1,202.21) NOTOK
- Corpo docente moderado na  média (60.92) NOTOK
- Moderada quantidade baixa de cursos (16.76) NOTOK
- Despesas e receitas média altas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixo NOTOK

Insights falsos:
- Analisa a distibuição do cluster, mas não leva em consideraçãpo o contexto. 


In [255]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'sexto', 0, 18, 9, 9, 1, 0]

In [256]:
print(show_result_kmeans_prompt(kmeans_fase2, 0.5, 'sexto'))

Entendo! Vamos analisar o conjunto de dados fornecido para entender melhor os fatores que levaram à criação do cluster.

**Análise dos Dados**

O primeiro passo é entender a natureza dos dados e a distribuição das características dentro do cluster. Nós vamos considerar as seguintes características:

* **Peso (Weight)**: A característica de peso parece ser a mais importante, pois a maioria das instâncias tem valores próximos entre 20 e 50 kg.
* **Altura (Height)**: A característica de altura também é relevante, com valores que variam entre 1.40m e 1.80m.
* **Idade (Age)**: A característica de idade apresenta uma distribuição mais uniforme, com valores que variam entre 20 e 60 anos.

**Análise de Conjugacões entre Características**

Para entender como as características estão relacionadas, vamos analisar as conjugacções entre elas. Vamos considerar as seguintes conjugacões:

* **Peso x Altura**: As instâncias com pesos próximos entre 20 e 30 kg tendem a ter alturas mais baixas (1.40m - 1

Conclusões:

- Predominância dos anos 2016 e 2017 (35.63%, 28.14%) NOTOK
- Predominância das regiões Sudeste e Nordeste (43.65%, 20.80%)  NOTOK
- Predominância das IES não estarem numa capital (69.21%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes (73.15%) NOTOK
- Predominância das Instituições sem repositorio institucional (68.00%) NOTOK
- Possuem predominância em busca integrada (65.43%) NOTOK
- Possuem serviço de internet (90.62%)  NOTOK
- Predominância em participar em redes sociais (65.28%) NOTOK
- Possuem catalogo online (72.39%) NOTOK
- Possuem predominância em ter outras bases (62.25%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (90,01%)  NOTOK
- Maioria dos anos da IES são Faculdade (95.39%)  NOTOK

- Quantidade de técnicos médio baixo (46.05	) NOTOK
- Quantidade de alunos média de alunos  moderado (1,202.21) NOTOK
- Corpo docente moderado na  média (60.92) NOTOK
- Moderada quantidade baixa de cursos (16.76) NOTOK
- Despesas e receitas média altas NOTOK
- Quantidade de periodicos e livros eletronicos com relev ncia baixo NOTOK

Insights falsos:
- A análise cria variaveis que não estão no contexto do projeto. 

In [257]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'sexto', 1, 18, 4, 14, 1, 0]

In [258]:
print(show_result_kmeans_prompt(kmeans_fase2, 1.0, 'sexto'))

Entendi! Vou agora proceder com o análise dos dados fornecidos, considerando os agrupamentos fornecidos como entrada.

**Análise Inicial**

Antes de iniciar a análise detalhada, é importante lembrar que o objetivo é entender os fatores que levaram à criação do cluster. Isso significa que precisamos identificar as características mais importantes e as relações entre elas.

**Estrutura dos Dados**

O CSV fornecido contém as instâncias de um determinado cluster, com várias características estatísticas associadas a cada instância. As características incluem:

* Media da idade (MED_IDADE)
* Padrão deviada da idade (STD_IDADE)
* Variância da idade (VAR_IDADE)
* Quantidade de registros por gênero (QNT_GÊNERO)

**Análise das Características**

Agora, vamos analisar cada característica individualmente:

1. **Media da Idade**: A média da idade é um valor central para a característica. Em geral, um valor alto indica uma idade mais avançada.
2. **Padrão Deviada da Idade**: O padrão deviada é uma m

Conclusões:

- Predominância dos anos 2016 e 2017 (35.63%, 28.14%) NOTOK
- Predominância das regiões Sudeste e Nordeste (43.65%, 20.80%)  NOTOK
- Predominância das IES não estarem numa capital (69.21%) NOTOK
- Predominância das Instituições sem acesso ao portal Capes (73.15%) NOTOK
- Predominância das Instituições sem repositorio institucional (68.00%) NOTOK
- Possuem predominância em busca integrada (65.43%) NOTOK
- Possuem serviço de internet (90.62%) NOTOK 
- Predominância em participar em redes sociais (65.28%) NOTOK
- Possuem catalogo online (72.39%) NOTOK
- Possuem predominância em ter outras bases (62.25%) NOTOK
- Maioria das instituições são privada (com e sem fins lucrativos) (90,01%)  OK
- Maioria dos anos da IES são Faculdade (95.39%) OK
 
- Quantidade de técnicos médio baixo (46.05	) NOTOK
- Quantidade de alunos média de alunos  moderado (1,202.21) NOTOK
- Corpo docente moderado na  média (60.92) NOTOK
- Moderada quantidade baixa de cursos (16.76) NOTOK
- Despesas e receitas média altas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância baixo NOTOK

Insights falsos:
- Suposições incondizentes com a realidade;
- A análsie não é feita para as avariaveis e sim sobre uma suposta distribuição do cluster. 


In [259]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'sexto', 2, 18, 3, 15, 0, 0]

### Seventh Cluster

In [260]:
print(show_result_kmeans_prompt(kmeans_fase2, 0, 'setimo'))

**Análise do Cluster**

Ao receber um conjunto de dados em formato CSV relacionado a um determinado cluster, é fundamental realizar uma análise cuidadosa para entender os fatores que levaram à sua criação. Neste caso, vamos proceder com uma abordagem estatística para identificar as características-chave e as relações entre elas.

**Características Principais**

A primeira etapa é analisar as características principais do conjunto de dados. Isso inclui:

1. **Descrição Estatística**: Verificar se há padrões ou tendências na distribuição das variáveis numéricas (e.g., média, mediana, moda) e em categorias (e.g., porcentagem de valores).

2. **Análise de Correlação**: Avaliar as relações entre as características. Isso pode ajudar a identificar grupos ou subgrupos dentro do conjunto de dados.

3. **Gráficos de Distribuição**: Usar gráficos de distribuição (como histogramas, boxplots) para visualizar a forma como as variáveis estão espalhadas e se há algum desequilíbrio na representação dos

Conclusões:

- Predominância das regiões Sudeste e Sul (44.90%, 24.32%) NOTOK
- Predominância das Instituições com acesso ao portal Capes (87.76%) NOTOK
- Predominância das Instituições com repositorio institucional (70.41%)  NOTOK
- Possuem predominância em busca integrada (67.18%) NOTOK
- Possuem serviço de internet (98.81%) NOTOK
- Predominância em participar em redes sociais (71.94%)  NOTOK
- Possuem catalogo online (92.69%)  NOTOK
- Possuem predominância em ter outras bases (91.16%)  NOTOK
- Maioria das instituições são privada sem fins, federal e com fins lurativos (46.26%, 25.68%, 19.90%)  NOTOK
- Maioria dos anos da IES são Universidade e centro universitario (69.73%, 22.28%)  NOTOK

- Quantidade de técnicos médio alto (1,170.62	) NOTOK
- Quantidade de alunos média de alunos alto (27,666.31) NOTOK
- Corpo docente alto na  média (970.69) NOTOK
- altga quantidade baixa de cursos (73.91) NOTOK
- Despesas e receitas média altas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância alto NOTOK

Insights falsos:
- Detalha uma etapa de análise dos clusters, mas não analisa o cluster. 

In [261]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'setimo', 0, 16, 7, 9, 1, 0]

In [262]:
print(show_result_kmeans_prompt(kmeans_fase2, 0.5, 'setimo'))

Vamos entender melhor o problema e fazer a análise dos dados fornecidos.

**Entendendo os Dados**

Antes de começarmos a analisar os dados, é importante saber que um cluster é uma coleção de instâncias que compartilham características semelhantes. Nesse caso, vamos assumir que o CSV fornece as instâncias do cluster com suas características.

**Pensamento Inicial**

O primeiro passo é entender como os agrupamentos foram criados. Perguntas que podemos fazer para entender melhor os dados:

* Quais são as características dos dados?
* Qual é a relação entre essas características e o agrupamento?
* Há algum padrão ou tendência nos dados?

**Análise dos Dados**

Vamos começar a analisar os dados. Vou considerar cada característica separadamente e tentar encontrar relações com as outras características.

* Característica 1: Valor do atributo A
 + Parece que há uma distribuição de valores simétrica ao redor da média, com alguns valores muito altos e baixos.
 + Pode ser interessante investigar s

Conclusões:

- Predominância das regiões Sudeste e Sul (44.90%, 24.32%) NOTOK
- Predominância das Instituições com acesso ao portal Capes (87.76%) NOTOK
- Predominância das Instituições com repositorio institucional (70.41%) NOTOK
- Possuem predominância em busca integrada (67.18%)  NOTOK
- Possuem serviço de internet (98.81%)  NOTOK
- Predominância em participar em redes sociais (71.94%)  NOTOK
- Possuem catalogo online (92.69%) NOTOK
- Possuem predominância em ter outras bases (91.16%)
- Maioria das instituições são privada sem fins, federal e com fins lurativos (46.26%, 25.68%, 19.90%)  NOTOK
- Maioria dos anos da IES são Universidade e centro universitario (69.73%, 22.28%)  NOTOK

- Quantidade de técnicos médio alto (1,170.62	) NOTOK
- Quantidade de alunos média de alunos alto (27,666.31) NOTOK
- Corpo docente alto na  média (970.69) NOTOK
- altga quantidade baixa de cursos (73.91) NOTOK
- Despesas e receitas média altas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância alto NOTOK

Insights falsos:
- A análise feita é da distribuição do cluster, mas não das características do cluster. 

In [263]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'setimo', 1, 16, 7, 9, 1, 0]

In [264]:
print(show_result_kmeans_prompt(kmeans_fase2, 1.0, 'setimo'))

**Análise do Clustering**

Recebemos um conjunto de dados em CSV que representa instâncias de um determinado cluster. O objetivo é analisar os agrupamentos presentes no conjunto de dados e identificar os fatores que levaram à sua criação.

**Características do Dados**

Após analisar as informações disponíveis, podemos observar que o conjunto de dados é composto por 100 instâncias com 10 características cada uma. As características são:

1. **ID**: número único identificador para cada instância
2. **Ação**: tipo de ação realizada (compra ou venda)
3. **Preço**: preço do produto
4. **Quantidade**: quantidade de produtos vendidos
5. **Faturamento**: faturamento total gerado pela venda
6. **Tempo**: tempo médio de entrega
7. **Localização**: localização geográfica da loja
8. **Categoria**: categoria do produto (roupa, eletrônica, etc.)
9. **Tipo de Mercado**: tipo de mercado (retail ou online)
10. **Análise Fatorial**: resultado de uma análise fatorial realizada sobre as características an

Conclusões:

- Predominância das regiões Sudeste e Sul (44.90%, 24.32%) NOTOK
- Predominância das Instituições com acesso ao portal Capes (87.76%)  NOTOK
- Predominância das Instituições com repositorio institucional (70.41%)  NOTOK
- Possuem predominância em busca integrada (67.18%)  NOTOK
- Possuem serviço de internet (98.81%)  NOTOK
- Predominância em participar em redes sociais (71.94%)  NOTOK
- Possuem catalogo online (92.69%)  NOTOK
- Possuem predominância em ter outras bases (91.16%)  NOTOK
- Maioria das instituições são privada sem fins, federal e com fins lurativos (46.26%, 25.68%, 19.90%)  NOTOK
- Maioria dos anos da IES são Universidade e centro universitario (69.73%, 22.28%)  NOTOK

- Quantidade de técnicos médio alto (1,170.62	) NOTOK
- Quantidade de alunos média de alunos alto (27,666.31) NOTOK
- Corpo docente alto na  média (970.69) NOTOK
- altga quantidade baixa de cursos (73.91) NOTOK
- Despesas e receitas média altas NOTOK
- Quantidade de periodicos e livros eletronicos com relevância alto NOTOK

Insights:
- A análise cria outras variaveis fora do contexto do cluster. 

In [265]:
analise_kmeans.loc[len(analise_kmeans)] = ['Fase 2',  'setimo', 2, 16, 9, 7, 3, 0]