In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns


#Criar dataframes
idep2022 = pd.read_excel('idep_2022.xlsx')
idep2023 = pd.read_excel('idep_2023.xlsx')
idep2024 = pd.read_excel('idep_2024.xlsx')


#criar variavel de ano
idep2022['ano'] = 2022
idep2023['ano'] = 2023
idep2024['ano'] = 2024

#Formatar as colunas do IDEP 2023 e renomear
idep2023 = idep2023.drop(columns=['IDEP_INICIAL.1'])
idep2023 = idep2023.drop(columns=['IDEP_FINAL'])
idep2023 = idep2023.rename(columns={'IDEP_FINAL.1': 'IDEP_FINAL'})

def verificar_nulos(df, coluna):
    """
    Exibe a quantidade de valores nulos em uma coluna específica de um DataFrame.
    """
    nulos = df[coluna].isnull().sum()
    print(f"Quantidade de valores nulos na coluna '{coluna}': {nulos}")
    return nulos

def converter_colunas_float(df, colunas):
    """
    Converte os valores de várias colunas do DataFrame para float, se possível.
    """
    for coluna in colunas:
        df[coluna] = pd.to_numeric(df[coluna], errors='coerce')
    return df

idep2022 = converter_colunas_float(idep2022, ['IDEP_INICIAL', 'IDEP_FINAL'])
idep2023 = converter_colunas_float(idep2023, ['IDEP_INICIAL', 'IDEP_FINAL'])
idep2024 = converter_colunas_float(idep2024, ['IDEP_INICIAL', 'IDEP_FINAL'])


# classificar escolas por IDEP inicial descrescente e criar indice
idep2023 = idep2023.sort_values(by='IDEP_INICIAL', ascending=True)
idep2023['Indice'] = range(1, len(idep2023) + 1)


# funcao para lista escola especifica com apenas algumas colunas
def listar_escola(df, escola):
    """
    Lista uma escola específica com colunas selecionadas do DataFrame.
    """
    colunas_selecionadas = ['Indice','Escola', 'Distrito', 'IDEP_INICIAL', 'ano']
    linha_escola = df.loc[df['Escola'] == escola, colunas_selecionadas]
    if not linha_escola.empty:
        print(linha_escola)
    else:
        print(f"Escola '{escola}' não encontrada.")

listar_escola(idep2023, 'CEU EMEF PARAISOPOLIS')

In [56]:
# funcao para criação de dataframe com escolas especificas
def filtrar_escolas(df, escolas):
    """
    Filtra o DataFrame para incluir apenas as escolas especificadas.
    """
    df_filtrado = df[df['Escola'].isin(escolas)]
    return df_filtrado

# pesquisar no dataframe se nome da escola contém uma string específica
def pesquisar_escola(df, substring):
    """
    Pesquisa no DataFrame se o nome da escola contém uma substring específica.
    """
    df_pesquisa = df[df['Escola'].str.contains(substring, case=False, na=False)]
    return df_pesquisa

# Exemplo de uso da função pesquisar_escola
resultado_pesquisa = pesquisar_escola(idep2023, 'DILERMANDO')

# Lista de escolas específicas
escolas_especificas = [
    'CEU EMEF PARAISOPOLIS',
    'EMEF SATURNINO PEREIRA',
    'EMEF AROLDO DE AZEVEDO, PROF.',
    'EMEF CECILIA MORAES DE VASCONCELOS, PROFA.',
    'EMEF ESPACO DE BITITA',
    'EMEF GERALDO SESSO JUNIOR',
    'EMEF PLINIO MARCOS',
    'EMEF PERIMETRAL',
    'CEU EMEF CAMPOS SALLES, PRES.',
    'EMEF ARY PARREIRAS, ALM.',
    'EMEF IBRAHIM NOBRE',
    'EMEF DAISY AMADIO FUJIWARA, PROFA.',
    'EMEF OLINDA MENEZES SERRA VIDAL, PROFA.',
    'EMEF FLAVIO AUGUSTO ROSA, PROF.',
    'EMEF CAIO SERGIO POMPEU DE TOLEDO, DEP.',
    'CEU EMEF ANTONIO CARLOS ROCHA, PROF.',
    'EMEF MURURES',
    'EMEF PEDRO TEIXEIRA',
    'EMEF SUD MENNUCCI',
    'EMEF VINICIUS DE MORAES',
    'EMEF MARIO LAGO',
    'EMEF EDA TEREZINHA CHICA MEDEIROS, PROFA.',
    'EMEF JOAO XXIII',
    'EMEF DILERMANDO DIAS DOS SANTOS'
]

escolas_intervencao = filtrar_escolas(idep2023, escolas_especificas)

escolas_intervencao.to_excel('escolas_intervencao.xlsx', index=False)



In [None]:
#Obter os dados da coluna IDEP_INICIAL de uma escola especifica usando o loc use o f string para formatar
idep_paraisopolis_inicial_2022 = idep2022.loc[idep2022['Escola'] == 'CEU EMEF PARAISOPOLIS', 'IDEP_INICIAL']
idep_paraisopolis_inicial_2023 = idep2023.loc[idep2023['Escola'] == 'CEU EMEF PARAISOPOLIS', 'IDEP_INICIAL']
idep_paraisopolis_inicial_2024 = idep2024.loc[idep2024['Escola'] == 'CEU EMEF PARAISOPOLIS', 'IDEP_INICIAL']
idep_paraisopolis_final_2022 = idep2022.loc[idep2022['Escola'] == 'CEU EMEF PARAISOPOLIS', 'IDEP_FINAL']
idep_paraisopolis_final_2023 = idep2023.loc[idep2023['Escola'] == 'CEU EMEF PARAISOPOLIS', 'IDEP_FINAL']
idep_paraisopolis_final_2024 = idep2024.loc[idep2024['Escola'] == 'CEU EMEF PARAISOPOLIS', 'IDEP_FINAL']    

#formatar os dados e imprimir
idep_paraisopolis_inicial_2022 = idep_paraisopolis_inicial_2022.values[0]
idep_paraisopolis_inicial_2023 = idep_paraisopolis_inicial_2023.values[0]
idep_paraisopolis_inicial_2024 = idep_paraisopolis_inicial_2024.values[0]
idep_paraisopolis_final_2022 = idep_paraisopolis_final_2022.values[0]
idep_paraisopolis_final_2023 = idep_paraisopolis_final_2023.values[0]
idep_paraisopolis_final_2024 = idep_paraisopolis_final_2024.values[0]

# Criar um DataFrame com os dados
idep_paraisolis_2022_a_2024 = {
    'Ano': [2022, 2023, 2024],
    'IDEP_INICIAL': [idep_paraisopolis_inicial_2022, idep_paraisopolis_inicial_2023, idep_paraisopolis_inicial_2024],
    'IDEP_FINAL': [idep_paraisopolis_final_2022, idep_paraisopolis_final_2023, idep_paraisopolis_final_2024]
}
df_idep_paraisopolis = pd.DataFrame(idep_paraisolis_2022_a_2024)
print(df_idep_paraisopolis)

# Criar o gráfico de linha com a evolucao dos indices nos anos
plt.plot(df_idep_paraisopolis['Ano'], df_idep_paraisopolis['IDEP_INICIAL'], marker='o', label='IDEP Inicial')
plt.plot(df_idep_paraisopolis['Ano'], df_idep_paraisopolis['IDEP_FINAL'], marker='o', label='IDEP Final')
plt.title('Evolução do IDEP da CEU EMEF Paraisópolis (2022-2024)')
plt.ylabel('IDEP')
plt.xticks(df_idep_paraisopolis['Ano'], rotation=45)
plt.legend()
for i, row in df_idep_paraisopolis.iterrows():
    plt.text(row['Ano'], row['IDEP_INICIAL'], f"{row['IDEP_INICIAL']:.2f}", ha='center', va='bottom')
    plt.text(row['Ano'], row['IDEP_FINAL'], f"{row['IDEP_FINAL']:.2f}", ha='center', va='bottom')
plt.grid()
plt.show()

In [None]:
#calcular a porcentagem de aumento do IDEP da CEU EMEF Paraisópolis
def calcular_aumento_porcentagem(inicial, final):
    """
    Calcula a porcentagem de aumento entre dois valores.
    """
    if inicial == 0:
        return float('inf')  # Evitar divisão por zero
    return ((final - inicial) / inicial) * 100

#calcular a porcentagem de aumento do IDEP da CEU EMEF Paraisópolis de 2022 a 2024
aumento_2022_2024_inicial_paraisopolis = calcular_aumento_porcentagem(idep_paraisopolis_inicial_2022, idep_paraisopolis_inicial_2024)
aumento_2022_2024_final_paraisopolis = calcular_aumento_porcentagem(idep_paraisopolis_final_2022, idep_paraisopolis_final_2024)


# calcular a media do IDEP Inicial e Final de 2022 a 2024 de todas as escolas
def calcular_media_idep(df, coluna):
    """
    Calcula a média dos valores de uma coluna específica de um DataFrame.
    """
    media = df[coluna].mean()
    media = round(media, 2)
    return media

# calcular a media do IDEP Inicial e Final de 2022 a 2024 de todas as escolas
media_idep_inicial_2022 = calcular_media_idep(idep2022, 'IDEP_INICIAL')
media_idep_inicial_2023 = calcular_media_idep(idep2023, 'IDEP_INICIAL')
media_idep_inicial_2024 = calcular_media_idep(idep2024, 'IDEP_INICIAL')
media_idep_final_2022 = calcular_media_idep(idep2022, 'IDEP_FINAL')
media_idep_final_2023 = calcular_media_idep(idep2023, 'IDEP_FINAL')
media_idep_final_2024 = calcular_media_idep(idep2024, 'IDEP_FINAL')

# Criar um DataFrame com os dados
media_idep_2022_a_2024 = {
    'Ano': [2022, 2023, 2024],
    'IDEP_INICIAL': [media_idep_inicial_2022, media_idep_inicial_2023, media_idep_inicial_2024],
    'IDEP_FINAL': [media_idep_final_2022, media_idep_final_2023, media_idep_final_2024]
}
df_media_idep = pd.DataFrame(media_idep_2022_a_2024)


# porcentagem de aumento do IDEP Inicial e Final de 2022 a 2024 de todas as escolas
aumento_media_2022_2024_inicial = calcular_aumento_porcentagem(media_idep_inicial_2022, media_idep_inicial_2024)
aumento_media_2022_2024_final = calcular_aumento_porcentagem(media_idep_final_2022, media_idep_final_2024)

# Gráfico comparativo do aumento percentual do IDEP dos anos finais da média das escolas e da CEU EMEF Paraisópolis
variaveis = ['Média das Escolas', 'CEU EMEF Paraisópolis']
valores = [aumento_media_2022_2024_final, aumento_2022_2024_final_paraisopolis]
plt.figure(figsize=(7,5))
plt.bar(variaveis, valores, color=['skyblue', 'orange'])
plt.ylabel('Aumento percentual (%)')
plt.title('Comparação do aumento percentual do IDEP dos Anos Finais (2022 a 2024)')
for i, v in enumerate(valores):
    plt.text(i, v + 0.5, f"{v:.2f}%", ha='center', fontweight='bold')
plt.ylim(0, max(valores)*1.2)
plt.grid(axis='y', linestyle='--', alpha=0.5)
plt.show()

# Gráfico comparativo do aumento percentual do IDEP dos anos iniciais da média das escolas e da CEU EMEF Paraisópolis
variaveis = ['Média das Escolas', 'CEU EMEF Paraisópolis']
valores = [aumento_media_2022_2024_inicial, aumento_2022_2024_inicial_paraisopolis]
plt.figure(figsize=(7,5))
plt.bar(variaveis, valores, color=['skyblue', 'orange'])
plt.ylabel('Aumento percentual (%)')
plt.title('Comparação do aumento percentual do IDEP dos anos Iniciais (2022 a 2024)')
for i, v in enumerate(valores):
    plt.text(i, v + 0.5, f"{v:.2f}%", ha='center', fontweight='bold')
plt.ylim(0, max(valores)*1.2)
plt.grid(axis='y', linestyle='--', alpha=0.5)
plt.show()

In [None]:
#coverter coluna Distrito para string e salvar em um novo dataframe
idep2022['Distrito'] = idep2022['Distrito'].astype(str)
idep2023['Distrito'] = idep2023['Distrito'].astype(str)
idep2024['Distrito'] = idep2024['Distrito'].astype(str)


# Criar um DataFrame com as escolas do Distrito Vila Andrade
idep_2022_vila_andrade = idep2022[idep2022['Distrito'] == 'VILA ANDRADE']
idep_2023_vila_andrade = idep2023[idep2023['Distrito'] == 'VILA ANDRADE']
idep_2024_vila_andrade = idep2024[idep2024['Distrito'] == 'VILA ANDRADE']

# ordenar os dataframes pela coluna escola
idep_2022_vila_andrade = idep_2022_vila_andrade.sort_values(by='Escola')
idep_2023_vila_andrade = idep_2023_vila_andrade.sort_values(by='Escola')
idep_2024_vila_andrade = idep_2024_vila_andrade.sort_values(by='Escola')


# media dos valores do IDEP inicial da vila andrade (excluindo a CEU EMEF Paraisópolis)
idep_2024_vila_andrade_sem_paraisopolis = idep_2024_vila_andrade[idep_2024_vila_andrade['Escola'] != 'CEU EMEF PARAISOPOLIS']
media_idep_inicial_vila_andrade_2024_sem_paraisopolis = idep_2024_vila_andrade_sem_paraisopolis['IDEP_INICIAL'].mean()

idep_2024_vila_andrade_sem_paraisopolis = idep_2024_vila_andrade[idep_2024_vila_andrade['Escola'] != 'CEU EMEF PARAISOPOLIS']
media_idep_final_vila_andrade_2024_sem_paraisopolis = idep_2024_vila_andrade_sem_paraisopolis['IDEP_FINAL'].mean()

#grafico de barras comparando IDEP FINAL da CEU EMEF Paraisópolis e a média do IDEP FINAL das escolas do Distrito Vila Andrade sem a CEU EMEF Paraisópolis
plt.figure(figsize=(8, 5))
plt.bar(['CEU EMEF Paraisópolis', 'Média das Escolas do Distrito Vila Andrade'], 
        [idep_paraisopolis_final_2024, media_idep_final_vila_andrade_2024_sem_paraisopolis], 
        color=['orange', 'skyblue'])
plt.ylabel('IDEP anos Finais 2024')
plt.title('Comparação do IDEP dos anos finais(2024) - CEU EMEF Paraisópolis vs Média das Escolas do Distrito Vila Andrade')
for i, v in enumerate([idep_paraisopolis_final_2024, media_idep_final_vila_andrade_2024_sem_paraisopolis]):
    plt.text(i, v + 0.5, f"{v:.2f}", ha='center', fontweight='bold')
plt.ylim(0, max(idep_paraisopolis_final_2024, media_idep_final_vila_andrade_2024_sem_paraisopolis) * 1.2)
plt.grid(axis='y', linestyle='--', alpha=0.5)
plt.show()
#grafico de barras comparando IDEP FINAL da CEU EMEF Paraisópolis e a média do IDEP INICIAL das escolas do Distrito Vila Andrade sem a CEU EMEF Paraisópolis
plt.figure(figsize=(8, 5))
plt.bar(['CEU EMEF Paraisópolis', 'Média das Escolas do Distrito Vila Andrade'], 
        [idep_paraisopolis_inicial_2024, media_idep_inicial_vila_andrade_2024_sem_paraisopolis], 
        color=['orange', 'skyblue'])
plt.ylabel('IDEP dos anos Iniciais 2024')
plt.title('Comparação do IDEP dos anos iniciais(2024) - CEU EMEF Paraisópolis vs Média das Escolas do Distrito Vila Andrade')
for i, v in enumerate([idep_paraisopolis_inicial_2024, media_idep_inicial_vila_andrade_2024_sem_paraisopolis]):
    plt.text(i, v + 0.5, f"{v:.2f}", ha='center', fontweight='bold')
plt.ylim(0, max(idep_paraisopolis_inicial_2024, media_idep_inicial_vila_andrade_2024_sem_paraisopolis) * 1.2)
plt.grid(axis='y', linestyle='--', alpha=0.5)
plt.show()

In [None]:
bolsa_familia = pd.read_excel('bolsa_2024.xlsx')


# ordenar o dataframe pela coluna 'ENSINO FUNDAMENTAL'
bolsa_familia = bolsa_familia.sort_values(by='ENSINO FUNDAMENTAL', ascending=False)

# criar a coluna indice
bolsa_familia['INDICE'] = range(1, len(bolsa_familia) + 1)

# remover as linhas com valores 0 na coluna 'ENSINO FUNDAMENTAL'
bolsa_familia_fundamental = bolsa_familia[bolsa_familia['ENSINO FUNDAMENTAL'] > 0]



# media do numero de estudantes com beneficio do bolsa familia no ensino fundamental
media_bolsa_familia_fundamental = bolsa_familia_fundamental['ENSINO FUNDAMENTAL'].mean()


bolsa_familia_fundamental_butanta = bolsa_familia_fundamental[bolsa_familia_fundamental['DIRETORIA'] == 'BUTANTA']
bolsa_familia_fundamental_butanta = bolsa_familia_fundamental_butanta.sort_values(by='ENSINO FUNDAMENTAL', ascending=False)


#media de ENSINO FUNDAMENTAL da Diretoria Butantã e numero de paraispolis
media_bolsa_familia_fundamental_butanta = bolsa_familia_fundamental_butanta['ENSINO FUNDAMENTAL'].mean()


# grafico comparando a media do enisno fundamental da Diretoria Butantã com a PARAISOPOLIS do df bolsa_familia_fundamental_butanta
plt.figure(figsize=(8, 5))
plt.bar(['Média Diretoria Butantã', 'CEU EMEF Paraisópolis'], 
        [media_bolsa_familia_fundamental_butanta, bolsa_familia_fundamental_butanta.loc[bolsa_familia_fundamental_butanta['UNIDADE'] == 'PARAISOPOLIS', 'ENSINO FUNDAMENTAL'].values[0]], 
        color=['skyblue', 'orange'])
plt.ylabel('Número de Estudantes com beneficio')
plt.title('Comparação do Número de Estudantes com Bolsa Família no Ensino Fundamental - CEU EMEF Paraisópolis vs Média Diretoria Butantã')
for i, v in enumerate([media_bolsa_familia_fundamental_butanta, bolsa_familia_fundamental_butanta.loc[bolsa_familia_fundamental_butanta['UNIDADE'] == 'PARAISOPOLIS', 'ENSINO FUNDAMENTAL'].values[0]]):
    plt.text(i, v + 0.5, f"{v:.0f}", ha='center', fontweight='bold')
plt.ylim(0, max(media_bolsa_familia_fundamental_butanta, bolsa_familia_fundamental_butanta.loc[bolsa_familia_fundamental_butanta['UNIDADE'] == 'PARAISOPOLIS', 'ENSINO FUNDAMENTAL'].values[0]) * 1.2)
plt.grid(axis='y', linestyle='--', alpha=0.5)
plt.show()

# grafico comparando as variaveis media_bolsa_familia_fundamental e o numero de estudantes com beneficio do bolsa familia no ensino fundamental da CEU EMEF Paraisópolis
plt.figure(figsize=(8, 5))
plt.bar(['Média Bolsa Família Ensino Fundamental', 'CEU EMEF Paraisópolis'], 
        [media_bolsa_familia_fundamental, bolsa_familia_fundamental_butanta.loc[bolsa_familia_fundamental_butanta['UNIDADE'] == 'PARAISOPOLIS', 'ENSINO FUNDAMENTAL'].values[0]], 
        color=['skyblue', 'orange'])
plt.ylabel('Número de Estudantes com beneficio')
plt.title('Comparação do Número de Estudantes com Bolsa Família no Ensino Fundamental - CEU EMEF Paraisópolis vs Média Geral')
for i, v in enumerate([media_bolsa_familia_fundamental, bolsa_familia_fundamental_butanta.loc[bolsa_familia_fundamental_butanta['UNIDADE'] == 'PARAISOPOLIS', 'ENSINO FUNDAMENTAL'].values[0]]):
    plt.text(i, v + 0.5, f"{v:.0f}", ha='center', fontweight='bold')
plt.ylim(0, max(media_bolsa_familia_fundamental, bolsa_familia_fundamental_butanta.loc[bolsa_familia_fundamental_butanta['UNIDADE'] == 'PARAISOPOLIS', 'ENSINO FUNDAMENTAL'].values[0]) * 1.2)
plt.grid(axis='y', linestyle='--', alpha=0.5)
plt.show()



# imprimir data frame apenas com as colunas 'INDICE', 'UNIDADE', 'ENSINO FUNDAMENTAL', 'DIRETORIA', 'ENSINO FUNDAMENTAL'
print(bolsa_familia_fundamental_butanta[['UNIDADE', 'ENSINO FUNDAMENTAL', 'DIRETORIA']])