<a href="https://colab.research.google.com/github/danisoaresl/exercicios-frequencias_medidas/blob/exercicio/exercicios_frequencias_medidas_.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Etapa 1: Importar Bibliotecas e Configurar Matplotlib

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib

# Configurar o backend do Matplotlib
matplotlib.use('Agg')


Etapa 2: Carregar e Preparar o Arquivo JSON

In [None]:
from google.colab import drive
import pandas as pd

# Montar o Google Drive
drive.mount('/content/drive')

# Caminho para o arquivo JSON no Google Drive
caminho_arquivo = '/content/drive/My Drive/enem_2023.json'

# Carregar o arquivo JSON
df = pd.read_json(caminho_arquivo)

# Verificar e corrigir nomes de colunas
print("Colunas no DataFrame:", df.columns)

# Corrigir nomes das colunas se necessário
df.rename(columns={'Ciências da natureza': 'Ciências da Natureza'}, inplace=True)





Etapa 3: Verificar Valores Nulos e Corrigir Colunas

In [None]:
# Verificar se há valores nulos
print("Valores nulos por coluna:")
print(df[['Redação', 'Matemática', 'Linguagens', 'Ciências humanas', 'Ciências da Natureza']].isnull().sum())

# Remover linhas com valores nulos
df = df.dropna(subset=['Redação', 'Matemática', 'Linguagens', 'Ciências humanas', 'Ciências da Natureza'])

# Garantir que todas as colunas são numéricas
df[['Redação', 'Matemática', 'Linguagens', 'Ciências humanas', 'Ciências da Natureza']] = df[['Redação', 'Matemática', 'Linguagens', 'Ciências humanas', 'Ciências da Natureza']].apply(pd.to_numeric, errors='coerce')


Etapa 4: 1. Qual das disciplinas tem a maior amplitude de nota?

In [None]:
# Calcular a amplitude
amplitude = df[['Redação', 'Matemática', 'Linguagens', 'Ciências humanas', 'Ciências da Natureza']].max() - df[['Redação', 'Matemática', 'Linguagens', 'Ciências humanas', 'Ciências da Natureza']].min()
maior_amplitude = amplitude.idxmax()
print(f"A disciplina com a maior amplitude de nota é: {maior_amplitude}")


Etapa 5: 2. Qual é a média e a mediana para cada uma das disciplinas?

In [None]:
# Calcular a média e a mediana
media = df[['Redação', 'Matemática', 'Linguagens', 'Ciências humanas', 'Ciências da Natureza']].mean()
mediana = df[['Redação', 'Matemática', 'Linguagens', 'Ciências humanas', 'Ciências da Natureza']].median()

print("\nMédia das disciplinas:")
print(media)
print("\nMediana das disciplinas (sem valores nulos):")
print(mediana)


Etapa 6: 3. Desvio padrão e média ponderados dos 500 estudantes mais bem colocados

In [None]:
# Calcular a Nota Ponderada
df['Nota_Ponderada'] = (df['Redação'] * 2 + df['Matemática'] * 4 + df['Linguagens'] * 2 +
                        df['Ciências humanas'] * 1 + df['Ciências da Natureza'] * 1)

# Selecionar os 500 melhores estudantes
top_500 = df.nlargest(500, 'Nota_Ponderada')
media_ponderada = top_500['Nota_Ponderada'].mean()
desvio_padrao_ponderado = top_500['Nota_Ponderada'].std()

print(f"\nMédia ponderada dos 500 melhores estudantes: {media_ponderada:.2f}")
print(f"Desvio padrão ponderado dos 500 melhores estudantes: {desvio_padrao_ponderado:.2f}")


Etapa 7: 4. Variância e média dos 40 melhores estudantes

In [None]:
# Selecionar os 40 melhores estudantes
top_40 = top_500.head(40)
variancia_top_40 = top_40['Nota_Ponderada'].var()
media_top_40 = top_40['Nota_Ponderada'].mean()

print(f"\nMédia das notas dos 40 estudantes que entraram: {media_top_40:.2f}")
print(f"Variância das notas dos 40 estudantes que entraram: {variancia_top_40:.2f}")


Etapa 8: 5. Valor do teto do terceiro quartil para Matemática e Linguagens

In [None]:
# Calcular o teto do terceiro quartil
terceiro_quartil = df[['Matemática', 'Linguagens']].quantile(0.75)
print("\nTeto do terceiro quartil para Matemática e Linguagens:")
print(terceiro_quartil)


Etapa 9: 6. Histogramas de Redação e Linguagens (de 20 em 20 pontos). Podemos dizer que são histogramas simétricos, justifique e classifique
se não assimétricas?

In [None]:
# Criar histogramas de Redação e Linguagens
plt.figure(figsize=(14, 6))

plt.subplot(1, 2, 1)
plt.hist(df['Redação'], bins=range(0, 1010, 20), edgecolor='black')
plt.title('Histograma de Redação')
plt.xlabel('Nota')
plt.ylabel('Frequência')

plt.subplot(1, 2, 2)
plt.hist(df['Linguagens'], bins=range(0, 1010, 20), edgecolor='black')
plt.title('Histograma de Linguagens')
plt.xlabel('Nota')
plt.ylabel('Frequência')

plt.tight_layout()
plt.savefig('histogramas.png') # Salvar a imagem em vez de mostrar
plt.close()

# Análise de simetria dos histogramas usando skewness
import scipy.stats as stats

# Calcular a assimetria das distribuições
skew_redacao = stats.skew(df['Redação'])
skew_linguagens = stats.skew(df['Linguagens'])

print(f"Assimetria (skewness) da Redação: {skew_redacao:.2f}")
print(f"Assimetria (skewness) da Linguagens: {skew_linguagens:.2f}")

# Analisar a simetria com base nos valores de skewness
if abs(skew_redacao) < 0.5:
    print("O histograma de Redação é aproximadamente simétrico.")
elif skew_redacao > 0:
    print("O histograma de Redação é assimétrico positivo (cauda à direita).")
else:
    print("O histograma de Redação é assimétrico negativo (cauda à esquerda).")

if abs(skew_linguagens) < 0.5:
    print("O histograma de Linguagens é aproximadamente simétrico.")
elif skew_linguagens > 0:
    print("O histograma de Linguagens é assimétrico positivo (cauda à direita).")
else:
    print("O histograma de Linguagens é assimétrico negativo (cauda à esquerda).")


Etapa 10: 7. Histogramas com range fixo de 0 até 1000

In [None]:
# Criar histogramas com range fixo de 0 até 1000
plt.figure(figsize=(14, 6))

plt.subplot(1, 2, 1)
plt.hist(df['Redação'], bins=50, range=[0, 1000], edgecolor='black')
plt.title('Histograma de Redação (Range 0-1000)')
plt.xlabel('Nota')
plt.ylabel('Frequência')

plt.subplot(1, 2, 2)
plt.hist(df['Linguagens'], bins=50, range=[0, 1000], edgecolor='black')
plt.title('Histograma de Linguagens (Range 0-1000)')
plt.xlabel('Nota')
plt.ylabel('Frequência')

plt.tight_layout()
plt.savefig('histogramas_range.png')  # Salvar a imagem em vez de mostrar
plt.close()


Etapa 11: 8. Boxplot das disciplinas

In [None]:
# Criar boxplot das disciplinas
plt.figure(figsize=(10, 6))
plt.boxplot([df['Redação'], df['Matemática'], df['Linguagens'], df['Ciências humanas'], df['Ciências da Natureza']],
            labels=['Redação', 'Matemática', 'Linguagens', 'Ciências humanas', 'Ciências da Natureza'])
plt.title('Boxplot das Disciplinas')
plt.ylabel('Nota')
plt.savefig('boxplot.png')  # Salvar a imagem em vez de mostrar
plt.close()


Etapa 12: 9. Remover outliers e verificar impacto

In [None]:
# Função para remover outliers
def remover_outliers(df, coluna):
    Q1 = df[coluna].quantile(0.25)
    Q3 = df[coluna].quantile(0.75)
    IQR = Q3 - Q1
    lim_inf = Q1 - 1.5 * IQR
    lim_sup = Q3 + 1.5 * IQR
    return df[(df[coluna] >= lim_inf) & (df[coluna] <= lim_sup)]

# Remover outliers e calcular impacto
df_sem_outliers = remover_outliers(df, 'Nota_Ponderada')
media_sem_outliers = df_sem_outliers['Nota_Ponderada'].mean()
desvio_padrao_sem_outliers = df_sem_outliers['Nota_Ponderada'].std()

impacto_media = ((media_ponderada - media_sem_outliers) / media_ponderada) * 100
print(f"\nMédia sem outliers: {media_sem_outliers:.2f}")
print(f"Desvio padrão sem outliers: {desvio_padrao_sem_outliers:.2f}")
print(f"Impacto na média nacional: {impacto_media:.2f}%")


Etapa 13: 10. Comparar substituições de valores nulos

In [None]:
# Selecionar apenas as colunas numéricas para o cálculo de média, moda e mediana
colunas_numericas = df.select_dtypes(include=[np.number]).columns

# Substituir valores nulos
df_moda = df.fillna(df.mode().iloc[0])
df_media = df.fillna(df[colunas_numericas].mean())
df_mediana = df.fillna(df[colunas_numericas].median())

# Calcular média e desvio padrão para cada abordagem
media_original = df[colunas_numericas].mean()
media_moda = df_moda[colunas_numericas].mean()
media_media = df_media[colunas_numericas].mean()
media_mediana = df_mediana[colunas_numericas].mean()

desvio_padrao_original = df[colunas_numericas].std()
desvio_padrao_moda = df_moda[colunas_numericas].std()
desvio_padrao_media = df_media[colunas_numericas].std()
desvio_padrao_mediana = df_mediana[colunas_numericas].std()

# Comparar as mudanças na média e no desvio padrão
print("\nMédia e desvio padrão com diferentes substituições de valores nulos:")

# Exibir as médias
print(f"Média original:")
print(media_original)
print(f"Média com moda:")
print(media_moda)
print(f"Média com média:")
print(media_media)
print(f"Média com mediana:")
print(media_mediana)

# Exibir os desvios padrão
print(f"\nDesvio padrão original:")
print(desvio_padrao_original)
print(f"Desvio padrão com moda:")
print(desvio_padrao_moda)
print(f"Desvio padrão com média:")
print(desvio_padrao_media)
print(f"Desvio padrão com mediana:")
print(desvio_padrao_mediana)

# Determinar qual método de substituição altera menos a média geral e o desvio padrão
alteracao_media = {
    'Moda': abs(media_original - media_moda).max(),
    'Média': abs(media_original - media_media).max(),
    'Mediana': abs(media_original - media_mediana).max()
}

alteracao_desvio_padrao = {
    'Moda': abs(desvio_padrao_original - desvio_padrao_moda).max(),
    'Média': abs(desvio_padrao_original - desvio_padrao_media).max(),
    'Mediana': abs(desvio_padrao_original - desvio_padrao_mediana).max()
}

print(f"\nAlteração na média geral:")
for metodo, alteracao in alteracao_media.items():
    print(f"{metodo}: {alteracao:.2f}")

