# Analise exploratória de dados (EDA)
## Fluxo de limpeza, análise e salvamento de dados

In [2]:
import pandas as pd
import os

In [3]:


# 1. Leitura dos Dados
nome_arquivo_csv_entrada = "alunos.csv" # Nome do arquivo de entrada

try:
    # Verifica se o arquivo CSV de entrada existe antes de tentar ler
    if not os.path.exists(nome_arquivo_csv_entrada):
        raise FileNotFoundError(f"O arquivo de entrada '{nome_arquivo_csv_entrada}' não foi encontrado.")

    tabela = pd.read_csv(nome_arquivo_csv_entrada)
    print(f"Dados lidos com sucesso. Total de linhas iniciais: {len(tabela)}")

except FileNotFoundError as e:
    print(f"ERRO: {e}")
except pd.errors.EmptyDataError:
    print(f"ERRO: O arquivo '{nome_arquivo_csv_entrada}' está vazio.")
except Exception as e:
    print(f"Ocorreu um erro inesperado: {e}")

Dados lidos com sucesso. Total de linhas iniciais: 1000


In [4]:
# 2. Limpeza de Dados
linhas_duplicadas = tabela.duplicated().sum()
tabela = tabela.drop_duplicates(inplace=False)
print(f"Linhas duplicadas removidas: {linhas_duplicadas}")

linhas_vazias_removidas = len(tabela) - len(tabela.dropna(how='any'))
tabela = tabela.dropna(how='any', inplace=False)
print(f"Linhas com valores vazios removidas: {linhas_vazias_removidas}")
print(f"Total de linhas após a limpeza: {len(tabela)}")

Linhas duplicadas removidas: 0
Linhas com valores vazios removidas: 0
Total de linhas após a limpeza: 1000


In [5]:
# 3. Exploração (Análise Estatística)
# 3.1. Resumo estatístico descritivo
resumo = tabela.describe(include="all").T

# 3.2. Matriz de Correlações
correlacoes = tabela.corr(numeric_only=True)

In [6]:
resumo

Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
idade,1000.0,,,,22.94,4.367319,16.0,19.0,23.0,27.0,30.0
nota,1000.0,,,,5.104174,2.823793,0.004054,2.715998,5.065165,7.490931,9.980323
horas_estudo,1000.0,,,,10.603,5.932165,1.0,5.0,10.0,16.0,20.0
area_formacao,1000.0,4.0,Ciência de dados,264.0,,,,,,,


In [7]:
correlacoes


Unnamed: 0,idade,nota,horas_estudo
idade,1.0,-0.008479,0.035437
nota,-0.008479,1.0,0.002306
horas_estudo,0.035437,0.002306,1.0


In [8]:
# 4. Salvar em Arquivos CSV
nome_resumo_csv = "Resumo_Estatistico.csv"
nome_correlacoes_csv = "Correlacoes_Dados.csv"

# Salva o resumo (o index é o nome das colunas originais, importante mantê-lo)
resumo.to_csv(nome_resumo_csv, index=True, encoding='utf-8')
print(f"\nResumo estatístico salvo em '{nome_resumo_csv}'.")

# Salva as correlações (o index é o nome das colunas originais, importante mantê-lo)
correlacoes.to_csv(nome_correlacoes_csv, index=True, encoding='utf-8')
print(f"Matriz de correlações salva em '{nome_correlacoes_csv}'.")

print("\nAnálise concluída.")


Resumo estatístico salvo em 'Resumo_Estatistico.csv'.
Matriz de correlações salva em 'Correlacoes_Dados.csv'.

Análise concluída.
