# Analise exploratória de dados (EDA)
## Fluxo de limpeza, análise e salvamento de dados

In [1]:
import pandas as pd
import os

In [2]:


# 1. Leitura dos Dados
nome_arquivo_csv_entrada = "alunos.csv" # Nome do arquivo de entrada

try:
    # Verifica se o arquivo CSV de entrada existe antes de tentar ler
    if not os.path.exists(nome_arquivo_csv_entrada):
        raise FileNotFoundError(f"O arquivo de entrada '{nome_arquivo_csv_entrada}' não foi encontrado.")

    tabela = pd.read_csv(nome_arquivo_csv_entrada)
    print(f"Dados lidos com sucesso. Total de linhas iniciais: {len(tabela)}")

except FileNotFoundError as e:
    print(f"ERRO: {e}")
except pd.errors.EmptyDataError:
    print(f"ERRO: O arquivo '{nome_arquivo_csv_entrada}' está vazio.")
except Exception as e:
    print(f"Ocorreu um erro inesperado: {e}")

Dados lidos com sucesso. Total de linhas iniciais: 1004


In [3]:
df = pd.read_csv("alunos.csv")
df.head()


Unnamed: 0,idade,nota,horas_estudo,area_formacao
0,16,9.151123,20.0,Ciência de dados
1,16,9.151123,20.0,Ciência de dados
2,16,9.151123,20.0,Ciência de dados
3,23,0.890541,19.0,Ciência de dados
4,23,0.890541,,Ciência de dados


In [4]:
# 2. Limpeza de Dados: Remoção de linhas duplicadas e vazias
linhas_duplicadas = df.duplicated().sum()
df = df.drop_duplicates(inplace=False)
print(f"Linhas duplicadas removidas: {linhas_duplicadas}")

linhas_vazias_removidas = len(df) - len(df.dropna(how='any'))
df = df.dropna(how='any', inplace=False)
print(f"Linhas com valores vazios removidas: {linhas_vazias_removidas}")
print(f"Total de linhas após a limpeza: {len(df)}")

Linhas duplicadas removidas: 2
Linhas com valores vazios removidas: 2
Total de linhas após a limpeza: 1000


In [5]:
# 3. Exploração (Análise Estatística)
# 3.1. Resumo estatístico descritivo
resumo = tabela.describe(include="all").T

# 3.2. Matriz de Correlações
correlacoes = tabela.corr(numeric_only=True)

In [6]:
resumo

Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
idade,1004.0,,,,22.926295,4.369584,16.0,19.0,23.0,27.0,30.0
nota,1004.0,,,,5.103842,2.830206,0.004054,2.710466,5.065165,7.495028,9.980323
horas_estudo,1003.0,,,,10.63011,5.943998,1.0,5.0,10.0,16.0,20.0
area_formacao,1003.0,4.0,Ciência de dados,267.0,,,,,,,


In [7]:
correlacoes


Unnamed: 0,idade,nota,horas_estudo
idade,1.0,-0.012991,0.03025
nota,-0.012991,1.0,0.004699
horas_estudo,0.03025,0.004699,1.0


In [8]:
# 4. Salvar as analises em Arquivos CSV
nome_resumo_csv = "Resumo_Estatistico.csv"
nome_correlacoes_csv = "Correlacoes_Dados.csv"

# Salva o resumo (o index é o nome das colunas originais, importante mantê-lo)
resumo.to_csv(nome_resumo_csv, index=True, encoding='utf-8')
print(f"\nResumo estatístico salvo em '{nome_resumo_csv}'.")

# Salva as correlações (o index é o nome das colunas originais, importante mantê-lo)
correlacoes.to_csv(nome_correlacoes_csv, index=True, encoding='utf-8')
print(f"Matriz de correlações salva em '{nome_correlacoes_csv}'.")

print("\nAnálise concluída.")


Resumo estatístico salvo em 'Resumo_Estatistico.csv'.
Matriz de correlações salva em 'Correlacoes_Dados.csv'.

Análise concluída.
