# Análise exploratória

## Obtenção e carregamento de dados  

In [None]:
#importação de bibliotecas
import pandas as pd

In [None]:
# Importação dos dados
df_dataset_cleaned = pd.read_csv('../Data/data_cleaned.csv', sep=';', encoding='utf-8-sig')

# Carregar dicionário de dados
df_dictionary = pd.read_csv("../Data/dictionary.csv", encoding="ISO-8859-1", sep=";", on_bad_lines='skip')

## Informações sobre o dataset

In [None]:
#Exibir informações sobre o dataframe
df_dataset_cleaned.info()

#Exibir as primeiras linhas do dataframe
df_dataset_cleaned.describe()

## Visualização inicial dos dados

In [None]:
#Exibir as primeiras linhas do dataframe
df_dataset_cleaned.head()

## Definição de índices

In [None]:
# Colocar a coluna 'survey_Id' na primeira posição
df_dataset_cleaned = df_dataset_cleaned[['survey_Id'] + [col for col in df_dataset_cleaned.columns if col != 'survey_Id']]

# Definir o índice do dataframe como a coluna 'survey_Id'
df_dataset_cleaned.set_index('survey_Id', inplace=True)

# Exibir as primeiras linhas do dataframe
df_dataset_cleaned.head()

## Conversão de tipos

In [None]:
# Criar dicionário de tipos com base no dicionário de dados
tipos_pandas = {}

# Mapear os tipos com base na coluna Type do dicionário
for _, row in df_dictionary.iterrows():
    var = row["Variable"]
    tipo = str(row["Type"]).strip().lower()

    if pd.isna(var) or var == "" or var not in df_dataset_cleaned.columns:
        continue  # Ignorar se não estiver no dataset

    if tipo in ["texto", "texto numérico"]:
        tipos_pandas[var] = "object"
    else:
        tipos_pandas[var] = "Int64"

# Tentar aplicar os tipos com segurança
df = df_dataset_cleaned.copy()

for coluna, tipo in tipos_pandas.items():
    try:
       df[coluna] =df[coluna].astype(tipo)
    except Exception as e:
        print(f"⚠️ Falha ao converter '{coluna}' para {tipo}: {e}")

# Verificar se há colunas com tipo 'int64' que podem ser convertidas para 'Int64'
colunas_int64 = df.select_dtypes(include="int64").columns.tolist()

# Converter colunas 'int64' para 'Int64' (nullable integer type)
df[colunas_int64] = df[colunas_int64].astype("Int64")

# Exibir as primeiras linhas do dataframe
df.head()