# Análise Exploratória de Dados (EDA)
## Prevendo Evasão e o Sucesso Acadêmico de Aunos do Ensino Superior

**Objetivo**: Explorar o conjunto de dados para entender suas principais características, identificar padrões, outliers e preparar insights iniciais para modelagem.

**Descrição do Problema**: Este notebook analisa o conjunto de dados de vendas de uma loja para identificar padrões de comportamento do consumidor.

**Fonte dos Dados**: O dataset contém informações sobre vendas diárias, categorias de produtos e locais de venda.


### Importando Bibliotecas

In [67]:
import pandas as pd
import numpy as np

import seaborn as sns
import matplotlib.pyplot as plt

### Carregando Dados

In [68]:
data = pd.read_csv('../data/raw/train.csv')
data.head(5)

Unnamed: 0,id,Marital status,Application mode,Application order,Course,Daytime/evening attendance,Previous qualification,Previous qualification (grade),Nacionality,Mother's qualification,...,Curricular units 2nd sem (credited),Curricular units 2nd sem (enrolled),Curricular units 2nd sem (evaluations),Curricular units 2nd sem (approved),Curricular units 2nd sem (grade),Curricular units 2nd sem (without evaluations),Unemployment rate,Inflation rate,GDP,Target
0,0,1,1,1,9238,1,1,126.0,1,1,...,0,6,7,6,12.428571,0,11.1,0.6,2.02,Graduate
1,1,1,17,1,9238,1,1,125.0,1,19,...,0,6,9,0,0.0,0,11.1,0.6,2.02,Dropout
2,2,1,17,2,9254,1,1,137.0,1,3,...,0,6,0,0,0.0,0,16.2,0.3,-0.92,Dropout
3,3,1,1,3,9500,1,1,131.0,1,19,...,0,8,11,7,12.82,0,11.1,0.6,2.02,Enrolled
4,4,1,1,2,9500,1,1,132.0,1,19,...,0,7,12,6,12.933333,0,7.6,2.6,0.32,Graduate


## 4. Exploração Inicial dos Dados
Dimensões do dataset: Número de linhas e colunas.
Tipos de dados: Verificar os tipos de variáveis.
Valores faltantes: Quantidade de valores ausentes.
Estatísticas descritivas: Resumo com medidas de tendência central e dispersão.

In [77]:
# Observando dimensões da base de dados
print(f'Base de dados com:\n{data.shape[0]} linhas')
print(f'{data.shape[1]} colunas')

Base de dados com:
76518 linhas
38 colunas


In [78]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 76518 entries, 0 to 76517
Data columns (total 38 columns):
 #   Column                                          Non-Null Count  Dtype  
---  ------                                          --------------  -----  
 0   id                                              76518 non-null  int64  
 1   Marital status                                  76518 non-null  int64  
 2   Application mode                                76518 non-null  int64  
 3   Application order                               76518 non-null  int64  
 4   Course                                          76518 non-null  int64  
 5   Daytime/evening attendance                      76518 non-null  int64  
 6   Previous qualification                          76518 non-null  int64  
 7   Previous qualification (grade)                  76518 non-null  float64
 8   Nacionality                                     76518 non-null  int64  
 9   Mother's qualification                 

In [80]:
data.duplicated().unique()

array([False])

Conforme observado, os dados apresentam consistência, sem valores ausentes ou linhas duplicadas. Além disso, todas as variáveis são do tipo numérico, abrangendo apenas números inteiros e pontos flutuantes, o que garante uma base adequada para as próximas etapas da análise e modelagem.

## Dicionário de Dados

Disponível <a href="https://archive.ics.uci.edu/dataset/697/predict+students+dropout+and+academic+success">aqui</a>

| Nome da Variável | Tradução | Papel | Tipo | Descrição |
| ---------------- | -------- | ----- |----- | --------- |
| Marital Status | Estado Civil | Feature | Integer | 1 - solteiro / 2 - casado / 3 - viúvo / 4 - divorciado / 5 - união estável / 6 - legalmente separado |
| Application mode | Forma de Aplicação | Feature | Integer | 1 – 1ª fase – contingente geral   / 2 – Portaria nº 612/93 / 5 - 1ª fase - contingente especial (Ilha dos Açores) / 7 - Titulares de outros cursos superiores / 10 - Portaria nº 854-B/99 / 15 - Estudante internacional (bacharelado) / 16 – 1ª fase – contingente especial (Ilha da Madeira) / 17 – 2ª fase – contingente geral / 18 – 3ª fase – contingente geral / 26 - Portaria n.º 533-A/99, alínea b2) (Plano Diferente) / 27 - Portaria nº 533-A/99, item b3 (Outra Instituição) / 39 - Maiores de 23 anos / 42 - Transferência / 43 – Mudança de curso / 44 - Titulares de diploma de especialização tecnológica / 51 - Mudança de instituição/curso / 53 - Titulares de diplomas de ciclo curto / 57 - Mudança de instituição/curso (Internacional)
| Application order | Ordem de Aplicação | Feature | Integer | Ordem de aplicação (entre 0 - primeira escolha; e 9 última escolha)
| Course | Curso | Feature | Integer | 33 - Tecnologias de Produção de Biocombustíveis / 171 - Animação e Design Multimédia / 8014 - Serviço Social (atendimento noturno) / 9003 - Agronomia / 9070 - Design de Comunicação / 9085 - Enfermagem Veterinária / 9119 - Engenharia Informática / 9130 - Equinicultura / 9147 - Gestão / 9238 - Serviço Social / 9254 - Turismo / 9500 - Enfermagem / 9556 - Higiene Oral / 9670 - Gestão de Publicidade e Marketing / 9773 - Jornalismo e Comunicação / 9853 - Ensino Básico / 9991 - Gestão (atendimento noturno) 
| Daytime/evening attendance | Atendimento diurno/noturno | Feature | Integer | 1 - diurno / 0 - noturno |
| Previous qualification | Qualificação Anterior | Feature | Integer | 1 - Ensino Secundário - 12.º Ano de Escolaridade ou Eq. / 2 – Ensino Superior – Bacharelado / 3 – Ensino Superior – Licenciatura / 4 – Ensino Superior – Mestrado / 5 – Ensino Superior – Doutorado / 6 - Frequência do Ensino Superior / 9 - 12º Ano de Escolaridade - Não Concluído / 10 - 11º Ano de Escolaridade - Não Concluído / 11 - 7º ano (antigo) / 12 - Outros - 11º Ano de Escolaridade  / 13 - 2º ano do ensino médio complementar / 14 - 10º Ano de Escolaridade / 18 – Curso de comércio geral / 19 - Ensino Básico 3.º Ciclo (9.º/10.º/11.º Ano) ou Equiv. / 20 - Curso Complementar de Ensino Médio / 22 – Curso técnico-profissional / 25 – Curso Complementar de Ensino Médio – não concluído / 26 - 7º ano de escolaridade / 27 - 2.º ciclo do curso secundário geral / 29 - 9º Ano de Escolaridade - Não Concluído / 30 - 8º ano de escolaridade / 31 - Curso Geral de Administração e Comércio / 33 - Contabilidade e Administração Complementares / 34 - Desconhecido / 35 – Não sabe ler nem escrever / 36 - Consegue ler sem ter o 4º ano de escolaridade / 37 - Ensino básico 1.º ciclo (4.º/5.º ano) ou equiv. / 38 - Ensino Básico 2.º Ciclo (6.º/7.º/8.º Ano) ou Equiv. / 39 – Curso de especialização tecnológica / 40 - Ensino superior – licenciatura (1.º ciclo) / 41 - Curso superior especializado / 42 – Curso técnico superior profissional / 43 - Ensino Superior - Mestrado (2.º ciclo) / 44 - Ensino Superior - Doutoramento (3.º ciclo) |
| Previous qualification (grade) | Nota da Qualificação Anterior | Feature | Integer | Nota da qualificação anterior (entre 0 e 200) |
| Nacionality | Nacionalidade | Feature | Integer | 1 - Português / 2 - Alemão / 6 - Espanhol / 11 - Italiano / 13 - Holandês / 14 - Inglês / 17 - Lituano / 21 - Angolano / 22 – Cabo-verdiano / 24 - Guineense / 25 – Moçambicano /26 - Santomense / 32 - Turco / 41 - brasileiro / 62 - romeno / 100 - Moldávia (República da) / 101 - Mexicano / 103 - Ucraniano / 105 - Russo / 108 - Cubano / 109 - Colombiano |
| Mother's qualification | Qualificação da Mãe | Feature | Integer | 1 - Ensino Secundário - 12.º Ano de Escolaridade ou Eq. / 2 – Ensino Superior – Bacharelado / 3 – Ensino Superior – Licenciatura / 4 – Ensino Superior – Mestrado / 5 – Ensino Superior – Doutorado / 6 - Frequência do Ensino Superior / 9 - 12º Ano de Escolaridade - Não Concluído / 10 - 11º Ano de Escolaridade - Não Concluído / 11 - 7º ano (antigo) / 12 - Outros - 11º Ano de Escolaridade  / 13 - 2º ano do ensino médio complementar / 14 - 10º Ano de Escolaridade / 18 – Curso de comércio geral / 19 - Ensino Básico 3.º Ciclo (9.º/10.º/11.º Ano) ou Equiv. / 20 - Curso Complementar de Ensino Médio / 22 – Curso técnico-profissional / 25 – Curso Complementar de Ensino Médio – não concluído / 26 - 7º ano de escolaridade / 27 - 2.º ciclo do curso secundário geral / 29 - 9º Ano de Escolaridade - Não Concluído / 30 - 8º ano de escolaridade / 31 - Curso Geral de Administração e Comércio / 33 - Contabilidade e Administração Complementares / 34 - Desconhecido / 35 – Não sabe ler nem escrever / 36 - Consegue ler sem ter o 4º ano de escolaridade / 37 - Ensino básico 1.º ciclo (4.º/5.º ano) ou equiv. / 38 - Ensino Básico 2.º Ciclo (6.º/7.º/8.º Ano) ou Equiv. / 39 – Curso de especialização tecnológica / 40 - Ensino superior – licenciatura (1.º ciclo) / 41 - Curso superior especializado / 42 – Curso técnico superior profissional / 43 - Ensino Superior - Mestrado (2.º ciclo) / 44 - Ensino Superior - Doutoramento (3.º ciclo) |
| Father's qualification | Qualificação do Pai | Feature | Integer | 1 - Ensino Secundário - 12.º Ano de Escolaridade ou Eq. / 2 – Ensino Superior – Bacharelado / 3 – Ensino Superior – Licenciatura / 4 – Ensino Superior – Mestrado / 5 – Ensino Superior – Doutorado / 6 - Frequência do Ensino Superior / 9 - 12º Ano de Escolaridade - Não Concluído / 10 - 11º Ano de Escolaridade - Não Concluído / 11 - 7º ano (antigo) / 12 - Outros - 11º Ano de Escolaridade  / 13 - 2º ano do ensino médio complementar / 14 - 10º Ano de Escolaridade / 18 – Curso de comércio geral / 19 - Ensino Básico 3.º Ciclo (9.º/10.º/11.º Ano) ou Equiv. / 20 - Curso Complementar de Ensino Médio / 22 – Curso técnico-profissional / 25 – Curso Complementar de Ensino Médio – não concluído / 26 - 7º ano de escolaridade / 27 - 2.º ciclo do curso secundário geral / 29 - 9º Ano de Escolaridade - Não Concluído / 30 - 8º ano de escolaridade / 31 - Curso Geral de Administração e Comércio / 33 - Contabilidade e Administração Complementares / 34 - Desconhecido / 35 – Não sabe ler nem escrever / 36 - Consegue ler sem ter o 4º ano de escolaridade / 37 - Ensino básico 1.º ciclo (4.º/5.º ano) ou equiv. / 38 - Ensino Básico 2.º Ciclo (6.º/7.º/8.º Ano) ou Equiv. / 39 – Curso de especialização tecnológica / 40 - Ensino superior – licenciatura (1.º ciclo) / 41 - Curso superior especializado / 42 – Curso técnico superior profissional / 43 - Ensino Superior - Mestrado (2.º ciclo) / 44 - Ensino Superior - Doutoramento (3.º ciclo) |
| Mother's occupation | Ocupação da Mãe | Feature | Integer | 0 - Estudante / 1 - Representantes do Poder Legislativo e dos Órgãos Executivos, Diretores, Diretores e Gerentes Executivos / 2 - Especialistas em Atividades Intelectuais e Científicas / 3 - Técnicos e Profissões de Nível Intermediário / 4 - Pessoal Administrativo / 5 - Trabalhadores de Serviços Pessoais, Segurança e Proteção e Vendedores / 6 - Agricultores e Trabalhadores Qualificados na Agricultura, Pesca e Silvicultura / 7 - Trabalhadores Qualificados na Indústria, Construção e Artesãos / 8 - Operadores de Instalação e Máquinas e Trabalhadores de Montagem / 9 - Trabalhadores Não Qualificados / 10 - Profissões das Forças Armadas / 90 - Outra Situação / 99 - (em branco) / 101 - Oficiais das Forças Armadas / 102 - Sargentos das Forças Armadas / 103 - Outros funcionários das Forças Armadas / 112 - Diretores de serviços administrativos e comerciais / 114 - Diretores de hotéis, restaurantes, comércio e outros serviços / 121 - Especialistas em ciências físicas, matemática, engenharia e técnicas relacionadas / 122 - Profissionais de saúde / 123 - Professores / 124 - Especialistas em finanças, contabilidade, organização administrativa, relações públicas e comerciais / 125 - Especialistas em tecnologias de informação e comunicação (TIC) / 131 - Técnicos e profissões de nível intermediário em ciências e engenharia / 132 - Técnicos e profissionais de nível intermediário em saúde / 134 - Técnicos de nível intermediário em serviços jurídicos, sociais, esportivos, culturais e similares / 135 - Tecnologia da informação e comunicação / 141 - Trabalhadores de escritório, secretárias em geral e operadores de processamento de dados / 143 - Operadores de dados, contabilidade, estatística, serviços financeiros e relacionados a registros / 144 - Outro pessoal de apoio administrativo / 151 - Trabalhadores de serviços pessoais / 152 - Vendedores / 153 - Trabalhadores de cuidados pessoais e similares / 154 - Pessoal de serviços de proteção e segurança / 161 - Agricultores orientados para o mercado e trabalhadores qualificados em produção agrícola e animal / 163 - Agricultores, criadores de gado, pescadores, caçadores e coletores, subsistência / 171 - Trabalhadores qualificados da construção civil e similares, exceto eletricistas / 172 - Trabalhadores qualificados em metalurgia, metalurgia e similares / 173 - Trabalhadores qualificados em impressão, fabricação de instrumentos de precisão, joalheiros, artesãos e similares / 174 - Trabalhadores qualificados em eletricidade e eletrônica / 175 - Trabalhadores em processamento de alimentos, marcenaria, vestuário e outras indústrias e ofícios / 181 - Operadores de máquinas e instalações fixas / 182 - Trabalhadores de montagem / 183 - Motoristas de veículos e operadores de equipamentos móveis / 191 - Trabalhadores de limpeza / 192 - Trabalhadores não qualificados na agricultura, produção animal, pesca e silvicultura / 193 - Trabalhadores não qualificados na indústria extrativa, construção, manufatura e transporte / 194 - Assistentes de preparação de refeições / 195 - Vendedores ambulantes (exceto alimentos) e prestadores de serviços ambulantes |
| Father's occupation | Ocupação do Pai | Feature | Integer | 0 - Estudante / 1 - Representantes do Poder Legislativo e dos Órgãos Executivos, Diretores, Diretores e Gerentes Executivos / 2 - Especialistas em Atividades Intelectuais e Científicas / 3 - Técnicos e Profissões de Nível Intermediário / 4 - Pessoal Administrativo / 5 - Trabalhadores de Serviços Pessoais, Segurança e Proteção e Vendedores / 6 - Agricultores e Trabalhadores Qualificados na Agricultura, Pesca e Silvicultura / 7 - Trabalhadores Qualificados na Indústria, Construção e Artesãos / 8 - Operadores de Instalação e Máquinas e Trabalhadores de Montagem / 9 - Trabalhadores Não Qualificados / 10 - Profissões das Forças Armadas / 90 - Outra Situação / 99 - (em branco) / 101 - Oficiais das Forças Armadas / 102 - Sargentos das Forças Armadas / 103 - Outros funcionários das Forças Armadas / 112 - Diretores de serviços administrativos e comerciais / 114 - Diretores de hotéis, restaurantes, comércio e outros serviços / 121 - Especialistas em ciências físicas, matemática, engenharia e técnicas relacionadas / 122 - Profissionais de saúde / 123 - Professores / 124 - Especialistas em finanças, contabilidade, organização administrativa, relações públicas e comerciais / 125 - Especialistas em tecnologias de informação e comunicação (TIC) / 131 - Técnicos e profissões de nível intermediário em ciências e engenharia / 132 - Técnicos e profissionais de nível intermediário em saúde / 134 - Técnicos de nível intermediário em serviços jurídicos, sociais, esportivos, culturais e similares / 135 - Tecnologia da informação e comunicação / 141 - Trabalhadores de escritório, secretárias em geral e operadores de processamento de dados / 143 - Operadores de dados, contabilidade, estatística, serviços financeiros e relacionados a registros / 144 - Outro pessoal de apoio administrativo / 151 - Trabalhadores de serviços pessoais / 152 - Vendedores / 153 - Trabalhadores de cuidados pessoais e similares / 154 - Pessoal de serviços de proteção e segurança / 161 - Agricultores orientados para o mercado e trabalhadores qualificados em produção agrícola e animal / 163 - Agricultores, criadores de gado, pescadores, caçadores e coletores, subsistência / 171 - Trabalhadores qualificados da construção civil e similares, exceto eletricistas / 172 - Trabalhadores qualificados em metalurgia, metalurgia e similares / 173 - Trabalhadores qualificados em impressão, fabricação de instrumentos de precisão, joalheiros, artesãos e similares / 174 - Trabalhadores qualificados em eletricidade e eletrônica / 175 - Trabalhadores em processamento de alimentos, marcenaria, vestuário e outras indústrias e ofícios / 181 - Operadores de máquinas e instalações fixas / 182 - Trabalhadores de montagem / 183 - Motoristas de veículos e operadores de equipamentos móveis / 191 - Trabalhadores de limpeza / 192 - Trabalhadores não qualificados na agricultura, produção animal, pesca e silvicultura / 193 - Trabalhadores não qualificados na indústria extrativa, construção, manufatura e transporte / 194 - Assistentes de preparação de refeições / 195 - Vendedores ambulantes (exceto alimentos) e prestadores de serviços ambulantes |
| Admission grade | Nota de Admissão | Feature | Float | Nota de admissão (entre 0 e 200) | 
| Displaced | Deslocado | Feature | Integer | 1 - sim / 0 - não |
| Educational special needs | Necessidadss Educacionais Especiais | Feature | Integer | 1 - sim / 0 - não |
| Debtor | Devedor | Feature | Integer | 1 - sim / 0 - não |
| Tuition fees up to date | Mensalidades em Dia | Feature | Integer | 1 - sim / 0 - não |
| Gender | Gênero | Feature | Integer | 1 - masculino / 0 - feminino |
| Scholarship holder | Bolsista | Feature | Integer | 1 - sim / 0 - não |
| Age at enrollment | Idade na Matrícula | Feature | Integer | Idade do aluno na matrícula |
| International | Estudante Internacional | Feature | Integer | 1 - sim / 0 - não |
| Curricular units 1st sem (credited) | Unidades curriculares 1º semestre (creditadas) | Feature | Integer | Número de unidades curriculares creditadas no 1.º semestre |
| Curricular units 1st sem (enrolled) | Unidades curriculares 1º semestre (inscritos) | Feature | Integer | Número de unidades curriculares inscritas no 1.º semestre |
| Curricular units 1st sem (evaluations) | Unidades curriculares 1º semestre (avaliações) | Feature | Integer |  Número de avaliações a unidades curriculares no 1.º semestre ||
| Curricular units 1st sem (approved) | Unidades curriculares 1º semestre (aprovado) | Feature | Integer | Número de unidades curriculares aprovadas no 1.º semestre |
| Curricular units 1st sem (grade) | Unidades curriculares 1º semestre (nota) | Feature | Float | Média de notas do 1.º semestre (entre 0   20 | 
| Curricular units 1st sem (without evaluations) | Unidades curriculares 1º semestre (sem avaliações) | Feature | Integer | Número de unidades curriculares sem avaliações no 1.º semestre |
| Curricular units 2nd sem (credited) | Unidades curriculares 2º semestre (creditadas) | Feature | Integer | Número de unidades curriculares creditadas no 2.º semestre |
| Curricular units 2nd sem (enrolled) | Unidades curriculares 2º semestre (inscritos) | Feature | Integer | Número de unidades curriculares inscritas no 2.º semestre 
| Curricular units 2nd sem (evaluations) | Unidades curriculares 2º semestre (avaliações) | Feature | Integer | Número de avaliações a unidades curriculares no 2.º semestre |
|  Curricular units 2nd sem (approved) | Unidades curriculares 2º semestre (aprovado) | Feature | Integer | Número de unidades curriculares aprovadas no 2.º semestre |
| Curricular units 2nd sem (grade) | Unidades curriculares 2º semestre (nota) | Feature | Float | Média de notas do 2.º semestre (entre 0 e 20| 
| Curricular units 2nd sem (without evaluations) | Unidades curriculares 2º semestre (sem avaliações) | Feature | Integer | Número de unidades curriculares sem avaliações no 2.º semestre |
| Unemployment rate | Taxa de Desemprego | Feature | Float | Taxa de Desemprego (%) |
| Inflation rate | Taxa de Inflação | Feature | Float | Taxa de Inflação (%) |
| GDP | PIB | Feature | Float | PIB |
| Target | Variável-alvo | Target | Object |Três categorias (abandono, matriculado e graduado) que descrevem a situação do aluno ao final da duração normal do curso |s

## Classes Não Identificadas

Ao realizar a análise do **dicionário de dados** disponível no site onde a base de dados está alocada, foram identificadas inconsistências em comparação com a base de dados. Especificamente, foram encontradas classes de determinadas variáveis categóricas que não possuem correspondência no dicionário de dados, sendo, portanto, consideradas **classes não identificadas**. Como o foco deste projeto é o desenvolvimento de um modelo de classificação, não iremos nos aprofundar nas causas dessas discrepâncias. Em vez disso, optaremos por avaliar a frequência dessas classes dentro de suas respectivas variáveis. Caso a frequência seja inferior a 0.1%, essas classes serão descartadas da base de dados para que possamos prosseguir com a modelagem de forma consistente. Abaixo estão listadas as variáveis afetadas e suas respectivas classes não identificadas:

**Application mode**: 3, 4, 35, 9 e 12

**Course**: 979 e 39

**Previous qualification**: 17 e 15

**Mother's qualification**: 8, 15, 28 e 7

**Father's qualification**: 7, 15, 21, 23 e 24

**Mother's occupation**: 11, 38 e 127

**Father's occupation**: 96, 39, 11, 12, 13, 19, 148 e 22

In [70]:
# Mapeia variáveis com suas respectivas classes não identificadas
vars = {"Application mode": [3, 4, 35, 9, 12], 
        "Course": [979, 39], 
        "Previous qualification": [17, 15], 
        "Mother's qualification": [8, 15, 28, 7], 
        "Father's qualification": [7, 15, 21, 23, 24], 
        "Mother's occupation": [11, 38, 127], 
        "Father's occupation": [96, 39, 11, 12, 13, 19, 148, 22]}

# Mapeia variáveis com suas respectivas contagem de classes
contador_classes_por_var = {col: data[col].value_counts() for col in vars.keys()}

# Visualiza a frequência das classes não identificadas de cada variável selecionada
for var, indices in vars.items():
    print(f'Para a variável {var}')
    contador_classes = contador_classes_por_var[var]
    total = contador_classes.sum()
    classes_selecionadas = contador_classes[contador_classes.index.isin(indices)]
    for index, contagem in enumerate(classes_selecionadas):
        print(indices[index], end=' - ')
        print(f'{(contagem / total) * 100:.3f} %')
    print()

Para a variável Application mode
3 - 0.001 %
4 - 0.001 %
35 - 0.001 %
9 - 0.001 %
12 - 0.001 %

Para a variável Course
979 - 0.001 %
39 - 0.001 %

Para a variável Previous qualification
17 - 0.014 %
15 - 0.003 %

Para a variável Mother's qualification
8 - 0.001 %
15 - 0.001 %
28 - 0.001 %
7 - 0.001 %

Para a variável Father's qualification
7 - 0.003 %
15 - 0.001 %
21 - 0.001 %
23 - 0.001 %
24 - 0.001 %

Para a variável Mother's occupation
11 - 0.001 %
38 - 0.001 %
127 - 0.001 %

Para a variável Father's occupation
96 - 0.001 %
39 - 0.001 %
11 - 0.001 %
12 - 0.001 %
13 - 0.001 %
19 - 0.001 %
148 - 0.001 %
22 - 0.001 %



Conforme observado, nenhuma das **classes não identificadas** apresenta uma frequência significativa que justifique sua permanência na base de dados. Dado que todas possuem uma representatividade inferior ao limite estabelecido, essas classes serão removidas para garantir a consistência e a qualidade dos dados utilizados na modelagem.

## 5. Análise Univariada
Explore cada variável individualmente.
Variáveis Numéricas: Use histogramas, boxplots e estatísticas descritivas.
Variáveis Categóricas: Utilize contagens e gráficos de barras.

## 6. Análise Bivariada
Relacionar variáveis numéricas e categóricas para explorar interações.
Correlação entre variáveis numéricas.
Comparações de variáveis categóricas com numéricas (ex: boxplot para comparar preços entre categorias).

## 8. Tratamento de Dados
Tratar valores faltantes, outliers e dados inconsistentes.
Transformações de variáveis, como normalização, codificação de variáveis categóricas, etc.

## 9. Conclusões e Próximos Passos
Resumo dos insights mais importantes.
Próximos passos: Por exemplo, preparar os dados para modelagem, refinar a análise ou investigar outros aspectos dos dados.

## 10. Referências
Se você usar fontes externas (artigos, papers, etc.), inclua-as no final do notebook.