# üß† Etapa 1: An√°lise Explorat√≥ria de Dados (EDA)

## üéØ Objetivos

Nesta etapa, o objetivo √© realizar uma investiga√ß√£o completa no dataset para entender suas caracter√≠sticas, identificar problemas de qualidade (valores faltantes, *outliers*) e descobrir os primeiros *insights* que guiar√£o as pr√≥ximas etapas de pr√©-processamento e modelagem. O foco √© **analisar**, e n√£o modificar os dados.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configura√ß√µes de visualiza√ß√£o
sns.set_style('whitegrid')
pd.set_option('display.max_columns', None)
pd.set_option('display.float_format', lambda x: '%.2f' % x)

# Carregar o arquivo CSV
try:
    # Assumindo que o arquivo 'salary_prediction.csv' est√° no diret√≥rio correto
    df = pd.read_csv('salary_prediction.csv')
    print("Dataset carregado com sucesso!")
except FileNotFoundError:
    print("Erro: O arquivo 'salary_prediction.csv' n√£o foi encontrado. Verifique o caminho.")
    df = None

---

## 1. Carregamento e Vis√£o Geral dos Dados üìä

Inspe√ß√£o inicial para entender a estrutura do dataset, tipos de dados e estat√≠sticas descritivas.

In [None]:
if df is not None:
    print("\n### Primeiras 5 linhas (.head()) ###")
    print(df.head().to_markdown(index=False, numalign="left", stralign="left"))

    print("\n### √öltimas 5 linhas (.tail()) ###")
    print(df.tail().to_markdown(index=False, numalign="left", stralign="left"))

    print("\n### Estrutura e Tipos de Dados (.info()) ###")
    df.info()

    print(f"\nN√∫mero de Linhas e Colunas (.shape): {df.shape}")

    print("\n### Estat√≠sticas Descritivas (.describe()) ###")
    # Remove a coluna 'professional_id' para o describe
    desc_df = df.drop(columns=['professional_id'], errors='ignore')
    print(desc_df.describe().T.to_markdown(numalign="left", stralign="left"))

### üìù Conclus√µes - Vis√£o Geral

* **Descri√ß√£o do Dataset:** O dataset cont√©m dados de profissionais de tecnologia, abrangendo anos de experi√™ncia, n√≠vel de educa√ß√£o, √°rea, senioridade, etc., e o **sal√°rio anual em BRL** como vari√°vel alvo.
* **Dimens√£o:** O conjunto de dados possui **2334 linhas** e **18 colunas**.
* **Vari√°vel Alvo:** **`annual_salary_brl`** (Sal√°rio Anual em BRL).
* **Observa√ß√£o Estat√≠stica:** O sal√°rio m√©dio √© de $\text{R}\$142.200$, com um **alto desvio padr√£o** (cerca de $\text{R}\$60.400$), indicando grande dispers√£o de sal√°rios. O valor m√°ximo de $\text{R}\$350.000$ sugere a presen√ßa de profissionais de alta remunera√ß√£o.

---

## 2. An√°lise de Qualidade dos Dados üîé

Investiga√ß√£o de problemas comuns como valores faltantes (`NaN`) e valores at√≠picos (*outliers*).

In [None]:
# 2.1. C√°lculo de Valores Faltantes
missing_values = df.isnull().sum()
missing_percentage = (missing_values / len(df)) * 100

missing_data = pd.DataFrame({
    'Total Faltante': missing_values,
    'Porcentagem (%)': missing_percentage
}).sort_values(by='Porcentagem (%)', ascending=False)

# Filtrar apenas colunas com valores faltantes
missing_data = missing_data[missing_data['Total Faltante'] > 0]

print("### Valores Faltantes (Total e Porcentagem) ###")
print(missing_data.to_markdown(numalign="left", stralign="left"))

# 2.2. Visualiza√ß√£o de Valores Faltantes
if not missing_data.empty:
    plt.figure(figsize=(10, 6))
    sns.barplot(
        x=missing_data.index,
        y='Porcentagem (%)',
        data=missing_data,
        palette='viridis'
    )
    plt.title('Porcentagem de Valores Faltantes por Coluna')
    plt.ylabel('Porcentagem (%)')
    plt.xlabel('Colunas')
    plt.xticks(rotation=45, ha='right')
    plt.tight_layout()
    plt.show()

In [None]:
# 2.3. Boxplots para Identifica√ß√£o de Outliers
# Identificar colunas num√©ricas (excluindo o ID)
numeric_cols = df.select_dtypes(include=np.number).columns.tolist()

plt.figure(figsize=(18, 12))
for i, col in enumerate(numeric_cols):
    plt.subplot(3, 3, i + 1)
    sns.boxplot(y=df[col], color='skyblue')
    plt.title(f'Boxplot de {col}', fontsize=12)
    plt.ylabel('')
    plt.xlabel('')

plt.suptitle('Boxplots para Identifica√ß√£o de Outliers em Vari√°veis Num√©ricas', fontsize=16, y=1.02)
plt.tight_layout()
plt.show()

### üìù Conclus√µes - Qualidade dos Dados

#### Valores Faltantes
* Tr√™s colunas cont√™m valores nulos:
    * **`english_level`**: 11.78% dos dados est√£o faltando.
    * **`frameworks_known`** e **`programming_languages`**: 5.74% faltante em ambas. A coincid√™ncia sugere que **os mesmos profissionais** n√£o preencheram essas informa√ß√µes.
* **Hip√≥tese Inicial:** A aus√™ncia de dados pode ser por falha na coleta ou porque a informa√ß√£o n√£o era aplic√°vel (e.g., `'B√°sico'` ou `'Nenhum'` foram deixados em branco).

#### Outliers
* **`annual_salary_brl`**: Apresenta *outliers* na cauda superior (sal√°rios muito altos). Estes devem ser mantidos, pois representam a realidade do mercado.
* **`github_contributions`** e **`projects_completed`**: Demonstram uma grande quantidade de *outliers* na cauda superior, indicando a exist√™ncia de profissionais com produtividade ou engajamento em projetos muito acima da m√©dia.

---

## 3. An√°lise Univariada üìä

An√°lise da distribui√ß√£o individual de cada vari√°vel para entender seu comportamento.

In [None]:
# Pr√©-processamento simples para lidar com whitespace em categ√≥ricas (melhor visualiza√ß√£o)
df_clean = df.copy()
for col in df_clean.select_dtypes(include='object').columns:
    # Remove espa√ßos em branco antes e depois dos valores categ√≥ricos
    df_clean[col] = df_clean[col].str.strip()

# 3.1. Distribui√ß√£o da Vari√°vel Alvo
plt.figure(figsize=(10, 6))
sns.histplot(df_clean['annual_salary_brl'], kde=True, bins=30, color='teal')
plt.title('Distribui√ß√£o da Vari√°vel Alvo: Sal√°rio Anual (BRL)')
plt.xlabel('Sal√°rio Anual (BRL)')
plt.ylabel('Frequ√™ncia')
plt.show()

In [None]:
# 3.2. Histogramas das Vari√°veis Num√©ricas
numeric_cols_no_target = [col for col in numeric_cols if col != 'annual_salary_brl']

plt.figure(figsize=(18, 12))
for i, col in enumerate(numeric_cols_no_target):
    plt.subplot(3, 3, i + 1)
    sns.histplot(df_clean[col].dropna(), kde=True, bins=20, color='darkorange')
    plt.title(f'Distribui√ß√£o de {col}', fontsize=12)
    plt.xlabel(col)
    plt.ylabel('Frequ√™ncia')

plt.suptitle('Histogramas das Vari√°veis Num√©ricas', fontsize=16, y=1.02)
plt.tight_layout()
plt.show()

In [None]:
# 3.3. Gr√°ficos de Barras das Vari√°veis Categ√≥ricas
categorical_cols = [col for col in df_clean.select_dtypes(include='object').columns.tolist() if col != 'professional_id']

plt.figure(figsize=(18, 15))
for i, col in enumerate(categorical_cols):
    plt.subplot(3, 3, i + 1)
    df_clean[col].value_counts().plot(kind='bar', color=sns.color_palette("pastel")[i % 9])
    plt.title(f'Contagem de {col}', fontsize=12)
    plt.xlabel(col)
    plt.ylabel('Contagem')
    plt.xticks(rotation=45, ha='right')

plt.suptitle('Gr√°ficos de Barras das Vari√°veis Categ√≥ricas', fontsize=16, y=1.02)
plt.tight_layout()
plt.show()

### üìù Conclus√µes - An√°lise Univariada

#### Vari√°vel Alvo
* **`annual_salary_brl`**: A distribui√ß√£o √© **assim√©trica positiva (skewed right)**. Isso indica que a maioria dos profissionais se encontra nas faixas salariais mais baixas, o que √© t√≠pico de dados de renda. Essa assimetria pode requerer uma **transforma√ß√£o logar√≠tmica** antes da modelagem.

#### Vari√°veis Preditoras
* **`years_experience`**: Distribui√ß√£o relativamente uniforme, com a frequ√™ncia decaindo levemente para maior experi√™ncia.
* **`area`**: **Desenvolvimento** e **Dados** s√£o as √°reas mais representadas, indicando um **desbalanceamento de classes** que deve ser considerado.
* **`seniority`**: N√≠veis **Pleno** e **S√™nior** s√£o os mais comuns, correspondendo √† maior parcela da amostra.
* **`work_mode`**: O modo **Remoto** √© o mais frequente, refletindo a tend√™ncia atual do mercado de TI.

---

## 4. An√°lise Bivariada ü§ù

Investiga√ß√£o da rela√ß√£o entre pares de vari√°veis para encontrar padr√µes e correla√ß√µes.

In [None]:
# 4.1. Matriz de Correla√ß√£o (Heatmap)
correlation_matrix = df_clean[numeric_cols].corr()

plt.figure(figsize=(12, 10))
sns.heatmap(
    correlation_matrix,
    annot=True,
    fmt=".2f",
    cmap='coolwarm',
    cbar=True,
    linewidths=.5,
    linecolor='black'
)
plt.title('Matriz de Correla√ß√£o de Pearson entre Vari√°veis Num√©ricas')
plt.show()

In [None]:
# 4.2. Scatter Plots com Vari√°veis de Maior Correla√ß√£o com o Sal√°rio

plt.figure(figsize=(15, 6))

# Scatter Plot 1: Sal√°rio vs. Anos de Experi√™ncia (Correla√ß√£o: 0.88)
plt.subplot(1, 2, 1)
sns.scatterplot(x='years_experience', y='annual_salary_brl', data=df_clean, alpha=0.6, color='darkgreen')
plt.title('Sal√°rio vs. Anos de Experi√™ncia (Correla√ß√£o: 0.88)')
plt.xlabel('Anos de Experi√™ncia')
plt.ylabel('Sal√°rio Anual (BRL)')

# Scatter Plot 2: Sal√°rio vs. Projetos Conclu√≠dos (Correla√ß√£o: 0.58)
plt.subplot(1, 2, 2)
sns.scatterplot(x='projects_completed', y='annual_salary_brl', data=df_clean, alpha=0.6, color='darkred')
plt.title('Sal√°rio vs. Projetos Conclu√≠dos (Correla√ß√£o: 0.58)')
plt.xlabel('Projetos Conclu√≠dos')
plt.ylabel('Sal√°rio Anual (BRL)')

plt.tight_layout()
plt.show()

In [None]:
# 4.3. Boxplots Comparativos com Vari√°veis Categ√≥ricas Chave

plt.figure(figsize=(18, 6))

# Boxplot 1: Sal√°rio vs. Senioridade
plt.subplot(1, 2, 1)
# Ordenando para uma visualiza√ß√£o l√≥gica
order_seniority = ['Est√°gio', 'J√∫nior', 'Pleno', 'S√™nior', 'Especialista', 'Diretor']
sns.boxplot(
    x='seniority',
    y='annual_salary_brl',
    data=df_clean, 
    order=order_seniority,
    palette='Set2'
)
plt.title('Sal√°rio por N√≠vel de Senioridade')
plt.xlabel('Senioridade')
plt.ylabel('Sal√°rio Anual (BRL)')

# Boxplot 2: Sal√°rio vs. N√≠vel de Ingl√™s
plt.subplot(1, 2, 2)
# Ordenando para uma visualiza√ß√£o l√≥gica
order_english = ['B√°sico', 'Intermedi√°rio', 'Avan√ßado', 'Fluente']
sns.boxplot(
    x='english_level',
    y='annual_salary_brl',
    data=df_clean, 
    order=order_english,
    palette='Set1'
)
plt.title('Sal√°rio por N√≠vel de Ingl√™s')
plt.xlabel('N√≠vel de Ingl√™s')
plt.ylabel('Sal√°rio Anual (BRL)')

plt.tight_layout()
plt.show()

### üìù Conclus√µes - An√°lise Bivariada

#### Rela√ß√µes Num√©ricas
* **Vari√°vel mais correlacionada:** **`years_experience`** ($0.88$). Esta forte correla√ß√£o positiva indica que o tempo de experi√™ncia √© o principal fator num√©rico a prever o sal√°rio.
* **Correla√ß√µes Moderadas:** **`projects_completed`** ($0.58$) e **`certifications`** ($0.45$), sugerindo que a experi√™ncia medida em projetos e certifica√ß√µes tamb√©m impulsiona o sal√°rio.

#### Rela√ß√µes Categ√≥ricas
* **Impacto de `seniority`:** **Muito Forte.** A mediana e a dispers√£o salarial aumentam consistentemente em cada n√≠vel de senioridade, confirmando a import√¢ncia dessa *feature*.
* **Impacto de `english_level`:** **Forte.** Observa-se uma clara tend√™ncia de aumento na mediana salarial √† medida que o n√≠vel de ingl√™s avan√ßa (B√°sico $\to$ Fluente), destacando a import√¢ncia da profici√™ncia em ingl√™s no mercado de trabalho de TI.

---

## ‚úÖ Resumo das Conclus√µes e Pr√≥ximos Passos

| Se√ß√£o | Conclus√£o Principal | Impacto no Projeto | 
| :--- | :--- | :--- |
| **Vis√£o Geral** | Vari√°vel alvo (**`annual_salary_brl`**) tem alta variabilidade. | Necessidade de um modelo robusto para capturar a dispers√£o. |
| **Qualidade dos Dados** | Valores faltantes em **`english_level`**, **`frameworks_known`** e **`programming_languages`**. Outliers presentes. | As colunas com dados faltantes precisar√£o de **imputa√ß√£o**. Os outliers ser√£o mantidos. |
| **An√°lise Univariada** | Sal√°rio √© **assim√©trico positivo**. Classes de **`area`** s√£o desbalanceadas (predom√≠nio de Desenvolvimento e Dados). | A assimetria do alvo pode exigir **transforma√ß√£o logar√≠tmica**. |
| **An√°lise Bivariada** | **`years_experience`** ($0.88$) e **`seniority`** s√£o as *features* mais importantes para prever o sal√°rio. | Priorizar essas *features* na engenharia e sele√ß√£o de modelos. |

### Pr√≥ximo Passo

A pr√≥xima etapa ser√° o **Pr√©-processamento dos Dados** (`notebooks/02_preprocessing.ipynb`), onde aplicaremos as transforma√ß√µes necess√°rias para preparar os dados para a modelagem.