# üß† Etapa 1: An√°lise Explorat√≥ria de Dados (EDA)

## üéØ Objetivos

Nesta etapa, o objetivo √© realizar uma investiga√ß√£o completa no dataset para entender suas caracter√≠sticas, identificar problemas de qualidade (valores faltantes, outliers) e descobrir os primeiros insights que guiar√£o as pr√≥ximas etapas de pr√©-processamento e modelagem. O foco √© **analisar**, e n√£o modificar os dados.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configura√ß√µes de visualiza√ß√£o
sns.set_style('whitegrid')
pd.set_option('display.max_columns', None)
pd.set_option('display.float_format', lambda x: '%.2f' % x)

# Carregar o arquivo CSV
try:
    df = pd.read_csv('salary_prediction.csv')
    print("Dataset carregado com sucesso!")
except FileNotFoundError:
    print("Erro: O arquivo 'salary_prediction.csv' n√£o foi encontrado. Verifique o caminho.")
    df = None

---

## 1. Carregamento e Vis√£o Geral dos Dados üìä

Inspe√ß√£o inicial para entender a estrutura do dataset.

In [None]:
if df is not None:
    print("\n### Primeiras 5 linhas (.head()) ###")
    print(df.head().to_markdown(index=False, numalign="left", stralign="left"))

    print("\n### √öltimas 5 linhas (.tail()) ###")
    print(df.tail().to_markdown(index=False, numalign="left", stralign="left"))

    print("\n### Estrutura e Tipos de Dados (.info()) ###")
    df.info()

    print(f"\nN√∫mero de Linhas e Colunas (.shape): {df.shape}")

    print("\n### Estat√≠sticas Descritivas (.describe()) ###")
    print(df.describe().T.to_markdown(numalign="left", stralign="left"))

### üìù Conclus√µes - Vis√£o Geral

* **Descri√ß√£o do Dataset:** O dataset cont√©m dados de profissionais de tecnologia, abrangendo anos de experi√™ncia, n√≠vel de educa√ß√£o, √°rea, senioridade, etc., e o **sal√°rio anual em BRL** como vari√°vel alvo.
* **Dimens√£o:** O conjunto de dados possui **2334 linhas** e **18 colunas**.
* **Vari√°vel Alvo:** **`annual_salary_brl`** (Sal√°rio Anual em BRL).
* **Observa√ß√£o Estat√≠stica:** O sal√°rio m√©dio √© de $\text{R}\$142.200$, com um **alto desvio padr√£o** (cerca de $\text{R}\$60.400$), indicando grande dispers√£o de sal√°rios. J√° se nota a necessidade de tratar o *whitespace* nos dados (ex: '  P√≥s-gradua√ß√£o ').

---

## 2. An√°lise de Qualidade dos Dados üîé

Investiga√ß√£o de valores faltantes e outliers.

In [None]:
# 2.1. C√°lculo de Valores Faltantes
missing_values = df.isnull().sum()
missing_percentage = (missing_values / len(df)) * 100

missing_data = pd.DataFrame({
    'Total Faltante': missing_values,
    'Porcentagem (%)': missing_percentage
}).sort_values(by='Porcentagem (%)', ascending=False)

# Filtrar apenas colunas com valores faltantes
missing_data = missing_data[missing_data['Total Faltante'] > 0]

print("### Valores Faltantes (Total e Porcentagem) ###")
print(missing_data.to_markdown(numalign="left", stralign="left"))

# 2.2. Visualiza√ß√£o de Valores Faltantes
if not missing_data.empty:
    plt.figure(figsize=(10, 6))
    sns.barplot(
        x=missing_data.index,
        y='Porcentagem (%)',
        data=missing_data,
        palette='viridis'
    )
    plt.title('Porcentagem de Valores Faltantes por Coluna')
    plt.ylabel('Porcentagem (%)')
    plt.xlabel('Colunas')
    plt.xticks(rotation=45, ha='right')
    plt.tight_layout()
    plt.show()

In [None]:
# 2.3. Boxplots para Identifica√ß√£o de Outliers
numeric_cols = df.select_dtypes(include=np.number).columns.tolist()

plt.figure(figsize=(18, 12))
for i, col in enumerate(numeric_cols):
    plt.subplot(3, 3, i + 1)
    sns.boxplot(y=df[col], color='skyblue')
    plt.title(f'Boxplot de {col}', fontsize=12)
    plt.ylabel('')
    plt.xlabel('')

plt.suptitle('Boxplots para Identifica√ß√£o de Outliers em Vari√°veis Num√©ricas', fontsize=16, y=1.02)
plt.tight_layout()
plt.show()

### üìù Conclus√µes - Qualidade dos Dados

#### Valores Faltantes
* Tr√™s colunas cont√™m valores nulos:
    * **`english_level`**: 11.78% faltante.
    * **`frameworks_known`** e **`programming_languages`**: 5.74% faltante cada. A contagem id√™ntica sugere que os mesmos profissionais falharam em preencher ambos os campos.
* **Hip√≥tese Inicial:** Para `english_level`, a aus√™ncia pode indicar um n√≠vel B√°sico ou que n√£o foi preenchido. Para as linguagens/frameworks, pode ser um erro de coleta ou que o profissional n√£o atua com as tecnologias mais comuns (o que √© improv√°vel e sugere imputa√ß√£o).

#### Outliers
* **`annual_salary_brl`**: Apresenta **outliers na cauda superior** (sal√°rios altos), comuns em distribui√ß√µes de renda. Devem ser mantidos, mas a modelagem deve ser robusta.
* **`years_experience`**: Alguns outliers no limite superior (experi√™ncia muito longa).
* **`github_contributions`** e **`projects_completed`**: Muit√≠ssimos **outliers na cauda superior**. Esses valores at√≠picos provavelmente representam profissionais de alto desempenho e devem ser mantidos como informa√ß√£o valiosa.

---

## 3. An√°lise Univariada üìä

An√°lise da distribui√ß√£o individual de cada vari√°vel.

In [None]:
# Pr√©-processamento simples para melhorar a visualiza√ß√£o categ√≥rica
df_clean = df.copy()
for col in df_clean.select_dtypes(include='object').columns:
    # Remove espa√ßos em branco antes e depois dos valores categ√≥ricos
    df_clean[col] = df_clean[col].str.strip()

# 3.1. Distribui√ß√£o da Vari√°vel Alvo
plt.figure(figsize=(10, 6))
sns.histplot(df_clean['annual_salary_brl'], kde=True, bins=30, color='teal')
plt.title('Distribui√ß√£o da Vari√°vel Alvo: Sal√°rio Anual (BRL)')
plt.xlabel('Sal√°rio Anual (BRL)')
plt.ylabel('Frequ√™ncia')
plt.show()

In [None]:
# 3.2. Histogramas das Vari√°veis Num√©ricas
numeric_cols_no_target = [col for col in numeric_cols if col != 'annual_salary_brl']

plt.figure(figsize=(18, 12))
for i, col in enumerate(numeric_cols_no_target):
    plt.subplot(3, 3, i + 1)
    sns.histplot(df_clean[col].dropna(), kde=True, bins=20, color='darkorange')
    plt.title(f'Distribui√ß√£o de {col}', fontsize=12)
    plt.xlabel(col)
    plt.ylabel('Frequ√™ncia')

plt.suptitle('Histogramas das Vari√°veis Num√©ricas', fontsize=16, y=1.02)
plt.tight_layout()
plt.show()

In [None]:
# 3.3. Gr√°ficos de Barras das Vari√°veis Categ√≥ricas
categorical_cols = [col for col in df_clean.select_dtypes(include='object').columns.tolist() if col != 'professional_id']

plt.figure(figsize=(18, 15))
for i, col in enumerate(categorical_cols):
    plt.subplot(3, 3, i + 1)
    df_clean[col].value_counts().plot(kind='bar', color=sns.color_palette("pastel")[i % 9])
    plt.title(f'Contagem de {col}', fontsize=12)
    plt.xlabel(col)
    plt.ylabel('Contagem')
    plt.xticks(rotation=45, ha='right')

plt.suptitle('Gr√°ficos de Barras das Vari√°veis Categ√≥ricas', fontsize=16, y=1.02)
plt.tight_layout()
plt.show()

### üìù Conclus√µes - An√°lise Univariada

#### Vari√°vel Alvo
* **`annual_salary_brl`**: Distribui√ß√£o **assim√©trica positiva (skewed right)**. A maior parte dos sal√°rios concentra-se nas faixas mais baixas, indicando a necessidade de transforma√ß√£o logar√≠tmica para modelos de regress√£o.

#### Vari√°veis Preditoras
* **`github_contributions`**: Fortemente assim√©trica, com a maioria dos profissionais tendo baixas contribui√ß√µes.
* **`hours_per_week`**: Concentra√ß√£o forte em $40$ e $45$ horas, o padr√£o de trabalho.
* **`area`**: **Desenvolvimento** e **Dados** s√£o as √°reas mais representadas, resultando em **desbalanceamento de classes** para as demais √°reas (ex: Suporte, QA, Seguran√ßa).
* **`seniority`**: N√≠veis **Pleno** e **S√™nior** s√£o os mais comuns.
* **`work_mode`**: O modo **Remoto** √© o dominante, refletindo a realidade do mercado de tecnologia no Brasil.

---

## 4. An√°lise Bivariada ü§ù

Investiga√ß√£o da rela√ß√£o entre pares de vari√°veis, especialmente com o sal√°rio alvo.

In [None]:
# 4.1. Matriz de Correla√ß√£o (Heatmap)
correlation_matrix = df_clean[numeric_cols].corr()

plt.figure(figsize=(12, 10))
sns.heatmap(
    correlation_matrix,
    annot=True,
    fmt=".2f",
    cmap='coolwarm',
    cbar=True,
    linewidths=.5,
    linecolor='black'
)
plt.title('Matriz de Correla√ß√£o de Pearson entre Vari√°veis Num√©ricas')
plt.show()

In [None]:
# 4.2. Scatter Plots com Vari√°veis de Maior Correla√ß√£o com o Sal√°rio

plt.figure(figsize=(15, 6))

# Scatter Plot 1: Sal√°rio vs. Anos de Experi√™ncia (Correla√ß√£o: 0.88)
plt.subplot(1, 2, 1)
sns.scatterplot(x='years_experience', y='annual_salary_brl', data=df_clean, alpha=0.6, color='darkgreen')
plt.title('Sal√°rio vs. Anos de Experi√™ncia')
plt.xlabel('Anos de Experi√™ncia')
plt.ylabel('Sal√°rio Anual (BRL)')

# Scatter Plot 2: Sal√°rio vs. Projetos Conclu√≠dos (Correla√ß√£o: 0.58)
plt.subplot(1, 2, 2)
sns.scatterplot(x='projects_completed', y='annual_salary_brl', data=df_clean, alpha=0.6, color='darkred')
plt.title('Sal√°rio vs. Projetos Conclu√≠dos')
plt.xlabel('Projetos Conclu√≠dos')
plt.ylabel('Sal√°rio Anual (BRL)')

plt.tight_layout()
plt.show()

In [None]:
# 4.3. Boxplots Comparativos com Vari√°veis Categ√≥ricas Chave

plt.figure(figsize=(18, 6))

# Boxplot 1: Sal√°rio vs. Senioridade
plt.subplot(1, 2, 1)
order_seniority = ['Est√°gio', 'J√∫nior', 'Pleno', 'S√™nior', 'Especialista', 'Diretor']
sns.boxplot(
    x='seniority',
    y='annual_salary_brl',
    data=df_clean, 
    order=order_seniority,
    palette='Set2'
)
plt.title('Sal√°rio por N√≠vel de Senioridade')
plt.xlabel('Senioridade')
plt.ylabel('Sal√°rio Anual (BRL)')

# Boxplot 2: Sal√°rio vs. N√≠vel de Ingl√™s
plt.subplot(1, 2, 2)
order_english = ['B√°sico', 'Intermedi√°rio', 'Avan√ßado', 'Fluente']
sns.boxplot(
    x='english_level',
    y='annual_salary_brl',
    data=df_clean, 
    order=order_english,
    palette='Set1'
)
plt.title('Sal√°rio por N√≠vel de Ingl√™s')
plt.xlabel('N√≠vel de Ingl√™s')
plt.ylabel('Sal√°rio Anual (BRL)')

plt.tight_layout()
plt.show()

### üìù Conclus√µes - An√°lise Bivariada

#### Rela√ß√µes Num√©ricas
* **Vari√°vel mais correlacionada (positiva):** **`years_experience`** ($0.88$). A experi√™ncia √© o fator num√©rico dominante na determina√ß√£o do sal√°rio.
* **Correla√ß√µes Moderadas:** **`projects_completed`** ($0.58$) e **`certifications`** ($0.45$).
* **Colinearidade:** Existe uma correla√ß√£o moderada entre `years_experience` e `projects_completed` ($0.49$), o que √© natural.

#### Rela√ß√µes Categ√≥ricas
* **Impacto de `seniority`:** **Muito Forte.** A mediana do sal√°rio aumenta de forma clara e progressiva √† medida que o n√≠vel de senioridade avan√ßa. Esta ser√° uma das features categ√≥ricas mais cr√≠ticas.
* **Impacto de `english_level`:** **Forte.** H√° uma tend√™ncia de medianas salariais mais altas para n√≠veis de ingl√™s mais avan√ßados (Intermedi√°rio $\to$ Fluente), indicando que a profici√™ncia √© um diferencial de remunera√ß√£o.

---

## ‚úÖ Checklist de Sucesso e Pr√≥ximos Passos

1.  **Carregamento e Vis√£o Geral:** OK
2.  **An√°lise de Qualidade:** OK (Faltantes em 3 colunas, Outliers detectados).
3.  **An√°lise Univariada:** OK (Assimetria do alvo e desbalanceamento de classes observados).
4.  **An√°lise Bivariada:** OK (`years_experience` e `seniority` identificadas como preditoras chave).

### Pr√≥ximo Passo

A pr√≥xima etapa ser√° o **Pr√©-processamento dos Dados**, onde trataremos:

* Limpeza de texto (remover *whitespace* em vari√°veis categ√≥ricas).
* Imputa√ß√£o de valores faltantes.
* Transforma√ß√£o logar√≠tmica na vari√°vel alvo para corrigir a assimetria.
* Codifica√ß√£o de vari√°veis categ√≥ricas (One-Hot Encoding, Label Encoding, etc.).