# Schema - Criacao da Base de Dados e Tabela
**Projeto 1: IBM HR Analytics - AiDAPT - Cegid Academy**

Criacao da tabela Colaboradores com 35 colunas para os dados IBM HR Analytics.

Base de dados: Projeto1_IBM_HR

In [1]:
import os
from dotenv import load_dotenv, find_dotenv
from urllib.parse import quote_plus
from sqlalchemy import create_engine
load_dotenv(find_dotenv())

%load_ext sql

host = os.getenv('MSSQL_HOST', 'localhost')
port = os.getenv('MSSQL_PORT', '1433')
user = os.getenv('MSSQL_USER', 'sa')
password = quote_plus(os.getenv('MSSQL_PASSWORD', 'your_password_here'))
engine = create_engine(f"mssql+pymssql://{user}:{password}@{host}:{port}/Projeto1_IBM_HR")
%sql engine --alias Projeto1_IBM_HR

---
**AVISO**: Este notebook contem operacoes de setup (CREATE/DROP/BULK INSERT).
Executar apenas se necessario recriar a estrutura da base de dados.

> Criar base de dados (executar apenas uma vez)
> NOTA: Executar via sqlcmd ou SSMS, nao funciona em transaccoes
> CREATE DATABASE Projeto1_IBM_HR;
> GO

### Eliminar tabela se existir (para recriacao)

In [2]:
%%sql
IF OBJECT_ID('dbo.Colaboradores', 'U') IS NOT NULL
    DROP TABLE dbo.Colaboradores;

> Criar tabela Colaboradores
> NOTA: Ordem das colunas igual ao CSV para facilitar BULK INSERT

In [3]:
%%sql
CREATE TABLE Colaboradores (
    -- Dados Demograficos
    Age INT NOT NULL,
    Attrition VARCHAR(3),               -- Yes/No (saiu da empresa)
    BusinessTravel VARCHAR(20),         -- Non-Travel, Travel_Rarely, Travel_Frequently
    DailyRate INT,                      -- Taxa diaria
    Department VARCHAR(50),
    DistanceFromHome INT,               -- 1-29 (distancia casa-trabalho)
    Education INT,                      -- 1=Below College, 2=College, 3=Bachelor, 4=Master, 5=Doctor
    EducationField VARCHAR(50),
    EmployeeCount INT,                  -- Sempre 1 (pode ser ignorado)
    EmployeeNumber INT PRIMARY KEY,
    EnvironmentSatisfaction INT,        -- 1-4: Low, Medium, High, Very High
    Gender VARCHAR(10) NOT NULL,
    HourlyRate INT,                     -- Taxa horaria
    JobInvolvement INT,                 -- 1-4: Low, Medium, High, Very High
    JobLevel INT,                       -- 1-5 (nivel hierarquico)
    JobRole VARCHAR(50),
    JobSatisfaction INT,                -- 1-4: Low, Medium, High, Very High
    MaritalStatus VARCHAR(20),
    MonthlyIncome INT,                  -- Salario mensal
    MonthlyRate INT,                    -- Taxa mensal (salario + beneficios)
    NumCompaniesWorked INT,             -- Numero de empresas onde trabalhou
    Over18 VARCHAR(1),                  -- Sempre 'Y' (pode ser ignorado)
    OverTime VARCHAR(3),                -- Yes/No
    PercentSalaryHike INT,              -- % de aumento salarial
    PerformanceRating INT,              -- 3=Excellent, 4=Outstanding (so estes no dataset)
    RelationshipSatisfaction INT,       -- 1-4: Low, Medium, High, Very High
    StandardHours INT,                  -- Sempre 80 (pode ser ignorado)
    StockOptionLevel INT,               -- 0=Nenhum, 1=Basico, 2=Medio, 3=Alto
    TotalWorkingYears INT,              -- Total de anos de experiencia
    TrainingTimesLastYear INT,          -- Vezes que teve formacao no ultimo ano
    WorkLifeBalance INT,                -- 1=Bad, 2=Good, 3=Better, 4=Best
    YearsAtCompany INT,                 -- Anos na empresa atual
    YearsInCurrentRole INT,             -- Anos no cargo atual
    YearsSinceLastPromotion INT,        -- Anos desde ultima promocao
    YearsWithCurrManager INT            -- Anos com o manager atual
);

### Criar indices para melhorar performance das queries

In [4]:
%%sql
CREATE INDEX IX_Colaboradores_Department ON Colaboradores(Department);
CREATE INDEX IX_Colaboradores_Gender ON Colaboradores(Gender);
CREATE INDEX IX_Colaboradores_Attrition ON Colaboradores(Attrition);
CREATE INDEX IX_Colaboradores_Age ON Colaboradores(Age);
CREATE INDEX IX_Colaboradores_JobRole ON Colaboradores(JobRole);

## Notas

- **35 colunas** correspondendo ao CSV original
- **EmployeeNumber** como PRIMARY KEY
- **5 indices** criados para colunas mais usadas nas queries de analise
- Ordem das colunas igual ao CSV para facilitar o BULK INSERT