In [None]:
# An√°lise Explorat√≥ria de Dados - Employee Attrition
# IBM HR Analytics Dataset

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
import warnings
warnings.filterwarnings('ignore')

# Configura√ß√µes de visualiza√ß√£o
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 8)

# ========================================
# 1. CARREGAMENTO E PRIMEIRA INSPE√á√ÉO
# ========================================

# Carregar os dados
df = pd.read_csv('IBM_Fn-UseC_-HR-Employee-Attrition.csv')

print("="*50)
print("AN√ÅLISE EXPLORAT√ìRIA - EMPLOYEE ATTRITION")
print("="*50)

print(f"\nüìä DIMENS√ïES DO DATASET:")
print(f"Linhas: {df.shape[0]}")
print(f"Colunas: {df.shape[1]}")

print(f"\nüìã PRIMEIRAS LINHAS:")
print(df.head())

print(f"\nüîç INFORMA√á√ïES GERAIS:")
print(df.info())

print(f"\nüìà ESTAT√çSTICAS DESCRITIVAS:")
print(df.describe())

# ========================================
# 2. QUALIDADE DOS DADOS
# ========================================

print("\n" + "="*50)
print("AN√ÅLISE DE QUALIDADE DOS DADOS")
print("="*50)

# Valores ausentes
print(f"\nüö´ VALORES AUSENTES:")
missing_data = df.isnull().sum()
if missing_data.sum() == 0:
    print("‚úÖ Nenhum valor ausente encontrado!")
else:
    print(missing_data[missing_data > 0])

# Duplicatas
print(f"\nüîÑ DUPLICATAS:")
duplicates = df.duplicated().sum()
print(f"Total de duplicatas: {duplicates}")

# Valores √∫nicos por coluna
print(f"\nüéØ CARDINALIDADE DAS VARI√ÅVEIS:")
unique_counts = df.nunique().sort_values()
print(unique_counts)

# Identificar colunas invari√°veis
print(f"\n‚ö†Ô∏è COLUNAS COM VALORES CONSTANTES:")
constant_cols = [col for col in df.columns if df[col].nunique() == 1]
if constant_cols:
    for col in constant_cols:
        print(f"- {col}: {df[col].iloc[0]}")
else:
    print("‚úÖ Nenhuma coluna constante encontrada!")

# ========================================
# 3. AN√ÅLISE DA VARI√ÅVEL TARGET (ATTRITION)
# ========================================

print("\n" + "="*50)
print("AN√ÅLISE DA VARI√ÅVEL TARGET")
print("="*50)

# Distribui√ß√£o da vari√°vel target
attrition_counts = df['Attrition'].value_counts()
attrition_pct = df['Attrition'].value_counts(normalize=True) * 100

print(f"\nüéØ DISTRIBUI√á√ÉO DE ATTRITION:")
for value, count, pct in zip(attrition_counts.index, attrition_counts.values, attrition_pct.values):
    print(f"{value}: {count} funcion√°rios ({pct:.1f}%)")

# Taxa de attrition
attrition_rate = (df['Attrition'] == 'Yes').mean() * 100
print(f"\nüìä TAXA DE ATTRITION: {attrition_rate:.1f}%")

# ========================================
# 4. AN√ÅLISE DEMOGR√ÅFICA
# ========================================

print("\n" + "="*50)
print("AN√ÅLISE DEMOGR√ÅFICA")
print("="*50)

# Idade
print(f"\nüë• AN√ÅLISE DE IDADE:")
print(f"Idade m√©dia: {df['Age'].mean():.1f} anos")
print(f"Idade mediana: {df['Age'].median():.1f} anos")
print(f"Faixa et√°ria: {df['Age'].min()} - {df['Age'].max()} anos")

# G√™nero
print(f"\n‚öß DISTRIBUI√á√ÉO POR G√äNERO:")
gender_dist = df['Gender'].value_counts()
for gender, count in gender_dist.items():
    pct = (count / len(df)) * 100
    print(f"{gender}: {count} ({pct:.1f}%)")

# Estado civil
print(f"\nüíë DISTRIBUI√á√ÉO POR ESTADO CIVIL:")
marital_dist = df['MaritalStatus'].value_counts()
for status, count in marital_dist.items():
    pct = (count / len(df)) * 100
    print(f"{status}: {count} ({pct:.1f}%)")

# ========================================
# 5. AN√ÅLISE ORGANIZACIONAL
# ========================================

print("\n" + "="*50)
print("AN√ÅLISE ORGANIZACIONAL")
print("="*50)

# Departamentos
print(f"\nüè¢ DISTRIBUI√á√ÉO POR DEPARTAMENTO:")
dept_dist = df['Department'].value_counts()
for dept, count in dept_dist.items():
    pct = (count / len(df)) * 100
    print(f"{dept}: {count} ({pct:.1f}%)")

# Cargos mais comuns
print(f"\nüëî TOP 10 CARGOS:")
job_roles = df['JobRole'].value_counts().head(10)
for role, count in job_roles.items():
    pct = (count / len(df)) * 100
    print(f"{role}: {count} ({pct:.1f}%)")

# N√≠vel hier√°rquico
print(f"\nüìà DISTRIBUI√á√ÉO POR N√çVEL HIER√ÅRQUICO:")
job_level_dist = df['JobLevel'].value_counts().sort_index()
for level, count in job_level_dist.items():
    pct = (count / len(df)) * 100
    print(f"N√≠vel {level}: {count} ({pct:.1f}%)")

# ========================================
# 6. AN√ÅLISE SALARIAL
# ========================================

print("\n" + "="*50)
print("AN√ÅLISE SALARIAL")
print("="*50)

print(f"\nüí∞ ESTAT√çSTICAS SALARIAIS (Monthly Income):")
print(f"Sal√°rio m√©dio: ${df['MonthlyIncome'].mean():,.2f}")
print(f"Sal√°rio mediano: ${df['MonthlyIncome'].median():,.2f}")
print(f"Desvio padr√£o: ${df['MonthlyIncome'].std():,.2f}")
print(f"Faixa salarial: ${df['MonthlyIncome'].min():,.2f} - ${df['MonthlyIncome'].max():,.2f}")

# Quartis salariais
print(f"\nüìä QUARTIS SALARIAIS:")
quartiles = df['MonthlyIncome'].quantile([0.25, 0.5, 0.75])
print(f"Q1 (25%): ${quartiles[0.25]:,.2f}")
print(f"Q2 (50%): ${quartiles[0.5]:,.2f}")
print(f"Q3 (75%): ${quartiles[0.75]:,.2f}")

# ========================================
# 7. AN√ÅLISE DE SATISFA√á√ÉO
# ========================================

print("\n" + "="*50)
print("AN√ÅLISE DE SATISFA√á√ÉO")
print("="*50)

satisfaction_cols = ['JobSatisfaction', 'EnvironmentSatisfaction', 
                    'RelationshipSatisfaction', 'WorkLifeBalance']

print(f"\nüòä M√âDIAS DE SATISFA√á√ÉO (Escala 1-4):")
for col in satisfaction_cols:
    mean_score = df[col].mean()
    print(f"{col.replace('Satisfaction', ' Satisfaction')}: {mean_score:.2f}")

# ========================================
# 8. FATORES DE RISCO PARA ATTRITION
# ========================================

print("\n" + "="*50)
print("AN√ÅLISE DE FATORES DE RISCO")
print("="*50)

# Attrition por overtime
print(f"\n‚è∞ ATTRITION POR OVERTIME:")
overtime_attrition = pd.crosstab(df['OverTime'], df['Attrition'], normalize='index') * 100
for overtime in ['No', 'Yes']:
    if overtime in overtime_attrition.index:
        yes_rate = overtime_attrition.loc[overtime, 'Yes']
        print(f"Overtime {overtime}: {yes_rate:.1f}% de attrition")

# Attrition por faixa et√°ria
print(f"\nüë• ATTRITION POR FAIXA ET√ÅRIA:")
df['AgeGroup'] = pd.cut(df['Age'], bins=[0, 30, 40, 50, 100], 
                        labels=['<30', '30-40', '40-50', '50+'])
age_attrition = pd.crosstab(df['AgeGroup'], df['Attrition'], normalize='index') * 100
for age_group in age_attrition.index:
    yes_rate = age_attrition.loc[age_group, 'Yes']
    print(f"Idade {age_group}: {yes_rate:.1f}% de attrition")

# Attrition por departamento
print(f"\nüè¢ ATTRITION POR DEPARTAMENTO:")
dept_attrition = pd.crosstab(df['Department'], df['Attrition'], normalize='index') * 100
for dept in dept_attrition.index:
    yes_rate = dept_attrition.loc[dept, 'Yes']
    print(f"{dept}: {yes_rate:.1f}% de attrition")

# Attrition por n√≠vel de satisfa√ß√£o no trabalho
print(f"\nüòä ATTRITION POR SATISFA√á√ÉO NO TRABALHO:")
job_sat_attrition = pd.crosstab(df['JobSatisfaction'], df['Attrition'], normalize='index') * 100
for satisfaction in sorted(job_sat_attrition.index):
    yes_rate = job_sat_attrition.loc[satisfaction, 'Yes']
    print(f"Satisfa√ß√£o {satisfaction}: {yes_rate:.1f}% de attrition")

# ========================================
# 9. CORRELA√á√ïES IMPORTANTES
# ========================================

print("\n" + "="*50)
print("AN√ÅLISE DE CORRELA√á√ïES")
print("="*50)

# Converter Attrition para num√©rico para correla√ß√£o
df_numeric = df.copy()
df_numeric['Attrition_Binary'] = (df_numeric['Attrition'] == 'Yes').astype(int)

# Selecionar apenas colunas num√©ricas
numeric_cols = df_numeric.select_dtypes(include=[np.number]).columns
correlations_with_attrition = df_numeric[numeric_cols].corr()['Attrition_Binary'].sort_values(ascending=False)

print(f"\nüîó TOP 10 CORRELA√á√ïES COM ATTRITION:")
top_correlations = correlations_with_attrition.drop('Attrition_Binary').head(10)
for var, corr in top_correlations.items():
    print(f"{var}: {corr:.3f}")

print(f"\nüîó TOP 10 CORRELA√á√ïES NEGATIVAS COM ATTRITION:")
bottom_correlations = correlations_with_attrition.drop('Attrition_Binary').tail(10)
for var, corr in bottom_correlations.items():
    print(f"{var}: {corr:.3f}")

# ========================================
# 10. INSIGHTS PRELIMINARES
# ========================================

print("\n" + "="*50)
print("INSIGHTS PRELIMINARES")
print("="*50)

print(f"""
üîç PRINCIPAIS DESCOBERTAS:

1. PANORAMA GERAL:
   - Taxa de attrition: {attrition_rate:.1f}%
   - Dataset com {df.shape[0]} funcion√°rios e {df.shape[1]} vari√°veis
   - Dados limpos sem valores ausentes

2. FATORES DE RISCO IDENTIFICADOS:
   - Overtime parece ter impacto significativo
   - Funcion√°rios mais jovens podem ter maior tend√™ncia √† sa√≠da
   - Diferen√ßas entre departamentos s√£o evidentes

3. PR√ìXIMOS PASSOS SUGERIDOS:
   - An√°lise mais profunda das intera√ß√µes entre vari√°veis
   - Cria√ß√£o de visualiza√ß√µes para storytelling
   - Desenvolvimento de modelo preditivo
   - Segmenta√ß√£o de funcion√°rios por risco

4. VARI√ÅVEIS MAIS PROMISSORAS:
   - OverTime, Age, JobSatisfaction
   - MonthlyIncome, WorkLifeBalance
   - YearsAtCompany, DistanceFromHome
""")

print("\n" + "="*50)
print("FIM DA AN√ÅLISE EXPLORAT√ìRIA INICIAL")
print("="*50)