In [2]:
# Importação das bibliotecas necessárias
import pandas as pd

# Definição das funções diretamente no notebook, caso elas não estejam no arquivo 'demographic_data_analyzer.py'.
# Você pode mover essas funções para o arquivo 'demographic_data_analyzer.py' conforme necessário.

def race_count(df):
    """Calcula o número de pessoas de cada raça representada no dataset."""
    return df['race'].value_counts()

def average_age_men(df):
    """Calcula a média de idade dos homens no dataset."""
    return df[df['sex'] == 'Male']['age'].mean()

def percentage_bachelors(df):
    """Calcula o percentual de pessoas que possuem Bacharelado."""
    return (df['education'] == 'Bachelors').mean() * 100

def higher_education_rich(df):
    """Calcula o percentual de pessoas com educação avançada que ganham mais de 50K."""
    advanced_education = df['education'].isin(['Bachelors', 'Masters', 'Doctorate'])
    return (df[advanced_education]['salary'] == '>50K').mean() * 100

def lower_education_rich(df):
    """Calcula o percentual de pessoas sem educação avançada que ganham mais de 50K."""
    lower_education = ~df['education'].isin(['Bachelors', 'Masters', 'Doctorate'])
    return (df[lower_education]['salary'] == '>50K').mean() * 100

def min_work_hours(df):
    """Retorna o número mínimo de horas trabalhadas por semana."""
    return df['hours-per-week'].min()

def rich_percentage(df):
    """Calcula o percentual de pessoas que trabalham o mínimo de horas e ganham mais de 50K."""
    min_hours = df['hours-per-week'].min()
    return (df[(df['hours-per-week'] == min_hours) & (df['salary'] == '>50K')].shape[0] / 
            df[df['hours-per-week'] == min_hours].shape[0]) * 100

def highest_earning_country(df):
    """Retorna o país com o maior percentual de pessoas que ganham mais de 50K."""
    country_earning_percentage = (df[df['salary'] == '>50K']['native-country'].value_counts() /
                                  df['native-country'].value_counts()) * 100
    highest_country = country_earning_percentage.idxmax()
    return highest_country, country_earning_percentage[highest_country]

def top_IN_occupation(df):
    """Retorna a ocupação mais comum entre aqueles que ganham mais de 50K na Índia."""
    return df[(df['native-country'] == 'India') & (df['salary'] == '>50K')]['occupation'].value_counts().idxmax()

# Carregando o dataset e exibindo as primeiras linhas para verificação
data = pd.read_csv('adult.data.csv', header=None, 
                   names=['age', 'workclass', 'fnlwgt', 'education', 'education-num', 
                          'marital-status', 'occupation', 'relationship', 'race', 
                          'sex', 'capital-gain', 'capital-loss', 'hours-per-week', 
                          'native-country', 'salary'])

# Removendo a primeira linha duplicada que contém os nomes das colunas
data = data[1:]

# Convertendo as colunas para tipos de dados corretos, se necessário
data['age'] = pd.to_numeric(data['age'])
data['education-num'] = pd.to_numeric(data['education-num'])
data['capital-gain'] = pd.to_numeric(data['capital-gain'])
data['capital-loss'] = pd.to_numeric(data['capital-loss'])
data['hours-per-week'] = pd.to_numeric(data['hours-per-week'])

# Verificando o carregamento correto dos dados
print(data.head())

# 1. Número de pessoas de cada raça no dataset
race_count_result = race_count(data)
print("Número de pessoas de cada raça:")
print(race_count_result)

# 2. Média de idade dos homens
average_age_men_result = average_age_men(data)
print(f"\nIdade média dos homens: {average_age_men_result:.1f}")

# 3. Percentual de pessoas com o grau de Bacharelado
percentage_bachelors_result = percentage_bachelors(data)
print(f"\nPercentual de pessoas com Bacharelado: {percentage_bachelors_result:.1f}%")

# 4. Percentual de pessoas com educação avançada que ganham mais de 50K
higher_education_rich_result = higher_education_rich(data)
print(f"\nPercentual de pessoas com educação avançada que ganham mais de 50K: {higher_education_rich_result:.1f}%")

# 5. Percentual de pessoas sem educação avançada que ganham mais de 50K
lower_education_rich_result = lower_education_rich(data)
print(f"\nPercentual de pessoas sem educação avançada que ganham mais de 50K: {lower_education_rich_result:.1f}%")

# 6. Número mínimo de horas trabalhadas por semana
min_work_hours_result = min_work_hours(data)
print(f"\nNúmero mínimo de horas trabalhadas por semana: {min_work_hours_result}")

# 7. Percentual das pessoas que trabalham o mínimo de horas e ganham mais de 50K
rich_percentage_result = rich_percentage(data)
print(f"\nPercentual de pessoas que trabalham o mínimo de horas e ganham mais de 50K: {rich_percentage_result:.1f}%")

# 8. País com maior percentual de pessoas que ganham mais de 50K
highest_earning_country_result, highest_earning_country_percentage_result = highest_earning_country(data)
print(f"\nPaís com maior percentual de pessoas que ganham mais de 50K: {highest_earning_country_result} ({highest_earning_country_percentage_result:.1f}%)")

# 9. Ocupação mais comum entre aqueles que ganham mais de 50K na Índia
top_IN_occupation_result = top_IN_occupation(data)
print(f"\nOcupação mais comum na Índia entre aqueles que ganham mais de 50K: {top_IN_occupation_result}")


   age         workclass  fnlwgt  education  education-num  \
1   39         State-gov   77516  Bachelors             13   
2   50  Self-emp-not-inc   83311  Bachelors             13   
3   38           Private  215646    HS-grad              9   
4   53           Private  234721       11th              7   
5   28           Private  338409  Bachelors             13   

       marital-status         occupation   relationship   race     sex  \
1       Never-married       Adm-clerical  Not-in-family  White    Male   
2  Married-civ-spouse    Exec-managerial        Husband  White    Male   
3            Divorced  Handlers-cleaners  Not-in-family  White    Male   
4  Married-civ-spouse  Handlers-cleaners        Husband  Black    Male   
5  Married-civ-spouse     Prof-specialty           Wife  Black  Female   

   capital-gain  capital-loss  hours-per-week native-country salary  
1          2174             0              40  United-States  <=50K  
2             0             0             