<a href="https://colab.research.google.com/github/alexcpass/python_ad/blob/main/demographic_data_analyzer.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
import seaborn as sns

In [None]:
df = pd.read_csv('/content/adult.data.csv', sep=',')

In [None]:
df.head(2)

In [None]:
df.info()

In [None]:
df.describe()

In [None]:
sns.histplot(data=df, x='age', bins=30,palette='rainbow')
plt.show()

In [None]:
sns.boxplot(data=df, x='age',y='race',palette='rainbow')
plt.show()

Ranking - Mean Age

In [None]:
Ranking_mean = df[['age', 'sex',]].groupby('sex').agg('mean').sort_values(by='age', ascending=True).iloc[0:10]

In [None]:
Ranking_mean.round(2)

Race (People)

In [None]:
# Criar matriz de contagem
heatmap_data = pd.crosstab(df['race'], df['sex'])

# Criar mapa de calor
plt.figure(figsize=(10, 8))
sns.heatmap(heatmap_data, cmap='Blues', annot=True, fmt='d', cbar=True)
plt.xlabel('Sex')
plt.ylabel('Race')
plt.title('Heatmap of Race and Sex')
plt.show()

Age - Male (Mean)

In [None]:
age_man = df[['sex', 'age']].groupby('sex').agg('mean').query('sex == "Male"')

In [None]:
age_man.round(2)

Bachelors (%)

In [None]:
bachelors = df[['education', 'sex']].groupby('education').agg('count').query('education == "Bachelors"')

In [None]:
bachelors.round(2)

In [None]:
total_educ = df['education'].count()
total_educ.round()

In [None]:
bachelors_per = (bachelors/total_educ)*100
bachelors_per.round(2)

In [None]:
df.head(1)

Percentage of people (50k)

In [None]:
# Filtrar as linhas com educação avançada e salário acima de 50 mil
filtro = (df['education'].isin(['Bachelors', 'Masters', 'Doctorate'])) & (df['salary'] == '>50K')
pessoas_avancadas_50k = df[filtro]
porcentagem = (len(pessoas_avancadas_50k) / len(df[df['education'].isin(['Bachelors', 'Masters', 'Doctorate'])])) * 100

print(f"The percentage of people with advanced education (>50k) is:: {porcentagem:.2f}%")


In [None]:
valores_distintos = df['education'].unique()
valores_distintos = df['education'].drop_duplicates()
print(valores_distintos)

In [None]:
filtro = (df['education'].isin(['HS-grad', '11th', '9th','Some-college','Assoc-acdm','Assoc-voc','7th-8th','Prof-school','5th-6th','10th','1st-4th','Preschool','12th'])) & (df['salary'] == '>50K')
pessoas_sem_educ_50k = df[filtro]
porcentagem = (len(pessoas_sem_educ_50k) / len(df[df['education'].isin(['HS-grad', '11th', '9th','Some-college','Assoc-acdm','Assoc-voc','7th-8th','Prof-school','5th-6th','10th','1st-4th','Preschool','12th'])])) * 100

print(f"The percentage of people without advanced education (>50k) is:: {porcentagem:.2f}%")


In [None]:
# Encontrar o número mínimo de horas trabalhadas por semana
min_horas_semana = df['hours-per-week'].min()
print(f"Minimum number of hours a person works per week: {min_horas_semana}")


In [None]:
filtro_min_horas = df['hours-per-week'] == df['hours-per-week'].min()
pessoas_min_horas = df[filtro_min_horas]

# Calcular a porcentagem
filtro_salario = pessoas_min_horas['salary'] == '>50K'
porcentagem = (len(pessoas_min_horas[filtro_salario]) / len(pessoas_min_horas)) * 100

print(f"Percentage of the people who work the minimum number of hours per week have a salary of more than 50K: {porcentagem:.2f}%")


In [None]:
filtro_salario = df['salary'] == '>50K'
pessoas_mais_50k = df[filtro_salario]

# Calcular a porcentagem de pessoas que ganham mais de 50 mil por país
porcentagens_por_pais = pessoas_mais_50k['native-country'].value_counts(normalize=True) * 100

# Obter o país com a maior porcentagem
pais_maior_porcentagem = porcentagens_por_pais.idxmax()
maior_porcentagem = porcentagens_por_pais.max()

print(f"The country with the highest percentage of people earning over 50,000 is: {pais_maior_porcentagem}")
print(f"The corresponding percentage is: {maior_porcentagem:.2f}%")


In [None]:
# Filtrar as linhas com salário superior a 50 mil e país igual a Índia
filtro_salario = df['salary'] == '>50K'
filtro_pais = df['native-country'] == 'India'
pessoas_mais_50k_india = df[filtro_salario & filtro_pais]

# Identificar a ocupação mais popular
ocupacao_mais_popular = pessoas_mais_50k_india['occupation'].value_counts().idxmax()

print(f"The most popular occupation for people earning over 50k in India is: {ocupacao_mais_popular}")
