<a href="https://colab.research.google.com/github/Michelle-sz/Estrutura-de-Dados/blob/main/P1_ESTRUTURA_DE_DADOS.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#1 - Geração de Dados

In [None]:
!pip install faker

from faker import Faker
import pandas as pd
import random

fake = Faker("pt_BR")

n_pessoas = 800

escolaridade = [
    "Sem instrução",
    "Ensino Fundamental Incompleto",
    "Ensino Fundamental Completo",
    "Ensino Médio Incompleto",
    "Ensino Médio Completo",
    "Ensino Superior Incompleto",
    "Ensino Superior Completo",
    "Pós-graduação",
    "Mestrado",
    "Doutorado"
]

generos = ["Masculino", "Feminino", "Outro"]

nomes = [fake.name() for _ in range(n_pessoas)]
idades = [fake.random_int(min=18, max=65) for _ in range(n_pessoas)]
nivel_escolar = [fake.random_element(escolaridade) for _ in range(n_pessoas)]
genero = [fake.random_element(generos) for _ in range(n_pessoas)]
salarios = [round(random.uniform(800, 10000), 2) for _ in range(n_pessoas)]
cidades = [fake.city() for _ in range(n_pessoas)]

df = pd.DataFrame({
    'Nome': nomes,
    'Idade': idades,
    'Nível de Escolaridade': nivel_escolar,
    'Gênero': genero,
    'Salário (R$)': salarios,
    'Cidade': cidades
})

df.to_csv('dados_desigualdade_renda.csv', index=False)

df.head()

#2 - Manipulação e Visualização dos Dados

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib.ticker import FuncFormatter


# Estatísticas
salario_por_genero = df.groupby('Gênero')['Salário (R$)'].mean()
desvio_padrao_salario = np.std(df['Salário (R$)'])
correlacao_salario_idade = df['Salário (R$)'].corr(df['Idade'])
media_por_escolaridade = df.groupby('Nível de Escolaridade')['Salário (R$)'].mean()


def menu():
    while True:
        print("\n\033[1;34m--- MENU DE ANÁLISE DE DADOS ---\033[0m")
        print("\033[1m1 - Média Salarial por Gênero\033[0m")
        print("\033[1m2 - Desvio Padrão do Salário\033[0m")
        print("\033[1m3 - Correlação entre Salário e Idade\033[0m")
        print("\033[1m4 - Média Salarial por Escolaridade\033[0m")
        print("\033[1;31m0 - Sair\033[0m")

        opcao = input("\nEscolha uma opção: ")

        if opcao == "1":
            print("\n\033[1;32mMédia Salarial por Gênero:\033[0m")
            print(salario_por_genero.round(2))

            plt.figure(figsize=(8, 5))
            salario_por_genero.plot(kind='bar', color=['skyblue', 'lightcoral', 'green'])
            plt.title('Média de Salário por Gênero')
            plt.xlabel('Gênero')
            plt.ylabel('Média de Salário (R$)')
            plt.xticks(rotation=0)
            plt.grid(True)
            formatter = FuncFormatter(lambda x, _: f'R${x:,.0f}')
            plt.gca().yaxis.set_major_formatter(formatter)
            plt.show()

        elif opcao == "2":
            print(f'\n\033[1;35mDesvio padrão do salário: R${desvio_padrao_salario:.2f}\033[0m')

        elif opcao == "3":
            print("\n\033[1;36mCorrelação entre Salário e Idade:\033[0m")
            print(f'{correlacao_salario_idade:.4f}')
            plt.figure(figsize=(8, 5))
            plt.scatter(df['Idade'], df['Salário (R$)'], alpha=0.5, color='purple')
            plt.title(f'Correlação entre Salário e Idade (Correlação: {correlacao_salario_idade:.4f})')
            plt.xlabel('Idade')
            plt.ylabel('Salário (R$)')
            plt.grid(True)
            formatter = FuncFormatter(lambda x, _: f'R${x:,.0f}')
            plt.gca().yaxis.set_major_formatter(formatter)
            plt.show()

        elif opcao == "4":
            print("\n\033[1;33mMédia de salário por Nível de Escolaridade:\033[0m")
            print(media_por_escolaridade.round(2))

            plt.figure(figsize=(10, 6))
            media_por_escolaridade.plot(kind='bar', color='lightgreen')
            plt.title('Média de Salário por Nível de Escolaridade')
            plt.xlabel('Nível de Escolaridade')
            plt.ylabel('Média de Salário (R$)')
            plt.xticks(rotation=45, ha='right')
            plt.grid(True)
            formatter = FuncFormatter(lambda x, _: f'R${x:,.0f}')
            plt.gca().yaxis.set_major_formatter(formatter)
            plt.show()

        elif opcao == "0":
            print("\n\033[1;31mSaindo do programa...\033[0m")
            break

        else:
            print("\n\033[1;31mOpção inválida! Tente novamente.\033[0m")


menu()


#Relatório

#Relatório de Análise de Dados sobre Desigualdade Salarial

##Introdução
Este relatório analisa um conjunto de dados fictício gerado aleatoriamente, com o objetivo de demonstrar como calcular e visualizar métricas como a média salarial por gênero, o desvio padrão do salário, a correlação entre salário e idade, e a média salarial por nível de escolaridade. Utilizamos as bibliotecas Faker, Pandas, NumPy e Matplotlib para realizar a análise e gerar os gráficos.

#Explicação do Código

Geração dos Dados: Criamos 800 registros fictícios com informações como nome, idade, gênero, escolaridade, e salário.

Análise Estatística: Calculamos médias salariais por gênero e escolaridade, o desvio padrão do salário e a correlação entre salário e idade.

Visualização: Geramos gráficos para ilustrar a distribuição dos salários por gênero e escolaridade.

Interpretação dos Resultados
Os dados foram gerados aleatoriamente, então as conclusões não refletem realidades sociais. No entanto, os resultados demonstram:

Média Salarial por Gênero: Exibe diferenças médias entre os gêneros, mas sem base real.

Desvio Padrão do Salário: Alta variação salarial, mas sem significância devido à aleatoriedade.

Correlação entre Salário e Idade: Correlação fraca, sem relação real.

Média Salarial por Nível de Escolaridade: Mostra salários mais altos com maior escolaridade, mas sem significado real.

Limitações

Os dados são aleatórios e não representam uma população real.

As conclusões não devem ser aplicadas ao mundo real.

O objetivo principal foi demonstrar o uso de técnicas de análise de dados, não tirar conclusões sociais.

Conclusão
Este exercício tem valor educacional, mostrando como aplicar técnicas de análise de dados. Em um estudo real, seria necessário usar dados reais para tirar conclusões significativas.
