## Importação das bibliotecas

In [129]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## Importação da base de dados

In [130]:
base = pd.read_csv("/content/drive/MyDrive/PCD1/assets/data/bases_originais/State_of_data_BR_2023_Kaggle - df_survey_2023.csv")

## Renomeação das colunas

In [131]:
novo_nome_colunas = {
    "('P1_a ', 'Idade')": 'Idade',
    "('P1_b ', 'Genero')": 'Genero',
    "('P1_c ', 'Cor/raca/etnia')": 'Cor/raca/etnia',
    "('P1_d ', 'PCD')": 'PCD',
    "('P1_f_4', 'Oportunidades de progressão de carreira')": 'Oportunidade de Progressão de Carreira',
    "('P1_i_1 ', 'uf onde mora')": 'UF',
    "('P1_i_2 ', 'Regiao onde mora')": 'Regiao onde mora',
    "('P1_l ', 'Nivel de Ensino')": 'Nivel de Ensino',
    "('P1_m ', 'Área de Formação')": 'Area de Formação',
    "('P2_a ', 'Qual sua situação atual de trabalho?')": 'Situação atual de Trabalho',
    "('P2_b ', 'Setor')": 'Setor',
    "('P2_f ', 'Cargo Atual')": 'Cargo',
    "('P2_g ', 'Nivel')": 'Nivel',
    "('P2_r ', 'Atualmente qual a sua forma de trabalho?')": 'Forma de Trabalho',
    "('P4_a_1 ', 'Atuacao')": 'Atuação'
}

base.columns = [novo_nome_colunas.get(col, col) for col in base.columns]

## Seleção de atributos

In [132]:
colunas = [
    'Idade',
    'Genero',
    "Cor/raca/etnia",
    "PCD",
    "Oportunidade de Progressão de Carreira",
    "UF",
    "Regiao onde mora",
    "Nivel de Ensino",
    "Area de Formação",
    "Situação atual de Trabalho",
    "Setor",
    "Cargo",
    "Nivel",
    "Forma de Trabalho",
    "Atuação"
]

base = base[colunas]
base.columns.tolist()

['Idade',
 'Genero',
 'Cor/raca/etnia',
 'PCD',
 'Oportunidade de Progressão de Carreira',
 'UF',
 'Regiao onde mora',
 'Nivel de Ensino',
 'Area de Formação',
 'Situação atual de Trabalho',
 'Setor',
 'Cargo',
 'Nivel',
 'Forma de Trabalho',
 'Atuação']

# Análise dados numéricos

In [154]:
base.describe()

Unnamed: 0,Idade
0,31
1,30
2,37
3,22
4,34
...,...
5288,34
5289,32
5290,25
5291,31


In [134]:
def imprimir_descricao_formatada(serie):
    descricao = serie.describe()
    print(f"{'Estatística':<15} | {'Valor':>15}")
    print("-" * 33)
    for stat in descricao.index:
        print(f"{stat:<15} | {descricao[stat]:15,.2f}")
    print()

def analisar_estatisticas(base, coluna):
    print(f"\n--- Análise Estatística para a coluna '{coluna}' ---")
    # Ensure the column exists before attempting to access it
    if coluna not in base.columns:
        print(f"Column '{coluna}' not found in the base.")
        return

    # Check if the column is numeric before calculating descriptive statistics
    if pd.api.types.is_numeric_dtype(base[coluna]):
        print(f"{'Média:':<20} {base[coluna].mean():,.2f}")
        print(f"{'Mediana:':<20} {base[coluna].median():,.2f}")

        # Moda ignorando zeros - only applicable to numeric data
        dados_sem_zero = base[base[coluna] != 0][coluna]
        if len(dados_sem_zero) == 0:
            moda = "Todos os valores são zero"
        elif dados_sem_zero.nunique() > 1:
            moda = ', '.join(f"{m:.2f}" for m in dados_sem_zero.mode())
        else:
            moda = f"{dados_sem_zero.iloc[0]:.2f}"
        print(f"{'Moda (ignorando zeros):':<20} {moda}")




        print(f"{'Desvio Padrão:':<20} {base[coluna].std():,.2f}")
        print(f"{'Variância:':<20} {base[coluna].var():,.2f}")
        print(f"{'Mínimo:':<20} {base[coluna].min():,.2f}")
        print(f"{'Máximo:':<20} {base[coluna].max():,.2f}")

        print("\nQuartis:")
        quartis = base[coluna].quantile([0.25, 0.5, 0.75])
        for q, val in quartis.items():
            print(f"{int(q*100):<5}% {val:,.2f}")

        print("\nDescrição Completa Formatada:")
        imprimir_descricao_formatada(base[coluna])
    else:
        # Handle non-numeric columns - show value counts and mode
        print("Column is not numeric. Displaying value counts and mode:")
        print(base[coluna].value_counts())
        print(f"Mode: {base[coluna].mode()[0]}")



In [135]:
for col in base.columns:
    analisar_estatisticas(base, col)


--- Análise Estatística para a coluna 'Idade' ---
Média:               32.00
Mediana:             30.00
Moda (ignorando zeros): 27.00
Desvio Padrão:       7.62
Variância:           58.12
Mínimo:              18.00
Máximo:              73.00

Quartis:
25   % 27.00
50   % 30.00
75   % 36.00

Descrição Completa Formatada:
Estatística     |           Valor
---------------------------------
count           |        5,293.00
mean            |           32.00
std             |            7.62
min             |           18.00
25%             |           27.00
50%             |           30.00
75%             |           36.00
max             |           73.00


--- Análise Estatística para a coluna 'Genero' ---
Column is not numeric. Displaying value counts and mode:
Genero
Masculino               3975
Feminino                1293
Prefiro não informar      16
Outro                      9
Name: count, dtype: int64
Mode: Masculino

--- Análise Estatística para a coluna 'Cor/raca/etnia' ---
Col

# Moda

In [136]:
for col in base.columns:
    mode_value = base[col].mode()
    print(f'A moda da coluna {col} é: {mode_value.iloc[0]}')

A moda da coluna Idade é: 27
A moda da coluna Genero é: Masculino
A moda da coluna Cor/raca/etnia é: Branca
A moda da coluna PCD é: Não
A moda da coluna Oportunidade de Progressão de Carreira é: 0.0
A moda da coluna UF é: SP
A moda da coluna Regiao onde mora é: Sudeste
A moda da coluna Nivel de Ensino é: Pós-graduação
A moda da coluna Area de Formação é: Computação / Engenharia de Software / Sistemas de Informação/ TI
A moda da coluna Situação atual de Trabalho é: Empregado (CLT)
A moda da coluna Setor é: Finanças ou Bancos
A moda da coluna Cargo é: Analista de Dados/Data Analyst
A moda da coluna Nivel é: Sênior
A moda da coluna Forma de Trabalho é: Modelo 100% remoto
A moda da coluna Atuação é: Análise de Dados


#Geração de gráficos

In [137]:
base

Unnamed: 0,Idade,Genero,Cor/raca/etnia,PCD,Oportunidade de Progressão de Carreira,UF,Regiao onde mora,Nivel de Ensino,Area de Formação,Situação atual de Trabalho,Setor,Cargo,Nivel,Forma de Trabalho,Atuação
0,31,Masculino,Branca,Não,,MG,Sudeste,Doutorado ou Phd,Computação / Engenharia de Software / Sistemas...,Empregado (CLT),Finanças ou Bancos,Cientista de Dados/Data Scientist,Sênior,Modelo híbrido flexível (o funcionário tem lib...,Ciência de Dados
1,30,Masculino,Branca,Não,,ES,Sudeste,Graduação/Bacharelado,Computação / Engenharia de Software / Sistemas...,Empreendedor ou Empregado (CNPJ),Finanças ou Bancos,Analista de BI/BI Analyst,Pleno,Modelo 100% remoto,Análise de Dados
2,37,Feminino,Amarela,Não,0.0,SP,Sudeste,Graduação/Bacharelado,Computação / Engenharia de Software / Sistemas...,Empregado (CLT),Finanças ou Bancos,Analista de Dados/Data Analyst,Júnior,Modelo híbrido flexível (o funcionário tem lib...,Ciência de Dados
3,22,Masculino,Preta,Não,,SP,Sudeste,Estudante de Graduação,Computação / Engenharia de Software / Sistemas...,"Desempregado, buscando recolocação",,,,,Buscando oportunidade na área de dados
4,34,Masculino,Branca,Não,,MG,Sudeste,Doutorado ou Phd,Economia/ Administração / Contabilidade / Fina...,Empreendedor ou Empregado (CNPJ),Outra Opção,Analista de Dados/Data Analyst,Júnior,Modelo 100% remoto,Análise de Dados
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5288,34,Masculino,Preta,Não,,MG,Sudeste,Pós-graduação,Computação / Engenharia de Software / Sistemas...,Empreendedor ou Empregado (CNPJ),Tecnologia/Fábrica de Software,,,Modelo 100% remoto,Gestor
5289,32,Masculino,Branca,Não,,RN,Nordeste,Graduação/Bacharelado,Outras Engenharias,Empregado (CLT),Outra Opção,Engenheiro de Machine Learning/ML Engineer/AI ...,Pleno,Modelo 100% remoto,Ciência de Dados
5290,25,Masculino,Branca,Não,,SP,Sudeste,Graduação/Bacharelado,Marketing / Publicidade / Comunicação / Jornal...,Empregado (CLT),Finanças ou Bancos,Analista de Negócios/Business Analyst,Sênior,Modelo híbrido flexível (o funcionário tem lib...,Análise de Dados
5291,31,Masculino,Parda,Não,,SP,Sudeste,Estudante de Graduação,Computação / Engenharia de Software / Sistemas...,"Desempregado, buscando recolocação",,,,,Buscando oportunidade na área de dados


In [None]:
# @title Regiao onde mora

from matplotlib import pyplot as plt
import seaborn as sns
base.groupby('Regiao onde mora').size().plot(kind='barh', color=sns.palettes.mpl_palette('Dark2'))
plt.gca().spines[['top', 'right',]].set_visible(False)

In [None]:
# @title Cor/raca/etnia

from matplotlib import pyplot as plt
import seaborn as sns
base.groupby('Cor/raca/etnia').size().plot(kind='barh', color=sns.palettes.mpl_palette('Dark2'))
plt.gca().spines[['top', 'right',]].set_visible(False)

In [None]:
# @title Idade

from matplotlib import pyplot as plt
base['Idade'].plot(kind='hist', bins=20, title='Idade')
plt.gca().spines[['top', 'right',]].set_visible(False)

In [None]:
# @title Genero

from matplotlib import pyplot as plt
import seaborn as sns
base.groupby('Genero').size().plot(kind='barh', color=sns.palettes.mpl_palette('Dark2'))
plt.gca().spines[['top', 'right',]].set_visible(False)

In [None]:
# @title PCD

from matplotlib import pyplot as plt
import seaborn as sns
base.groupby('PCD').size().plot(kind='barh', color=sns.palettes.mpl_palette('Dark2'))
plt.gca().spines[['top', 'right',]].set_visible(False)

In [None]:
# @title UF

from matplotlib import pyplot as plt
import seaborn as sns
base.groupby('UF').size().plot(kind='barh', color=sns.palettes.mpl_palette('Dark2'))
plt.gca().spines[['top', 'right',]].set_visible(False)

In [None]:
# @title Oportunidade de Progressão de Carreira

from matplotlib import pyplot as plt
import seaborn as sns
base.groupby('Oportunidade de Progressão de Carreira').size().plot(kind='barh', color=sns.palettes.mpl_palette('Dark2'))
plt.gca().spines[['top', 'right',]].set_visible(False)

In [None]:
# @title Nivel de Ensino

from matplotlib import pyplot as plt
import seaborn as sns
base.groupby('Nivel de Ensino').size().plot(kind='barh', color=sns.palettes.mpl_palette('Dark2'))
plt.gca().spines[['top', 'right',]].set_visible(False)

In [None]:
# @title Area de Formação

from matplotlib import pyplot as plt
import seaborn as sns
base.groupby('Area de Formação').size().plot(kind='barh', color=sns.palettes.mpl_palette('Dark2'))
plt.gca().spines[['top', 'right',]].set_visible(False)

In [None]:
# @title Situação atual de Trabalho

from matplotlib import pyplot as plt
import seaborn as sns
base.groupby('Situação atual de Trabalho').size().plot(kind='barh', color=sns.palettes.mpl_palette('Dark2'))
plt.gca().spines[['top', 'right',]].set_visible(False)

In [None]:
# @title Setor

from matplotlib import pyplot as plt
import seaborn as sns
base.groupby('Setor').size().plot(kind='barh', color=sns.palettes.mpl_palette('Dark2'))
plt.gca().spines[['top', 'right',]].set_visible(False)

In [None]:
# @title Cargo

from matplotlib import pyplot as plt
import seaborn as sns
base.groupby('Cargo').size().plot(kind='barh', color=sns.palettes.mpl_palette('Dark2'))
plt.gca().spines[['top', 'right',]].set_visible(False)

In [None]:
# @title Nivel

from matplotlib import pyplot as plt
import seaborn as sns
base.groupby('Nivel').size().plot(kind='barh', color=sns.palettes.mpl_palette('Dark2'))
plt.gca().spines[['top', 'right',]].set_visible(False)

In [None]:
# @title Regiao onde mora

from matplotlib import pyplot as plt
import seaborn as sns
base.groupby('Forma de Trabalho').size().plot(kind='barh', color=sns.palettes.mpl_palette('Dark2'))
plt.gca().spines[['top', 'right',]].set_visible(False)

In [None]:
# @title Regiao onde mora

from matplotlib import pyplot as plt
import seaborn as sns
base.groupby('Atuação').size().plot(kind='barh', color=sns.palettes.mpl_palette('Dark2'))
plt.gca().spines[['top', 'right',]].set_visible(False)

In [None]:
# @title Regiao onde mora

from matplotlib import pyplot as plt
import seaborn as sns
base.groupby('Regiao onde mora').size().plot(kind='barh', color=sns.palettes.mpl_palette('Dark2'))
plt.gca().spines[['top', 'right',]].set_visible(False)