## Descrição do Problema, Dados e Variáveis
### Problema
O problema abordado pelo State of Data Brazil 2023 é o mapeamento do mercado de trabalho na área de dados no Brasil. O objetivo é identificar tendências, desafios e oportunidades para profissionais de dados, como cientistas de dados, engenheiros de dados e analistas de dados. A pesquisa busca compreender aspectos como perfis profissionais, remuneração, rotatividade, impacto do trabalho remoto, uso de tecnologias emergentes (como AI Generativa e LLMs) e fatores de satisfação no ambiente de trabalho.


In [None]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

### Get File Path and load Dataframe

In [None]:
def get_file_path():
    import os
    # Load the data
    if os.path.exists('/kaggle'):
        file_path = '/kaggle/input/state-of-data-brazil-2023/State_of_data_BR_2023_Kaggle - df_survey_2023.csv'
    else:
        default_directory = '/home/nerton/Projects/kaggle'
        os.chdir(default_directory)
        file_path = './input/state-of-data-brazil-2023⁄State_of_data_BR_2023_Kaggle.csv'
    return file_path


In [None]:
# Carregando o DataFrame
file_path = get_file_path()
df = pd.read_csv(file_path)
df.head()



### Listar Colunas

In [None]:
from pprint import pprint

# Listar os nomes das colunas no DataFrame de forma legível
columns = df.columns.tolist()
print("Colunas do DataFrame:")
pprint(columns)

### Análise Univariada Funções
1.1 Distribuição de Variável Qualitativa  
1.2 Distribuição de Variável Quantitativa  


In [None]:
# Análise Qualitativa de Colunas
def analyze_quali_column(column_name):
    print(f"Análise da Coluna: {column_name}")
    print(f"Valores Únicos: {df[column_name].unique()}")
    print(f"Quantidade de Valores Únicos: {df[column_name].nunique()}")
    print(f"Quantidade de Valores Nulos: {df[column_name].isnull().sum()}")
    print(f"Valores Nulos: {df[column_name][df[column_name].isnull()]}")
    print(f"Contagem de Frequência dos Valores: {df[column_name].value_counts()}")
    print("\n")
    return

def make_graph_column(column_name):
    import matplotlib.pyplot as plt
    import seaborn as sns
    plt.figure(figsize=(10, 5))
    sns.countplot(data=df, x=column_name, order = df[column_name].value_counts().index)
    plt.xticks(rotation=90)
    plt.show()
    return

# Análise Quantitativa de Colunas
def analyze_quanti_column(column_name):
    print(f"Análise da Coluna: {column_name}")
    print(f"Valores Únicos: {df[column_name].unique()}")
    print(f"Quantidade de Valores Únicos: {df[column_name].nunique()}")
    print(f"Quantidade de Valores Nulos: {df[column_name].isnull().sum()}")
    print(f"Valores Nulos: {df[column_name][df[column_name].isnull()]}")
    print(f"Média: {df[column_name].mean()}")
    print(f"Mediana: {df[column_name].median()}")
    print(f"Desvio Padrão: {df[column_name].std()}")
    print(f"Valor Mínimo: {df[column_name].min()}")
    print(f"Valor Máximo: {df[column_name].max()}")
    print("\n")
    return

def make_histogram_column(column_name):
    import matplotlib.pyplot as plt
    plt.figure(figsize=(10, 5))
    df[column_name].dropna().plot(kind='hist', bins=20, edgecolor='black')
    plt.title(f'Distribuição da Variável Quantitativa: {column_name}')
    plt.xlabel(column_name)
    plt.ylabel('Frequência')
    plt.show()
    return

In [None]:
#Exemplos de análise de colunas

# Análise qualitativa
analyze_quali_column("('P1_b ', 'Genero')")
make_graph_column("('P1_b ', 'Genero')")

# Análise quantitativa
analyze_quanti_column("('P1_a ', 'Idade')")
make_histogram_column("('P1_a ', 'Idade')")