# 0. Introdução
Vamos fazer "Revival Course" de Python para análsie de dados. O curso está divido em 5 blocos, sendo 3 exercícios para fazermos juntos na sala de aula. 

# 1. Criando Hello World
Vamos criar o código do Hello World, onde o Python exibe a mensagem "Hello World"

In [None]:
print("Hello World")

# 2. Carregando as bibliotecas
Vamos criar o código que carrega as bibliotecas básicas no Python para carga de arquivo Excel e as transforma estrutura tabular. 

In [None]:
import pandas as pd                 # Importando a biblioteca pandas para manipulação de dados em formato tabular (DataFrames)
import numpy as np                  # Importando a biblioteca numpy para operações matemáticas e manipulação de arrays
import matplotlib.pyplot as plt     # Importando a biblioteca matplotlib para criação de gráficos e visualizações
import statsmodels.api as sm        # Importando a biblioteca statsmodels para análise estatística e modelagem econométrica
import seaborn as sns               # Importando a biblioteca seaborn para Visualização de dados avançada

# 3. Carregando o arquivo Excel
Uma boa prática consiste em centralizar em local para promover a carga dos dados para memória, ou seja, a leitura dos arquivos ou conexão com banco de dados, tal como no item (1), também facilita alterações ou manutenções no futuro. 

No código abaixo, carregamos o arquivo Excel que está remotamente. 

In [None]:
# Carregando o arquivo Excel e armazenando em um DataFrame chamado df
df = pd.read_excel("salario.xlsx")

# 4. Analisando os dados
Agora vamos analisar os dados que foram importados


## 4.1 Identificando a estrutura
Uma boa prática para familiarizar com os dados é ver a estrutura do dataframe e até ver uma exemplo dos dados. 

In [None]:
# Exibindo informações sobre a estrutura do DataFrame
print(df.info())

Temos a seguinte estrutura:

* salario (numérico): salário do profissinal
* educ (numérico): quantidade de anos de educação formal
* anosemp (numérico): quantidade de anos que o profissiona está empregado na empresa
* expprev (numérico): quantidade de anos de experiência antes de ser contratado pela empresa
* sexo (dummy): gênero do profissional (0) masculino (1) feminino
* produtividade (numérico): índice de produtividade do profissional
* depto (categórica): código do departamento (1) financeiro (2) administrativo (3) tecnologia (4) operação

In [None]:
# Exibindo as primeiras linhas do DataFrame para visualizar um exemplo dos dados
print(df.head())

## 4.2 Descritivas
As análises descritivas são essenciais para entender o comportamento dos dados. 

Média, mediana, desvio-padrão são alguns exemplos de descritivas estatísticas. 

### 4.2.1 Exemplo

Exibindo as estastíticas descritivas mais simples.

In [None]:
# Exibindo estatísticas descritivas: média, desvio-padrão, minimo, máximo, etc.
print("Estatísticas Descritivas:")
print(df.describe())

### 4.2.2 Prática - Usando o AI para exibir estatísticas descritivas

Agora vamos fazer uma prática juntos, vamos pedir a AI para gerar as estatísticas descritivas do campo salario. 

Cabe esclarecer que o AI Generativa ou GenAI pode gerar códigos diferentes a depender do modelo utilizado, por isto é fundamenta prestar atençaõ ao código gerado se realmente fará o que está esperando.

Use o seguinte prompt **Gere as estatisticas descritivas de media, mediana, desviopadrao, minimo, maximo, variancia da coluna salario**

In [None]:
# Gere o Codigo aqui

## 4.3 Gráficos
Além das análises descritivas, explorar gráficos também auxiliam no entendimento do comportamento dos dados. 

### 4.3.1 - Exemplos

#### 4.3.1.1 Histograma
O histograma é um gráfico que exibe a distribuição do dado em faixas exibindo os pontos de maior e menor intensidade.

In [None]:
plt.hist(df['produtividade'], bins=10, edgecolor='black')
plt.xlabel('Produtividade')
plt.ylabel('Frequência')
plt.title('Histograma da Produtividade')
plt.show()

#### 4.3.1.2 Dispersão
O gráfico de dispersão permite ver a relação em duas dimensões de duas variáveis, o qual auxilia a identificação de correlações entre as variáveis.

Um exemplo de fazer um gráfico de dispersão entre **anos de educação formal** e **salario**. 

In [None]:
plt.scatter(df['educ'], df['salario'])
plt.xlabel('Anos de Educação')
plt.ylabel('Salário')
plt.title('Dispersão entre Salário e Anos de Educação')
plt.show()

#### 4.3.1.3 Pizza por Departamento

Vejamos agora outro gráfico possível para auxiliar no entendimento dos dados. 

In [None]:
# Gráfico de pizza da distribuição de departamentos
plt.figure(figsize=(8, 6))                                              # Ajuste o tamanho da figura conforme necessário
df['dept'].value_counts().plot(kind='pie', autopct='%1.1f%%')
plt.title('Distribuição de Departamento')
plt.ylabel('')                                                          # Remove o rótulo do eixo y
plt.show()

#### 4.3.1.4 Pizza distribuição gênero no departamento de Tecnologia

Vejamos agora como o departamento de Tecnologia tem a sua distirbuição entre homens e mulheres. 

In [None]:
# Gráfico de pizza da distribuição de gênero no departamento de Tecnologia
plt.figure(figsize=(8, 6))                                              # Ajuste o tamanho da figura conforme necessário
df[df['dept'] == 3]['sexo'].value_counts().plot(kind='pie', autopct='%1.1f%%')
plt.title('Distribuição de gênero no departamento de Tecnologia')
plt.ylabel('')                                                          # Remove o rótulo do eixo y
plt.show()

#### 4.3.1.5 Dispersão avançada

vamos verificar também se há alguma relação com outras variáveis independentes

In [None]:
sns.pairplot(df, hue='salario', vars=['educ', 'expprev', 'produtividade'])
plt.show()

### 4.3.2 Práticas

Fazer gráfico sempre é um processo desgastante, por isto uma boa técnica é uso de GenAI para gerar os gráficos. 

#### 4.3.2.1 Prática

Use o seguinte prompt **Gere um grafico fazendo a relação entre salario e produtividade por genero**

In [None]:
# Gere o Codigo aqui

# 5. Modelos
Os modelos econométricos são ferramentas que usam matemática e estatística para entender e medir as relações entre variáveis. Em outras palavras, servem para transformar teorias em números, mostrando como um fator influencia outro e ajudando a explicar ou prever resultados.

A relação entre as variáveis pode ser expressa da seguinte forma:

Y = β₀ + β₁X + ε

Onde:
- **Y** é a variável dependente (resultado que queremos explicar ou prever).
- **X** é a variável independente (fator que acreditamos influenciar Y).
- **β₀** é o intercepto (valor de Y quando X é zero).
- **β₁** é o coeficiente que mede o quanto Y varia para cada unidade de variação em X.
- **ε** é o termo de erro (representa outros fatores não observados que afetam Y).

Essa equação mostra que a variável Y é influenciada linearmente pela variável X.

## 5.1 Exemplos

### 5.1.1 Executando o modelo

Vamos considerar que desejamos saber a relação entre a quantidade dos anos de educação formal sobre o salário, desta forma a nossa equação seria:

salario = β₀ + β₁educ + ε

Onde:
- **salario**: *valor do salario* em USD do salario
- **educ**: *anos de educação formal*
- **β₀** é o intercepto (*valor de salario* quando *anos de educação* é zero).
- **β₁** é o coeficiente que mede o quanto *valor do salario* varia para cada *ano de educação formal*.
- **ε** é o termo de erro (representa outros fatores não observados que afetam *valor do salario*).


In [None]:
# Definindo as variáveis dependente e independente
X = df['educ']  # anos de educação (variável independente)
y = df['salario']  # salário (variável dependente)

# Adicionando constante para o intercepto
X_const = sm.add_constant(X)

# Ajustando o modelo de regressão linear
modelo = sm.OLS(y, X_const).fit()

# Exibindo o resumo dos resultados do modelo
print(modelo.summary())

### 5.1.2 Previsão

Com base no modelo criado entre salário e anos de educação formal, gostaríamos de fazer uma previsão quando o empregado tiver 10 anos. 

In [None]:
anos_educ = 10

# Monta o exog novo
novos_dados = pd.DataFrame({'educ': [anos_educ]}).astype(float)
X_novo = sm.add_constant(novos_dados, has_constant='add')

# Reordena as colunas para bater com o treino
X_novo = X_novo[modelo.model.exog_names]  # ex.: ['const', 'educ']

# Previsão pontual
salario_previsto = modelo.predict(X_novo)
print(f"Salário previsto para {anos_educ} anos de educação formal: USD {salario_previsto.iloc[0]:.2f}")


# 6. Exercícios

Agora vocês terão alguns exercícios para serm feitos.

Ao final, publique o arquivo do Python dentro do Blackboard para avaliação.

## 6.1 Exercício 01 - Gráfico

Fazer um gráfico como você preferir (pizza, barra, linha), comparando a média salarial de homens e mulheres.

In [None]:
# Insira o seu código aqui

## 6.2 Exercício 02 - Manipulando os dados

Calcule o índice médio de produtividade dos departamentos de tecnologia e administrativo. 

In [None]:
# Insira o seu código aqui

## 6.3 Exercício 03 - Modelando

Crie um modelo onde estuda os efeitos do salário, experiência e anos de educação sobre a produtividade dos profissionais. Inclua uma explicação sobre os efeitos significativos e elasticidade dos dados. 

In [None]:
# Insira o seu código aqui