# Métodos e Ferramentas de Data Science
## Aula 3: Análise Exploratória de Dados (Introdução às bibliotecas pandas e matplotlib.pyplot)
### Exemplo: Cia Eletrônicos

## Carregando bibliotecas necessárias
Usaremos os pacotes `pandas` para manipulação de dados. Para visualizações, usaremos `matplotlib` (pyplot) e `seaborn`.

In [None]:
import pandas as pd    
# importa (deixa disponível para uso) a biblioteca pandas, usada para manipulação e análise de dados.
# O apelido pd é só uma convenção para facilitar o uso (em vez de escrever pandas.DataFrame(), poderemos escrever pd.DataFrame()).
# Essa biblioteca contém diversas funções úteis, por exemplo para lermos arquivos em Excel, CSV etc. (pd.read_excel, pd.read_csv), 
# manipular tabelas (DataFrames), agrupar, filtrar, transformar dados, calcular estatísticas como medidas de posição e de dispersão etc.

import matplotlib.pyplot as plt    
# essa linha importa a biblioteca matplotlib, mais especificamente o módulo pyplot, usado para fazer gráficos.
# Assim como chamamos pandas de pd, aqui estamos 'apelidando' o módulo de plt. Nele, há funções que nos permitem criar diversos tipos de gráficos.

import seaborn as sns    
# Essa biblioteca estende o matplotlib com gráficos estatísticos mais bonitos e fáceis de usar.
# Permite criar boxplots, violinplots, heatmaps, gráficos de dispersão com regressão, etc.

%matplotlib inline    
# magic command. Serve para mostrar os gráficos diretamente dentro do notebook, logo abaixo da célula de código. 
# Sem essa linha, os gráficos podem não aparecer automaticamente ou abrir em janelas separadas.

## Importar a base de dados
Aqui, vamos carregar a planilha Excel `Cia_Eletronicos.xlsx`.

In [None]:
dados = pd.read_excel('Cia_Eletronicos.xlsx', sheet_name='Dados')
# pd.read_excel() chama a função read_excel da biblioteca pd (pandas);
# precisamos oferecer à função o caminho em que se encontra a planilha em Excel para ser importada;
# a parte sheet_name='Dados' instrui a função a ler a aba 'Dados' do arquivo em questão (que pode ter várias abas);
# o conteúdo é armazenado como um DataFrame do pandas (tabela em Python) no objeto chamado dados. 

dados.head()
# Exibe as primeiras 5 linhas do DataFrame dados.
# Se não usarmos o sufixo .head(), todo o objeto tentará ser carregado e isso pode ser um problema se a base for grande (a tabela pode ser
# exibida de maneira truncada, inclusive, se for muito grande). 
# Uma alternativa é configurar o pandas para mostrar mais linhas e colunas:
pd.set_option('display.max_rows', 200)     # mostra até 200 linhas
# pd.set_option('display.max_columns', None) # mostra todas as colunas
dados

# Podemos também fazer a visualização por pedaços:
# dados[0:100]    # linhas de 0 a 99
# dados[-10:]     # últimas 10 linhas

## Explorando a estrutura dos dados

In [None]:
dados.info()    # Exibe um resumo da estrutura do DataFrame (número de linhas e colunas, valores não nulos, nomes das colunas, uso de memória...)
# É muito interessante para:
# - verificarmos se há valores ausentes (nulls) em alguma coluna; 
# - checarmos os tipos de dados (importante antes de aplicar funções estatísticas ou gráficos); e
# - termos uma visão geral rápida da base.

# Interpretação:
# dtypes: float64(2), int64(3), object(4)
# O DataFrame tem 2 colunas com números decimais (float64 ou ponto flutuante de 64 bits);
# 3 colunas com números inteiros (int64 ou número inteiro de 64 bits);
# 4 colunas com texto ou outros tipos genéricos (object designa um tipo genérico: normalmente strings, mas também pode conter misturas de tipos).

# Alguns comentários:
# Alguns cálculos ou gráficos só funcionam com float ou int.
# Colunas como "Sexo" ou "Departamento" devem ser object ou category, e não numéricas.
# Se um número for lido como object (ex: "42" como texto), podemos ter problemas para calcular a média ou somar — então pode ser necessário converter com pd.to_numeric().

dados.describe()    # Gera um resumo estatístico das colunas numéricas (por padrão), mostrando:
# Contagem de valores (count)
# Média (mean)
# Desvio-padrão (std)
# Valores mínimo e máximo
# Quartis (25% - Q1, 50% - mediana, 75% - Q3)

In [None]:
# E se quisermos visualizar estatísticas descritivas das variáveis categóricas?

dados.describe(include='object')

# Este comando mostra um resumo apenas das colunas categóricas, ou seja, aquelas com dtype = object.
# Retorna, para cada coluna qualitativa:
# count: número de valores não nulos
# unique: número de categorias distintas
# top: valor mais frequente (moda)
# freq: frequência do valor mais frequente

In [None]:
### Outros comandos para a estrutura básica do DataFrame:
dados.shape         # (linhas, colunas)

In [None]:
### Outros comandos para a estrutura básica do DataFrame:
dados.columns       # nomes das colunas

# Observe que nesta saída aparecerá dtype = 'object'.
# Isso não quer dizer que os dados nas colunas são object — apenas que os nomes das colunas são strings!

In [None]:
### Outros comandos para a estrutura básica do DataFrame:
dados.dtypes        # tipos das variáveis

## Estatísticas dos salários anuais - geral e por departamento

In [None]:
# Média e desvio-padrão geral
media_geral_salario = dados['Salario_Anual'].mean()
# dados['Salario_Anual'] : Acessa a coluna chamada Salario_Anual no DataFrame dados.
# .mean() : Aplica o método .mean() para calcular a média aritmética dos salários.
# media_geral = O resultado é armazenado na variável media_geral.

dp_geral_salario = dados['Salario_Anual'].std()
# Idem... ao invés da média, estamos agora calculando o desvio-padrão amostral (std)

print(f"Média dos salários anuais: {media_geral_salario:.2f}")
# Imprime a média formatada com duas casas decimais (:.2f)
# f"texto {variavel}" é uma f-string, usada para incorporar valores dentro do texto

print(f"Desvio-padrão: {dp_geral_salario:.2f}")


In [None]:
# Estatísticas por departamento
resumo_departamentos = dados.groupby('Departamento')['Salario_Anual'].agg(['mean', 'std']).reset_index()
# Este trecho é bastante usual no contexto do pandas. O que está acontecendo:
# dados.groupby('Departamento'): agrupa o DataFrame por valores únicos na coluna Departamento.
# ['Salario_Anual']: aplica o agrupamento somente sobre a coluna Salario_Anual.
# .agg(['mean', 'std']): agrega os dados aplicando duas funções: média (mean) e desvio-padrão (std), para cada grupo (departamento).
# .reset_index(): transforma o índice do agrupamento de volta em coluna, criando um DataFrame "normal".

resumo_departamentos.columns = ['Departamento', 'Salario Anual Médio', 'Desvio Padrão']
# Aqui, simplesmente estamos renomeando os nomes das colunas do objeto resumo_departamentos. Tente rodar essa célula sem esta instrução e veja a diferença. 

resumo_departamentos

# Extra: rode esta célula sem o sufixo .reset_index() na primeira linha. Consegue perceber alguma diferença?
# Vantagens de manter o sufixo .reset_index():
# Facilita a manipulação dos dados com índice numérico
# Melhora a compatibilidade com outras operações (há funções que esperam que dados estejam em colunas, não no índice)

## Boxplot dos salários por departamento

In [None]:
# plt.figure(figsize=(8, 5))
# Opcional. Define o tamanho do gráfico (polegadas), útil para evitar que os elementos fiquem espremidos ou desproporcionais.
sns.boxplot(data=dados, y='Salario_Anual') 
plt.title('Distribuição dos Salários Anuais por Sexo')
plt.xlabel('Sexo')
plt.ylabel('Salário Anual')
# plt.tight_layout()
# Opcional. Ajusta automaticamente os espaçamentos internos da figura para que nenhum elemento (eixo, legenda, título) fique sobreposto ou cortado.
plt.show()

## Probabilidade de uma mulher ter salário acima da média

In [None]:
total_mulheres = dados[dados['Sexo'] == 'F'].shape[0]

# Filtra o DataFrame 'dados' para manter somente as linhas onde o Sexo é feminino ('Sexo' == 'F'), e depois pega o número total dessas linhas.
# O sufixo .shape[0] retorna o número de linhas do DataFrame filtrado (nesse caso, o número de mulheres na amostra).
# O resultado é armazenado no objeto total_mulheres

mulheres_salario_acima_media = dados[(dados['Sexo'] == 'F') & (dados['Salario_Anual'] > media_geral_salario)].shape[0]

prop_mulheres_salario_acima_media = mulheres_salario_acima_media / total_mulheres

print(f"Probabilidade de uma mulher ter salário acima da média: {prop_mulheres_salario_acima_media:.3f}")

## Boxplot das notas por departamento

In [None]:
# plt.figure(figsize=(8, 5))
sns.boxplot(data=dados, y='Nota')
plt.title('Distribuição das Notas')
plt.ylabel('Nota')
# plt.tight_layout()
plt.show()

In [None]:
### Visualizando contagens de categorias de variáveis qualitativas
dados['Sexo'].value_counts()

# O sufixo .value_counts() serve para contar quantas vezes cada categoria ocorre na variável Sexo, do DataFrame dados.

In [None]:
# Repetindo a mesma ideia, agora para a variável Departamento:
dados['Departamento'].value_counts()

In [None]:
## E se quisermos montar tabelas?

In [None]:
# Usamos a função pd.crosstab()
# Exemplo:

pd.crosstab(dados['Departamento'], dados['Sexo'])

# A primeira variável é usada nas linhas, e a segunda variável é usada nas colunas. Tente transpor a tabela!

In [None]:
### Alguns outros exemplos de gráficos (exploraremos essa área na aula seguinte...):
# Definindo o estilo gráfico
sns.set(style="whitegrid")

# Criar uma figura com 2 subplots (um embaixo do outro)
fig, axs = plt.subplots(2, 1, figsize=(8, 12))  # (linhas, colunas, tamanho)

# 1. Histograma da Idade
sns.histplot(data=dados, x='Idade', ax=axs[0])
axs[0].set_title('Distribuição de Idade')

# 2. Gráfico de barras da contagem por Sexo
sns.countplot(data=dados, x='Sexo', ax=axs[1])
axs[1].set_title('Distribuição por Sexo')

# Ajusta layout para evitar sobreposição
plt.tight_layout()

# Exibe todos os gráficos
plt.show()


## Análise Livre
Como exercício final, cada grupo deve realizar uma análise própria.

Sugestões:
- Comparar salários e notas entre departamentos;
- Investigar disparidades de gênero dentro de cada departamento.

No mínimo o grupo deverá entregar um Jupyter notebook contendo um gráfico box-plot, uma tabela e uma análises com médias e desvios-padrões.