---
title: Plano de aula
subtitle: Introdução a manipulação e tratamento de dados com R
author: Idris da Silva Santos
date: today
date-format: "DD/MM/YYYY"
---

# Resumo
+ Público-alvo: Discentes iniciantes de Estatística e Ciências Atuariais (1º-4º período).
+ Duração: 2 horas.
+ Ferramentas: R + RStudio; slides.

+ Objetivos:
  + Familiarizar os discentes com um fluxo básico de análise de dados:
    + importar $\to$ limpar $\to$ explorar $\to$ modelar.
  + Introduzir o dialeto *Tidyverse* da linguagem R de forma prática.
  + Exemplificar um problema comum: dados reais são desorganizados e *sujos* e uma solução prática e acessível: a plataforma R.
  + Finalizar com um modelo simples e interpretável (árvore de decisão).

# Objetivos

Ao final da aula, os discentes deverão ser capazes de:

1. Importar dados em formatos comuns (csv, tsv, xlsx), diagnosticando erros e corrigindo problemas de codificação, separação e valores ausentes;
2. Aplicar operações de limpeza e transformação usando *Tidyverse* (`dplyr`, `tidyr`, `stringr`);
3. Realizar análise descritiva com visualização básica dos dados (`ggplot2`);
4. Treinar, interpretar e avaliar um modelo de árvore de decisão para classificação binária;
5. Compreender a importância da qualidade e limpeza dos dados como pré-requisito para análise e modelagem confiável.

# Método

A aula será totalmente prática. O ministrante demonstrará cada passo em uma tela compartilhada, enquanto os discentes reproduzem em suas máquinas, com apoio de script comentado e instruções verbais e visuais claras.

Será adotada uma abordagem problema $\to$ diagnóstico $\to$ solução, simulando cenários reais de inconsistência (*e.g*, vírgula como separador decimal, aspas não fechadas, categorias mais escritas). A filosofia *tidy* será introduzida de forma implícita por meio do uso consistente do operador pipe (`%>%`) e verbos como `select`, `mutate` e `filter`.

Não haverá avaliação formal; o *feedback* será obtido por meio da interação contínua e observação da execução prática.

# Recursos

Serão apresentados *slides* com fluxo de trabalho, comandos chave, diagramas conceituais, screenshots de erros comuns e correções. Será adotada uma linguagem visual limpa, com o mínimo de texto. Apoio de escrita no quadro será usado se necessário.

Haverá um *script* `.R` com todas as etapas, desde `install.packages()` até a avaliação do modelo. Comentários explicativos em português, usando `# ->` para indicar *próximo passo*.

Os dados utilizados serão [Breast Cancer Wisconsin (Diagnostic)
](https://archive.ics.uci.edu/dataset/17/breast+cancer+wisconsin+diagnostic), disponível na plataforma de dados abertos UCI. O conjunto de dados possui medidas descritivas de núcleos celulares e *labeling* (benigino, maligno) usados para diagnóstico de câncer de mama. Este será modificado para introduzir problemas típicos e então disponibilizado em `.csv` compactado.

Será mostrado após a aula um link para repositório git com *scripts*, *slides* e conjunto de dados.

# Cronograma

| Tempo | Atividade | Descrição |
|-------|-----------|-----------|
| 0-10 min | Boas vindas e contextualização | Apresentação do mini-curso; Objetivo da aula de hoje; Breve motivação |
| 10-25 min | Ambiente e primeiros passos em R | Breve tour pelo RStudio; Instalação e importação de pacotes |
| 25-50 min | Importando dados | Baixar o dataset com link direto (**colocar no slide**); Problemas reais na importação (separador errado (, vs. ;), casas decimais (. vs. ,), encoding, linhas duplicadas, dados faltantes) |
| 50-75 min | Lidando com dados sujos | Identificando problemas com `glimpse`, `summary`, `is.na` e tratando com `replace_na`, `str_to_lower`, `case_when`, `as_factor`, `parse_number`, `janitor::clean_names` |
| 75-95 min | Análise descritiva | Sumarização com `summarise` e `group_by`, visualização com `ggplot`, comparação com `radius_mean` e `geom_boxplot` |
| 95-115 min | Arvore de decisão | Separar treino/teste com `initial_split`, treinar com `rpart`, avaliar matriz de confusão e acurária |
| 115-120 min | Encerramento | Recapitulação, link com aula 03 (métricas de acurácia serão usadas no relatório), próximos passos na modelagem (boosting, florestas) |

