<img width="200" style="float:right" src="https://github.com/danielscarvalho/Insper-DS-Dicas/blob/master/Insper-Logo.png?raw=true">

# Computação para Ciências dos Dados

<sub><a href="https://www.insper.edu.br/pos-graduacao/programas-avancados/data-science-e-decisao/">PÓS-
GRADUAÇÃO EM DATA SCIENCE E DECISÃO</a></sub>

## Dica do Dia: 034


Dicas "Clean Code" código limpo:

1. Separação de Responsabilidades (SOC - Separation of Concerns)<br>
   ↳ Divida um programa complexo em unidades menores.<br>
   ↳ Cada unidade deve focar em uma tarefa específica.<br>
   
2. Documente Seu Código (DYC - Document Your Code)<br>
   ↳ Escreva código pensando no seu futuro eu e em outros.<br>
   ↳ Explique seções de código complexas com comentários e documentação.<br>
   
3. Não se Repita (DRY - Don't Repeat Yourself)<br>
   ↳ Não perca tempo escrevendo o mesmo código novamente.<br>
   ↳ Em vez disso, use funções, módulos e bibliotecas existentes.<br>

4. Mantenha Simples, Estúpido (KISS - Keep It Simple, Stupid)<br>
   ↳ Simples é difícil, mas melhor.<br>
   ↳ Código legível > código esperto.<br>

5. Desenvolvimento Orientado a Testes (TDD - Test Driven Development)<br>
   ↳ Escreva um teste que falha primeiro.<br>
   ↳ Escreva o código para fazer o teste passar.<br>
   ↳ Depois, limpe o código sem alterar o comportamento.<br>

6. Você Não Vai Precisar Disso (YAGNI - You Ain't Gonna Need It)<br>
   ↳ Construa apenas as funcionalidades essenciais.<br>
   ↳ Não construa funcionalidades que você acha que pode precisar depois.<br>

Conclusão:

→ Deixe a base de código mais limpa do que você encontrou.

Princípios do livro *Clean Code* de Robert C. Martin para o contexto de **Ciências de Dados** utilizando **Python** em um ambiente de computação exploratória como o **Jupyter Notebook**. Cada princípio é contextualizado para práticas comuns em ciência de dados, mantendo a essência do *Clean Code*.

| **Princípio** | **Descrição em Ciência de Dados<br>(Python/Jupyter)** | **Aplicação em Jupyter Notebook** | **Capítulo/Seção Relacionada no Clean Code** |
|---------------|--------------------------------------------------|-----------------------------------|---------------------------------------------|
| **Separação de Responsabilidades (SOC)** | Divida pipelines de dados em funções ou classes específicas (e.g., pré-processamento, modelagem, visualização). Evite notebooks com blocos de código monolíticos. | Crie células dedicadas para cada etapa do pipeline (e.g., uma célula para carregar dados, outra para limpeza). Use funções em módulos `.py` para reutilização. Exemplo: `def preprocess_data(df):`. | **Capítulo 2: Nomes Significativos** e **Capítulo 3: Funções** (ênfase em funções pequenas com uma única responsabilidade). |
| **Documente Seu Código (DYC)** | Explique a lógica de transformações de dados, escolhas de modelos ou visualizações com markdown e comentários. Use nomes de variáveis descritivos (e.g., `df_sales` em vez de `df`). | Use células markdown para descrever o propósito de cada análise ou visualização. Adicione comentários em código complexo, como: `# Calcula média móvel para suavizar série temporal`. | **Capítulo 4: Comentários** (advoga por comentários úteis, mas prefere código autoexplicativo). |
| **Não se Repita (DRY)** | Evite repetir código para tarefas como limpeza de dados ou visualizações. Crie funções reutilizáveis ou use bibliotecas como `pandas` e `seaborn`. | Defina funções genéricas para tarefas repetitivas, e.g., `def plot_histogram(data, column):`. Importe funções de scripts `.py` para evitar duplicação em notebooks. | **Capítulo 3: Funções** e **Capítulo 10: Classes** (promove abstração para evitar redundância). |
| **Mantenha Simples, Estúpido (KISS)** | Priorize soluções simples e legíveis, como usar `pandas` para manipulação de dados em vez de loops complexos. Evite otimizações prematuras. | Escreva código claro, e.g., `df.groupby('category').sum()` em vez de iterações manuais. Use visualizações simples com `seaborn` para insights rápidos. | **Capítulo 3: Funções** (defende funções curtas e simples) e **Capítulo 1: Código Limpo** (ênfase na legibilidade). |
| **Desenvolvimento Orientado a Testes (TDD)** | Escreva testes para validar funções de pré-processamento ou modelos antes de aplicá-los em grandes datasets. Teste suposições sobre os dados (e.g., valores nulos). | Crie células com testes unitários usando `pytest` ou `assert` para verificar funções, e.g., `assert preprocess_data(df).isnull().sum().sum() == 0`. Execute testes em um script separado. | **Capítulo 9: Tratamento de Erros** e **Capítulo 1: Código Limpo** (discute testes como parte da disciplina de código limpo). |
| **Você Não Vai Precisar Disso (YAGNI)** | Foque em análises e modelos que atendam às necessidades atuais do projeto. Evite adicionar features ou preprocessamentos especulativos. | Evite calcular métricas ou criar visualizações que não respondem diretamente à pergunta de negócio. Por exemplo, não inclua um modelo complexo se uma regressão linear é suficiente. | **Capítulo 1: Código Limpo** (alerta contra complexidade desnecessária) e **Capítulo 6: Objetos e Estruturas de Dados** (foco no essencial). |
| **Conclusão: Deixe a base de código mais limpa** | Refatore notebooks regularmente, removendo células obsoletas, organizando código em funções e documentando insights. | Antes de compartilhar um notebook, consolide células experimentais, remova saídas desnecessárias e use `nbcleaner` ou ferramentas similares para organizar. | **Capítulo 1: Código Limpo** (Regra do Escoteiro: "Deixe o acampamento mais limpo do que encontrou"). |

### Notas Adicionais:
- **Contexto de Ciência de Dados**: Em Jupyter Notebooks, a natureza exploratória pode levar a código desorganizado. Aplicar *Clean Code* ajuda a manter notebooks reprodutíveis e colaborativos, especialmente em equipes.
- **Capítulos do Clean Code**: As referências aos capítulos são baseadas na edição em inglês do livro *Clean Code* (2008). Alguns princípios, como YAGNI, não são mencionados explicitamente, mas são implícitos na filosofia do livro.
- **Ferramentas Python**: Bibliotecas como `pandas`, `numpy`, `seaborn`, e `pytest` são comuns em ciência de dados e alinham-se aos princípios de DRY e KISS ao fornecer soluções prontas e legíveis.
- **Jupyter Específico**: Use extensões como `nbextensions` para melhorar a organização (e.g., sumário, colapsar células) e ferramentas como `black` ou `flake8` para formatar e verificar o código.

Se precisar de exemplos de código Python para algum princípio ou de uma explicação mais detalhada sobre como implementar essas práticas em um notebook, é só pedir!

Sintetizado com AI LLM Groke 3 do X

Referência:
<div style="width:300px">
    
![image.png](attachment:855741fa-4790-41dc-a74c-2f60d04515ec.png)

</div>

- https://a.co/d/fONgSmm