## 1.0 Conceitos Fundamentais

### 1.0.1 Por que precisamos dos algoritmos

Na era moderna, as organizações e indústrias estão adotando o aprendizado de máquina (Machine Learning) para melhorar a tomada de decisões e criar sistemas de percepção e inteligência mais avançados. Esses sistemas ajudam a remover a dependência exclusiva da expertise humana, permitindo que as máquinas atuem de forma autônoma, eficiente e confiável em tarefas complexas.

A automação, impulsionada pelo aprendizado de máquina, promove a descentralização da inteligência e conhecimento que antes residiam na mente dos profissionais especializados. Assim, empresas podem otimizar seus processos, economizar tempo e reduzir custos. Mais do que isso, a capacidade de processamento e análise de grandes volumes de dados por algoritmos permite descobertas e insights que poderiam ser impossíveis para um humano identificar.

### 1.0.2 Como os computadores funcionam
Apesar da percepção popular de que o aprendizado de máquina e a inteligência artificial são complexos e quase mágicos, é vital entender que no núcleo de todos os computadores estão circuitos digitais projetados para operações matemáticas fundamentais. Desde adição e subtração até multiplicação e divisão, os computadores são basicamente calculadoras ultra-rápidas.

Os algoritmos de aprendizado de máquina, independentemente de quão avançados ou complexos, têm que traduzir os problemas do mundo real em números, funções e equações. Por trás da "inteligência" de um algoritmo, estão matemáticas e lógica bem definidas.

Comparar diretamente a inteligência artificial com o cérebro humano pode ser uma analogia enganosa e até contraproducente. Em vez de pensar em máquinas como cérebros, é mais proveitoso entender seus princípios fundamentais e o modo como operam sobre dados e representações matemáticas.

**Representações Numéricas e Conhecimento Especializado:**

A capacidade de um algoritmo de aprendizado de máquina atingir um desempenho desejado muitas vezes reside em como os dados e o conhecimento especializado são representados numericamente. Tradicionalmente, essa representação dependia fortemente do conhecimento de domínio e da engenharia de características, onde especialistas analisavam os dados e projetavam manualmente as características que consideravam relevantes para o problema.

**Representation Learning vs Downstream Tasks:**

Em aprendizado de máquina, a distinção entre "representation learning" (aprendizado de representação) e tarefas subsequentes é crucial. O aprendizado de representação foca em descobrir uma transformação útil dos dados de entrada, muitas vezes para uma forma que torna mais fácil aprender a tarefa subsequente, como classificação ou regressão. Uma vez que uma boa representação é aprendida, ela pode ser utilizada para diversas tarefas subsequentes.

**Evolução do Feature Engineering com Deep Learning:**

Antes da era do deep learning, a engenharia de características dominava a cena. A engenharia de características é o processo de usar o conhecimento de domínio para criar características (features) que tornam os algoritmos de aprendizado de máquina mais eficazes. No entanto, com a ascensão do deep learning, a necessidade de engenharia de características explícitas tem diminuído. Redes neurais profundas são particularmente hábeis em aprender representações de dados brutos, sejam eles imagens, texto ou sequências temporais. Com isso, tivemos a revolução do aprendizado das representações, onde embeddings (vetores de representação) são aprendidos automaticamente, capturando nuances e complexidades dos dados que muitas vezes são difíceis de serem capturadas manualmente.

Essas transformações, especialmente a capacidade de aprender representações diretamente dos dados, permitiram avanços significativos em várias áreas da inteligência artificial e mudaram a forma como abordamos muitos problemas do mundo real.

### Perguntas e Respostas Pertinentes

**Por que a representação numérica é tão crucial no aprendizado de máquina?**

Uma representação numérica adequada permite que algoritmos de aprendizado de máquina processem, interpretem e aprendam padrões e tendências a partir de dados que originalmente podem não ser numéricos, como texto ou imagens.

**Como a representação numérica se relaciona com a engenharia de características?**

A engenharia de características é um processo que envolve a transformação ou extração de informações dos dados originais para criar uma representação numérica que seja significativa para algoritmos de aprendizado de máquina.

**O que significa uma "boa" representação numérica?**

Uma "boa" representação numérica captura efetivamente a informação subjacente ou o padrão nos dados de uma forma que facilita o aprendizado e a generalização por parte do algoritmo.

**Por que não podemos alimentar algoritmos com dados brutos na maioria das vezes?**

Dados brutos podem conter muito ruído, ser de alta dimensão ou não estar em um formato ideal para algoritmos. Transformá-los em uma representação numérica adequada permite focar nas informações mais relevantes.

**Todos os problemas necessitam de uma representação numérica personalizada?**

Nem sempre. Alguns problemas podem usar representações numéricas padrão, enquanto outros, especialmente os mais complexos ou específicos de domínio, podem se beneficiar de representações personalizadas.

**O que diferencia o aprendizado de representação de outras tarefas de aprendizado de máquina?**

O aprendizado de representação foca na transformação dos dados de entrada em uma forma que seja mais informativa ou útil, enquanto outras tarefas concentram-se em usar essas representações (ou dados brutos) para fazer previsões ou tomar decisões.
Por que o aprendizado de representação é importante para tarefas subsequentes?

Uma boa representação pode destacar características essenciais dos dados que tornam as tarefas subsequentes, como classificação ou regressão, mais fáceis e eficazes.

**Podemos usar a mesma representação aprendida para diferentes tarefas?**

Sim, uma representação aprendida em um domínio ou tarefa pode ser transferida ou adaptada para outras tarefas, especialmente se houver similaridades ou se a representação capturar informações genéricas.

**Qual é o papel da transferência de aprendizado em relação ao aprendizado de representação?**

A transferência de aprendizado envolve o uso de representações aprendidas em uma tarefa para melhorar o desempenho em outra tarefa diferente, capitalizando o conhecimento adquirido previamente.

**O aprendizado de representação sempre leva a melhores resultados em tarefas subsequentes?**

Não necessariamente. O sucesso depende da qualidade da representação aprendida e de sua relevância para a tarefa subsequente.

**O que tornou o deep learning uma alternativa atraente à engenharia de características tradicional?**

O deep learning pode automaticamente aprender representações ricas dos dados sem a necessidade de engenharia de características manual, tornando-o escalável e adaptável a uma ampla gama de problemas.

**O que são embeddings e por que são revolucionários?**

Embeddings são vetores de representação densa que podem capturar informações semânticas sobre os dados. Eles são revolucionários porque permitem que relações complexas e nuances nos dados sejam representadas de maneira compacta.

**A engenharia de características tornou-se obsoleta com o advento do deep learning?**

Não completamente. Embora o deep learning tenha reduzido a necessidade de engenharia de características explícitas, o conhecimento de domínio e a engenharia de características ainda podem melhorar o desempenho em muitos problemas, especialmente quando os dados são escassos.

**Como a engenharia de características e o deep learning podem ser combinados?**

Características projetadas manualmente podem ser usadas juntamente com características aprendidas automaticamente em um modelo, ou podem ser usadas para guiar ou informar a arquitetura ou o treinamento de um modelo de deep learning.

**Os embeddings são exclusivos para deep learning?**

Embora o deep learning tenha popularizado o uso de embeddings, especialmente em domínios como processamento de linguagem natural, técnicas mais antigas, como análise semântica latente, também usavam formas de embeddings.

### 1.0.3 Exemplos de aplicação

1. **Google**: Utiliza IA para otimizar seus resultados de busca, fornecendo resultados mais relevantes aos usuários com base em padrões de pesquisa anteriores. **Benefícios**: Experiência do usuário melhorada. **Desafios**: Filtrar informações falsas ou irrelevantes.
   
2. **Tesla**: Utiliza aprendizado de máquina para seu sistema de piloto automático em carros elétricos. **Benefícios**: Condução mais segura e eficiente. **Desafios**: Lidar com situações imprevistas no trânsito.
   
3. **Netflix**: Emprega algoritmos de IA para recomendar shows e filmes com base nas preferências do usuário. **Benefícios**: Retenção de usuários e maior satisfação. **Desafios**: Diversificar o conteúdo e evitar criar "bolhas" para os usuários.
   
4. **Amazon**: Usa aprendizado de máquina para recomendar produtos aos clientes com base no histórico de compras. **Benefícios**: Aumento nas vendas. **Desafios**: Manter a privacidade do usuário e evitar recomendações irrelevantes.
   
5. **IBM Watson Health**: Aplica IA para análise e diagnóstico em medicina. **Benefícios**: Diagnósticos mais precisos e rápidos. **Desafios**: A necessidade de dados médicos de alta qualidade e a integração com sistemas de saúde existentes.

## 1.1 Estruturação do Problema
Antes de mergulhar nos dados e algoritmos, é essencial definir claramente o problema que você está tentando resolver. Esse processo de estruturação garantirá que o esforço da ciência de dados seja alinhado aos objetivos estratégicos e operacionais da organização.

### 1.1.1 Como analisar e identificar qual problema você realmente quer resolver
É fácil se perder na vastidão de dados disponíveis e nas possíveis análises que podem ser realizadas. No entanto, não é toda análise que trará valor significativo para o negócio. Portanto, uma identificação clara do problema é o primeiro passo.

#### 1.1.1.1 Métricas científicas vs Métricas de negócio
Métricas científicas referem-se a métricas padrão usadas na avaliação de modelos de machine learning, como precisão, recall, AUC, etc.
Métricas de negócio se concentram em traduzir os resultados do modelo em impacto tangível para a organização, como aumento de vendas, redução de custos ou melhoria de satisfação do cliente.
A chave é garantir que as métricas científicas estejam alinhadas e conduzam a melhorias nas métricas de negócio relevantes.

- Que métricas científicas são relevantes para esse tipo de problema?
- Quais são os principais indicadores de desempenho do negócio que esperamos impactar?
- Existem métricas científicas que podem ser enganosas no contexto do negócio?
- Como as métricas científicas podem ser traduzidas em valor de negócio tangível?
- Há uma métrica principal que deveria ser o foco?

#### 1.1.1.2 Análise de requisitos
Compreender as necessidades das partes interessadas e traduzi-las em requisitos técnicos.
Determinar quais dados são necessários, quais algoritmos podem ser adequados e quais são as expectativas de desempenho do modelo.

- Quais são as principais necessidades e expectativas das partes interessadas?
- Quais recursos (dados, tecnologia, equipe) estão atualmente disponíveis?
- Existem restrições técnicas ou de negócios que devem ser consideradas?
- Há uma compreensão clara do que seria considerado um "sucesso"?
- Quais são os principais riscos e desafios previstos?

#### 1.1.1.3 Latência
Tempo que um modelo leva para produzir resultados. Em alguns casos, como sistemas de recomendação em tempo real, a latência baixa é crítica.
Avalie a necessidade de latência no contexto do problema de negócios.

- Qual é a janela aceitável de tempo para as respostas do modelo?
- Existem momentos de pico durante os quais a latência pode ser mais crítica?
- Quão crítica é a latência em relação à precisão?
- Há componentes externos (por exemplo, APIs de terceiros) que podem influenciar a latência?
- Como a latência pode impactar a experiência do usuário ou a eficácia operacional?

#### 1.1.1.4 Generalização
Garantir que o modelo funcione bem em dados não vistos e em diferentes cenários.
Evitar o overfitting, onde o modelo se ajusta demais aos dados de treinamento e tem um desempenho ruim em dados novos.

- O modelo será exposto a variados tipos de dados ou ambientes em produção?
- Quão frequentemente os dados subjacentes podem mudar?
- Existem subgrupos nos dados que precisam de atenção especial para evitar viés?
- Qual é a estratégia de validação para garantir a generalização?
- Como identificaremos e lidaremos com overfitting?

#### 1.1.1.5 Atualização
Determinar com que frequência o modelo precisa ser atualizado. Isso pode variar com base nas mudanças no ambiente de negócios ou na natureza dos dados.

- Com que frequência os dados subjacentes mudam ou são atualizados?
- Existem eventos de mercado ou mudanças externas que exigem atualizações mais frequentes?
- Quão fácil ou difícil é o processo de atualização?
- Qual é o impacto de não atualizar o modelo regularmente?
- Existem indicadores que sinalizam a necessidade de uma atualização iminente?

#### 1.1.1.6 Volume de requisições
Avaliar quantas solicitações o modelo receberá. Isso influenciará a infraestrutura necessária e o design do sistema.

- Qual é o volume esperado de requisições diárias/semanais/mensais?
- Haverá picos de demanda em momentos específicos?
- Como o sistema se comportará sob carga máxima?
- Existe uma estratégia de escalabilidade em resposta ao aumento da demanda?
- Qual é o plano de contingência para falhas ou interrupções?

#### 1.1.1.7 Disponibilidade de dados
Garantir que você tenha acesso aos dados necessários e que eles sejam de alta qualidade e relevantes para o problema.
Avaliar a necessidade de coletar mais dados ou melhorar os dados existentes.

- Quais são as fontes primárias dos dados?
- Os dados disponíveis são representativos e de alta qualidade?
- Existem lacunas ou vieses nos dados existentes?
- Quão difícil é adquirir ou acessar novos dados se necessário?
- Quais são as implicações legais e éticas da coleta e uso desses dados?

#### 1.1.1.8 Ambiente operacional
Onde e como o modelo será implantado? Em um servidor na nuvem, no local, em um dispositivo móvel?
As condições do ambiente, como conectividade e capacidade de computação, podem influenciar o design do modelo.

- Em que plataformas ou dispositivos o modelo precisa operar?
- Existem restrições de hardware ou software no ambiente de destino?
- Como os dados são transferidos e processados no ambiente operacional?
- Existem requisitos de segurança ou privacidade a serem considerados?
- Quão robusto o ambiente precisa ser em termos de uptime e resiliência?

#### 1.1.1.9 Responsáveis pelo projeto
Identificar quem são as partes interessadas e quem será responsável por diferentes aspectos do projeto, desde a coleta de dados até a implementação.

- Quem são as partes interessadas chave e qual é o seu papel?
- Existem especialistas ou stakeholders que devem ser consultados regularmente?
- Como a comunicação será gerenciada entre equipes técnicas e não técnicas?
- Quem tomará decisões críticas durante o projeto?
- Como os responsáveis serão mantidos informados e envolvidos?

#### 1.1.1.10 Impacto no PnL (Profit and Loss)
Avaliar como o projeto impactará financeiramente a organização.
Isso pode incluir benefícios diretos, como aumento de receita, e indiretos, como eficiências operacionais ou melhoria da marca.

- Qual é a expectativa de retorno sobre o investimento (ROI)?
- Como o projeto pode afetar positivamente as receitas ou reduzir os custos?
- Existem riscos financeiros associados ao projeto?
- Há impactos indiretos no PnL, como a satisfação do cliente ou a retenção, que devem ser considerados?
- Como o impacto no PnL será monitorado e reportado?

In [None]:
## 1.2 Modelagem do Problema: Cinto de Utilidades do Cientista de Dados
### 1.2.1 Classificação
### 1.2.2 Regressão
### 1.2.3 Recomendação
### 1.2.4 IA Generativa
### 1.2.5 Otimização Matemática
#### 1.2.5.1 Pesquisa Operacional
##### 1.2.5.1.1 Programação Linear
##### 1.2.5.1.2 Programação Inteira
##### 1.2.5.1.3 Programação Mista
##### 1.2.5.1.4 Programação Não-linear
#### 1.2.5.2 Otimização Combinatória
##### 1.2.5.2.1 Metaheurísticas
##### 1.2.5.2.2 Black Box
### 1.2.6 Análises Estatísticas
### 1.2.7 Grafos

## 1.3 Análise Exploratória de Dados (EDA)
### 1.3.1 Compreendendo a qualidade dos dados
### 1.3.2 Distribuições estatísticas
### 1.3.3 Valores faltantes
### 1.3.4 Tipos de variáveis
### 1.3.5 Cardinalidade
### 1.3.6 Séries temporais
### 1.3.7 Detecção de outliers
### 1.3.8 Número de pontos de dados
### 1.3.9 Número de dimensões