# Tudo sobre Ciência de Dados

### O que é Ciência de Dados

- Ciência de Dados é uma área que combina técnicas de matemática, estatística, computação, aprendizado de máquina e conhecimento de domínio (contexto da aplicação) para extrair insights (informações valiosas), proporcionando conhecimento sobre os dados.

- Ela envolve todo o processo de trabalho com dados: desde a coleta, organização e tratamento, até a análise e interpretação dos resultados, tendo como objetivo apoiar a tomada de decisões, descobrir padrões ocultos e prever comportamentos futuros.

- Podemos usar um exemplo: os dados são como o petróleo — sozinhos, não têm valor algum. Porém, quando refinados (utilizando técnicas da Ciência de Dados), transformam-se em um produto extremamente valioso.

### Os 3 pilares da Ciência de Dados

![3 Pilares](imagens/1.%203_pilares.png)

- **Tecnologia**
    - Refere-se ao uso de linguagens de programação (principalmente Python e R), ferramentas computacionais e ambientes de desenvolvimento. É por meio da tecnologia que todo o conhecimento teórico é colocado em prática, permitindo a coleta, armazenamento, manipulação e modelagem dos dados em problemas reais.
- **Negócio**
    - Envolve o conhecimento de domínio, ou seja, entender profundamente o contexto da área onde o problema está inserido (como finanças, saúde e logística). Esse pilar é essencial para interpretar os dados de forma correta, identificar oportunidades e aplicar soluções que façam sentido para os objetivos estratéticos da organização.
- **Matemática**
    - Compreende o uso de conceitos estatísticos, álgebra linear, cálculo e outras áreas matemáticas para entender padrões, fazer inferências e desenvolver modelos analíticos. Esses fundamentos ajudam a garantir maior precisão nas análises e nas previsões.

### Estatística

- A Estatística é uma das principais ferramentas da Ciência de Dados, pois permite lidar com a incerteza presente em praticamente todas as decisões do dia a dia. Ao escolher um prato no restaurante sem saber se ele é bom ou ao decidir em qual escola matricular seus filhos, estamos lidando com informações incompletas e é aí que a Estatística se torna essencial.

- Trata-se de um ramo da matemática que envolve a coleta, organização, análise e interpretação de dados numéricos, permitindo realizar inferências com base em probabilidades. Ela é dividida em três áreas principais:

    - **Análise Descritiva / Exploratória dos Dados**
        - Refere-se à coleta, organização e visualização dos dados, permitindo um primeiro entendimento do conjunto de informações.

    - **Probabilidade / Ciência da Incerteza**
        - Usa leis matemáticas para quantificar a incerteza, sendo a base para a tomada de decisões mesmo com dados limitados.
    
    - **Estatística Inferencial**
        - Permite tirar conclusões e realizar previsões a partir de amostras, usando o raciocínio probabilístico.

- A Estatística está presente em diversas situações cotidianas e decisões estratégicas. Por exemplo, ao escolher qual campanha de marketing implementar, a Estatística ajuda a embasar a escolha mais eficiente com base em dados históricos e métricas de desempenho. Para isso, fazer as perguntas certas, como “o quê?”, “quem?”, “onde?” e “como?” é essencial.

### Big Data

- Big Data refere-se ao conjunto de tecnologias, técnicas e práticas utilizadas para lidar com volumes massivos de dados que são gerados a uma velocidade cada vez maior e em formatos variados — os chamados 3 Vs do Big Data: Volume, Velocidade e Variedade. Esses dados podem vir de diversas fontes, como sensores, redes sociais, dispositivos IoT, sistemas corporativos, entre outros. No contexto moderno, empresas e organizações passaram a enxergar os dados como ativos estratégicos e passaram a investir em formas de coletar, armazenar, processar e analisar grandes quantidades de informações em tempo real. O objetivo principal é gerar valor a partir desses dados, seja melhorando operações, antecipando falhas, otimizando recursos ou oferecendo experiências mais personalizadas aos clientes.

- É justamente nesse ponto que a Ciência de Dados entra como ferramenta fundamental: ela transforma esse volume bruto de dados em informações úteis e acionáveis, utilizando métodos estatísticos, algoritmos de aprendizado de máquina e técnicas de visualização. As aplicações de Big Data, como decisões orientadas por dados, automação inteligente e monetização de dados, só se tornam possíveis graças à atuação dos cientistas de dados. São eles que conseguem compreender o problema de negócio, preparar os dados, desenvolver modelos e traduzir os resultados em insights que impactam diretamente os processos estratégicos e operacionais.

### Pirâmide dos Dados

![Pirâmide dos Dados](imagens/2.%20piramide.png)

A pirâmide representa a transformação dos dados em inteligência de negócios. Dados brutos, que muitas vezes estão apenas em planilhas ou documentos, por si só não têm valor estratégico. O diferencial está em como esses dados são organizados, analisados e interpretados para gerar conhecimento e embasar decisões que trazem vantagem competitiva.

- **Dados**
    - Dados são registros brutos de eventos passados, onde isoladamente, não possuem significado algum - podem ser números, palavras ou sinais, sem contexto ou interpretação.

- **Informações**
    - A informação surge quando os dados são processados, organizados ou contextualizados. Ela permite responder perguntas como "quem?", "quando?" ou "onde?", trazendo um pouco mais de compreensão.

- **Conhecimento**
    - O conhecimento é gerado a partir da análise e interpretação das informações. É quando conseguimos entender o "porquê" das coisas, extraindo significado, padrões e relações entre os dados.

- **Decisão**
    - A decisão representa o nível mais alto da pirâmide. Aqui, o conhecimento é aplicado de forma estratégica, orientando ações que podem gerar vantagem competitiva, melhorias operacionais ou inovação.


Um exemplo que ilustra bem toda a pirâmide é o de uma **loja de roupas**:

- Em uma pequena loja de roupas, os **dados** são os registros brutos das vendas: dia, horário, peça vendida, quantidade e valor. Esses elementos, por si só, não dizem muito, mas são fundamentais para qualquer análise. Ao organizar e contextualizar esses dados, transformamos em **informação**, por exemplo, identificar que determinadas vendas ocorreram em finais de semana ou datas comemorativas, como o Dia dos Pais.

- Com base nessas informações, podemos gerar **conhecimento**: ao observar padrões recorrentes, como o aumento nas vendas próximo ao Dia das Mães e dos Pais, a loja começa a entender o comportamento do consumidor. A partir daí, é possível alcançar a inteligência, ou seja, tomar **decisões** estratégicas baseadas nesse conhecimento. Se foi identificado que houve falta de estoque em datas comemorativas, a loja pode se preparar melhor no próximo ano, ajustando o estoque de produtos com alta demanda nesse período.

### Tipos de Estruturas de Dados

![Tipos de Dados](imagens/3.%20tipos_dados.png)

- **Dados Estruturados**
    - São dados organizados em um formato padronizado, como tabelas ou planilhas, que facilitam a análise e o processamento.
    
    - Exemplos: registros de vendas, cadastros de clientes e informações armazenadas em bancos de dados relacionais.

- **Dados Semiestruturados**
    - Possuem alguma organização, mas não seguem o mesmo nível de rigidez dos dados estruturados. Eles não estão armazenados em bancos relacionais, mas ainda contêm marcadores ou tags que facilitam a identificação das informações.

    - Exemplos: arquivos XML, JSON, logs de sistemas e alguns tipos de e-mails.

- **Dados Não Estruturados**
    - São dados que não possuem nenhuma estrutura predefinida, o que dificulta sua organização e análise automatizada.

    - Exemplos: textos livres de e-mails, postagens em redes sociais, imagens, áudios, vídeos e transcrições de chamadas de atendimento ao cliente.

### Principais Problemas com Dados

A qualidade dos dados é um fator crucial para garantir resultados confiáveis em projetos de Big Data. Dados inconsistentes, incompletos, duplicados ou desatualizados podem comprometer seriamente a precisão das análises e das decisões baseadas nelas. Por isso, é fundamental que as equipes de Ciência de Dados identifiquem e corrijam esses problemas durante o processo de tratamento dos dados, assegurando um alto padrão de qualidade. Um cientista de dados deve estar sempre atento a essas questões, pois a capacidade de extrair valor dos dados depende diretamente da sua integridade, precisão e consistência.

Diante disso, esses são os principais problemas que um cientista de dados pode enfrentar com dados:

- **Noise (Rúido)**
    - Refere-se à presença de informações irrelevantes dentro do conjunto de dados, que podem dificultar a análise ou levar a interpretações incorretas. Por exemplo, ao coletar dados de vendas para entender os produtos mais vendidos, podem ser incluídas automaticamente informações extras, como taxas de transação ou identificadores internos do sistema, que não são úteis para essa análise específica e apenas atrapalham o foco da investigação.

- **Duplicates (Dados Duplicados)**
    - Ocorrem quando a mesma informação é registrada mais de uma vez, muitas vezes por usuários diferentes ou em momentos distintos. Isso causa redundância e pode levar a interpretações equivocadas dos dados.

- **Wrong Records (Registros Incorretos)**
    - São dados inseridos de forma equivocada, geralmente por erro humano. Podem comprometer diretamente a qualidade da base de dados e prejudicar a análise estatística ou o treinamento de modelos de machine learning.

- **Incorrect Measurements (Medições Incorretas)**
    - Acontecem quando os valores registrados estão errados devido a falhas em sensores, dispositivos de medição ou erros manuais. Por exemplo, um sistema eletrônico que registra o preço de um produto pode gerar medições incorretas caso apresente defeitos.

- **Format Errors (Erros de Formato)**
    - Ocorrências em que os dados são inseridos com formatos inadequados, dificultando o processamento automático. Um exemplo clássico é inserir valores salariais como “2500” ao invés de “2.5” (em milhares), gerando interpretações incorretas.

- **Poor Column Naming (Nomenclatura Inadequada de Colunas)**
    - Refere-se a nomes de colunas pouco informativos ou confusos, o que dificulta a compreensão e reutilização do conjunto de dados. Isso se torna especialmente problemático em equipes colaborativas, onde a clareza na estrutura dos dados é essencial.

- **Missing Values (Valores Ausentes)**
    - São valores esperados em uma ou mais variáveis que não estão disponíveis. Existem diversas estratégias para lidar com esse problema, como a exclusão dos registros incompletos ou a imputação de valores com base em médias, medianas ou modelos preditivos.
    
- **Outliers (Valores Atípicos)**
    - São observações que se distanciam significativamente dos demais dados, podendo ocorrer por erros de entrada, medições de populações diferentes ou, ainda, por representarem eventos raros. A presença de outliers pode distorcer médias, desvios padrão e comprometer a performance de modelos preditivos.

### Processo CRISP-DM na Prática da Ciência de Dados

O CRISP-DM (Cross Industry Standard Process for Data Mining) é um modelo consagrado para o desenvolvimento de projetos em Ciência de Dados. Ele é estruturado de forma cíclica e iterativa, permitindo o refinamento constante das soluções por meio de seis etapas principais. A representação visual destaca a centralidade dos dados e como cada etapa interage com eles, garantindo que decisões sejam sempre baseadas em evidências.

![CRISP-DM](imagens/4.%20crisp_dm.png)

- **Entendimento do Negócio**
    - O processo começa pela compreensão dos objetivos e necessidades do negócio. É essencial traduzir esses objetivos em problemas de dados concretos. Perguntas como “qual é o comportamento de compra dos clientes?” ou “em quais períodos as vendas aumentam?” ajudam a definir o foco do projeto.

- **Entendimento dos Dados**
    - Com o problema definido, parte-se para o reconhecimento e exploração inicial dos dados disponíveis. Isso envolve identificar as fontes de dados, verificar sua qualidade e entender suas limitações. A etapa também permite descobrir variáveis relevantes e detectar eventuais problemas como dados faltantes ou inconsistentes.
    
- **Preparação dos Dados**
    - Nesta fase, os dados são organizados, tratados e transformados em um formato adequado para a modelagem. Isso pode incluir a normalização de variáveis, preenchimento de valores ausentes, codificação de categorias, entre outras ações. Um bom preparo é fundamental para garantir a qualidade do modelo.

- **Modelagem / Análise**
    - Com os dados limpos, inicia-se a construção de modelos preditivos ou descritivos. A escolha dos algoritmos e das técnicas estatísticas depende dos objetivos definidos e das características dos dados. Também é comum realizar experimentos para identificar o modelo com melhor desempenho.

- **Validação**
    - Aqui, os modelos são avaliados por meio de métricas adequadas (como acurácia, precisão, recall etc.) para verificar se estão cumprindo o objetivo. Caso o desempenho esteja abaixo do esperado, pode ser necessário voltar à preparação dos dados ou até revisar o entendimento inicial.
    
- **Deploy (Implantação)**
    - Com o modelo validado, ele é integrado ao ambiente de produção. Isso pode envolver dashboards, automações ou sistemas de recomendação, por exemplo. Além disso, essa etapa deve prever o monitoramento do modelo e a possibilidade de futuras atualizações, mantendo o ciclo em constante melhoria.

### Diferença entre análise, ciência e engenharia de dados

- **Análise de Dados**
    - A Análise de Dados tem como principal objetivo interpretar dados existentes para identificar padrões e responder a perguntas específicas de negócios. Essa prática foca na compreensão do que aconteceu até o momento, ou seja, analisa o histórico para gerar insights que apoiem a tomada de decisões. O analista de dados trabalha com dados estruturados, buscando relações, tendências e comportamentos com base em registros passados.

    - As habilidades essenciais para essa função incluem conhecimento de estatística, ferramentas de visualização de dados (como Power BI ou Tableau) e uma boa compreensão do contexto de negócio. Suas tarefas envolvem examinar conjuntos de dados, aplicar técnicas estatísticas, criar relatórios e dashboards. Por exemplo, em uma loja de roupas, o analista pode identificar quais categorias de produtos têm maior saída e quais perfis de clientes compram cada tipo, ajudando na definição de estratégias de marketing e estoque.

- **Ciência de Dados**
    - A Ciência de Dados é uma área mais abrangente que engloba a Análise de Dados, mas vai além. O foco está em extrair valor dos dados utilizando modelos matemáticos, estatísticos e técnicas de machine learning para prever comportamentos e antecipar tendências. O cientista de dados precisa entender as análises feitas anteriormente para planejar modelos preditivos coerentes com os objetivos do negócio.

    - Essa área exige habilidades em programação (principalmente Python ou R), estatística avançada, aprendizado de máquina e manipulação de grandes volumes de dados. Entre suas tarefas estão a limpeza e preparação dos dados, desenvolvimento de modelos preditivos e interpretação de resultados complexos. No mesmo exemplo da loja de roupas, o cientista de dados pode criar um modelo para prever quais produtos terão mais saída nas próximas estações, considerando dados históricos de vendas, sazonalidade e até tendências de moda.

- **Engenharia de Dados**
    - A Engenharia de Dados é responsável por criar e manter toda a infraestrutura necessária para que os dados possam ser coletados, armazenados, organizados e acessados de maneira eficiente. É uma área que garante que os dados estejam disponíveis, limpos e estruturados, facilitando o trabalho de analistas e cientistas. O engenheiro de dados cuida do design de bancos de dados, da criação de pipelines de dados (fluxos de entrada e processamento) e da performance dos sistemas de dados.
    
    - Esse profissional precisa dominar bancos de dados (relacionais e não-relacionais), linguagens como SQL e Python, e técnicas de ETL (Extract, Transform, Load). Por exemplo, em uma loja de roupas com filiais em várias cidades, o engenheiro de dados pode projetar um sistema para captar os dados de vendas em tempo real de todas as unidades, garantindo que essas informações cheguem rapidamente e de forma organizada ao time de análise e ciência de dados.