# Tudo sobre Ciência de Dados

### O que é Ciência de Dados

- Ciência de Dados é uma área que combina técnicas de matemática, estatística, computação, aprendizado de máquina e conhecimento de domínio (contexto da aplicação) para extrair insights (informações valiosas), proporcionando conhecimento sobre os dados.

- Ela envolve todo o processo de trabalho com dados: desde a coleta, organização e tratamento, até a análise e interpretação dos resultados, tendo como objetivo apoiar a tomada de decisões, descobrir padrões ocultos e prever comportamentos futuros.

- Podemos usar um exemplo: os dados são como o petróleo — sozinhos, não têm valor algum. Porém, quando refinados (utilizando técnicas da Ciência de Dados), transformam-se em um produto extremamente valioso.

### Os 3 pilares da Ciência de Dados

![3 Pilares](imagens/1.%203_pilares.png)

- **Tecnologia**
    - Refere-se ao uso de linguagens de programação (principalmente Python e R), ferramentas computacionais e ambientes de desenvolvimento. É por meio da tecnologia que todo o conhecimento teórico é colocado em prática, permitindo a coleta, armazenamento, manipulação e modelagem dos dados em problemas reais.
- **Negócio**
    - Envolve o conhecimento de domínio, ou seja, entender profundamente o contexto da área onde o problema está inserido (como finanças, saúde e logística). Esse pilar é essencial para interpretar os dados de forma correta, identificar oportunidades e aplicar soluções que façam sentido para os objetivos estratéticos da organização.
- **Matemática**
    - Compreende o uso de conceitos estatísticos, álgebra linear, cálculo e outras áreas matemáticas para entender padrões, fazer inferências e desenvolver modelos analíticos. Esses fundamentos ajudam a garantir maior precisão nas análises e nas previsões.

### Pirâmide dos Dados

![Pirâmide dos Dados](imagens/2.%20piramide.png)

A pirâmide representa a transformação dos dados em inteligência de negócios. Dados brutos, que muitas vezes estão apenas em planilhas ou documentos, por si só não têm valor estratégico. O diferencial está em como esses dados são organizados, analisados e interpretados para gerar conhecimento e embasar decisões que trazem vantagem competitiva.

- **Dados**
    - Dados são registros brutos de eventos passados, onde isoladamente, não possuem significado algum - podem ser números, palavras ou sinais, sem contexto ou interpretação.
- **Informações**
    - A informação surge quando os dados são processados, organizados ou contextualizados. Ela permite responder perguntas como "quem?", "quando?" ou "onde?", trazendo um pouco mais de compreensão.
- **Conhecimento**
    - O conhecimento é gerado a partir da análise e interpretação das informações. É quando conseguimos entender o "porquê" das coisas, extraindo significado, padrões e relações entre os dados.
- **Decisão**
    - A decisão representa o nível mais alto da pirâmide. Aqui, o conhecimento é aplicado de forma estratégica, orientando ações que podem gerar vantagem competitiva, melhorias operacionais ou inovação.

### Tipos de Dados

![Tipos de Dados](imagens/3.%20tipos_dados.png)

- **Dados Estruturados**
    - São dados organizados em um formato padronizado, como tabelas ou planilhas, que facilitam a análise e o processamento.
    - Exemplos: registros de vendas, cadastros de clientes e informações armazenadas em bancos de dados relacionais.
- **Dados Semiestruturados**
    - Possuem alguma organização, mas não seguem o mesmo nível de rigidez dos dados estruturados. Eles não estão armazenados em bancos relacionais, mas ainda contêm marcadores ou tags que facilitam a identificação das informações.
    - Exemplos: arquivos XML, JSON, logs de sistemas e alguns tipos de e-mails.
- **Dados Não Estruturados**
    - São dados que não possuem nenhuma estrutura predefinida, o que dificulta sua organização e análise automatizada.
    - Exemplos: textos livres de e-mails, postagens em redes sociais, imagens, áudios, vídeos e transcrições de chamadas de atendimento ao cliente.

### Big Data

### Principais Problemas com Dados

A qualidade dos dados é um fator crucial para garantir resultados confiáveis em projetos de Big Data. Dados inconsistentes, incompletos, duplicados ou desatualizados podem comprometer seriamente a precisão das análises e das decisões baseadas nelas. Por isso, é fundamental que as equipes de Ciência de Dados identifiquem e corrijam esses problemas durante o processo de tratamento dos dados, assegurando um alto padrão de qualidade. Um cientista de dados deve estar sempre atento a essas questões, pois a capacidade de extrair valor dos dados depende diretamente da sua integridade, precisão e consistência.

Diante disso, esses são os principais problemas que um cientista de dados pode enfrentar com dados:

- **Noise (Rúido)**
    - Refere-se à presença de informações irrelevantes dentro do conjunto de dados, que podem dificultar a análise ou levar a interpretações incorretas. Por exemplo, ao coletar dados de vendas para entender os produtos mais vendidos, podem ser incluídas automaticamente informações extras, como taxas de transação ou identificadores internos do sistema, que não são úteis para essa análise específica e apenas atrapalham o foco da investigação.
- **Duplicates (Dados Duplicados)**
    - Ocorrem quando a mesma informação é registrada mais de uma vez, muitas vezes por usuários diferentes ou em momentos distintos. Isso causa redundância e pode levar a interpretações equivocadas dos dados.
- **Wrong Records (Registros Incorretos)**
    - São dados inseridos de forma equivocada, geralmente por erro humano. Podem comprometer diretamente a qualidade da base de dados e prejudicar a análise estatística ou o treinamento de modelos de machine learning.
- **Incorrect Measurements (Medições Incorretas)**
    - Acontecem quando os valores registrados estão errados devido a falhas em sensores, dispositivos de medição ou erros manuais. Por exemplo, um sistema eletrônico que registra o preço de um produto pode gerar medições incorretas caso apresente defeitos.
- **Format Errors (Erros de Formato)**
    - Ocorrências em que os dados são inseridos com formatos inadequados, dificultando o processamento automático. Um exemplo clássico é inserir valores salariais como “2500” ao invés de “2.5” (em milhares), gerando interpretações incorretas.
- **Poor Column Naming (Nomenclatura Inadequada de Colunas)**
    - Refere-se a nomes de colunas pouco informativos ou confusos, o que dificulta a compreensão e reutilização do conjunto de dados. Isso se torna especialmente problemático em equipes colaborativas, onde a clareza na estrutura dos dados é essencial.
- **Missing Values (Valores Ausentes)**
    - São valores esperados em uma ou mais variáveis que não estão disponíveis. Existem diversas estratégias para lidar com esse problema, como a exclusão dos registros incompletos ou a imputação de valores com base em médias, medianas ou modelos preditivos.
- **Outliers (Valores Atípicos)**
    - São observações que se distanciam significativamente dos demais dados, podendo ocorrer por erros de entrada, medições de populações diferentes ou, ainda, por representarem eventos raros. A presença de outliers pode distorcer médias, desvios padrão e comprometer a performance de modelos preditivos.