# Introdução à Ciência de Dados

Bem-vindos à primeira aula sobre **Ciência de Dados**! Nesta sessão, exploraremos os fundamentos da Ciência de Dados, entendendo suas definições, conceitos básicos, importância e aplicações em diversas indústrias.

## 1.1 O Que é Ciência de Dados?

### Definição
Ciência de Dados é um campo interdisciplinar que utiliza métodos, processos, algoritmos e sistemas científicos para extrair conhecimento e insights a partir de dados estruturados e não estruturados. Combina técnicas de estatística, matemática, programação e conhecimento do domínio para resolver problemas complexos.

### Conceitos Básicos
- **Dados:** Matéria-prima da ciência de dados, podem ser números, textos, imagens, vídeos, etc.
- **Informação:** Dados processados e organizados de forma que tenham significado.
- **Conhecimento:** Informação interpretada e contextualizada que pode ser utilizada para a tomada de decisões.

## 1.2 Diferenças Entre Ciência de Dados, Estatística e Business Intelligence

### Ciência de Dados vs. Estatística
- **Estatística:**
  - Foco em análise de dados, inferência e interpretação de resultados.
  - Utiliza métodos matemáticos para descrever e inferir propriedades de populações a partir de amostras.
- **Ciência de Dados:**
  - Mais abrangente, incluindo coleta, limpeza, análise, visualização e interpretação de dados.
  - Incorpora técnicas de aprendizado de máquina e inteligência artificial para previsões e decisões automatizadas.

### Ciência de Dados vs. Business Intelligence (BI)
- **Business Intelligence:**
  - Foco em análise descritiva para entender o que aconteceu no passado.
  - Utiliza ferramentas de relatório, dashboards e consultas para monitorar KPIs (Indicadores-Chave de Desempenho).
- **Ciência de Dados:**
  - Foco em análise preditiva e prescritiva para prever o que pode acontecer e recomendar ações.
  - Utiliza algoritmos de machine learning e modelagem estatística para insights mais profundos e complexos.

## 1.3 Importância da Ciência de Dados

### Tomada de Decisões Baseada em Dados
Permite que organizações tomem decisões informadas e estratégicas, reduzindo a dependência de intuições ou suposições.

### Competitividade no Mercado
Empresas que utilizam ciência de dados de forma eficaz conseguem identificar oportunidades de mercado, otimizar operações e personalizar experiências para os clientes.

### Inovação e Desenvolvimento
Fomenta a inovação ao identificar novas tendências, padrões e relações nos dados que podem levar ao desenvolvimento de novos produtos e serviços.

## 1.4 Aplicações da Ciência de Dados em Diversas Indústrias

### Saúde
- **Diagnóstico Precoce:** Utilização de modelos preditivos para identificar doenças antes que os sintomas apareçam.
- **Medicina Personalizada:** Desenvolvimento de tratamentos personalizados com base no perfil genético do paciente.

### Finanças
- **Detecção de Fraudes:** Identificação de transações suspeitas em tempo real.
- **Gestão de Riscos:** Avaliação de riscos de crédito e investimentos com maior precisão.

### Tecnologia
- **Recomendações Personalizadas:** Sistemas de recomendação em plataformas como Netflix e Amazon.
- **Análise de Sentimento:** Monitoramento e análise de opiniões de usuários em redes sociais e avaliações de produtos.

### Varejo
- **Gestão de Estoque:** Previsão de demanda para otimizar níveis de estoque.
- **Marketing Direcionado:** Segmentação de clientes para campanhas de marketing mais eficazes.

### Manufatura
- **Manutenção Preditiva:** Previsão de falhas em máquinas para realizar manutenções preventivas.
- **Otimização de Processos:** Análise de dados de produção para melhorar a eficiência e reduzir custos.

### Transportes e Logística
- **Roteirização Otimizada:** Planejamento de rotas mais eficientes para reduzir tempo e custos.
- **Gestão de Frotas:** Monitoramento em tempo real para melhorar a utilização e manutenção dos veículos.

## 1.5 Exemplos de Projetos de Ciência de Dados

### Projeto 1: Previsão de Vendas
- **Objetivo:** Prever as vendas futuras de um produto.
- **Dados Utilizados:** Histórico de vendas, dados de marketing, sazonalidade, etc.
- **Métodos:** Regressão linear, séries temporais.

### Projeto 2: Análise de Sentimento em Redes Sociais
- **Objetivo:** Entender a percepção dos consumidores sobre uma marca.
- **Dados Utilizados:** Postagens e comentários em redes sociais.
- **Métodos:** Processamento de Linguagem Natural (NLP), análise de sentimento.

### Projeto 3: Detecção de Anomalias em Transações Financeiras
- **Objetivo:** Identificar transações fraudulentas.
- **Dados Utilizados:** Histórico de transações, padrões de comportamento.
- **Métodos:** Algoritmos de detecção de anomalias, aprendizado supervisionado.

## 1.6 Desafios na Ciência de Dados

### Qualidade dos Dados
Dados incompletos, inconsistentes ou incorretos podem comprometer a análise e os resultados.

### Privacidade e Segurança
Garantir a proteção dos dados sensíveis e cumprir regulamentações como a LGPD (Lei Geral de Proteção de Dados).

### Interpretação dos Resultados
Transformar insights em ações práticas requer uma compreensão profunda do contexto e do domínio de aplicação.

### Escalabilidade
Gerenciar e processar grandes volumes de dados de forma eficiente.

## Referências e Recursos Adicionais

- **Livros:**
  - *“Data Science for Business”* de Foster Provost e Tom Fawcett.
  - *“Python for Data Analysis”* de Wes McKinney.
  
- **Comunidades:**
  - [Kaggle](https://www.kaggle.com/)

---

**Dica para os Estudantes:** Pense na ciência de dados como uma ponte entre dados brutos e decisões estratégicas. Ao longo deste curso, você desenvolverá as habilidades necessárias para construir essa ponte de forma eficaz e impactante.

# Ciclo de Vida de um Projeto de Ciência de Dados

O ciclo de vida de um projeto de Ciência de Dados abrange todas as etapas necessárias para transformar dados brutos em insights valiosos. A seguir, são descritas as principais fases desse ciclo.

## 1. Entendimento do Problema
- **Identificação do Problema:** Compreender claramente o que precisa ser resolvido.
- **Definição dos Objetivos:** Estabelecer metas específicas e mensuráveis.
- **Envolvimento das Partes Interessadas:** Colaborar com stakeholders para alinhar expectativas e requisitos.

## 2. Coleta de Dados
- **Fontes de Dados:** Identificar fontes internas e externas, como bancos de dados, APIs, arquivos CSV, etc.
- **Métodos de Coleta:** Utilizar técnicas como scraping, consultas a bancos de dados, integração de APIs.
- **Considerações Éticas:** Garantir a privacidade dos dados, obter consentimento quando necessário e cumprir regulamentações como a LGPD.

## 3. Limpeza e Pré-processamento de Dados
- **Tratamento de Dados Faltantes:** Identificar e lidar com valores ausentes através de imputação ou remoção.
- **Correção de Inconsistências:** Padronizar formatos, corrigir erros e eliminar duplicatas.
- **Normalização:** Escalar os dados para um intervalo comum, facilitando a modelagem.

## 4. Análise Exploratória de Dados (EDA)
- **Visualização de Dados:** Utilizar gráficos e plots para identificar padrões e tendências.
- **Estatísticas Descritivas:** Calcular métricas como média, mediana, variância para resumir os dados.
- **Identificação de Outliers:** Detectar e analisar valores atípicos que podem influenciar a modelagem.

## 5. Modelagem e Algoritmos
- **Seleção de Algoritmos:** Escolher algoritmos de machine learning adequados ao problema (e.g., regressão, classificação, clustering).
- **Treinamento do Modelo:** Utilizar dados de treinamento para ajustar os parâmetros do modelo.
- **Ajuste de Hiperparâmetros:** Otimizar os parâmetros do modelo para melhorar a performance.

## 6. Avaliação e Validação de Modelos
- **Métricas de Performance:** Utilizar métricas como acurácia, precisão, recall, F1-score para avaliar o modelo.
- **Validação Cruzada:** Dividir os dados em conjuntos de treino e teste múltiplas vezes para garantir a robustez do modelo.
- **Teste em Dados Não Vistos:** Avaliar a capacidade do modelo de generalizar para novos dados.

## 7. Implementação e Deploy
- **Integração com Sistemas Existentes:** Garantir que o modelo possa ser utilizado pelas aplicações em produção.
- **Automatização de Processos:** Implementar pipelines para automatizar a coleta, pré-processamento e inferência de dados.
- **Monitoramento:** Acompanhar a performance do modelo em tempo real para identificar possíveis degradações.

## 8. Manutenção e Atualização
- **Monitoramento Contínuo:** Verificar constantemente a performance do modelo e a qualidade dos dados.
- **Atualização de Modelos:** Re-treinar o modelo com novos dados para manter sua relevância e precisão.
- **Documentação e Gestão de Versionamento:** Manter registros detalhados das alterações e versões dos modelos para facilitar futuras manutenções.

---


## 1. Importação das Bibliotecas Necessárias

Vamos começar importando as bibliotecas essenciais para manipulação e visualização de dados.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configurações de visualização
%matplotlib inline
sns.set(style="whitegrid")


## 2. Carregamento dos Dados

Utilizaremos o conjunto de dados de **Qualidade do Vinho** disponível no [UCI Machine Learning Repository](https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv).


In [None]:
# URL do dataset de qualidade do vinho
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv'

# Carregando o dataset com separador ';'
df = pd.read_csv(url, sep=';')

# Exibindo as primeiras 5 linhas do dataset
df.head()


## 3. Exploração Inicial dos Dados

Vamos entender a estrutura e as características básicas do nosso conjunto de dados.


In [None]:
# Informações gerais do dataset
df.info()


In [None]:
# Estatísticas descritivas
df.describe()


## 4. Introdução de Valores Faltantes Artificialmente para Demonstração

Para fins educacionais, vamos introduzir alguns valores faltantes nas colunas `alcohol` e `sulphates`.

O que são Dados Faltantes?

Dados faltantes referem-se a ausências ou lacunas em um conjunto de dados onde um valor esperado está ausente. Isso pode ocorrer por diversos motivos, como erros de coleta, falhas no armazenamento de dados, respostas omitidas em pesquisas, entre outros.
Tipos de Dados Faltantes

* MCAR (Missing Completely at Random):
   - Definição: Os dados faltantes ocorrem completamente ao acaso, sem qualquer relação com outras variáveis ou com os próprios valores ausentes.
   - Exemplo: Um sensor falha aleatoriamente e não há padrão nos dados ausentes.

* MAR (Missing at Random):
   - Definição: A probabilidade de um dado estar faltando está relacionada a outras variáveis observadas no dataset, mas não ao próprio valor ausente.
   - Exemplo: Em uma pesquisa, a falta de resposta sobre renda pode estar relacionada à idade, mas não diretamente ao valor da renda.

* MNAR (Missing Not at Random):
   - Definição: A probabilidade de um dado estar faltando está relacionada ao próprio valor que está faltando.
   - Exemplo: Pessoas com renda muito alta ou muito baixa podem ter maior probabilidade de não declarar sua renda.

Impacto dos Dados Faltantes

- Análise e Modelagem: Dados faltantes podem levar a análises enviesadas ou imprecisas, afetando a qualidade dos modelos preditivos.
- Redução de Tamanho do Dataset: A exclusão de registros com dados faltantes pode reduzir significativamente o tamanho do conjunto de dados, prejudicando a representatividade.
- Interpretação Errônea: A presença de dados faltantes pode distorcer métricas estatísticas e visualizações, levando a interpretações equivocadas.

In [None]:
# Definindo uma semente para reprodutibilidade
np.random.seed(42)

# Introduzindo 5% de valores faltantes em 'alcohol' e 'sulphates'
for col in ['alcohol', 'sulphates']:
    df.loc[df.sample(frac=0.05).index, col] = np.nan

# Verificando a presença de valores faltantes após introdução
df.isnull().sum()


## 5. Visualização de Valores Faltantes

Vamos visualizar onde estão os valores faltantes utilizando um mapa de calor.


In [None]:
plt.figure(figsize=(10,6))
sns.heatmap(df.isnull(), cbar=False, cmap='viridis')
plt.title("Mapa de Valores Faltantes")
plt.show()


Interpretação do Mapa de Valores Faltantes:

* Linhas: Representam os registros (vinhos) no dataset.
* Colunas: Representam as variáveis (features) do dataset.
* Cores: Indicam a presença (ou ausência) de valores faltantes. Geralmente, uma cor específica (como amarelo) indica valores ausentes.

## 6. Tratamento de Valores Faltantes

Optaremos por imputar os valores faltantes com a média das respectivas colunas.


In [None]:
# Imputação com a média para as colunas 'alcohol' e 'sulphates'
for col in ['alcohol', 'sulphates']:
    mean_value = df[col].mean()
    df[col].fillna(mean_value, inplace=True)
    print(f"Valores faltantes em '{col}' preenchidos com a média: {mean_value:.2f}")


In [None]:
# Verificando novamente valores faltantes após imputação
df.isnull().sum()


## 7. Engenharia de Features

Vamos criar novas variáveis que podem ser úteis para análises futuras.


In [None]:
# Exemplo 1: Criar uma feature categórica baseada no teor alcoólico
def alcohol_level(alcohol):
    if alcohol < 10:
        return 'baixo'
    elif 10 <= alcohol <= 12:
        return 'médio'
    else:
        return 'alto'

df['alcohol_level'] = df['alcohol'].apply(alcohol_level)


In [None]:
# Exemplo 2: Criar uma feature que combina ácidos fixos e voláteis
df['acidity_total'] = df['fixed acidity'] + df['volatile acidity']


In [None]:
# Exemplo 3: Criar uma feature de densidade categórica
def density_category(density):
    if density < 0.99:
        return 'leve'
    elif 0.99 <= density <= 1.01:
        return 'médio'
    else:
        return 'pesada'

df['density_category'] = df['density'].apply(density_category)


## 8. Visualização das Novas Features

Vamos visualizar as distribuições e relações das novas features criadas.


In [None]:
# Distribuição dos níveis de álcool
plt.figure(figsize=(8,5))
sns.countplot(x='alcohol_level', data=df, palette='pastel')
plt.title("Distribuição dos Níveis de Álcool")
plt.xlabel("Nível de Álcool")
plt.ylabel("Contagem")
plt.show()


In [None]:
# Relação entre acidez total e qualidade do vinho
plt.figure(figsize=(10,6))
sns.scatterplot(x='acidity_total', y='quality', data=df, hue='alcohol_level', palette='deep')
plt.title("Relação entre Acidez Total e Qualidade do Vinho")
plt.xlabel("Acidez Total (fixed + volatile)")
plt.ylabel("Qualidade")
plt.show()


## 9. Visualização Final dos Dados Processados

Vamos observar as primeiras linhas do dataset após as transformações realizadas.


In [None]:
# Primeiras 5 linhas do dataset após engenharia de features
df.head()


In [None]:
# Informações gerais do dataset após processamento
df.info()


## Considerações Finais

Neste exemplo, abordamos várias etapas fundamentais da Ciência de Dados:

- **Carregamento e Exploração de Dados:** Entendimento da estrutura e características do dataset.
- **Tratamento de Valores Faltantes:** Identificação e imputação de dados ausentes.
- **Engenharia de Features:** Criação de novas variáveis para enriquecer a análise.
- **Visualização de Dados:** Utilização de gráficos para melhor compreensão das relações e distribuições.

Essas etapas são essenciais para preparar os dados antes de aplicar modelos de Machine Learning ou realizar análises mais aprofundadas.


---
# **Exercícios Propostos**

## **1. Tratamento de Valores Faltantes com Diferentes Estratégias**

**Objetivo:** Explorar diferentes métodos de imputação de valores faltantes e avaliar seus impactos nos dados.

**Instruções:**
- **a.** Identifique quais colunas possuem valores faltantes no dataset.
- **b.** Além da imputação com a média, implemente outras estratégias para preencher os valores faltantes, como:
  - **Mediana:** Substituir os valores faltantes pela mediana da coluna.
  - **Moda:** Para colunas categóricas, substituir pelos valores mais frequentes.
  - **Interpolação:** Utilizar métodos de interpolação para preencher os valores faltantes.
- **c.** Compare os resultados das diferentes estratégias aplicadas. Quais métodos preservam melhor a distribuição original dos dados?
- **d.** Discuta as vantagens e desvantagens de cada método de imputação utilizado.

**Dica:** Utilize as funções `median()`, `mode()` e `interpolate()` do Pandas para realizar as imputações.

---

## **2. Criação de Novas Features**

**Objetivo:** Desenvolver habilidades em engenharia de features para enriquecer o dataset com informações adicionais.

**Instruções:**
- **a.** Crie uma nova feature que categorize a qualidade do vinho em "Baixa", "Média" e "Alta" com base na coluna `quality`. Defina os intervalos de classificação conforme achar apropriado.
- **b.** Crie uma feature que calcule a relação entre `residual sugar` e `fixed acidity`. Por exemplo, uma razão que indique o equilíbrio entre açúcar residual e acidez fixa.
- **c.** Utilize a técnica de **One-Hot Encoding** para transformar a feature categórica `alcohol_level` em variáveis dummy.
- **d.** Explique como as novas features podem contribuir para futuras análises ou modelos preditivos.

**Dica:** Utilize métodos como `apply()`, `cut()` e `get_dummies()` do Pandas para criar e transformar as features.

---

## **3. Análise Exploratória de Dados Adicional**

**Objetivo:** Desenvolver a capacidade de explorar e interpretar dados através de visualizações e estatísticas.

**Instruções:**
- **a.** Crie um gráfico de **Boxplot** para visualizar a distribuição da acidez fixa (`fixed acidity`) em relação à qualidade do vinho.
- **b.** Calcule a **Correlação** entre todas as variáveis numéricas do dataset e identifique quais têm maior correlação com a qualidade do vinho.
- **c.** Utilize um **Heatmap** para visualizar a matriz de correlação e destacar as relações mais significativas.
- **d.** Discuta quais variáveis parecem ter mais influência na qualidade do vinho com base nas análises realizadas.

**Dica:** Utilize as funções `boxplot()`, `corr()` e `heatmap()` do Seaborn para realizar essas análises.

---

## **4. Filtragem e Segmentação de Dados**

**Objetivo:** Praticar a filtragem e segmentação de dados para análises específicas.

**Instruções:**
- **a.** Filtre o dataset para incluir apenas vinhos com `quality` igual ou superior a 7. Quantos vinhos atendem a esse critério?
- **b.** Dentro desse subconjunto, analise a distribuição das diferentes categorias de `alcohol_level`.
- **c.** Compare as características médias (`mean`) das principais variáveis entre vinhos de alta qualidade e os demais.
- **d.** Discuta possíveis razões pelas quais certas características podem estar associadas a vinhos de maior qualidade.

**Dica:** Utilize a função `loc[]` do Pandas para filtrar os dados e `groupby()` para agrupar e analisar as estatísticas.

---

## **5. Reflexão e Discussão**

**Objetivo:** Estimular o pensamento crítico sobre as etapas realizadas e suas implicações.

**Instruções:**
- **a.** Quais desafios você encontrou ao tratar os valores faltantes e como os superou?
- **b.** De que forma a criação de novas features pode impactar a performance de modelos futuros?
- **c.** Como a visualização de dados auxilia na compreensão e comunicação dos insights obtidos?
- **d.** Quais outras técnicas de engenharia de features ou análise exploratória você considera importantes para aprofundar neste projeto?

---