# 📊 **Introdução à Ciência de Dados**

Este notebook tem como objetivo apresentar um fluxo completo de um projeto de **Ciência de Dados**: desde a **aquisição de dados não estruturados**, passando pela **limpeza** e **pré-processamento**, até as **análises exploratórias**.



# 🧰 **Importação de Bibliotecas**

Abaixo estão as bibliotecas essenciais utilizadas neste projeto, com seus respectivos links para documentação oficial:

- 📦 [**Pandas**](https://pandas.pydata.org/): Manipulação e análise de dados estruturados.
- 📐 [**NumPy**](https://numpy.org/): Suporte para arrays e operações matemáticas de alto desempenho.
- 📊 [**Matplotlib**](https://matplotlib.org/): Biblioteca para visualização de dados por meio de gráficos estáticos.
- ♋ [**Seaborn**](https://seaborn.pydata.org/): Interface de alto nível para visualizações estatísticas mais sofisticadas.

```python
# 📥 Importação das bibliotecas
import pandas as pd        
import numpy as np         
import matplotlib.pyplot as plt 
import seaborn as sns      

# 🎨 Configurações de estilo para os gráficos
sns.set_style('whitegrid')              # Define o estilo dos gráficos
plt.rcParams['figure.figsize'] = (10, 6)  # Define o tamanho padrão das figuras


In [1]:
# 📥 Importação das bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 🎨 Configurações de estilo para os gráficos
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (10, 6)

ModuleNotFoundError: No module named 'seaborn'

2. Aquisição do Dataset# 📥 **Aquisição do Dataset**

Para este exercício, utilizaremos o **Titanic Dataset**, disponível publicamente, que contém informações detalhadas sobre os passageiros do navio **Titanic**.

Este conjunto de dados inclui:
- Informações demográficas e socioeconômicas dos passageiros
- Dados sobre sobrevivência
- Variáveis categóricas e numéricas
- ❗️ **Valores faltantes** e **colunas que requerem tratamento**

🔗 Você pode acessar o dataset original aqui:  
[📄 Titanic Dataset – Kaggle](https://www.kaggle.com/c/titanic/data)


  Para este exercício, utilizaremos o Titanic Dataset, disponível publicamente, que contém informações sobre passageiros do navio Titanic. O arquivo possui valores faltantes e colunas que requerem tratamento.

In [None]:
url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'

df = pd.read_csv(url)

In [None]:
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


# 🔍 **3. Exploração Inicial dos Dados**

Antes de iniciar qualquer modelagem ou tratamento, é fundamental **entender o conjunto de dados disponível**. Essa etapa é conhecida como **análise exploratória dos dados**

Durante essa fase, buscamos responder perguntas como:

- Quais tipos de variáveis estão presentes?
- Existem valores faltantes ou inconsistentes?
- Qual a distribuição dos dados?
- Há padrões ou comportamentos interessantes?
- Que colunas aparentam ser mais relevantes ou problemáticas?
---

❓ **Questão** **3.1**
Explore o DataFrame da maneira que achar mais adequada.

✍️ **Dica:** registre suas observações e justificativas com comentários no código. Isso é uma boa prática em projetos reais.

# 🧹 **4. Limpeza de Dados**

Após entender melhor os dados na etapa de exploração, é hora de prepará-los para análises mais profundas. Essa etapa é chamada de **limpeza de dados**.

O objetivo aqui é **remover ruídos**, **corrigir inconsistências** e **transformar os dados brutos em uma versão mais utilizável**.

Durante esse processo, normalmente são aplicadas técnicas como:

- ✂️ **Remoção de colunas irrelevantes**
- ❓ **Tratamento de valores ausentes**
- 🔄 **Conversão de variáveis categóricas em numéricas**

---

🧠 **Agora é com você!**  
Questão 4.1
Com base na sua análise anterior, realize a limpeza do dataset conforme seu julgamento.

# 📈 **5. Análise Exploratória de Dados (EDA)**

A **Análise Exploratória de Dados (EDA)** é uma etapa fundamental para entender **tendências**, **padrões**, **correlações** e **possíveis outliers** dentro do dataset.

Através de **visualizações gráficas** e **estatísticas descritivas**, conseguimos:

- Identificar relações entre variáveis
- Detectar desequilíbrios nos dados (ex: classes desbalanceadas)
- Observar distribuições e comportamentos fora do esperado
- Explorar possíveis variáveis preditivas

---

🎯 **Questão 5.1**  
Utilize diferentes tipos de gráficos para visualizar melhor as características do seu dataset. Aqui estão algumas sugestões que você pode considerar:

- 📊 **Histogramas**: para ver a distribuição de variáveis numéricas como `Age` ou `Fare`
- 🧮 **Gráficos de contagem (countplot)**: úteis para variáveis categóricas como `Sex`, `Embarked` ou `Pclass`
- 🧩 **Gráficos de dispersão (scatterplot)**: para relacionar duas variáveis numéricas
- 🧼 **Boxplots**: ajudam a identificar outliers
- 🔗 **Mapas de calor (heatmap)**: úteis para visualizar correlações entre variáveis numéricas
---

**Exemplo simples**
: Gráfico com a distribuição entre homens e mulheres no navio

💡 Dica: Use `seaborn` e `matplotlib` para gerar gráficos informativos e esteticamente agradáveis.

✍️ **Explique com comentários** as ideias que você teve com base nos gráficos gerados.



# 🎨 **Bibliotecas de Visualização**

Para a análise gráfica dos dados, utilizaremos duas bibliotecas muito populares no ecossistema Python:

- 📊 [**Matplotlib**](https://matplotlib.org/stable/contents.html):  

- ♑ [**Seaborn**](https://seaborn.pydata.org/):


# 🎯 **Desafios de Programação Propostos**

Aqui estão alguns desafios para você praticar suas habilidades em análise de dados com o dataset Titanic.

**Você será incentivado a explorar e criar diferentes features a partir dos dados originais. Reflita sobre o significado e o peso dessas transformações, considerando como elas podem influenciar suas análises e interpretações.**

---

### 🧩 Combinação e Transformação de Variáveis

Pense em como combinar ou transformar as informações disponíveis para criar novas variáveis que possam revelar padrões interessantes nos dados.

---

### 📊 Análise por Agrupamentos

Explore agrupamentos que façam sentido dentro do contexto do dataset e avalie estatísticas relevantes para esses grupos.

---

### 👥 Segmentações com Múltiplas Dimensões

Considere múltiplas dimensões para segmentar os dados e observe como diferentes características variam entre esses segmentos.

---

### 🔎 Identificação de Outliers

Identifique possíveis valores atípicos em variáveis numéricas e reflita sobre como eles podem afetar suas análises.

---

### 🚶 Criação de Indicadores Personalizados

Crie indicadores que ajudem a classificar os passageiros segundo aspectos relevantes da viagem ou perfil pessoal.

---

### ⚖️ Comparações com Novas Features

Utilize as variáveis que criou para comparar grupos distintos e analisar diferenças importantes, extraindo insights significativos.

---

Boa prática! 🚀  
Comente seu código, explique suas decisões e reflita sempre sobre o impacto das features que você criou no entendimento dos dados.
