Este repositório contém as soluções dos exercícios práticos realizados para a disciplina de Introdução à Ciência de Dados. A atividade consistiu na exploração, manipulação, cálculo de métricas e visualização de dados utilizando o famoso conjunto de dados do Titanic, aplicando a biblioteca Pandas, NumPy, Matplotlib e Seaborn.
- Python 3
- Pandas: Para manipulação, filtragem e agregação dos dados.
- NumPy: Para operações matemáticas e lógicas condicionais.
- Matplotlib & Seaborn: Para a criação de gráficos estatísticos e visualizações de dados.
- Abordagem: Utilização do método
len(df)oudf.shape[0]para contar o número total de linhas do DataFrame, já que cada linha representa um passageiro único.
- Abordagem: Uso do método
.unique()na coluna de embarque (embarked/embark_town) para listar todas as origens dos passageiros sem repetições (Cherbourg, Queenstown, Southampton).
- Abordagem: Aplicação do método
.sum()na colunafarepara consolidar o valor total arrecadado com a venda de bilhetes.
- Abordagem: Criação de um novo sub-dataset utilizando o método
.nlargest(20, 'age')para isolar e ordenar os registros de maior idade.
- Abordagem: Adicionada uma nova coluna calculada utilizando
np.where(). A regra aplicou uma indenização de 900 vezes o valor da passagem (fare * 900) apenas para passageiros sobreviventes (survived == 1), atribuindo0para os demais.
- Abordagem: Utilização do agrupamento
.groupby('pclass')['age'].mean()para analisar a distribuição etária média entre a 1ª, 2ª e 3ª classes do navio.
- Abordagem: Identificação e soma de registros nulos na coluna de idade através da combinação
.isnull().sum().
- Abordagem: Discussão e lógica de criação da coluna
percentual_vidarelacionando a idade atual (age) com o teto de idade máxima do grupo ou expectativas de vida estimadas.
O projeto inclui os seguintes gráficos para análise exploratória:
- Histograma de Idades: Distribuição agregada da idade dos passageiros dividida em exatamente 8 grupos (bins), com o título "Distribuição das idades dos passageiros".
- Gráfico de Barras (Sobreviventes por Sexo): Comparativo do volume de sobreviventes colocando o gênero no eixo X.
- Gráfico de Barras (Passageiros por Cidade): Contagem absoluta de passageiros que embarcaram em cada uma das três cidades portuárias.
- Boxplot da Variável
fare: Gráfico de caixa para analisar a dispersão, mediana, quartis e a presença de outliers (valores discrepantes) no preço das passagens.