Skip to content

nazarin-sw/Atividade_Matplot

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 

Repository files navigation

📊 Atividade: Introdução à Ciência de Dados — Análise do Dataset Titanic

Este repositório contém as soluções dos exercícios práticos realizados para a disciplina de Introdução à Ciência de Dados. A atividade consistiu na exploração, manipulação, cálculo de métricas e visualização de dados utilizando o famoso conjunto de dados do Titanic, aplicando a biblioteca Pandas, NumPy, Matplotlib e Seaborn.

🚀 Tecnologias Utilizadas

  • Python 3
  • Pandas: Para manipulação, filtragem e agregação dos dados.
  • NumPy: Para operações matemáticas e lógicas condicionais.
  • Matplotlib & Seaborn: Para a criação de gráficos estatísticos e visualizações de dados.

📝 Questões Resolvidas

1. Quantidade de Passageiros

  • Abordagem: Utilização do método len(df) ou df.shape[0] para contar o número total de linhas do DataFrame, já que cada linha representa um passageiro único.

2. Cidades de Embarque Únicas

  • Abordagem: Uso do método .unique() na coluna de embarque (embarked / embark_town) para listar todas as origens dos passageiros sem repetições (Cherbourg, Queenstown, Southampton).

3. Receita Total das Passagens

  • Abordagem: Aplicação do método .sum() na coluna fare para consolidar o valor total arrecadado com a venda de bilhetes.

4. Filtragem dos 20 Passageiros Mais Velhos

  • Abordagem: Criação de um novo sub-dataset utilizando o método .nlargest(20, 'age') para isolar e ordenar os registros de maior idade.

5. Cálculo Condicional de Indenização (compensacao)

  • Abordagem: Adicionada uma nova coluna calculada utilizando np.where(). A regra aplicou uma indenização de 900 vezes o valor da passagem (fare * 900) apenas para passageiros sobreviventes (survived == 1), atribuindo 0 para os demais.

6. Idade Média por Classe

  • Abordagem: Utilização do agrupamento .groupby('pclass')['age'].mean() para analisar a distribuição etária média entre a 1ª, 2ª e 3ª classes do navio.

7. Contagem de Dados Faltantes (Nulos)

  • Abordagem: Identificação e soma de registros nulos na coluna de idade através da combinação .isnull().sum().

8. Análise de Percentual de Vida Vivida

  • Abordagem: Discussão e lógica de criação da coluna percentual_vida relacionando a idade atual (age) com o teto de idade máxima do grupo ou expectativas de vida estimadas.

📊 Visualizações de Dados Geradas

O projeto inclui os seguintes gráficos para análise exploratória:

  1. Histograma de Idades: Distribuição agregada da idade dos passageiros dividida em exatamente 8 grupos (bins), com o título "Distribuição das idades dos passageiros".
  2. Gráfico de Barras (Sobreviventes por Sexo): Comparativo do volume de sobreviventes colocando o gênero no eixo X.
  3. Gráfico de Barras (Passageiros por Cidade): Contagem absoluta de passageiros que embarcaram em cada uma das três cidades portuárias.
  4. Boxplot da Variável fare: Gráfico de caixa para analisar a dispersão, mediana, quartis e a presença de outliers (valores discrepantes) no preço das passagens.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors