Introdução

O conjunto de dados do Titanic é um dos conjuntos mais populares na análise de dados e ciência de dados. Ele contém informações sobre os passageiros que estavam a bordo do navio RMS Titanic em sua viagem inaugural em 1912, que terminou com o naufrágio do navio. Este conjunto de dados fornece uma visão detalhada das características dos passageiros, incluindo:

PassengerId: Número de identificação do passageiro.
Survived: Indicador de sobrevivência (0 = Não sobreviveu, 1 = Sobreviveu).
Pclass: Classe da passagem (1 = 1ª Classe, 2 = 2ª Classe, 3 = 3ª Classe).
Name: Nome do passageiro.
Sex: Gênero do passageiro (Masculino ou Feminino).
Age: Idade do passageiro.
SibSp: Número de irmãos/cônjuge a bordo.
Parch: Número de pais/filhos a bordo.
Ticket: Número do bilhete.
Fare: Tarifa paga pelo passageiro.
Cabin: Número da cabine.
Embarked: Porto de embarque (C = Cherbourg, Q = Queenstown, S = Southampton).

Esta análise se concentrará na relação entre sexo e idade dos passageiros com suas taxas de sobrevivência, buscando entender os eventos que ocorreram durante essa viagem.

In [1]:
import pandas as pd

def process_data(filename):
    df = pd.read_csv(filename)
    return df 

# Chamar a função para carregar o DataFrame
titanic_df = process_data("titanic.csv")

# Exibir as primeiras 3 linhas do DataFrame
print("Primeiras 3 linhas do DataFrame:")
print(titanic_df.head(3))

Primeiras 3 linhas do DataFrame:
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  


In [2]:
# Deletar colunas que não são relevantes para a análise
titanic_df = titanic_df.drop(['PassengerId','Pclass','Name','SibSp','Parch','Ticket','Fare','Cabin','Embarked'], axis=1)

# Calcular a média da idade dos passageiros
mean_age = titanic_df['Age'].mean()

# Substituindo os valores nulos na coluna 'Age' pela média
titanic_df['Age'].fillna(mean_age, inplace=True)

# Ordenando os valores do DataFrame
titanic_df = titanic_df.sort_values(by=['Sex', 'Age'])

# Apresentar a lista de colunas do DataFrame
columns_list = titanic_df.columns.tolist()
print("Lista de colunas do DataFrame:")
print(columns_list)





Lista de colunas do DataFrame:
['Survived', 'Sex', 'Age']


In [3]:
# Calcule o desvio padrão da coluna 'Age' após a substituição dos valores nulos
std_deviation_age = titanic_df['Age'].std()

print(f'O desvio padrão da idade no Titanic após a substituição dos valores nulos é: {std_deviation_age}')

O desvio padrão da idade no Titanic após a substituição dos valores nulos é: 13.002015226002884


In [3]:
# Cópia do DataFrame final
copied_df = titanic_df.copy()
print("Primeiras 3 linhas da cópia do DataFrame:")
print(copied_df.head(3))


Primeiras 3 linhas da cópia do DataFrame:
     Survived     Sex   Age
469         1  female  0.75
644         1  female  0.75
172         1  female  1.00


In [4]:
# Resetar o índice do DataFrame
titanic_df = titanic_df.reset_index(drop=True)

In [10]:
# Exportando o DataFrame final para um arquivo CSV
titanic_df.to_csv("titanic_processed.csv", index=False)

Conclusão:

A porcentagem de dados nulos na coluna 'Age' é de 20%, os quais foram substituídos pela média da idade dos passageiros. Esse percentual considerável de nulos, pode interferir nos resultados da análise que relaciona a idade com a sobrevivência, apesar da substituição pela média. 
Para obter insights relacionados à idade e sobrevivência, seria útil agrupar os passageiros em faixas etárias e analisar as taxas de sobrevivência em cada grupo etário.
É possível afirmar que a análise relacionada ao gênero é mais precisa.

Insight 1:
Passageiros do sexo feminino têm uma taxa de sobrevivência significativamente maior em comparação com passageiros do sexo masculino. Essa observação sugere que a política de "mulheres e crianças primeiro" foi efetivamente implementada durante o naufrágio do Titanic, priorizando a sobrevivência das mulheres.

Insight 2:
A análise da idade dos passageiros mostra que crianças (idade inferior a 18 anos) tiveram uma taxa de sobrevivência mais alta em comparação com os passageiros adultos. Isso reforça ainda mais a ideia de que a priorização de crianças durante a evacuação pode ter contribuído para a maior taxa de sobrevivência em grupos etários mais jovens.
