Cada coluna (feature) no conjunto de dados representa uma caracter√≠stica de cada passageiro a bordo.

PassengerId: Um identificador √∫nico para cada passageiro.

Survived: O principal dado de resultado. Indica se o passageiro sobreviveu (1) ou n√£o (0).

Pclass: A classe do bilhete do passageiro. √â uma vari√°vel categ√≥rica que pode indicar a classe social ou econ√¥mica (1 = Primeira Classe, 2 = Segunda Classe, 3 = Terceira Classe).

Name: O nome completo do passageiro.

Sex: O sexo do passageiro (masculino ou feminino).

Age: A idade do passageiro em anos. Esta coluna √© a principal que cont√©m valores ausentes.

SibSp: O n√∫mero de irm√£os/c√¥njuges a bordo com o passageiro.

Parch: O n√∫mero de pais/filhos a bordo com o passageiro.

Ticket: O n√∫mero do bilhete do passageiro.

Fare: O valor da tarifa paga pelo bilhete.

Cabin: O n√∫mero da cabine do passageiro. Esta coluna cont√©m uma grande quantidade de valores ausentes.

Embarked: O porto de embarque do passageiro. Os portos s√£o identificados por letras: C = Cherbourg, Q = Queenstown, S = Southampton. Esta coluna tamb√©m pode ter valores ausentes.

In [1]:
### üß™ Kit Pr√°tico: Manipula√ß√£o de Dados com Pandas I
# Tema: Explorando Dados do Titanic
# Ferramenta: Google Colab
# Dataset: https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv

import pandas as pd

# Passo 1: Carregar os dados
df_titanic = pd.read_csv("https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv")

pd.set_option('display.max_columns', None)
pd.set_option('display.width', 1000)

# Passo 2: Visualizar as 5 primeiras linhas do dataset
print("\nüîç Primeiras linhas:")
print(df_titanic.head())

# Passo 3: Verificar o nome das colunas e tipos de dados
print("\nüßæ Informa√ß√µes do DataFrame:")
print(df_titanic.info())

# Estat√≠sticas descritivas para colunas num√©ricas
print("\nEstat√≠sticas Descritivas para colunas num√©ricas:")
print(df_titanic.describe())

# Contagem de valores para uma coluna categ√≥rica (por exemplo, 'Survived')
print("\nContagem de sobreviventes (0 = N√£o, 1 = Sim):")
print(df_titanic['Survived'].value_counts())

# Passo 4: Filtrar apenas os passageiros que sobreviveram
sobreviventes = df_titanic[df_titanic['Survived'] == 1]
print("\nüõü Passageiros que sobreviveram:")
print(sobreviventes.head())

# Passo 5: Criar um novo DataFrame com apenas colunas relevantes
resumo = df_titanic[['Name', 'Sex', 'Age', 'Survived']]
print("\nüë§ Resumo com nome, sexo, idade e sobreviv√™ncia:")
print(resumo.head())

# Passo 6: Calcular a m√©dia de idade dos passageiros
media_idade = df_titanic['Age'].mean()
print(f"\nüìä M√©dia de idade dos passageiros: {media_idade:.2f} anos")

# Passo 7: Filtrar passageiros do sexo feminino com menos de 18 anos
meninas = df_titanic[(df_titanic['Sex'] == 'female') & (df_titanic['Age'] < 18)]
print("\nüëß Passageiras com menos de 18 anos:")
print(meninas[['Name', 'Age']])

tickets = df_titanic['Ticket']
print(f"Tickets {tickets}")

# DESAFIO EXTRA:
# Filtrar apenas os passageiros da 1¬™ classe que n√£o sobreviveram
nao_sobrev_classe1 = df_titanic[(df_titanic['Pclass'] == 1) & (df_titanic['Survived'] == 0)]
total_classe1 = df_titanic[df_titanic['Pclass'] == 1].shape[0]

# Calcular a porcentagem desses em rela√ß√£o ao total da 1¬™ classe
num_nao_sobrev_classe1 = nao_sobrev_classe1.shape[0]
porcentagem_nao_sobrev_classe1 = (num_nao_sobrev_classe1 / total_classe1) * 100 if total_classe1 > 0 else 0

print(f"\nüö¢ Passageiros da 1¬™ Classe que N√ÉO sobreviveram: {num_nao_sobrev_classe1}")
print(f"Total de passageiros da 1¬™ Classe: {total_classe1}")
print(f"Percentual de n√£o sobreviventes da 1¬™ Classe: {porcentagem_nao_sobrev_classe1:.2f}%")
print("-" * 40)

# Quantos passageiros eram de cada sexo e de qual porto de embarque ?
contagem_embarque_sexo = pd.crosstab(df_titanic['Embarked'], df_titanic['Sex'])

print("\n‚öì Contagem de Passageiros por Porto de Embarque e Sexo:")
print(contagem_embarque_sexo)
# Portos: C = Cherbourg, Q = Queenstown, S = Southampton
print("-" * 40)

# Qual √© a idade m√©dia dos sobreviventes e dos n√£o sobreviventes?
media_idade_por_sobrevivencia = df_titanic.groupby('Survived')['Age'].mean()

print("\nüß† M√©dia de Idade por Status de Sobreviv√™ncia (0=N√£o, 1=Sim):")
print(f"M√©dia de idade N√£o Sobreviventes (0): {media_idade_por_sobrevivencia[0]:.2f} anos")
print(f"M√©dia de idade Sobreviventes (1): {media_idade_por_sobrevivencia[1]:.2f} anos")
print("-" * 40)



üîç Primeiras linhas:
   PassengerId  Survived  Pclass                                               Name     Sex   Age  SibSp  Parch            Ticket     Fare Cabin Embarked
0            1         0       3                            Braund, Mr. Owen Harris    male  22.0      1      0         A/5 21171   7.2500   NaN        S
1            2         1       1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1      0          PC 17599  71.2833   C85        C
2            3         1       3                             Heikkinen, Miss. Laina  female  26.0      0      0  STON/O2. 3101282   7.9250   NaN        S
3            4         1       1       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1      0            113803  53.1000  C123        S
4            5         0       3                           Allen, Mr. William Henry    male  35.0      0      0            373450   8.0500   NaN        S

üßæ Informa√ß√µes do DataFrame:
<class 'pandas.cor

In [2]:
# Limpeza e Pr√©-processamento

# 1. Identifica√ß√£o e Remo√ß√£o de Duplicatas
num_duplicatas = df_titanic.duplicated().sum()
if num_duplicatas > 0:
    df_limpo = df_titanic.drop_duplicates().copy()
    print(f"\nN√∫mero de linhas duplicadas: {num_duplicatas}")
    print(f"Dataset ap√≥s a remo√ß√£o de duplicatas. Novas dimens√µes: {df_limpo.shape}")
else:
    df_limpo = df_titanic.copy()
    print(f"\nNenhuma linha duplicada encontrada.")

# 2. Identifica√ß√£o de Valores Ausentes
print("\nValores ausentes por coluna (antes do tratamento):")
print(df_limpo.isnull().sum())

# 3. Tratamento de Valores Ausentes
# Tratar a coluna 'Age' (idade) com a mediana
mediana_idade = df_limpo['Age'].median()
df_limpo['Age'].fillna(mediana_idade, inplace=True)
print(f"\nValores ausentes na coluna 'Age' preenchidos com a mediana: {mediana_idade:.2f}")

# 4. Tratar a coluna 'Embarked' (porto de embarque) com o valor mais frequente
moda_embarque = df_limpo['Embarked'].mode()[0]
df_limpo['Embarked'].fillna(moda_embarque, inplace=True)
print(f"Valores ausentes na coluna 'Embarked' preenchidos com a moda: {moda_embarque}")

# 5. Para a coluna 'Cabin' (cabine), que tem muitos valores ausentes, vamos apenas indicar sua aus√™ncia
df_limpo['Cabin'].fillna('Missing', inplace=True)
print("Valores ausentes na coluna 'Cabin' preenchidos com 'Missing'.")

# 6. Verifica√ß√£o e Salvamento
print("\nVerifica√ß√£o final de valores ausentes:")
print(df_limpo.isnull().sum())

# Salvar o dataset limpo em um novo arquivo CSV (opcional)
# df_limpo.to_csv('titanic_limpo.csv', index=False)
# print("\nDataset limpo salvo como 'titanic_limpo.csv'.")

# Vasculhe os dados e encontre uma caracter√≠stica peculiar.

# A coluna Ticket tem muitos valores √∫nicos. Tente analisar
#  os valores ausentes de uma forma diferente: o que aconteceria
#  se voc√™ simplesmente removesse todas as linhas que t√™m pelo
#  menos um valor ausente? Compare
#  o n√∫mero de linhas restantes com o dataset original.

# Crie uma nova coluna chamada FamilySize que √© a soma de
#   SibSp (irm√£os/c√¥njuges) e Parch (pais/filhos). Depois,
#   calcule a m√©dia de sobreviv√™ncia para diferentes
#   tamanhos de fam√≠lia. O que voc√™ observa?


Nenhuma linha duplicada encontrada.

Valores ausentes por coluna (antes do tratamento):
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

Valores ausentes na coluna 'Age' preenchidos com a mediana: 28.00
Valores ausentes na coluna 'Embarked' preenchidos com a moda: S
Valores ausentes na coluna 'Cabin' preenchidos com 'Missing'.

Verifica√ß√£o final de valores ausentes:
PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_limpo['Age'].fillna(mediana_idade, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_limpo['Embarked'].fillna(moda_embarque, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are

## Informa√ß√µes Extras


Sendo voc√™ um gestor de seguro que assegurou o Titanic, qual o tipo de informa√ß√£o seria importante extrair dessa base de dados que o ajudaria a observar algum tipo de fraude.

1. Rastreamento por Bilhete (Ticket)

Informa√ß√£o a ser analisada: A coluna Ticket e, em particular, a quantidade de pessoas associadas a cada bilhete.

An√°lise de Fraude: Fraudes de seguro podem envolver pessoas que n√£o estavam a bordo, mas que reivindicam um bilhete para receber indeniza√ß√£o. Eu cruzaria os dados de todos os bilhetes associados a uma mesma fam√≠lia ou grupo e verificaria se o n√∫mero de sobreviventes declarados corresponde ao n√∫mero de passageiros que realmente embarcaram com aquele bilhete. Se houver discrep√¢ncia ‚Äî como uma fam√≠lia inteira declarada como morta, mas com um ou mais membros aparecendo em listas de sobreviventes ‚Äî isso seria um alerta.

2. Padr√µes de Sobreviv√™ncia Inconsistentes

Informa√ß√£o a ser analisada: As colunas Survived, Age, Sex e Pclass.

An√°lise de Fraude: O padr√£o de sobreviv√™ncia no Titanic √© bem conhecido: mulheres, crian√ßas e passageiros da Primeira Classe tiveram taxas de sobreviv√™ncia muito maiores. Eu criaria relat√≥rios para identificar:

Homens que sobreviveram: Se um homem da Terceira Classe, que teve as menores chances de sobreviv√™ncia, for listado como morto em uma reivindica√ß√£o de seguro, mas aparecer como sobrevivente em outras listas ou testemunhos, isso levantaria uma bandeira vermelha.

Discrep√¢ncias de Idade: A idade (Age) √© um dado crucial. Um passageiro idoso ou uma crian√ßa pequena, que teriam mais dificuldade para chegar aos botes salva-vidas, mas que s√£o reivindicados como sobreviventes por um familiar, mereceriam uma investiga√ß√£o mais detalhada. A fraude poderia estar na reivindica√ß√£o do seguro de um passageiro que de fato morreu, mas cuja identidade √© assumida por um sobrevivente para obter indeniza√ß√µes duplas ou indevidas.

3. An√°lise da Cabine e Fatores de Risco (Cabin e Pclass)

Informa√ß√£o a ser analisada: As colunas Cabin e Pclass.

An√°lise de Fraude: O valor do seguro de um passageiro da Primeira Classe seria muito maior do que o de um da Terceira Classe. A coluna Cabin, embora com muitos valores ausentes, pode ser usada para cruzar informa√ß√µes. Uma reivindica√ß√£o de seguro de alto valor para um passageiro que, segundo os registros, estava na Terceira Classe ou em uma cabine que n√£o correspondia a um bilhete de Primeira Classe, seria um forte ind√≠cio de fraude.

