In [147]:
### 🧪 Kit Prático – Semana 2: Manipulação de Dados com Pandas I
# Tema: Explorando Dados do Titanic
# Ferramenta: Google Colab
# Dataset: https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv

import pandas as pd

# Passo 1: Carregar os dados
df_titanic = pd.read_csv("https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv")

pd.set_option('display.max_columns', None)
pd.set_option('display.width', 1000)


# Passo 2: Visualizar as 5 primeiras linhas do dataset
print("\n🔍 Primeiras linhas:")
display(df_titanic.head())

# Passo 3: Verificar o nome das colunas e tipos de dados
print("\n🧾 Informações do DataFrame:")
display(df_titanic.info())

# Estatísticas descritivas para colunas numéricas
print("\nEstatísticas Descritivas para colunas numéricas:")
display(df_titanic.describe())

# Contagem de valores para uma coluna categórica (por exemplo, 'Survived')
print("\nContagem de sobreviventes (0 = Não, 1 = Sim):")
display(df_titanic['Survived'].value_counts())

# Passo 4: Filtrar apenas os passageiros que sobreviveram
sobreviventes = df_titanic[df_titanic['Survived'] == 1]
print("\n🛟 Passageiros que sobreviveram:")
display(sobreviventes.head())

# Passo 5: Criar um novo DataFrame com apenas colunas relevantes
resumo = df_titanic[['Name', 'Sex', 'Age', 'Survived']]
print("\n👤 Resumo com nome, sexo, idade e sobrevivência:")
display(resumo.head())

# Passo 6: Calcular a média de idade dos passageiros
media_idade = df_titanic['Age'].mean()
print(f"\n📊 Média de idade dos passageiros: {media_idade:.2f} anos")

# Passo 7: Filtrar passageiros do sexo feminino com menos de 18 anos
meninas = df_titanic[(df_titanic['Sex'] == 'female') & (df_titanic['Age'] < 18)]
print("\n👧 Passageiras com menos de 18 anos:")
display(meninas[['Name', 'Age']])

tickets = df_titanic['Ticket']
display(f"Tickets {tickets}")
# DESAFIO EXTRA:
# Filtrar apenas os passageiros da 1ª classe que não sobreviveram
passageiros_p1_nao_sobreviventes = df_titanic[(df_titanic['Pclass'] == 1) & (df_titanic['Survived'] == 0)]
print("\nPassageiros da 1ª classe que não sobreviveram: ")
display(passageiros_p1_nao_sobreviventes)

#Filtrar apenas os passageiros da 2ª classe que não sobreviveram
passageiros_p2_nao_sobreviventes = df_titanic[(df_titanic['Pclass'] == 2) & (df_titanic['Survived'] == 0)]
print("\nPassageiros da 2ª classe que não sobreviveram: ")
display(passageiros_p2_nao_sobreviventes)

#Filtrar apenas os passageiros da 3ª classe que não sobreviveram
passageiros_p3_nao_sobreviventes = df_titanic[(df_titanic['Pclass'] == 3) & (df_titanic['Survived'] == 0)]
print("\nPassageiros da 3ª classe que não sobreviveram: ")
display(passageiros_p3_nao_sobreviventes)

# Calcular a porcentagem desses em relação ao total da 1ª classe
porcentagem_p1_nao_sobreviventes = (len(passageiros_p1_nao_sobreviventes) / len(df_titanic[df_titanic['Pclass'] == 1])) * 100
print(f"\nPorcentagem de passageiros da 1ª classe que não sobreviveram: {porcentagem_p1_nao_sobreviventes:.2f}%")

#Calcular a porcentagem desses em relação ao total da 2ª classe
porcentagem_p2_nao_sobreviventes = (len(passageiros_p2_nao_sobreviventes) / len(df_titanic[df_titanic['Pclass'] == 2])) * 100
print(f"\nPorcentagem de passageiros da 2ª classe que não sobreviveram: {porcentagem_p2_nao_sobreviventes:.2f}%")

#Calcular a porcentagem desses em relação ao total da 3ª classe
porcentagem_p3_nao_sobreviventes = (len(passageiros_p3_nao_sobreviventes) / len(df_titanic[df_titanic['Pclass'] == 3])) * 100
print(f"\nPorcentagem de passageiros da 3ª classe que não sobreviveram: {porcentagem_p3_nao_sobreviventes:.2f}%")


# Quantos passageiros eram de cada sexo e de qual porto de embarque ?
passageiros_por_sexo = df_titanic['Sex'].value_counts()
print("\nPassageiros por sexo: ")
display(passageiros_por_sexo)

passageiros_por_porto = df_titanic['Embarked'].value_counts()
print("\nPassageiros por porto de embarque: ")
display(passageiros_por_porto)

# Qual é a idade média dos sobreviventes e dos não sobreviventes?
idade_media_sobreviventes = df_titanic[df_titanic['Survived'] == 1]['Age'].mean()
print(f"\nIdade Média dos Sobreviventes: {idade_media_sobreviventes:.2f}")
idade_media_nao_sobreviventes = df_titanic[df_titanic['Survived'] == 0]['Age'].mean()
print(f"Idade Média dos Não Sobreviventes: {idade_media_nao_sobreviventes:.2f}")



🔍 Primeiras linhas:


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S



🧾 Informações do DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


None


Estatísticas Descritivas para colunas numéricas:


Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292



Contagem de sobreviventes (0 = Não, 1 = Sim):


Unnamed: 0_level_0,count
Survived,Unnamed: 1_level_1
0,549
1,342



🛟 Passageiros que sobreviveram:


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C



👤 Resumo com nome, sexo, idade e sobrevivência:


Unnamed: 0,Name,Sex,Age,Survived
0,"Braund, Mr. Owen Harris",male,22.0,0
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1
2,"Heikkinen, Miss. Laina",female,26.0,1
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1
4,"Allen, Mr. William Henry",male,35.0,0



📊 Média de idade dos passageiros: 29.70 anos

👧 Passageiras com menos de 18 anos:


Unnamed: 0,Name,Age
9,"Nasser, Mrs. Nicholas (Adele Achem)",14.0
10,"Sandstrom, Miss. Marguerite Rut",4.0
14,"Vestrom, Miss. Hulda Amanda Adolfina",14.0
22,"McGowan, Miss. Anna ""Annie""",15.0
24,"Palsson, Miss. Torborg Danira",8.0
39,"Nicola-Yarred, Miss. Jamila",14.0
43,"Laroche, Miss. Simonne Marie Anne Andree",3.0
58,"West, Miss. Constance Mirium",5.0
68,"Andersson, Miss. Erna Alexandra",17.0
71,"Goodwin, Miss. Lillian Amy",16.0


'Tickets 0             A/5 21171\n1              PC 17599\n2      STON/O2. 3101282\n3                113803\n4                373450\n             ...       \n886              211536\n887              112053\n888          W./C. 6607\n889              111369\n890              370376\nName: Ticket, Length: 891, dtype: object'


Passageiros da 1ª classe que não sobreviveram: 


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
27,28,0,1,"Fortune, Mr. Charles Alexander",male,19.0,3,2,19950,263.0000,C23 C25 C27,S
30,31,0,1,"Uruchurtu, Don. Manuel E",male,40.0,0,0,PC 17601,27.7208,,C
34,35,0,1,"Meyer, Mr. Edgar Joseph",male,28.0,1,0,PC 17604,82.1708,,C
35,36,0,1,"Holverson, Mr. Alexander Oskar",male,42.0,1,0,113789,52.0000,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
806,807,0,1,"Andrews, Mr. Thomas Jr",male,39.0,0,0,112050,0.0000,A36,S
815,816,0,1,"Fry, Mr. Richard",male,,0,0,112058,0.0000,B102,S
822,823,0,1,"Reuchlin, Jonkheer. John George",male,38.0,0,0,19972,0.0000,,S
867,868,0,1,"Roebling, Mr. Washington Augustus II",male,31.0,0,0,PC 17590,50.4958,A24,S



Passageiros da 2ª classe que não sobreviveram: 


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
20,21,0,2,"Fynney, Mr. Joseph J",male,35.0,0,0,239865,26.0,,S
33,34,0,2,"Wheadon, Mr. Edward H",male,66.0,0,0,C.A. 24579,10.5,,S
41,42,0,2,"Turpin, Mrs. William John Robert (Dorothy Ann ...",female,27.0,1,0,11668,21.0,,S
70,71,0,2,"Jenkin, Mr. Stephen Curnow",male,32.0,0,0,C.A. 33111,10.5,,S
72,73,0,2,"Hood, Mr. Ambrose Jr",male,21.0,0,0,S.O.C. 14879,73.5,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
854,855,0,2,"Carter, Mrs. Ernest Courtenay (Lilian Hughes)",female,44.0,1,0,244252,26.0,,S
861,862,0,2,"Giles, Mr. Frederick Edward",male,21.0,1,0,28134,11.5,,S
864,865,0,2,"Gill, Mr. John William",male,24.0,0,0,233866,13.0,,S
883,884,0,2,"Banfield, Mr. Frederick James",male,28.0,0,0,C.A./SOTON 34068,10.5,,S



Passageiros da 3ª classe que não sobreviveram: 


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.0750,,S
12,13,0,3,"Saundercock, Mr. William Henry",male,20.0,0,0,A/5. 2151,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
882,883,0,3,"Dahlberg, Miss. Gerda Ulrika",female,22.0,0,0,7552,10.5167,,S
884,885,0,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.0500,,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.1250,,Q
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S



Porcentagem de passageiros da 1ª classe que não sobreviveram: 37.04%

Porcentagem de passageiros da 2ª classe que não sobreviveram: 52.72%

Porcentagem de passageiros da 3ª classe que não sobreviveram: 75.76%

Passageiros por sexo: 


Unnamed: 0_level_0,count
Sex,Unnamed: 1_level_1
male,577
female,314



Passageiros por porto de embarque: 


Unnamed: 0_level_0,count
Embarked,Unnamed: 1_level_1
S,644
C,168
Q,77



Idade Média dos Sobreviventes: 28.34
Idade Média dos Não Sobreviventes: 30.63


In [148]:
# Limpeza e Pré-processamento

# 1. Identificação e Remoção de Duplicatas
num_duplicatas = df_titanic.duplicated().sum()
if num_duplicatas > 0:
    df_limpo = df_titanic.drop_duplicates().copy()
    print(f"\nNúmero de linhas duplicadas: {num_duplicatas}")
    print(f"Dataset após a remoção de duplicatas. Novas dimensões: {df_limpo.shape}")
else:
    df_limpo = df_titanic.copy()
    print(f"\nNenhuma linha duplicada encontrada.")

# 2. Identificação de Valores Ausentes
print("\nValores ausentes por coluna (antes do tratamento):")
display(df_limpo.isnull().sum())

# 3. Tratamento de Valores Ausentes
# Tratar a coluna 'Age' (idade) com a mediana
mediana_idade = df_limpo['Age'].median()
df_limpo.fillna({'Age': mediana_idade}, inplace=True)
print(f"\nValores ausentes na coluna 'Age' preenchidos com a mediana: {mediana_idade:.2f}")

# 4. Tratar a coluna 'Embarked' (porto de embarque) com o valor mais frequente
moda_embarque = df_limpo['Embarked'].mode()[0] #moda
df_limpo.fillna({'Embarked': moda_embarque}, inplace=True)
print(f"Valores ausentes na coluna 'Embarked' preenchidos com a moda: {moda_embarque}")

# 5. Para a coluna 'Cabin' (cabine), apenas indicar sua ausência
df_limpo.fillna({'Cabin': 'Missing'}, inplace=True)
print("Valores ausentes na coluna 'Cabin' preenchidos com 'Missing'.")

# 6. Verificação e Salvamento
print("\nVerificação final de valores ausentes:")
display(df_limpo.isnull().sum())


Nenhuma linha duplicada encontrada.

Valores ausentes por coluna (antes do tratamento):


Unnamed: 0,0
PassengerId,0
Survived,0
Pclass,0
Name,0
Sex,0
Age,177
SibSp,0
Parch,0
Ticket,0
Fare,0



Valores ausentes na coluna 'Age' preenchidos com a mediana: 28.00
Valores ausentes na coluna 'Embarked' preenchidos com a moda: S
Valores ausentes na coluna 'Cabin' preenchidos com 'Missing'.

Verificação final de valores ausentes:


Unnamed: 0,0
PassengerId,0
Survived,0
Pclass,0
Name,0
Sex,0
Age,0
SibSp,0
Parch,0
Ticket,0
Fare,0


In [149]:
# Salvar o dataset limpo em um novo arquivo CSV (opcional)
df_limpo.to_csv('titanic_limpo.csv', index=False)
print("\nDataset limpo salvo como 'titanic_limpo.csv'.")
display(df_limpo)


Dataset limpo salvo como 'titanic_limpo.csv'.


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,Missing,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,Missing,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,Missing,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,Missing,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,28.0,1,2,W./C. 6607,23.4500,Missing,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [150]:
# Vasculhe os dados e encontre uma característica peculiar.
df_limpo['First Name'] = df_limpo['Name'].str.split(',').str[1] # Separa a coluna Name e coloca em uma coluna diferente o que está após a vírgula
df_limpo['Last Name'] = df_limpo['Name'].str.split(',').str[0] # Separa a coluna Name e coloca em uma coluna diferente o que está antes a vírgula

# A coluna Ticket tem muitos valores únicos. Tente analisar
#  os valores ausentes de uma forma diferente: o que aconteceria
#  se você simplesmente removesse todas as linhas que têm pelo menos um valor ausente? Compare o número de linhas restantes com o dataset original.
print("\nValores duplicados da coluna Ticket")
display(df_limpo[df_limpo['Ticket'].duplicated()].sort_values(by='Ticket'))
df_Tickets_sem_duplicatas = df_limpo.drop_duplicates(subset='Ticket')

print("\nDataframe com coluna Tickets sem duplicatas:")
display(df_Tickets_sem_duplicatas)

print("\nNúmero de linhas no dataset original sem valores ausentes:")
display(df_titanic.dropna())

# Crie uma nova coluna chamada FamilySize que é a soma de SibSp (irmãos/cônjuges) e Parch (pais/filhos).
print("\nDataframe com a nova coluna 'FamilySize'")
df_limpo['FamilySize'] = df_limpo['SibSp'] + df_limpo['Parch']
display(df_limpo)

# Depois, calcule a média de sobrevivência para diferentes tamanhos de família. O que você observa?
print("\nMédia de sobrevivência para diferentes tamanhos de família:")
media_sobrevivencia_por_familia = df_limpo.groupby('FamilySize')['Survived'].mean()
display(media_sobrevivencia_por_familia)


Valores duplicados da coluna Ticket


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,First Name,Last Name
504,505,1,1,"Maioni, Miss. Roberta",female,16.0,0,0,110152,86.500,B79,S,Miss. Roberta,Maioni
759,760,1,1,"Rothes, the Countess. of (Lucy Noel Martha Dye...",female,33.0,0,0,110152,86.500,B77,S,the Countess. of (Lucy Noel Martha Dyer-Edwards),Rothes
558,559,1,1,"Taussig, Mrs. Emil (Tillie Mandelbaum)",female,39.0,1,1,110413,79.650,E67,S,Mrs. Emil (Tillie Mandelbaum),Taussig
585,586,1,1,"Taussig, Miss. Ruth",female,18.0,0,2,110413,79.650,E68,S,Miss. Ruth,Taussig
475,476,0,1,"Clifford, Mr. George Quincy",male,28.0,0,0,110465,52.000,A14,S,Mr. George Quincy,Clifford
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,28.0,1,2,W./C. 6607,23.450,Missing,S,"Miss. Catherine Helen ""Carrie""",Johnston
147,148,0,3,"Ford, Miss. Robina Maggie ""Ruby""",female,9.0,2,2,W./C. 6608,34.375,Missing,S,"Miss. Robina Maggie ""Ruby""",Ford
436,437,0,3,"Ford, Miss. Doolina Margaret ""Daisy""",female,21.0,2,2,W./C. 6608,34.375,Missing,S,"Miss. Doolina Margaret ""Daisy""",Ford
736,737,0,3,"Ford, Mrs. Edward (Margaret Ann Watson)",female,48.0,1,3,W./C. 6608,34.375,Missing,S,Mrs. Edward (Margaret Ann Watson),Ford



Dataframe com coluna Tickets sem duplicatas:


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,First Name,Last Name
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,Missing,S,Mr. Owen Harris,Braund
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,Mrs. John Bradley (Florence Briggs Thayer),Cumings
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,Missing,S,Miss. Laina,Heikkinen
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S,Mrs. Jacques Heath (Lily May Peel),Futrelle
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,Missing,S,Mr. William Henry,Allen
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
884,885,0,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.0500,Missing,S,Mr. Henry Jr,Sutehall
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,Missing,S,Rev. Juozas,Montvila
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S,Miss. Margaret Edith,Graham
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C,Mr. Karl Howell,Behr



Número de linhas no dataset original sem valores ausentes:


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7000,G6,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S
...,...,...,...,...,...,...,...,...,...,...,...,...
871,872,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female,47.0,1,1,11751,52.5542,D35,S
872,873,0,1,"Carlsson, Mr. Frans Olof",male,33.0,0,0,695,5.0000,B51 B53 B55,S
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S



Dataframe com a nova coluna 'FamilySize'


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,First Name,Last Name,FamilySize
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,Missing,S,Mr. Owen Harris,Braund,1
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,Mrs. John Bradley (Florence Briggs Thayer),Cumings,1
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,Missing,S,Miss. Laina,Heikkinen,0
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S,Mrs. Jacques Heath (Lily May Peel),Futrelle,1
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,Missing,S,Mr. William Henry,Allen,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,Missing,S,Rev. Juozas,Montvila,0
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S,Miss. Margaret Edith,Graham,0
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,28.0,1,2,W./C. 6607,23.4500,Missing,S,"Miss. Catherine Helen ""Carrie""",Johnston,3
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C,Mr. Karl Howell,Behr,0



Média de sobrevivência para diferentes tamanhos de família:


Unnamed: 0_level_0,Survived
FamilySize,Unnamed: 1_level_1
0,0.303538
1,0.552795
2,0.578431
3,0.724138
4,0.2
5,0.136364
6,0.333333
7,0.0
10,0.0


#Relatório Titanic


In [151]:
#1. Rastreamento por Bilhete (Ticket)

#Informação a ser analisada: A coluna Ticket e, em particular, a quantidade de pessoas associadas a cada bilhete.

#Análise de Fraude: Fraudes de seguro podem envolver pessoas que não estavam a bordo, mas que reivindicam um bilhete para receber indenização.
#Eu cruzaria os dados de todos os bilhetes associados a uma mesma família ou grupo e verificaria se o número de sobreviventes declarados corresponde ao número de passageiros que realmente embarcaram com aquele bilhete.
# Se houver discrepância — como uma família inteira declarada como morta, mas com um ou mais membros aparecendo em listas de sobreviventes — isso seria um alerta.
df_limpo_Ticket_Analysis = df_limpo.copy()
df_limpo_Ticket_Analysis['Ticket_Count'] = df_limpo.groupby(['Ticket','Last Name'])['Ticket'].transform('count')

print("\nComparação Tamanho Família e Quantidade por Ticket:")
display(df_limpo_Ticket_Analysis[df_limpo_Ticket_Analysis['Ticket_Count'] > df_limpo_Ticket_Analysis['FamilySize']].sort_values(by='Ticket_Count', ascending=False))
#display(df_limpo[df_limpo['Last Name'] == 'Graham'])

# Conta quantas pessoas no total estão no mesmo bilhete
df_limpo_Ticket_Analysis['GroupSize_by_Ticket'] = df_limpo_Ticket_Analysis.groupby('Ticket')['Ticket'].transform('count')
display(df_limpo_Ticket_Analysis.sort_values(by='GroupSize_by_Ticket',ascending=False))


#Agrupa por bilhete e calcula o total de pessoas e de sobreviventes
analise_sobrevivencia_grupo = df_limpo_Ticket_Analysis.groupby('Ticket').agg(
    Total_Passageiros=('PassengerId', 'count'),
    Total_Sobreviventes=('Survived', 'sum')
)

# Calcula o número de mortos no grupo
analise_sobrevivencia_grupo['Total_Mortos'] = analise_sobrevivencia_grupo['Total_Passageiros'] - analise_sobrevivencia_grupo['Total_Sobreviventes']

# Ordena para ver os maiores grupos
analise_sobrevivencia_grupo = analise_sobrevivencia_grupo.sort_values(by='Total_Passageiros', ascending=False)

display(analise_sobrevivencia_grupo[analise_sobrevivencia_grupo['Total_Sobreviventes'] == 0].reset_index().drop_duplicates())


Comparação Tamanho Família e Quantidade por Ticket:


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,First Name,Last Name,FamilySize,Ticket_Count
850,851,0,3,"Andersson, Master. Sigvard Harald Elias",male,4.0,4,2,347082,31.2750,Missing,S,Master. Sigvard Harald Elias,Andersson,6,7
813,814,0,3,"Andersson, Miss. Ebba Iris Alfrida",female,6.0,4,2,347082,31.2750,Missing,S,Miss. Ebba Iris Alfrida,Andersson,6,7
542,543,0,3,"Andersson, Miss. Sigrid Elisabeth",female,11.0,4,2,347082,31.2750,Missing,S,Miss. Sigrid Elisabeth,Andersson,6,7
610,611,0,3,"Andersson, Mrs. Anders Johan (Alfrida Konstant...",female,39.0,1,5,347082,31.2750,Missing,S,Mrs. Anders Johan (Alfrida Konstantia Brogren),Andersson,6,7
119,120,0,3,"Andersson, Miss. Ellis Anna Maria",female,2.0,4,2,347082,31.2750,Missing,S,Miss. Ellis Anna Maria,Andersson,6,7
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
19,20,1,3,"Masselmani, Mrs. Fatima",female,28.0,0,0,2649,7.2250,Missing,C,Mrs. Fatima,Masselmani,0,1
17,18,1,2,"Williams, Mr. Charles Eugene",male,28.0,0,0,244373,13.0000,Missing,S,Mr. Charles Eugene,Williams,0,1
15,16,1,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,0,0,248706,16.0000,Missing,S,Mrs. (Mary D Kingcome),Hewlett,0,1
14,15,0,3,"Vestrom, Miss. Hulda Amanda Adolfina",female,14.0,0,0,350406,7.8542,Missing,S,Miss. Hulda Amanda Adolfina,Vestrom,0,1


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,First Name,Last Name,FamilySize,Ticket_Count,GroupSize_by_Ticket
13,14,0,3,"Andersson, Mr. Anders Johan",male,39.0,1,5,347082,31.2750,Missing,S,Mr. Anders Johan,Andersson,6,7,7
324,325,0,3,"Sage, Mr. George John Jr",male,28.0,8,2,CA. 2343,69.5500,Missing,S,Mr. George John Jr,Sage,10,7,7
826,827,0,3,"Lam, Mr. Len",male,28.0,0,0,1601,56.4958,Missing,S,Mr. Len,Lam,0,2,7
813,814,0,3,"Andersson, Miss. Ebba Iris Alfrida",female,6.0,4,2,347082,31.2750,Missing,S,Miss. Ebba Iris Alfrida,Andersson,6,7,7
610,611,0,3,"Andersson, Mrs. Anders Johan (Alfrida Konstant...",female,39.0,1,5,347082,31.2750,Missing,S,Mrs. Anders Johan (Alfrida Konstantia Brogren),Andersson,6,7,7
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15,16,1,2,"Hewlett, Mrs. (Mary D Kingcome)",female,55.0,0,0,248706,16.0000,Missing,S,Mrs. (Mary D Kingcome),Hewlett,0,1,1
14,15,0,3,"Vestrom, Miss. Hulda Amanda Adolfina",female,14.0,0,0,350406,7.8542,Missing,S,Miss. Hulda Amanda Adolfina,Vestrom,0,1,1
12,13,0,3,"Saundercock, Mr. William Henry",male,20.0,0,0,A/5. 2151,8.0500,Missing,S,Mr. William Henry,Saundercock,0,1,1
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S,Miss. Elizabeth,Bonnell,0,1,1


Unnamed: 0,Ticket,Total_Passageiros,Total_Sobreviventes,Total_Mortos
0,CA. 2343,7,0,7
1,347082,7,0,7
2,CA 2144,6,0,6
3,3101295,6,0,6
4,347088,6,0,6
...,...,...,...,...
416,112379,1,0,1
417,112059,1,0,1
418,112058,1,0,1
419,112052,1,0,1


In [152]:
# 2. Padrões de Sobrevivência Inconsistentes

# Informação a ser analisada: As colunas Survived, Age, Sex e Pclass.

# Análise de Fraude: O padrão de sobrevivência no Titanic é bem conhecido: mulheres, crianças e passageiros da Primeira Classe tiveram taxas de sobrevivência muito maiores.
# Eu criaria relatórios para identificar:

# Homens que sobreviveram:
# Se um homem da Terceira Classe, que teve as menores chances de sobrevivência, for listado como morto em uma reivindicação de seguro, mas aparecer como sobrevivente em outras listas ou testemunhos, isso levantaria uma bandeira vermelha.

# Discrepâncias de Idade: A idade (Age) é um dado crucial.
# Um passageiro idoso ou uma criança pequena, que teriam mais dificuldade para chegar aos botes salva-vidas, mas que são reivindicados como sobreviventes por um familiar, mereceriam uma investigação mais detalhada.
# A fraude poderia estar na reivindicação do seguro de um passageiro que de fato morreu, mas cuja identidade é assumida por um sobrevivente para obter indenizações duplas ou indevidas.

# Criar a tabela dinâmica para visualizar as taxas de sobrevivência
tabela_sobrevivencia = pd.pivot_table(df_limpo,
                                      values='Survived',
                                      index='Pclass',
                                      columns='Sex',
                                      aggfunc='mean')

# Formatar para exibir como porcentagem
print("Taxa de Sobrevivência Média por Classe e Sexo:")
display(tabela_sobrevivencia.style.format('{:.2%}'))

sobreviventes_inconsistentes = df_limpo.copy()
sobreviventes_inconsistentes = sobreviventes_inconsistentes[(sobreviventes_inconsistentes['Sex'] == 'male') & (sobreviventes_inconsistentes['Pclass'] == 3) & (sobreviventes_inconsistentes['Survived'] == 1)].sort_values(by='Age', ascending=False)
print("\nHomens da Terceira Classe que sobreviveram:")
display(sobreviventes_inconsistentes)


Taxa de Sobrevivência Média por Classe e Sexo:


Sex,female,male
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,96.81%,36.89%
2,92.11%,15.74%
3,50.00%,13.54%



Homens da Terceira Classe que sobreviveram:


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,First Name,Last Name,FamilySize
338,339,1,3,"Dahl, Mr. Karl Edwart",male,45.0,0,0,7598,8.05,Missing,S,Mr. Karl Edwart,Dahl,0
414,415,1,3,"Sundman, Mr. Johan Julian",male,44.0,0,0,STON/O 2. 3101269,7.925,Missing,S,Mr. Johan Julian,Sundman,0
400,401,1,3,"Niskanen, Mr. Juha",male,39.0,0,0,STON/O 2. 3101289,7.925,Missing,S,Mr. Juha,Niskanen,0
429,430,1,3,"Pickard, Mr. Berk (Berk Trembisky)",male,32.0,0,0,SOTON/O.Q. 392078,8.05,E10,S,Mr. Berk (Berk Trembisky),Pickard,0
74,75,1,3,"Bing, Mr. Lee",male,32.0,0,0,1601,56.4958,Missing,S,Mr. Lee,Bing,0
579,580,1,3,"Jussila, Mr. Eiriik",male,32.0,0,0,STON/O 2. 3101286,7.925,Missing,S,Mr. Eiriik,Jussila,0
569,570,1,3,"Jonsson, Mr. Carl",male,32.0,0,0,350417,7.8542,Missing,S,Mr. Carl,Jonsson,0
838,839,1,3,"Chip, Mr. Chang",male,32.0,0,0,1601,56.4958,Missing,S,Mr. Chang,Chip,0
744,745,1,3,"Stranden, Mr. Juho",male,31.0,0,0,STON/O 2. 3101288,7.925,Missing,S,Mr. Juho,Stranden,0
286,287,1,3,"de Mulder, Mr. Theodore",male,30.0,0,0,345774,9.5,Missing,S,Mr. Theodore,de Mulder,0


In [153]:
# 3. Análise da Cabine e Fatores de Risco (Cabin e Pclass)

# Informação a ser analisada: As colunas Cabin e Pclass.

# Análise de Fraude: O valor do seguro de um passageiro da Primeira Classe seria muito maior do que o de um da Terceira Classe.
# A coluna Cabin, embora com muitos valores ausentes, pode ser usada para cruzar informações.
# Uma reivindicação de seguro de alto valor para um passageiro que, segundo os registros, estava na Terceira Classe ou em uma cabine que não correspondia a um bilhete de Primeira Classe, seria um forte indício de fraude.

df_analise_cabine = df_limpo.copy()

print("Valores únicos de cabines")
display(df_analise_cabine['Cabin'].unique())

df_analise_cabine['Cabin_Letter'] = df_analise_cabine['Cabin'].str[0]
print("\nDataframe com as letras da cabines separadas na última coluna:")
display(df_analise_cabine)


# Criar a tabela cruzada para ver a distribuição de classes por deck
deck_vs_pclass = pd.crosstab(df_analise_cabine['Cabin_Letter'], df_analise_cabine['Pclass'])

print("\nDistribuição de Passageiros por Cabin_Letter e Classe:")
display(deck_vs_pclass)

# REGRA DE FRAUDE 1 (Anomalia Forte): Passageiro de 3ª classe alocado em cabines de 1ª classe.
# Isso seria um forte indício de fraude se viesse de uma reivindicação.
anomalia_forte = df_analise_cabine[
    (df_analise_cabine['Pclass'] == 3) &
    (df_analise_cabine['Cabin_Letter'].isin(['A', 'B', 'C', 'D','E']))
]
print("\nPassageiros da 3ª Classe que estão em Cabines de Passageiros de 1ª Classe:")
display(anomalia_forte)

# REGRA DE FRAUDE 2 (Anomalia Moderada): Passageiro de 1ª classe em cabines de 3ª classe.
# Menos provável como fraude de valor, mas ainda uma inconsistência de dados.
anomalia_moderada = df_analise_cabine[
    (df_analise_cabine['Pclass'] == 1) &
    (df_analise_cabine['Cabin_Letter'].isin(['F', 'G','M']))
]
print("\nPassageiros da 1ª Classe que estão em Cabines de Passageiros de 2ª e 3ª Classe:")
display(anomalia_moderada)

Valores únicos de cabines


array(['Missing', 'C85', 'C123', 'E46', 'G6', 'C103', 'D56', 'A6',
       'C23 C25 C27', 'B78', 'D33', 'B30', 'C52', 'B28', 'C83', 'F33',
       'F G73', 'E31', 'A5', 'D10 D12', 'D26', 'C110', 'B58 B60', 'E101',
       'F E69', 'D47', 'B86', 'F2', 'C2', 'E33', 'B19', 'A7', 'C49', 'F4',
       'A32', 'B4', 'B80', 'A31', 'D36', 'D15', 'C93', 'C78', 'D35',
       'C87', 'B77', 'E67', 'B94', 'C125', 'C99', 'C118', 'D7', 'A19',
       'B49', 'D', 'C22 C26', 'C106', 'C65', 'E36', 'C54',
       'B57 B59 B63 B66', 'C7', 'E34', 'C32', 'B18', 'C124', 'C91', 'E40',
       'T', 'C128', 'D37', 'B35', 'E50', 'C82', 'B96 B98', 'E10', 'E44',
       'A34', 'C104', 'C111', 'C92', 'E38', 'D21', 'E12', 'E63', 'A14',
       'B37', 'C30', 'D20', 'B79', 'E25', 'D46', 'B73', 'C95', 'B38',
       'B39', 'B22', 'C86', 'C70', 'A16', 'C101', 'C68', 'A10', 'E68',
       'B41', 'A20', 'D19', 'D50', 'D9', 'A23', 'B50', 'A26', 'D48',
       'E58', 'C126', 'B71', 'B51 B53 B55', 'D49', 'B5', 'B20', 'F G63',
       'C62


Dataframe com as letras da cabines separadas na última coluna:


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,First Name,Last Name,FamilySize,Cabin_Letter
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,Missing,S,Mr. Owen Harris,Braund,1,M
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,Mrs. John Bradley (Florence Briggs Thayer),Cumings,1,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,Missing,S,Miss. Laina,Heikkinen,0,M
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S,Mrs. Jacques Heath (Lily May Peel),Futrelle,1,C
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,Missing,S,Mr. William Henry,Allen,0,M
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,Missing,S,Rev. Juozas,Montvila,0,M
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S,Miss. Margaret Edith,Graham,0,B
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,28.0,1,2,W./C. 6607,23.4500,Missing,S,"Miss. Catherine Helen ""Carrie""",Johnston,3,M
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C,Mr. Karl Howell,Behr,0,C



Distribuição de Passageiros por Cabin_Letter e Classe:


Pclass,1,2,3
Cabin_Letter,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,15,0,0
B,47,0,0
C,59,0,0
D,29,4,0
E,25,4,3
F,0,8,5
G,0,0,4
M,40,168,479
T,1,0,0



Passageiros da 3ª Classe que estão em Cabines de Passageiros de 1ª Classe:


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,First Name,Last Name,FamilySize,Cabin_Letter
429,430,1,3,"Pickard, Mr. Berk (Berk Trembisky)",male,32.0,0,0,SOTON/O.Q. 392078,8.05,E10,S,Mr. Berk (Berk Trembisky),Pickard,0,E
751,752,1,3,"Moor, Master. Meier",male,6.0,0,1,392096,12.475,E121,S,Master. Meier,Moor,1,E
823,824,1,3,"Moor, Mrs. (Beila)",female,27.0,0,1,392096,12.475,E121,S,Mrs. (Beila),Moor,1,E



Passageiros da 1ª Classe que estão em Cabines de Passageiros de 2ª e 3ª Classe:


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,First Name,Last Name,FamilySize,Cabin_Letter
30,31,0,1,"Uruchurtu, Don. Manuel E",male,40.0,0,0,PC 17601,27.7208,Missing,C,Don. Manuel E,Uruchurtu,0,M
34,35,0,1,"Meyer, Mr. Edgar Joseph",male,28.0,1,0,PC 17604,82.1708,Missing,C,Mr. Edgar Joseph,Meyer,1,M
35,36,0,1,"Holverson, Mr. Alexander Oskar",male,42.0,1,0,113789,52.0,Missing,S,Mr. Alexander Oskar,Holverson,1,M
64,65,0,1,"Stewart, Mr. Albert A",male,28.0,0,0,PC 17605,27.7208,Missing,C,Mr. Albert A,Stewart,0,M
83,84,0,1,"Carrau, Mr. Francisco M",male,28.0,0,0,113059,47.1,Missing,S,Mr. Francisco M,Carrau,0,M
155,156,0,1,"Williams, Mr. Charles Duane",male,51.0,0,1,PC 17597,61.3792,Missing,C,Mr. Charles Duane,Williams,1,M
168,169,0,1,"Baumann, Mr. John D",male,28.0,0,0,PC 17318,25.925,Missing,S,Mr. John D,Baumann,0,M
187,188,1,1,"Romaine, Mr. Charles Hallace (""Mr C Rolmane"")",male,45.0,0,0,111428,26.55,Missing,S,"Mr. Charles Hallace (""Mr C Rolmane"")",Romaine,0,M
256,257,1,1,"Thorne, Mrs. Gertrude Maybelle",female,28.0,0,0,PC 17585,79.2,Missing,C,Mrs. Gertrude Maybelle,Thorne,0,M
258,259,1,1,"Ward, Miss. Anna",female,35.0,0,0,PC 17755,512.3292,Missing,C,Miss. Anna,Ward,0,M
