In [2]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns

# Carregando o DataSet ----------------------------------------
df = pd.read_csv('TitanicDATA.csv')

# Carregando as 5 primeiras linhas ----------------------------------------
print(df.head())

# Informações iniciais ----------------------------------------
print(df.info())
print(df.describe())
print(df['Sex'].value_counts())
print(df['Embarked'].value_counts())
print(df.isnull().sum())

# Tratamento de dados ----------------------------------------
df = df.drop_duplicates()

# Preenchendo valores nulos de forma segura
df['Age'] = df['Age'].fillna(df['Age'].median())
df['Embarked'] = df['Embarked'].fillna(df['Embarked'].mode()[0])

# Convertendo para booleano (ou pode deixar como 0/1 se preferir)
df['Survived'] = df['Survived'].astype(bool)

# Verificando se há mais valores nulos
print(df.isnull().sum())


# Criando coluna faixa etária ----------------------------------------
def categorize_age(age):
    if age < 18:
        return 'Criança'
    elif age < 60:
        return 'Adulto'
    else:
        return 'Idoso'


df['faixa_etária'] = df['Age'].apply(categorize_age)

# Filtrando dados: somente sobreviventes ----------------------------------------
survivors = df[df['Survived'] == True]
print(survivors.head())

# Agrupando e agregando ----------------------------------------
grouped = df.groupby(['Pclass', 'Sex']).agg({
    'Survived': 'mean',
    'Age': 'mean',
    'Fare': 'median'
}).reset_index()
print(grouped)

# Ordenando por tarifa decrescente ----------------------------------------
print(df.sort_values(by='Fare', ascending=False).head())

# Configuração estilo SeaBorn ----------------------------------------
sns.set(style='whitegrid')

# Gráfico 1: Sobreviventes por sexo ----------------------------------------
plt.figure(figsize=(8, 5))
sns.countplot(data=df, x='Sex', hue='Survived', palette='Set2')
plt.title('Sobreviventes por sexo')
plt.xlabel('Sexo')
plt.ylabel('Contagem')
plt.show()

# Gráfico 2: Distribuição de idade por classe ----------------------------------------
plt.figure(figsize=(8, 5))
sns.boxplot(data=df, x='Pclass', y='Age', hue='Survived', palette='Pastel1')
plt.title('Distribuição de idade por classe')
plt.xlabel('Classe Social')
plt.ylabel('Idade')
plt.show()

# Gráfico 3: Relação entre idade, tarifa e sobrevivência ----------------------------------------
g = sns.pairplot(df, vars=['Age', 'Fare'], hue='Survived', palette='husl')
g.fig.suptitle('Relações entre idade, tarifa e sobrevivência', y=1.02)
plt.show()

   Survived  Pclass                                               Name  \
0         0       3                            Braund, Mr. Owen Harris   
1         1       1  Cumings, Mrs. John Bradley (Florence Briggs Th...   
2         1       3                             Heikkinen, Miss. Laina   
3         1       1       Futrelle, Mrs. Jacques Heath (Lily May Peel)   
4         0       3                           Allen, Mr. William Henry   

      Sex   Age     Fare Cabin Embarked  
0    male  22.0     7.25   NaN        S  
1  female  38.0  712.833   C85        C  
2  female  26.0    7.925   NaN        S  
3  female  35.0     53.1  C123        S  
4    male  35.0    08.05   NaN        S  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Survived  891 non-null    int64  
 1   Pclass    891 non-null    int64  
 2   Name      891 non-null    object 
 3  

TypeError: agg function failed [how->median,dtype->object]