# 1 Importação das Bibliotecas

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configurações para visualização
%matplotlib inline
sns.set(style="whitegrid")

print("Bibliotecas importadas com sucesso!")


# 2 Coleta de Dados

In [None]:
import pandas as pd

# Carregando os dados do Titanic a partir de uma URL
url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
df = pd.read_csv(url)

# Exemplos de outras formas de coleta de dados
# df = pd.read_csv('caminho_para_o_arquivo_local.csv')
# df = pd.read_excel('caminho_para_o_arquivo_local.xlsx')
# df = pd.read_sql('SELECT * FROM tabela_titanic', conexao_banco_de_dados)
# df = pd.read_json('url_ou_caminho_para_o_arquivo.json')

# Visualizando as primeiras linhas do dataframe
# Dataframe é uma estrutura de dados em forma de tabela, facil de organizar, manipular e analisar com métodos prontos.
df.head()


 # 3 Transformações Básicas

In [None]:
df.columns

In [None]:

df.columns = ['id_passageiro', 'sobrevivente', 'classe', 'nome', 'sexo', 'idade', 'irmaos_cônjuges', 'pais_filhos', 'bilhete', 'tarifa', 'cabine', 'embarque']

print("Nomes das colunas transformados para português!")
df.head()



**Descrição:** O conjunto de dados do Titanic é real e contém informações sobre os passageiros que estavam a bordo do Titanic quando ele afundou em 1912.

* **Id_Passageiro:** Identificador único de cada passageiro
* **Sobrevivente:** Indica se o passageiro sobreviveu (1) ou não (0)
* **Classe:** Classe do ticket do passageiro (1 = 1ª classe, 2 = 2ª classe, 3 = 3ª * lasse)
* **Nome:** Nome do passageiro
* **Sexo:** Sexo do passageiro
* **Idade:** Idade do passageiro
* **Irmãos/Cônjuges_A_Bordo:** Número de irmãos/cônjuges a bordo
* **Pais/Filhos_A_Bordo:** Número de pais/filhos a bordo
* **Bilhete:** Número do bilhete
* **Tarifa:** Tarifa paga pelo bilhete
* **Cabine:** Número da cabine
* **Embarque:** Porto de embarque (C = Cherbourg; Q = Queenstown; S = Southampton)


# 4 Analise Exploratória de Dados



## 4.1 Tamanho do DataFrame e Nome das Colunas

In [None]:
print("Tamanho do DataFrame:", df.shape)
print("Nomes das colunas:", df.columns.tolist())


## 4.2 Quantidade de Valores Nulos por Coluna

In [None]:
missing_data = df.isnull().sum()
missing_percentage = (df.isnull().sum() / df.shape[0]) * 100

missing_df = pd.DataFrame({'Quantidade': missing_data, 'Percentual': missing_percentage})
missing_df = missing_df[missing_df['Quantidade'] > 0].sort_values(by='Quantidade', ascending=False)

plt.figure(figsize=(12, 6))
sns.barplot(x=missing_df.index, y=missing_df['Quantidade'])
plt.title('Quantidade de Valores Nulos por Coluna')
plt.ylabel('Quantidade de Valores Nulos')
plt.xlabel('Colunas')
plt.xticks(rotation=45)
plt.show()

missing_df


## 4.3 Exemplo de Dados Sujos

In [None]:
# Exemplo de letras erradas
print("Valores únicos na coluna 'Embarque':", df['embarque'].unique())

# Exemplo de números exorbitantes
print("Idades fora do padrão:", df[df['idade'] > 150])


## 4.4 Analise Univariada

In [None]:
df.head()

In [None]:
plt.figure(figsize=(12, 6))

# Distribuição da Idade
plt.subplot(1, 2, 1)
sns.histplot(df['idade'].dropna(), bins=30, kde=True)
plt.title('Distribuição da Idade')

# Distribuição da Tarifa
plt.subplot(1, 2, 2)
sns.histplot(df['tarifa'].dropna(), bins=30, kde=True)
plt.title('Distribuição da Tarifa')

plt.tight_layout()
plt.show()

print("Análise Univariada: A distribuição da idade e da tarifa nos ajuda a entender melhor a demografia dos passageiros e a variabilidade dos preços dos bilhetes.")


## 4.5 Analise Bivariada

In [None]:
# Idade vs. sobrevivente
plt.figure(figsize=(10, 6))
sns.boxplot(x='sobrevivente', y='idade', data=df)
plt.title('Idade vs. Sobrevivência')
plt.show()

# Tarifa vs. sobrevivente
plt.figure(figsize=(10, 6))
sns.boxplot(x='sobrevivente', y='tarifa', data=df)
plt.title('Tarifa vs. Sobrevivência')
plt.show()#boxplot

# 5 Tratamento de dados nulos

In [None]:
# Preenchimento com a Média (idade)
df['idade'].fillna(df['idade'].mean(), inplace=True)

# Preenchimento com a Moda (embarque)
df['embarque'].fillna(df['embarque'].mode()[0], inplace=True)

# Preenchimento com um Valor Fixo (cabine)
df['cabine'].fillna('Desconhecido', inplace=True)

print("Dados Nulos Tratados!")

# Remoção de Linhas com Valores Nulos
# df.dropna(inplace=True)

# Preenchimento com Modelos de Machine Learning
# from sklearn.impute import SimpleImputer
# imputer = SimpleImputer(strategy='mean')
# df['idade'] = imputer.fit_transform(df[['idade']])

df.isnull().sum()


# 6 Bônus: Analises da comunidade

## 6.1 Exemplo 1

In [None]:
plt.figure(figsize=(10, 6))
sns.barplot(x='sexo', y='sobrevivente', data=df)
plt.title('Taxa de Sobrevivência por Sexo')
plt.show()


**Conclusão:** A famosa regra "mulheres e crianças primeiro" foi aplicada durante o naufrágio do Titanic.

## 6.2 Exemplo 2

In [None]:
plt.figure(figsize=(10, 6))
sns.barplot(x='classe', y='sobrevivente', data=df)
plt.title('Taxa de Sobrevivência por Classe')
plt.show()


**Conclusão:** Análise: A classe do bilhete dos passageiros pode ter influenciado suas chances de sobrevivência.

## 6.3 Exemplo 3

In [None]:
plt.figure(figsize=(10, 6))
sns.barplot(x='embarque', y='sobrevivente', data=df)
plt.title('Taxa de Sobrevivência por Porto de Embarque')
plt.show()


Embarque: Porto de embarque (C = Cherbourg; Q = Queenstown; S = Southampton)

**Conclusão:** passageiros que embarcaram em Cherbourg (C) geralmente tinham uma taxa de sobrevivência maior comparado aos que embarcaram em Southampton (S) e Queenstown (Q).