# Exploração de Dados do Titanic com Pandas

Neste notebook, vamos explorar o conjunto de dados do Titanic usando a biblioteca Pandas. Este é um conjunto de dados clássico frequentemente usado em ciência de dados e aprendizado de máquina para tarefas de classificação.

In [None]:
!pip install -q pandas

In [None]:
import pandas as pd

# Carregar o conjunto de dados do Titanic
url = 'https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/stuff/titanic.csv'
titanic_data = pd.read_csv(url)

## Análise Descritiva em Pandas

Nesta seção, vamos realizar uma análise descritiva básica do conjunto de dados do Titanic. Vamos usar métodos como `.head()`, `.info()`, e `.describe()` para obter uma visão geral dos dados. Também utilizaremos `apply` e `groupby` para análises mais específicas.

In [None]:
# Exibir as primeiras 5 linhas do DataFrame para revisão
titanic_data.head()

In [None]:
# Informações gerais sobre o DataFrame, incluindo o tipo de dados e valores nulos
titanic_data.info()

In [None]:
# Estatísticas descritivas básicas para cada coluna
titanic_data.describe()

In [None]:
titanic_data.shape[0]  # retorna a quantidade de linhas do df
titanic_data.shape[1]  # retorna a quantidade de colunas do df
titanic_data.shape

print(titanic_data.shape[0],'-',
      titanic_data.shape[1],'-',
      titanic_data.shape)

In [None]:
# Função para categorizar a idade

def categorize_age(age):
    if age < 18:
        return 'Child'
    elif age >= 18 and age < 60:
        return 'Adult'
    else:
        return 'Senior'

In [None]:
# Aplicar a função para criar uma nova coluna 'Age_Category'
titanic_data['Age_Category'] = titanic_data['Age'].apply(categorize_age)
titanic_data.head()

In [None]:
# Utilizando sum() para descobrir quantas pessoas sobreviveram

titanic_data['Survived'].sum()

## Filtros

In [None]:
print(titanic_data['Fare'].mean())
print(titanic_data['Fare'].max())
print(titanic_data['Fare'].min())

In [None]:
# Homens que pagaram o valor do bilhete acima da média

filtro = (titanic_data.Sex == "male") & (titanic_data.Fare > titanic_data["Fare"].mean())
df_fare_homens_acima_media = titanic_data[filtro]
df_fare_homens_acima_media

In [None]:
# Analisando quantos os passageiros que viajaram de graça em relação a sua sobrevivência

titanic_data[titanic_data.Fare == 0].Survived.value_counts(normalize=False)

In [None]:
# Quem foi este único sobreviivente?

titanic_data[(titanic_data.Fare == 0) & (titanic_data.Survived == 1)]['Name']

In [None]:
# Valor Médio pago por quem sobreviveu

titanic_data[titanic_data.Survived == 1].Fare.mean()

## groupby()


O `groupby()` da biblioteca Pandas é uma função que permite agrupar dados em um DataFrame com base em um ou mais valores de colunas. Isso pode ser útil para realizar operações estatísticas ou de agregação em grupos de dados.

A sintaxe básica para o `groupby()` é:

```
df.groupby(by=[col1, col2])
```

onde `df` é o DataFrame e `by` é uma lista de colunas ou um único nome de coluna que você deseja agrupar.

Por exemplo, o seguinte código agrupa um DataFrame de vendas por produto e calcula o total de vendas para cada produto:

```
df.groupby('product')['total_sales'].sum()
```

O resultado deste código é um DataFrame com uma única coluna, `total_sales`, que contém o total de vendas para cada produto.

O `groupby()` pode ser usado com uma variedade de funções para realizar operações estatísticas ou de agregação em grupos de dados. Algumas das funções mais comuns incluem:

* `mean()`: Calcula a média dos valores em um grupo.
* `sum()`: Calcula a soma dos valores em um grupo.
* `count()`: Conta o número de valores em um grupo.
* `std()`: Calcula o desvio padrão dos valores em um grupo.
* `var()`: Calcula a variância dos valores em um grupo.
* `size()`: calcula o tamanho do grupo



In [None]:
# 5 usos diferentes de groupby

# 1. Média de sobrevivência por sexo
survival_by_sex = titanic_data.groupby('Sex')['Age'].mean()
survival_by_sex

In [None]:
# 2. Média de idade por categoria de idade
avg_age_by_category = titanic_data.groupby('Age_Category')['Age'].mean()
avg_age_by_category

In [None]:
# 3. Tarifa média por classe
avg_fare_by_class = titanic_data.groupby('Pclass')['Fare'].mean()
avg_fare_by_class

In [None]:
# 4. Sobreviventes por Classe

survived_by_class = titanic_data.groupby('Pclass')['Survived'].sum()
survived_by_class

In [None]:
# 5. Número de passageiros em cada categoria de idade
passengers_in_each_category = titanic_data.groupby('Age_Category').size()
passengers_in_each_category

In [None]:
# 6. Total de passageiros por Classe e sexo

Total_Passangers_Class_Sex = titanic_data.groupby(['Pclass','Sex']).size().reset_index(name='Total_Passengers_per_Class_Sex')
Total_Passangers_Class_Sex

In [None]:
# 7. Total de passageiros por Classe e sexo que sobreviveram

# Filtrar o DataFrame para incluir apenas os registros onde 'Survived' é igual a 1
survived_data = titanic_data[titanic_data['Survived'] == 1]

# Contar o número de passageiros que sobreviveram por classe e sexo
survived_by_class_sex = survived_data.groupby(['Pclass', 'Sex']).size().reset_index(name='Survived_Passengers')
survived_by_class_sex

In [None]:
survived_by_class_sex['Percentual_Survived'] = 100*survived_by_class_sex['Survived_Passengers']/Total_Passangers_Class_Sex['Total_Passengers_per_Class_Sex']
survived_by_class_sex

## Visualizações Básicas

Agora, vamos criar alguns gráficos básicos para explorar ainda mais o conjunto de dados do Titanic.

In [None]:
!pip install -q matplotlib seaborn

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Configurações de estilo
sns.set(style='whitegrid')

# Gráfico de barras para mostrar a média de sobrevivência por sexo
plt.figure(figsize=(4,5))
sns.barplot(x='Sex', y='Survived', data=titanic_data)
plt.title('Média de Sobrevivência por Sexo')
plt.show()

In [None]:
# Gráfico de barras para mostrar a média de sobrevivência por classe
plt.figure(figsize=(6, 5))
sns.barplot(x='Pclass', y='Survived', data=titanic_data)
plt.title('Média de Sobrevivência por Classe')
plt.show()

In [None]:
# Gráfico de dispersão para mostrar a relação entre idade e tarifa
plt.figure(figsize=(8, 6))
sns.scatterplot(x='Fare', y='Age', hue='Survived', data=titanic_data)
plt.title('Relação entre Idade e Tarifa')
plt.show()