# Análise dados Titanic

Neste Lab vamos analisar os dados do Titanic. Estes dados representam os passageiros do navio e suas características. Podemos dizer que a variável target seria se um passageiro sobreviveu ou não, representado pela variável **Survived**

**Quais hipóteses queremos testar?**

## Vamos começar importando as bibliotecas necessária

In [None]:
import pandas as pd
import numpy as np

## Overview dos Dados

**Subir CSV para Colab, ler CSV para datataframe e apresentar uma visão geral dos dados**

In [None]:
df = pd.read_csv('titanic.csv')

In [None]:
df.head(10)

In [None]:
df.describe()

In [None]:
df.info()

**Visão detalhada das colunas**

In [None]:
df['Sex'].value_counts()

In [None]:
df['Age'].value_counts(dropna = False)

In [None]:
df['Pclass'].value_counts(dropna = False)

In [None]:
df['Fare'].quantile([0.5])

## Corrigir Inconsistências

Vamos analisar se existem inconsistências nos dados como dados duplicados, valores faltantes entre outros. 

Para cada problema, é necessário analisar se existem padrões e qual a melhor maneira de corrigir.

### Analisar e corrigir dados duplicados

In [None]:
df.duplicated().sum()

In [None]:
df = df.drop_duplicates()

In [None]:
df.duplicated().sum()

### Analisar e corrigir dados faltantes/incorretos

In [None]:
df['Sex'].unique()

In [None]:
df['Sex'] =  df['Sex'].str.upper()

In [None]:
df['Sex'].value_counts(dropna = False)

In [None]:
df[df['Age'].isna()].head(10)

In [None]:
len(df[df['Age'].isna()]) / len(df)

In [None]:
df_age_missing = df[df['Age'].isna()]

In [None]:
df_age_missing['Sex'].value_counts() / df['Sex'].value_counts()

In [None]:
df_age_missing['Survived'].value_counts() / df['Survived'].value_counts()

In [None]:
df.groupby('Sex')['Age'].median()

In [None]:
df['Parch'].value_counts(dropna = False)

In [None]:
df.head()

In [None]:
df['Familia'] = df['Parch'] + df['SibSp']

In [None]:
(df['Familia'] > 0).value_counts()

In [None]:
df['TEM_PARENTES'] = df['Familia'] > 0

In [None]:
df['TEM_PARENTES'].value_counts()

In [None]:
df.groupby('TEM_PARENTES')['Age'].mean()

In [None]:
df.groupby('TEM_PARENTES')['Age'].transform('mean')

In [None]:
df['Age'].fillna(df.groupby('TEM_PARENTES')['Age'].transform('mean'), inplace = True)

In [None]:
df['Age'].isna().sum()

In [None]:
df['Embarked'].value_counts()

In [None]:
portos_titanic = ['S', 'PORT S', 'Q']

In [None]:
portos_titanic[0]

In [None]:
conversao = { 'S' : 'PORT S',
             'PORT S' : 'PORT S',
             'C' : 'PORT C',
             'PORT C' : 'PORT C',
             'PORT Q' : 'PORT Q',
             'Q' : 'PORT Q'
}

df['Embarked'] = df['Embarked'].map(conversao)

In [None]:
df['Embarked'].value_counts()

In [None]:
df['Pclass'].value_counts(dropna = False)

In [None]:
df.groupby('Pclass')['Fare'].quantile([0.25, 0.75])

In [None]:
def preencher_pclass(row):
  if pd.isna(row['Pclass']):
    if row['Fare'] < 15:
      return 3.0
    elif row['Fare'] < 26:
      return 2.0
    else:
      return 1.0
  else:
    return row['Pclass']

In [None]:
df[df['Pclass'].isna()].iloc[0]

In [None]:
preencher_pclass(df[df['Pclass'].isna()].iloc[0])

In [None]:
df['Pclass'] = df.apply(preencher_pclass, axis = 1)

In [None]:
df['Pclass'].value_counts(dropna = False)

In [None]:
df[df['Fare'].isna()]['Age'].describe()

In [None]:
df['Fare'] = np.where(df['Fare'] <= 0, np.nan, df['Fare'])

In [None]:
df['Fare'].describe()

In [None]:
df['Fare'].fillna(df.groupby('Pclass')['Fare'].transform('mean'), inplace = True)

In [None]:
df['Fare'] = np.where(df['Age'] <= 1, 0, df['Fare'])

In [None]:
df['Fare'].describe()

In [None]:
df[df['Fare'] == 0]

## Analisar probabilidade de sobrevivência por grupos

In [None]:
df['Survived'].value_counts()

In [None]:
df['Survived'].mean()

In [None]:
df.groupby("Pclass")['Survived'].mean()

In [None]:
df['Crianca'] = df['Age'] <= 18
df.groupby('Crianca')['Survived'].mean()

In [None]:
df.groupby(['Crianca', 'Pclass'])['Survived'].mean()

In [None]:
df.groupby(['Crianca', 'Pclass'])['Survived'].count()