# Wallace Carlis

## Análise de dados do Titanic

### Para esta análise foi utilizada a base de dados "titanic_data.csv".
### As perguntas a serem realizadas é se houve correlação entre o sexo, local de embarque e a sobrevivência, ou seja, se em detrimento da localidade e do gênero houve seleção de salvos.
### Para esta investigação optou-se por realizar buscas identificando a quantidade de sobreviventes por gênero e local de embarque.
### A título de limpeza houve a exclusão das colunas Age, SibSp, Parch, Cabin, vistas como irrelevantes no processo, bem como inserção pela moda para duas pessoas sem informação sobre o local de embarque.

In [None]:
# Importação das bibliotecas a serem utilizadas

import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import numpy as np
import seaborn as sns
sns.set_style('darkgrid')

In [None]:
# Leitura do arquivo e atribuição ao DF

df = pd.read_csv('titanic_data.csv')

In [None]:
# Quantidade de linhas incluindo os títulos das colunas

df.shape[0]

In [None]:
# Quantidade de colunas antes do processo de limpeza

df.shape[1]

In [None]:
# Exibição dos primeiros 5 registros

df.head()

In [None]:
# Exibição dos últimos 5 registros

df.tail()

In [None]:
# Exclusão das colunas Age, SibSp, Parch, Cabin

df = df.drop(['Age', 'SibSp', 'Parch', 'Cabin'], axis=1)

In [None]:
# Confirmação da exclusão das colunas Age, SibSp, Parch, Cabin

df.tail()

In [None]:
# Verificação da existência e quantidade de linhas duplicadas

sum(df.duplicated())

In [None]:
# Verificação da existência e quantidade de valores nulos ou faltantes por coluna

df.isnull().sum()

In [None]:
# Localização dos valores faltantes para tratamento

df.loc[pd.isnull(df['Embarked'])]

In [None]:
# Preenchimento dos valores faltantes pelos valores que mais se encontram

df['Embarked'].fillna(df['Embarked'].mode()[0], inplace=True)

In [None]:
# Confirmação da não existência de valores faltantes

df.loc[pd.isnull(df['Embarked'])]

In [None]:
# Confirmação por colunas da não existência de valores faltantes

df.isnull().sum()

In [None]:
# Verificação da quantidade de registros por coluna

df.count()

## Análise de 4 variáveis independentes:
### não_sobreviventes e sobreviventes;
### quantidade de passageiros por classe;
### quantidade de passageiros por gênero;
### quantidade de passageiros por local de embarque.

### Análise da 1ª variável independente: quantidade de passageiros que não_sobreviveram e que sobreviveram.

In [None]:
# Quantidade de pessoas que não sobreviveram (61,6%)

df["Survived"].value_counts()[0]

In [None]:
# Quantidade de pessoas que sobreviveram (38,4%)

df["Survived"].value_counts()[1]

In [None]:
# Exibição em gráfico de pizza das porcentagens de sobreviventes e não sobreviventes

df["Survived"].value_counts().plot(kind='pie', figsize=(6,6),
colors=('tab:orange', 'tab:blue'), title="Porcentagem de sobreviventes e não sobreviventes", 
fontsize=15, autopct='%1.1f%%', labels=("Não sobreviventes", "Sobreviventes")).set_ylabel('');

### No gráfico acima obtém-se a visualização de que menos de 40% das pessoas catalogadas sobreviveram.

In [None]:
# Atribuição de novos DF's aos não_sobreviventes e sobreviventes

df_nao_sobreviventes = df["Survived"].value_counts()[0]
df_sobreviventes = df["Survived"].value_counts()[1]

In [None]:
# Verificação da atribuição aos sobreviventes

df_sobreviventes

In [None]:
# Verificação da atribuição aos não_sobreviventes

df_nao_sobreviventes

### Análise da 2ª variável independente: quantidade de passageiros por classe (1ª, 2ª, 3ª)

In [None]:
# Quantidade de passageiros por classe (1, 2, 3) sendo consideradas 1ª, 2ª e 3ª classe

df["Pclass"].value_counts()

In [None]:
# Exibição do gráfico de barras das quantidades de passageiros por classe (1, 2, 3)

df["Pclass"].value_counts().plot(kind='bar', title="Quantidade de Passageiros por Classe"), plt.xlabel("Classes");

### Neste gráfico obtém-se a visualização de que a 3ª classe recebeu maior quantidade de passageiros do que as demais.

In [None]:
# Atribuições das classes com query

df_classe1 = df.query('Pclass == "1"')
df_classe2 = df.query('Pclass == "2"')
df_classe3 = df.query('Pclass == "3"')

In [None]:
# Verificação da atribuição da classe 1

df_classe1.head()

In [None]:
# Verificação da atribuição da classe 2

df_classe2.head()

In [None]:
# Verificação da atribuição da classe 3

df_classe3.head()

### Análise da 3ª variável independente: quantidade de passageiros por gênero

In [None]:
# Quantidade de passageiros por gênero

df["Sex"].value_counts()

In [None]:
# Exibição de gráfico de pizza de passageiros por gênero

df["Sex"].value_counts().plot(kind='pie', figsize=(6,6),
colors=('tab:orange', 'tab:blue'), title="Quantidade de Passageiros por gênero", 
fontsize=15, autopct='%1.1f%%', labels=("Homens", "Mulheres")).set_ylabel('');

### Neste gráfico observa-se que a quantidade de homens se aproxima do dobro da quantidade de mulheres que embarcaram.

In [None]:
# Atribuições de quantidade de passageiros por gênero

df_homem = df.query('Sex == "male"')
df_mulher = df.query('Sex == "female"')

In [None]:
# Verificação da atribuição de passageiros por gênero masculino

df_homem.head()

In [None]:
# Verificação da atribuição de passageiros por gênero feminino

df_mulher.head()

### Análise da 4ª variável independente: quantidade de passageiros por local de embarque

In [None]:
# Quantidade de passageiros por local de embarque

df["Embarked"].value_counts()

In [None]:
# Exibição do gráfico de pizza por local de embarque
# Southampton (Inglaterra), Cherbourg (França), Queenstown (Irlanda)

locais = {'S': 'Southampton - Inglaterra','C': 'Cherbourg - França', 'Q': 'Queenstown - Irlanda'}
df.Embarked.map(locais).value_counts().plot(kind='pie', autopct='%1.1f%%', title="Local de Embarque", figsize=(5,5), fontsize=15)
plt.axis('equal'), plt.ylabel('');

### No gráfico acima visualiza-se que a grande maioria das pessoas embarcaram na Inglaterra.

In [None]:
# Atribuição dos locais de embarque ("S" para Inglaterra, "C" para França, "Q" para Irlanda)

df_Inglaterra = df.query('Embarked == "S"')
df_Franca = df.query('Embarked == "C"')
df_Irlanda = df.query('Embarked == "Q"')

In [None]:
# Verificação da atribuição do local de embarque para Inglaterra

df_Inglaterra.head()

In [None]:
# Verificação da atribuição do local de embarque para França

df_Franca.head()

In [None]:
# Verificação da atribuição do local de embarque para Irlanda

df_Irlanda.head()

## Análise da 1ª variável dependente - estatística sobre:
### vivos, gênero, classe e local de embarque.

## Estatísticas

### Quantidade de mulheres vivas pelas classes

In [None]:
df.query("Sex == 'female' and Survived == 1").groupby('Pclass').size()

In [None]:
# Exibição de gráfico de pizza de mulheres sobreviventes

df_mulher["Survived"].value_counts().plot(kind='pie', figsize=(6,6),
colors=('tab:orange', 'tab:blue'), title="Porcentagem total de mulheres sobreviventes", 
fontsize=15, autopct='%1.1f%%', labels=("Sobreviventes", "Não sobreviventes")).set_ylabel('');

### Neste gráfico percebe-se que a maior parte das mulheres que embarcaram sobreviveram.

### Quantidade de homens vivos pelas classes

In [None]:
# Quantidade de homens sobreviventes da 1ª classe

df.query("Sex == 'male' and Survived == 1").groupby('Pclass').size()

In [None]:
# Exibição de gráfico de pizza de homens sobreviventes

df_homem["Survived"].value_counts().plot(kind='pie', figsize=(6,6),
colors=('tab:blue', 'tab:orange'), title="Porcentagem total de homens sobreviventes", 
fontsize=15, autopct='%1.1f%%', labels=("Não Sobreviventes", "Sobreviventes")).set_ylabel('');

### Neste gráfico obtém-se a visualização de que a maior parte dos homens não sobreviveram.

### Quantidade de Sobreviventes por Classes

In [None]:
# Exibição de quantidade de Sobreviventes por Classe

df.groupby(["Pclass", "Survived"]).size().unstack().plot.bar(title="Sobreviventes por Classe", fontsize=10), plt.xlabel("Classes");

### No gráfico acima percebe-se que a quantidade de sobreviventes da 1ª classe é muito superior às demais, inclusive de forma proporcional.

## Quantidade de mulheres sobreviventes por classe e local de embarque

### Inglaterra

In [None]:
df.query("Sex == 'female' and Survived == 1 and Embarked == 'S'").groupby('Pclass').size()

### França

In [None]:
df.query("Sex == 'female' and Survived == 1 and Embarked == 'C'").groupby('Pclass').size()

### Irlanda

In [None]:
df.query("Sex == 'female' and Survived == 1 and Embarked == 'Q'").groupby('Pclass').size()

## Quantidade de homens sobreviventes por classe e local de embarque

### Inglaterra

In [None]:
df.query("Sex == 'male' and Survived == 1 and Embarked == 'S'").groupby('Pclass').size()

### França

In [None]:
df.query("Sex == 'male' and Survived == 1 and Embarked == 'C'").groupby('Pclass').size()

### Irlanda

In [None]:
df.query("Sex == 'male' and Survived == 1 and Embarked == 'Q'").groupby('Pclass').size()

In [None]:
df.groupby(["Embarked", "Survived"]).size().unstack().plot.bar(title="Não Sobreviventes por Local de Embarque", fontsize=10), plt.xlabel("Portos");

### Neste gráfico visualiza-se a quantidade de não sobreviventes por portos: C - Cherbourg (França), Q - Queenstown (Irlanda) e S - Southampton (Inglaterra).

## Resumo das Estatísticas

### Do total de 342 sobreviventes, 233 foram mulheres e 109 foram homens.

### Das 233 mulheres sobreviventes, 91 embarcaram na 1ª classe, 70 na 2ª classe e 72 na 3ª. Embarcaram na Inglaterra 142 mulheres, 64 na França e 27 na Irlanda.

### Dos 109 homens sobreviventes, 45 embarcaram na 1ª classe, 17 na 2ª classe e 47 na 3ª. Embarcaram na Inglaterra 77 homens, 29 na França e 3 na Irlanda.

### Cerca de 74% das mulheres e 19% dos homens se salvaram.

### 61% das mulheres que sobreviveram embarcaram na Inglaterra. 27% das sobreviventes na França e 12% na Irlanda.

### 70% dos homens sobreviventes embarcaram na Inglaterra. 27% dos sobreviventes na França e 3% na Irlanda.

### Pela quantidade total, é significativo o número de pessoas que se salvaram do naufrágio embarcando na Inglaterra, bem como a quantidade de mulheres da 1ª classe que conseguiram se salvar. Vale mencionar a quantidade de homens que embarcaram na 3ª classe e se salvaram, bem como os que embarcaram no porto francês onde os que se salvaram foram em número superior aos não sobreviventes. Por outro lado, a mínima quantidade de pessoas salvas que embarcaram na Irlanda, ainda que proporcionalmente próxima aos sobreviventes da Inglaterra.

### É prudente ressaltar que das mulheres salvas duas delas não tinham informação de local de embarque, o que foi inserido pelo tratamento aplicado aos dados como sendo o valor mais representativo, no caso, Southampton na Inglaterra, ou seja, mais duas pessoas salvas tiveram embarque inglês. Esse é nitidamente um problema ocorrido devido ao fato de se ter valores faltantes. 

### Antes da utilização da análise estatística não se consegue perceber tão claramente como o local de embarque teve forte influência na quantidade de salvos. Evidentemente, caso houvesse dados dos demais passageiros poderiam se obter mais parâmetros, como por exemplo famílias salvas por locais de embarque ou correlação com valor de passagem paga com a localidade da cabine no navio.

## Referências

### https://medium.com/marciojesus/investigando-o-naufr%C3%A1gio-do-titanic-b478c7750d31

### http://tomreads.com/2018/02/23/project-notes-udacity/