# Analise de Dados Titanic
Analise dos dados demográficos de 891 dos 2.224 passageiros e tripulantes a bordo do Titanic

In [25]:
#importando bibliotecas que serão utilizadas
import pandas as pd
import numpy as np

#lendo os dados para análise
df_titanic = pd.read_csv("titanic-data-6.csv")
df_titanic.head()

Unnamed: 0,passengerid,survived,pclass,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


# Primeiro Passo
Perguntas a serem realizadas

Quais foram os fatores que fizeram com que algumas pessoas fossem mais propensas a sobreviver?

Quais foram os fatores para que as pessoas comprassem primeira classe?

O fato de ter parentes a bordo fez com que pessoas não abondonassem o navio?

#  Segundo Passo
Limpar os dados

Consiste em tres passos: Reunir, avaliar e limpar. Reune os dados que vai precisar para responder as perguntas da  análise dos dados, avalia para identificar qualquer dificuldade que possa obter durante a análise e limpa os dados modificando, substituindo ou removendo para se obter a melhor qualidade para as respostas.

In [18]:
#Verificando o tamanho da amostra
print("Quantidade de amostras {}".format(df_titanic.shape[0]))
print("Quantidade de colunas {}".format(df_titanic.shape[1]))

Quantidade de amostras 891
Quantidade de colunas 12


In [19]:
df_titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.6+ KB


Como o dataframe ja possui uma coluna de Id, vamos utilizar a propria coluna do dataframe de index, para isso vamos ler novamente o dataframe indicando a coluna PassengerId como index.

In [None]:
df_titanic = pd.read_csv("titanic-data-6.csv", index_col="PassengerId")
df_titanic.head()

Verificando as colunas do dataframe podemos observar que estão todas começando com letras maiusculas e algumas em seguida que possuem mais de um nome estão com outras letras maiusculas na mesma palavra, então será colocado todos os valores das colunas para letras minusculas para que seja mais facil o acesso aos dados

In [20]:
#Colunas do dataframe
for i, v in enumerate(df_titanic.columns):
    print(i, v)

0 PassengerId
1 Survived
2 Pclass
3 Name
4 Sex
5 Age
6 SibSp
7 Parch
8 Ticket
9 Fare
10 Cabin
11 Embarked


In [32]:
#colocando todas as colunas com letras minusculas para facilidade de acesso 
df_titanic.rename(columns=lambda x: x.strip().lower(), inplace=True)
df_titanic.to_csv('titanic-data-6.csv', index=False)
df_titanic.head(1)

Unnamed: 0_level_0,survived,pclass,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked
passengerid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S


Algumas informações não são necessárias para responder as perguntas feitas para a análise dos dados, então para isso será removida as colunas desnecessárias.

In [37]:
drop_list = ['ticket', 'cabin']
df_titanic.drop(drop_list, axis=1, inplace=True)

In [38]:
df_titanic.head(1)

Unnamed: 0_level_0,survived,pclass,name,sex,age,sibsp,parch,fare,embarked
passengerid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,7.25,S


Tratando dados duplicados e nulos

In [39]:
print("Quantidade de dados duplicados: {}".format(df_titanic.duplicated().sum()))

Quantidade de dados duplicados: 0


In [40]:
df_titanic.isnull().sum()

survived      0
pclass        0
name          0
sex           0
age         177
sibsp         0
parch         0
fare          0
embarked      2
dtype: int64

Existem muitos dados de idade sem registro, se removessemos esses dados estariamos comprometendo a análise dos dados. Então para esse problema serão substituidos os dados nulos pela média da idade do dataframe.

In [41]:
#Alterando dados nulos para valores da média
df_titanic['age'].fillna(df_titanic['age'].mean(), inplace=True)

Como temos somente dois dados nulos de onde o passageiro embarcou, vamos eliminar esses dados pois não serão relevantes para a análise.

In [43]:
#Removendo valores nulos
df_titanic.dropna(inplace=True, how='any')

In [44]:
#Verificando as alterações
df_titanic.isnull().sum()

survived    0
pclass      0
name        0
sex         0
age         0
sibsp       0
parch       0
fare        0
embarked    0
dtype: int64

Fazendo análise dos tipos dos dados

In [66]:
for column in df_titanic.columns:
        print("coluna: {0}, tipo: {1}".format(column, type(df_titanic[column][1])))

coluna: survived, tipo: <class 'numpy.int64'>
coluna: pclass, tipo: <class 'numpy.int64'>
coluna: name, tipo: <class 'str'>
coluna: sex, tipo: <class 'str'>
coluna: age, tipo: <class 'numpy.float64'>
coluna: sibsp, tipo: <class 'numpy.int64'>
coluna: parch, tipo: <class 'numpy.int64'>
coluna: fare, tipo: <class 'numpy.float64'>
coluna: embarked, tipo: <class 'str'>


Visualizando os tipos dos dados, é possível verificar que as idades estão como tipo float, para melhorar os calculos vamos passar as idades para o tipo int64

In [67]:
df_titanic['age'] = df_titanic['age'].astype(int)

In [68]:
#Verificando a modificação
print("coluna: age, tipo: {}".format(type(df_titanic['age'][1])))

coluna: age, tipo: <class 'numpy.int64'>


In [70]:
df_titanic.head(10)

Unnamed: 0_level_0,survived,pclass,name,sex,age,sibsp,parch,fare,embarked
passengerid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22,1,0,7.25,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38,1,0,71.2833,C
3,1,3,"Heikkinen, Miss. Laina",female,26,0,0,7.925,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35,1,0,53.1,S
5,0,3,"Allen, Mr. William Henry",male,35,0,0,8.05,S
6,0,3,"Moran, Mr. James",male,29,0,0,8.4583,Q
7,0,1,"McCarthy, Mr. Timothy J",male,54,0,0,51.8625,S
8,0,3,"Palsson, Master. Gosta Leonard",male,2,3,1,21.075,S
9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27,0,2,11.1333,S
10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14,1,0,30.0708,C


# Terceiro Passo
Análise exploratória dos dados

Envolve encontrar padrões e relações entre os dados e entender sobre o assunto que esta sendo abordado