### Introdução
A base de dados disponibilizada tem como base o incidente do Titanic, seus dados são compostos por uma ID para cada passageiro, status de sobrevivência em valor booleano (0 - morto e 1 - vivo), tipo de passagem, nome, sexo biológico, idade, ticket, valor pago, cabine e tipo de embarque.
Obs: os dados "SibSp" e "Parch" são foram possiveís de serem identificados.

### Processamento

In [1]:
import pandas as pd
import numpy as np
import csv

In [111]:
#Carregar dataframe
df = pd.read_csv('titanic.csv')

In [66]:
#Verificar características da base
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [67]:
#Ler as três primeiras linhas
df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [113]:
#Tradução de colunas
df.rename(columns={'PassengerId': 'ID Passageiro', 'Survived': 'Sobrevivente', 'Pclass': 'Classe', 'Name': 'Nome/Sobrenome', 'Sex': 'Sexo Biológico', 'Age': 'Idade', 'SibSp': 'Sib', 'Parch': 'Passe', 'Ticket': 'Passagem', 'Fare': 'Valor da Passagem', 'Cabin': 'Cabine', 'Embarked': "Embarque"}, inplace = True)


In [69]:
#Ler a primeira linha (cabeçalho)
df.head(0)

Unnamed: 0,ID Passageiro,Sobrevivente,Classe,Nome/Sobrenome,Sexo Biológico,Idade,Sib,Passe,Passagem,Valor da Passagem,Cabine,Embarque


In [70]:
#Atualização de nome F e M
df['Sexo Biológico'] = df['Sexo Biológico'].replace({'male': 'M', 'female': 'F'})


In [71]:
#Deleção de colunas
df = df.drop(columns=['Sib', 'Passe'])
df

Unnamed: 0,ID Passageiro,Sobrevivente,Classe,Nome/Sobrenome,Sexo Biológico,Idade,Passagem,Valor da Passagem,Cabine,Embarque
0,1,0,3,"Braund, Mr. Owen Harris",M,22.0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",F,38.0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",F,26.0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",F,35.0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",M,35.0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",M,27.0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",F,19.0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",F,,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",M,26.0,111369,30.0000,C148,C


In [72]:
#Verifica se há valores nulos
print("Valores nulos por coluna do dataframe:")
print(df.isnull().sum())

Valores nulos por coluna do dataframe:
ID Passageiro          0
Sobrevivente           0
Classe                 0
Nome/Sobrenome         0
Sexo Biológico         0
Idade                177
Passagem               0
Valor da Passagem      0
Cabine               687
Embarque               2
dtype: int64


In [73]:
#Preenche valores nulos da coluna Idade, Cabine e Embarque
df['Idade'] = df['Idade'].fillna('N/A')
df['Cabine'] = df['Cabine'].fillna('N/A')
df['Embrque'] = df['Embarque'].fillna('N/A')

In [74]:
#Remove nulos em colunas específicas
df = df.dropna(subset=['Idade', 'Cabine', 'Embarque'])
df.shape

(889, 11)

In [75]:
#Sort de valores
df.sort_values(by='Sobrevivente')

Unnamed: 0,ID Passageiro,Sobrevivente,Classe,Nome/Sobrenome,Sexo Biológico,Idade,Passagem,Valor da Passagem,Cabine,Embarque,Embrque
0,1,0,3,"Braund, Mr. Owen Harris",M,22.0,A/5 21171,7.2500,,S,S
519,520,0,3,"Pavlovic, Mr. Stefo",M,32.0,349242,7.8958,,S,S
521,522,0,3,"Vovk, Mr. Janko",M,22.0,349252,7.8958,,S,S
522,523,0,3,"Lahoud, Mr. Sarkis",M,,2624,7.2250,,C,C
524,525,0,3,"Kassem, Mr. Fared",M,,2700,7.2292,,C,C
...,...,...,...,...,...,...,...,...,...,...,...
547,548,1,2,"Padro y Manent, Mr. Julian",M,,SC/PARIS 2146,13.8625,,C,C
546,547,1,2,"Beane, Mrs. Edward (Ethel Clarke)",F,19.0,2908,26.0000,,S,S
216,217,1,3,"Honkanen, Miss. Eliina",F,27.0,STON/O2. 3101283,7.9250,,S,S
218,219,1,1,"Bazzani, Miss. Albina",F,32.0,11813,76.2917,D15,C,C


In [76]:
#Lista colunas
df.columns

Index(['ID Passageiro', 'Sobrevivente', 'Classe', 'Nome/Sobrenome',
       'Sexo Biológico', 'Idade', 'Passagem', 'Valor da Passagem', 'Cabine',
       'Embarque', 'Embrque'],
      dtype='object')

In [None]:
#Copia dataframe original
df.copy()

In [None]:
#Reset index
df.reset_index(drop=True)

In [21]:
#Exportar DF para csv
df.to_csv("Base_Titanic")

In [80]:
#Dados com apresentação  estatísticas descritivas, como média, desvio padrão, máximo, mínimo e outras tendências centrais, além da forma da distribuição

df.describe()

Unnamed: 0,ID Passageiro,Sobrevivente,Classe,Valor da Passagem
count,889.0,889.0,889.0,889.0
mean,446.0,0.382452,2.311586,32.096681
std,256.998173,0.48626,0.8347,49.697504
min,1.0,0.0,1.0,0.0
25%,224.0,0.0,2.0,7.8958
50%,446.0,0.0,3.0,14.4542
75%,668.0,1.0,3.0,31.0
max,891.0,1.0,3.0,512.3292


In [82]:
#Agrupar tipos de embarque
df[['Embarque']].value_counts()

Embarque
S           644
C           168
Q            77
dtype: int64

In [117]:
#SObreviventes por tipo de embarque
df[['Embarque']].value_counts()

Embarque
S           644
C           168
Q            77
dtype: int64

In [83]:
#SObreviventes por tipo de embarque
df[['Embarque', 'Sobrevivente']].value_counts()

Embarque  Sobrevivente
S         0               427
          1               217
C         1                93
          0                75
Q         0                47
          1                30
dtype: int64

In [118]:
#Quantidade de individuos por sexo biológico
df[['Sexo Biológico']].value_counts()

Sexo Biológico
male              577
female            314
dtype: int64

In [91]:
#Quantidade de sobreviventes e mortos
df[['Sobrevivente', 'Sexo Biológico']].value_counts()

Sobrevivente  Sexo Biológico
0             M                 468
1             F                 231
              M                 109
0             F                  81
dtype: int64

In [116]:
#Idade média dos passageiros
#Não consegui trabalhar com esse :(
df.groupby(['Sexo Biológico', 'Idade'])
print(df)

     ID Passageiro  Sobrevivente  Classe  \
0                1             0       3   
1                2             1       1   
2                3             1       3   
3                4             1       1   
4                5             0       3   
..             ...           ...     ...   
886            887             0       2   
887            888             1       1   
888            889             0       3   
889            890             1       1   
890            891             0       3   

                                        Nome/Sobrenome Sexo Biológico  Idade  \
0                              Braund, Mr. Owen Harris           male   22.0   
1    Cumings, Mrs. John Bradley (Florence Briggs Th...         female   38.0   
2                               Heikkinen, Miss. Laina         female   26.0   
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)         female   35.0   
4                             Allen, Mr. William Henry           male  

### Conclusão

A partir do tratamento e análise da base de dados foi possível observar que a maior parte dos sobreviventes fizeram o tipo de embarque S, este que também continha o maior número de integrantes, 644. Os passageiros do embarque C foram os mais atingidos com o total de 75 mortos de 93.
Ademais. sobre a questão de sexo biológico, a maior parte dos passageiros era homens e  foram os que mais morreram, sendo 468 mortos de um total de 577 homens.