<a href="https://colab.research.google.com/gist/luizin1991/0a912a5d77f3a1e62a984df88fe3dbad/copy-of-exerc-cio_titanic_numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

![titanic](img/titanic_historical.jpg "Pintura do Titanic")

# EXERCÍCIOS: Análise de Dados do Titanic

O RMS Titanic foi um navio de passageiros britânico operado pela empresa *White Star Line* que afundou no Oceano Atlântico Norte nas primeiras horas da manhã de 15 de abril de 1912, depois de atingir um iceberg durante sua viagem inaugural de Southampton a Nova York. Dos 2.224 passageiros e tripulantes a bordo, mais de 1.500 morreram, tornando o naufrágio um dos desastres marítimos comerciais mais mortais da história moderna em tempos de paz.

Neste estudo iremos explorar um conjunto de dados baseado na lista de passageiros do Titanic editada por Michael A. Findlay, publicada originalmente em Eaton & Haas (1994) Titanic: Triumph and Tragedy, Patrick Stephens Ltd, e expandida com a ajuda da comunidade da Internet. Os arquivos HTML originais foram obtidos por Philip Hind (1999) e o *dataset* descreve o status de sobrevivência de passageiros individuais no Titanic. Ele não contém informações para a tripulação, mas contém idades atuais e estimadas para quase 80% dos passageiros.

## Dicionário de Dados

Nesta seção será apresentado todo o processo de preparação, organização e limpeza de dados feito no *dataset* que possui os seguintes dados:

| Nº | Coluna          | Descrição                                                                 |
|:--:|:----------------|:--------------------------------------------------------------------------|
|  1 | id_passageiro   | Identficador único do passageiro.                                         |
|  2 | classe          | Classe social.                                                            |
|  3 | sobreviveu      | Sobrevivente? Sim (1), Não (0).                                           |
|  4 | nome            | Nome do passageiro.                                                       |
|  5 | sexo            | Masculino (male), Feminino (female).                                      |
|  6 | idade           | Idade do passageiro.                                                      |
|  7 | irmaos_conjuges | Número de irmãos e cônjuges a bordo.                                      |
|  8 | pais_filhos     | Número de pais e filhos a bordo.                                          |
|  9 | bilhete         | Número do bilhete                                                         |
| 10 | tarifa          | Preço da tarifa do passageiro.                                            |
| 11 | cabine          | Cabine.                                                                   |
| 12 | embarque        | Nome do porto de embarque: C = Cherbourg; Q = Queenstown; S = Southampton |
| 13 | bote            | Bote salva vidas.                                                         |
| 14 | corpo           | Número de identificação do corpo.                                         |
| 15 | destino         | Local de desembarque do passageiro.                                       |

### OBSERVAÇÕES

- `classe` é uma aproximação do status socioeconômico na época, onde: 1 = Classe Alta1; 2 = Classe Média e 3 = Classe Baixa;
- `idade` está representada em anos, porém, se a idade for menor que Um (1) ou caso tenha sido estimada, ela estará com casas decimais xx.5;
- `tarifa` está em Libras esterlinas (British Pounds - £) anteriores a 1970;
- `irmaos_conjuges` e `pais_filhos`: as variáveis de relação familiar de algumas relações foram ignoradas; a seguir estão as definições usadas:
    - **Irmão**: Irmão, irmã, meio-irmão ou meia-irmã do passageiro a bordo do Titanic;
    - **Cônjuge**: Marido ou esposa do passageiro a bordo do Titanic (amantes e noivos ignorados);
    - **Pai**: Mãe ou pai do passageiro a bordo do Titanic;
    - **Criança**: Filho, Filha, Enteado ou Enteada do Passageiro a bordo do Titanic;
    - Outros parentes excluídos deste estudo incluem primos, sobrinhos / sobrinhas, tias / tios e parentes;
    - Algumas crianças viajavam apenas com uma babá, portanto foi atribuído 0 para elas em pais_filhos; 
    - Alguns viajaram com amigos ou vizinhos muito próximos em uma vila, no entanto, as definições não apóiam essas relações.


## Exercícios
Faça as questões abaixo usando somente a biblioteca [Numpy](https://numpy.org/).

1. Importe o pacote numpy com o nome np.

In [4]:
import numpy as np



2. Carregue o conjunto de dados disponível na pasta [data/titanic3.csv](data/titanic3.csv), ignorando as colunas: `cabine`, `bote`, `corpo` e `destino`. **Importante:** o arquivo `.csv` usa tabulação (`\t`) como delimitador de campos.

In [6]:
import csv
from numpy import genfromtxt
dados = np.genfromtxt('titanic.csv', delimiter='\t', encoding='utf-8', dtype=object, skip_header=True)
print(dados)

[[b'1' b'1' b'1' ... b'2' b'' b'St Louis, MO']
 [b'2' b'1' b'1' ... b'11' b'' b'Montreal, PQ / Chesterville, ON']
 [b'3' b'1' b'0' ... b'' b'' b'Montreal, PQ / Chesterville, ON']
 ...
 [b'1307' b'3' b'0' ... b'' b'304' b'']
 [b'1308' b'3' b'0' ... b'' b'' b'']
 [b'1309' b'3' b'0' ... b'' b'' b'']]


3. Quantas linhas foram lidas do arquivo?

In [7]:
print(len(dados))

1309


4. Quantas dimensões sua variável dados possui?

In [8]:
print(np.ndim(dados))

2


5. Obtenha os índices das posições onde existam dados ausentes.

In [9]:
indices = np.where(dados[:] == b'')
linhas_dados_ausentes =  indices[0]
colunas_dados_ausentes = indices[1]
indices


(array([   0,    1,    2, ..., 1308, 1308, 1308]),
 array([13, 13, 12, ..., 12, 13, 14]))

6. Remova todas as linhas que possuem dados ausentes.

In [10]:
print(dados)
print(indices)
nova_matriz = np.delete(dados, indices, axis=0)
print(nova_matriz)

[[b'1' b'1' b'1' ... b'2' b'' b'St Louis, MO']
 [b'2' b'1' b'1' ... b'11' b'' b'Montreal, PQ / Chesterville, ON']
 [b'3' b'1' b'0' ... b'' b'' b'Montreal, PQ / Chesterville, ON']
 ...
 [b'1307' b'3' b'0' ... b'' b'304' b'']
 [b'1308' b'3' b'0' ... b'' b'' b'']
 [b'1309' b'3' b'0' ... b'' b'' b'']]
(array([   0,    1,    2, ..., 1308, 1308, 1308]), array([13, 13, 12, ..., 12, 13, 14]))
[]


7. Mostre todos os dados das 5 primeiras linhas do dataset.

In [None]:
print(dados[:5])

[[b'1' b'1' b'1' b'Allen, Miss. Elisabeth Walton' b'female' b'29' b'0'
  b'0' b'24160' b'211.3375' b'B5' b'S' b'2' b'' b'St Louis, MO']
 [b'2' b'1' b'1' b'Allison, Master. Hudson Trevor' b'male' b'1' b'1' b'2'
  b'113781' b'151.5500' b'C22 C26' b'S' b'11' b''
  b'Montreal, PQ / Chesterville, ON']
 [b'3' b'1' b'0' b'Allison, Miss. Helen Loraine' b'female' b'2' b'1' b'2'
  b'113781' b'151.5500' b'C22 C26' b'S' b'' b''
  b'Montreal, PQ / Chesterville, ON']
 [b'4' b'1' b'0' b'Allison, Mr. Hudson Joshua Creighton' b'male' b'30'
  b'1' b'2' b'113781' b'151.5500' b'C22 C26' b'S' b'' b'135'
  b'Montreal, PQ / Chesterville, ON']
 [b'5' b'1' b'0' b'Allison, Mrs. Hudson J C (Bessie Waldo Daniels)'
  b'female' b'25' b'1' b'2' b'113781' b'151.5500' b'C22 C26' b'S' b'' b''
  b'Montreal, PQ / Chesterville, ON']]


8. Crie as variáveis: `idade`, `irmaos_conjuges`, `pais_filhos` e `tarifa`; com todos os dados dessas colunas, e, tipos de dados conforme a tabela abaixo:

| Nº | Coluna          | Tipo de Dados |
|:--:|-----------------|---------------|
|  6 | idade           | int           |
|  7 | irmaos_conjuges | int           |
|  8 | pais_filhos     | int           |
| 10 | tarifa          | float         |

In [None]:
condicao_vazio = dados[:, 5] != b''
idade = dados[condicao_vazio, 5].astype(float)
irmaos_conjuges = dados[:,6].astype(str)
pais_filhos = dados[:,7].astype(int)
tarifa = dados[:,9].astype(str)

9. Selecione as primeiras 5 linhas dos dados.

In [None]:
print(dados[:5])

[[b'1' b'1' b'1' b'Allen, Miss. Elisabeth Walton' b'female' b'29' b'0'
  b'0' b'24160' b'211.3375' b'B5' b'S' b'2' b'' b'St Louis, MO']
 [b'2' b'1' b'1' b'Allison, Master. Hudson Trevor' b'male' b'1' b'1' b'2'
  b'113781' b'151.5500' b'C22 C26' b'S' b'11' b''
  b'Montreal, PQ / Chesterville, ON']
 [b'3' b'1' b'0' b'Allison, Miss. Helen Loraine' b'female' b'2' b'1' b'2'
  b'113781' b'151.5500' b'C22 C26' b'S' b'' b''
  b'Montreal, PQ / Chesterville, ON']
 [b'4' b'1' b'0' b'Allison, Mr. Hudson Joshua Creighton' b'male' b'30'
  b'1' b'2' b'113781' b'151.5500' b'C22 C26' b'S' b'' b'135'
  b'Montreal, PQ / Chesterville, ON']
 [b'5' b'1' b'0' b'Allison, Mrs. Hudson J C (Bessie Waldo Daniels)'
  b'female' b'25' b'1' b'2' b'113781' b'151.5500' b'C22 C26' b'S' b'' b''
  b'Montreal, PQ / Chesterville, ON']]


10. Considerando o vetor `idades`, selecione todas as idades das crianças a bordo menores de 12 anos inclusive.

In [None]:
condicao = dados[:, 5] <= b'12'
idade = dados[condicao, :]
idade


array([[b'2', b'1', b'1', ..., b'11', b'',
        b'Montreal, PQ / Chesterville, ON'],
       [b'16', b'1', b'0', ..., b'', b'', b'New York, NY'],
       [b'38', b'1', b'1', ..., b'9', b'', b'Los Angeles, CA'],
       ...,
       [b'1303', b'3', b'0', ..., b'', b'', b''],
       [b'1304', b'3', b'0', ..., b'', b'', b''],
       [b'1306', b'3', b'0', ..., b'', b'', b'']], dtype=object)

11. Qual é a média das idades?

In [None]:
condicao_vazio = dados[:, 5] != b''
idade = dados[condicao_vazio, 5].astype(float)
print(idade.mean())

29.89770554493308


12. Quais é a maior e menor idade?

In [None]:
print(idade.max())
print(idade.min())

80.0
0.0


13. Crie um vetor chamado `sobreviventes` com todos os dados das pessoas que sobreviveram ao naufrágio.

In [None]:
condicao = dados[:, 2] == b'1'
dados_sobreviventes = dados[condicao, :]
dados_sobreviventes

array([[b'1', b'1', b'1', b'Allen, Miss. Elisabeth Walton', b'female'],
       [b'2', b'1', b'1', b'Allison, Master. Hudson Trevor', b'male'],
       [b'6', b'1', b'1', b'Anderson, Mr. Harry', b'male'],
       ...,
       [b'1287', b'3', b'1',
        b'Whabee, Mrs. George Joseph (Shawneene Abi-Saab)', b'female'],
       [b'1291', b'3', b'1', b'Wilkes, Mrs. James (Ellen Needs)',
        b'female'],
       [b'1301', b'3', b'1', b'Yasbeck, Mrs. Antoni (Selini Alexander)',
        b'female']], dtype=object)

14. Segundo este conjunto de dados, quantas pessoas sobreviveram ao naufrágio?

In [None]:
print(len(vet_sobreviventes))

1309


15.  Considerando a coluna `idade` dos sobreviventes calcule:
    - Média
    - Mediana
    - Máximo
    - Mínimo

In [63]:
condicao_vazio = dados[:, 2] != b''
idade = dados[condicao_vazio, 2].astype(float)
print(idade.mean())
print(idade.min())
print(idade.max())


TypeError: ignored

16. Crie um vetor chamado `vitimas_naufragio` com todos os dados das pessoas que não sobreviveram ao naufrágio.

In [29]:
condicao = dados[:, 2] == b'0'
dados_vitimas = dados[condicao, :]
dados_vitimas

array([[b'3', b'1', b'0', ..., b'', b'',
        b'Montreal, PQ / Chesterville, ON'],
       [b'4', b'1', b'0', ..., b'', b'135',
        b'Montreal, PQ / Chesterville, ON'],
       [b'5', b'1', b'0', ..., b'', b'',
        b'Montreal, PQ / Chesterville, ON'],
       ...,
       [b'1307', b'3', b'0', ..., b'', b'304', b''],
       [b'1308', b'3', b'0', ..., b'', b'', b''],
       [b'1309', b'3', b'0', ..., b'', b'', b'']], dtype=object)

17. Considerando a coluna `vitimas_naufragio` dos sobreviventes calcule:
    - Média
    - Mediana
    - Máximo
    - Mínimo

In [67]:
dados_vitimas = np.where(dados[:] == b'')
linhas_dados_ausentes =  dados_vitimas[0]
colunas_dados_ausentes = dados_vitimas[1]
indices
#vitmas
condicao_vazio = dados[2:, 5] == 0
dados_vitimas = dados[condicao_vazio, 2].astype(float)
print(dados_vitimas.mean())
print(dados_vitimas.min())
print(dados_vitimas.max())

IndexError: ignored

18. Qual era o preço médio das tarifas?

In [None]:
condicao_vazio = dados[:, 9] != b''
tarifa = dados[condicao_vazio, 9].astype(float)
print(tarifa.mean())

4428.399034327217


19. Crie os vetores `classe_alta`, `classe_media` e `classe_baixa`, com os respectivos dados da coluna `classe` no qual:
    - 1 = Classe Alta
    - 2 = Classe Média
    - 3 = Classe Baixa

In [26]:
condicao_vazio = dados[:, 1] != b'1'
alta = dados[condicao_vazio, 1].astype(int)

condicao_vazio = dados[:, 1] != b'2'
media = dados[:,1].astype(int)

condicao_vazio = dados[:, 1] != b'3'
baixa = dados[:,1].astype(int)


20. Qual é o número total de passageiros por classe social?

In [27]:

print(len(alta))

print(len(media))

print(len(baixa))


986
1309
1309


# REFERÊNCIAS

- [Titanic: Machine Learning from Disaster](https://www.kaggle.com/c/titanic/data)
- [Encyclopedia Titanica](https://www.encyclopedia-titanica.org/)
- [Basic Feature Engineering with the Titanic Data](https://triangleinequality.wordpress.com/2013/09/08/basic-feature-engineering-with-the-titanic-data/)
- Hind, Philip.  "Encyclopedia Titanica."  Online.  Internet. n.p.  02 Aug 1999.