<a href="https://colab.research.google.com/github/Fabricioti/analise_de_dados/blob/master/exerc%C3%ADcio_titanic_numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

![titanic](img/titanic_historical.jpg "Pintura do Titanic")

# EXERCÍCIOS: Análise de Dados do Titanic

O RMS Titanic foi um navio de passageiros britânico operado pela empresa *White Star Line* que afundou no Oceano Atlântico Norte nas primeiras horas da manhã de 15 de abril de 1912, depois de atingir um iceberg durante sua viagem inaugural de Southampton a Nova York. Dos 2.224 passageiros e tripulantes a bordo, mais de 1.500 morreram, tornando o naufrágio um dos desastres marítimos comerciais mais mortais da história moderna em tempos de paz.

Neste estudo iremos explorar um conjunto de dados baseado na lista de passageiros do Titanic editada por Michael A. Findlay, publicada originalmente em Eaton & Haas (1994) Titanic: Triumph and Tragedy, Patrick Stephens Ltd, e expandida com a ajuda da comunidade da Internet. Os arquivos HTML originais foram obtidos por Philip Hind (1999) e o *dataset* descreve o status de sobrevivência de passageiros individuais no Titanic. Ele não contém informações para a tripulação, mas contém idades atuais e estimadas para quase 80% dos passageiros.

## Dicionário de Dados

Nesta seção será apresentado todo o processo de preparação, organização e limpeza de dados feito no *dataset* que possui os seguintes dados:

| Nº | Coluna          | Descrição                                                                 |
|:--:|:----------------|:--------------------------------------------------------------------------|
|  1 | id_passageiro   | Identficador único do passageiro.                                         |
|  2 | classe          | Classe social.                                                            |
|  3 | sobreviveu      | Sobrevivente? Sim (1), Não (0).                                           |
|  4 | nome            | Nome do passageiro.                                                       |
|  5 | sexo            | Masculino (male), Feminino (female).                                      |
|  6 | idade           | Idade do passageiro.                                                      |
|  7 | irmaos_conjuges | Número de irmãos e cônjuges a bordo.                                      |
|  8 | pais_filhos     | Número de pais e filhos a bordo.                                          |
|  9 | bilhete         | Número do bilhete                                                         |
| 10 | tarifa          | Preço da tarifa do passageiro.                                            |
| 11 | cabine          | Cabine.                                                                   |
| 12 | embarque        | Nome do porto de embarque: C = Cherbourg; Q = Queenstown; S = Southampton |
| 13 | bote            | Bote salva vidas.                                                         |
| 14 | corpo           | Número de identificação do corpo.                                         |
| 15 | destino         | Local de desembarque do passageiro.                                       |

### OBSERVAÇÕES

- `classe` é uma aproximação do status socioeconômico na época, onde: 1 = Classe Alta1; 2 = Classe Média e 3 = Classe Baixa;
- `idade` está representada em anos, porém, se a idade for menor que Um (1) ou caso tenha sido estimada, ela estará com casas decimais xx.5;
- `tarifa` está em Libras esterlinas (British Pounds - £) anteriores a 1970;
- `irmaos_conjuges` e `pais_filhos`: as variáveis de relação familiar de algumas relações foram ignoradas; a seguir estão as definições usadas:
    - **Irmão**: Irmão, irmã, meio-irmão ou meia-irmã do passageiro a bordo do Titanic;
    - **Cônjuge**: Marido ou esposa do passageiro a bordo do Titanic (amantes e noivos ignorados);
    - **Pai**: Mãe ou pai do passageiro a bordo do Titanic;
    - **Criança**: Filho, Filha, Enteado ou Enteada do Passageiro a bordo do Titanic;
    - Outros parentes excluídos deste estudo incluem primos, sobrinhos / sobrinhas, tias / tios e parentes;
    - Algumas crianças viajavam apenas com uma babá, portanto foi atribuído 0 para elas em pais_filhos; 
    - Alguns viajaram com amigos ou vizinhos muito próximos em uma vila, no entanto, as definições não apóiam essas relações.


## Exercícios
Faça as questões abaixo usando somente a biblioteca [Numpy](https://numpy.org/).

1. Importe o pacote numpy com o nome np.

In [2]:
import numpy as np

2. Carregue o conjunto de dados disponível na pasta [data/titanic3.csv](data/titanic3.csv), ignorando as colunas: `cabine`, `bote`, `corpo` e `destino`. **Importante:** o arquivo `.csv` usa tabulação (`\t`) como delimitador de campos.

In [9]:
dados_titanic3 = np.genfromtxt('titanic3.csv',skip_header=True, delimiter = '\t',encoding='UTF-8', dtype=float, usecols= (0,1,2,3,4,5,6,7,8,9,11))
print (dados_titanic3)

[[1.000000e+00 1.000000e+00 1.000000e+00 ... 2.416000e+04 2.113375e+02
           nan]
 [2.000000e+00 1.000000e+00 1.000000e+00 ... 1.137810e+05 1.515500e+02
           nan]
 [3.000000e+00 1.000000e+00 0.000000e+00 ... 1.137810e+05 1.515500e+02
           nan]
 ...
 [1.307000e+03 3.000000e+00 0.000000e+00 ... 2.656000e+03 7.225000e+03
           nan]
 [1.308000e+03 3.000000e+00 0.000000e+00 ... 2.670000e+03 7.225000e+03
           nan]
 [1.309000e+03 3.000000e+00 0.000000e+00 ... 3.150820e+05 7.875000e+03
           nan]]


3. Quantas linhas foram lidas do arquivo?

In [10]:
print(len(dados_titanic3))

1309


4. Quantas dimensões sua variável dados possui?

In [74]:
print(dados_titanic3.ndim)

2


5. Obtenha os índices das posições onde existam dados ausentes.

In [68]:
import warnings
import numpy as np

a = dados_titanic3
i = np.where(a == '')

print(i)

(array([], dtype=int64),)


6. Remova todas as linhas que possuem dados ausentes.

In [73]:
dados_ausentes = np.delete(dados_titanic3, i, axis=0)
print(dados_ausentes)

[[1.000000e+00 1.000000e+00 1.000000e+00 ... 2.416000e+04 2.113375e+02
           nan]
 [2.000000e+00 1.000000e+00 1.000000e+00 ... 1.137810e+05 1.515500e+02
           nan]
 [3.000000e+00 1.000000e+00 0.000000e+00 ... 1.137810e+05 1.515500e+02
           nan]
 ...
 [1.307000e+03 3.000000e+00 0.000000e+00 ... 2.656000e+03 7.225000e+03
           nan]
 [1.308000e+03 3.000000e+00 0.000000e+00 ... 2.670000e+03 7.225000e+03
           nan]
 [1.309000e+03 3.000000e+00 0.000000e+00 ... 3.150820e+05 7.875000e+03
           nan]]


7. Mostre todos os dados das 5 primeiras linhas do dataset.

In [72]:
print(dados_titanic3[:5])

[[1.000000e+00 1.000000e+00 1.000000e+00          nan          nan
  2.900000e+01 0.000000e+00 0.000000e+00 2.416000e+04 2.113375e+02
           nan]
 [2.000000e+00 1.000000e+00 1.000000e+00          nan          nan
  1.000000e+00 1.000000e+00 2.000000e+00 1.137810e+05 1.515500e+02
           nan]
 [3.000000e+00 1.000000e+00 0.000000e+00          nan          nan
  2.000000e+00 1.000000e+00 2.000000e+00 1.137810e+05 1.515500e+02
           nan]
 [4.000000e+00 1.000000e+00 0.000000e+00          nan          nan
  3.000000e+01 1.000000e+00 2.000000e+00 1.137810e+05 1.515500e+02
           nan]
 [5.000000e+00 1.000000e+00 0.000000e+00          nan          nan
  2.500000e+01 1.000000e+00 2.000000e+00 1.137810e+05 1.515500e+02
           nan]]


8. Crie as variáveis: `idade`, `irmaos_conjuges`, `pais_filhos` e `tarifa`; com todos os dados dessas colunas, e, tipos de dados conforme a tabela abaixo:

| Nº | Coluna          | Tipo de Dados |
|:--:|-----------------|---------------|
|  6 | idade           | int           |
|  7 | irmaos_conjuges | int           |
|  8 | pais_filhos     | int           |
| 10 | tarifa          | float         |

In [83]:
idade = dados_titanic3[:,5].astype(int)
irmaos_conjuges = dados_titanic3[:,6].astype(int)
pais_filhos = dados_titanic3[:,7].astype(int)
tarifa = dados_titanic3[:,9].astype(float)

9. Selecione as primeiras 5 linhas dos dados.

In [84]:
print(idade,irmaos_conjuges,pais_filhos,tarifa[:5])

[29  1  2 ... 27 27 29] [0 1 1 ... 0 0 0] [0 2 2 ... 0 0 0] [211.3375 151.55   151.55   151.55   151.55  ]


10. Considerando o vetor `idades`, selecione todas as idades das crianças a bordo menores de 12 anos inclusive.

In [85]:
menores_12_anos = idade <= 12
print(idade)

[29  1  2 ... 27 27 29]


11. Qual é a média das idades?

12. Quais é a maior e menor idade?

In [86]:
print('Maior idade: ', idade.max())
print('Menor idade: ', idade.min())

Maior idade:  80
Menor idade:  -9223372036854775808


13. Crie um vetor chamado `sobreviventes` com todos os dados das pessoas que sobreviveram ao naufrágio.

In [88]:
filtro = dados_titanic3[:, 2] == 1
sobreviventes = dados_titanic3[filtro, :] 
print(filtro)

[ True  True False ... False False False]


14. Segundo este conjunto de dados, quantas pessoas sobreviveram ao naufrágio?

In [89]:
print(len(sobreviventes))

500


15.  Considerando a coluna `idade` dos sobreviventes calcule:
    - Média
    - Mediana
    - Máximo
    - Mínimo

In [91]:
idade_vivos = dados_titanic3[filtro, 5].astype(int)
print('Média: ', idade_vivos.mean())
print('Mediana: ', np.median(idade_vivos))
print('Máximo: ', idade_vivos.max())
print('Mínimo', idade_vivos.min())

Média:  -1.3466123173807972e+18
Mediana:  24.5
Máximo:  80
Mínimo -9223372036854775808


16. Crie um vetor chamado `vitimas_naufragio` com todos os dados das pessoas que não sobreviveram ao naufrágio.

In [95]:
mortos = dados_titanic3[:, 2] != '1'
vitimas_naufragio = dados_titanic3[mortos, :]

print(vitimas_naufragio)

[[[1.000000e+00 1.000000e+00 1.000000e+00 ... 2.416000e+04 2.113375e+02
            nan]
  [2.000000e+00 1.000000e+00 1.000000e+00 ... 1.137810e+05 1.515500e+02
            nan]
  [3.000000e+00 1.000000e+00 0.000000e+00 ... 1.137810e+05 1.515500e+02
            nan]
  ...
  [1.307000e+03 3.000000e+00 0.000000e+00 ... 2.656000e+03 7.225000e+03
            nan]
  [1.308000e+03 3.000000e+00 0.000000e+00 ... 2.670000e+03 7.225000e+03
            nan]
  [1.309000e+03 3.000000e+00 0.000000e+00 ... 3.150820e+05 7.875000e+03
            nan]]]


17. Considerando a coluna `vitimas_naufragio` dos sobreviventes calcule:
    - Média
    - Mediana
    - Máximo
    - Mínimo

In [93]:
print(vitimas_naufragio.mean())
print(np.median(vitimas_naufragio))
print(vitimas_naufragio.max())
print(vitimas_naufragio.min())

nan
nan
nan
nan


18. Qual era o preço médio das tarifas?

In [97]:
vazio = dados_titanic3[:, 9] != ''
tarifa = dados_titanic3[vazio, 9].astype(int)

print(tarifa.mean())

-3.3539534679471913e+18


19. Crie os vetores `classe_alta`, `classe_media` e `classe_baixa`, com os respectivos dados da coluna `classe` no qual:
    - 1 = Classe Alta
    - 2 = Classe Média
    - 3 = Classe Baixa

In [98]:
C1 = dados_titanic3[:, 1] == 1
classe_alta = dados_titanic3[C1, :]

C2 = dados_titanic3[:, 1] == 2
classe_media = dados_titanic3[C2, :]

C3 = dados_titanic3[:, 1] == 3
classe_baixa = dados_titanic3[C3, :]

20. Qual é o número total de passageiros por classe social?

In [101]:
print('Classe alta: ', len(classe_alta), 'passageiros')
print('Classe média: ', len(classe_media), 'passageiros')
print('Classe baixa: ', len(classe_baixa), 'passageiros')

Classe alta:  323 passageiros
Classe média:  277 passageiros
Classe baixa:  709 passageiros


# REFERÊNCIAS

- [Titanic: Machine Learning from Disaster](https://www.kaggle.com/c/titanic/data)
- [Encyclopedia Titanica](https://www.encyclopedia-titanica.org/)
- [Basic Feature Engineering with the Titanic Data](https://triangleinequality.wordpress.com/2013/09/08/basic-feature-engineering-with-the-titanic-data/)
- Hind, Philip.  "Encyclopedia Titanica."  Online.  Internet. n.p.  02 Aug 1999.