## 2.1 - Heurística simples (submeter pelo Canvas)

In [0]:
import numpy
import pandas

def simple_heuristic(file_path):
    '''
    Neste exercício, vamos realizar algumas práticas rudimentares semelhantes às
    de um cientista de dados real.

    Parte do trabalho de um cientista de dados é usar sua intuição para escrever
    algoritmos e heurísticas. Um cientista de dados também cria modelos matemáticos
    para fazer previsões baseadas em alguns atributos dos dados que estão sendo examinandos.

    Gostaria que você aproveitasse seu conhecimento e intuição sobre o Titanic
    e os atributos de seus passageiros para prever se os passageiros sobreviveram ou não.
    Você pode ler mais sobre o Titanic e detalhes sobre este conjunto de dados em:
    https://pt.wikipedia.org/wiki/RMS_Titanic
    https://www.kaggle.com/c/titanic

    Neste exercício e nos seguintes, você recebe uma lista de passageiros do
    Titantic e suas informações associadas. Mais informações sobre os dados
    podem ser vistas no link abaixo:
    https://www.kaggle.com/c/titanic/data.

    Para este exercício, você precisa escrever uma heurística simples que usará
    a informação do sexo dos passageiros para prever se essa pessoa sobreviveu
    ao desastre do Titanic.

    Sua previsão deve ser 78% precisa ou mais.

    Aqui está uma heurística simples para começar:
       1) Se o passageiro é do sexo feminino, sua heurística deve assumir que o
       passageiro sobreviveu.
       2) Se o passageiro é do sexo masculino, sua heurística deve supor que o
       passageiro não sobreviveu.

    Você pode acessar o gênero de um passageiro via passenger['Sex'].
    Se o passageiro for do sexo masculino, o passenger['Sex'] retornará uma
    string "male".
    Se o passageiro for do sexo feminino, o passenger['Sex'] retornará uma
    string "female".

    Escreva sua previsão de volta no dicionário "predictions". A chave do
    dicionário deve ser o id do passageiro (que pode ser acessado via
    passenger["PassengerId"]) e o valor associado deve ser 1 se o passageiro
    sobreviver ou 0 caso contrário.

    Por exemplo, se for previsto que um passageiro sobreviveu:
    passenger_id = passenger['PassengerId']
    predictions[passenger_id] = 1

    E se for previsto que um passageiro morreu no desastre:
    passenger_id = passenger['PassengerId']
    predictions[passenger_id] = 0

    Acesse os dados do Titantic com os quais você trabalhará no link abaixo:
    https://1drv.ms/u/s!Av8pSmXDlugUjcN6MtBue23bhZ-dkg
    '''

    predictions = {}
    df = pandas.read_csv(file_path)
    for passenger_index, passenger in df.iterrows():
        passenger_id = passenger['PassengerId']
        # Seu código vai aqui ...
        if passenger['Sex']== 'male':
          passenger_id = passenger['PassengerId']
          predictions[passenger_id] = 0
        elif passenger['Sex'] == 'female':
          passenger_id = passenger['PassengerId']
          predictions[passenger_id] = 1
          
    return predictions, df

In [76]:
predictions, df_titanic = simple_heuristic('titanic-data.csv')
count_acertos = 0
for i in predictions:
  if predictions[i] == df_titanic['Survived'][i-1]:
    count_acertos += 1
p_acertos = count_acertos / len(predictions) * 100
print("A porcentagem de acerto nas previsões foi de {:.2f}%".format(p_acertos))

A porcentagem de acerto nas previsões foi de 78.68%


In [0]:
p_acertos = sum(list(predictions.values()) == df_titanic['Survived']) / len(predictions) * 100
print("A porcentagem de acerto nas previsões foi de {:.2f}%".format(p_acertos))

A porcentagem de acerto nas previsões foi de 78.68%


## 2.2 - Heurística mais complexa (submeter pelo Canvas)

In [0]:
import numpy
import pandas

def complex_heuristic(file_path):
    '''
    Para este exercício, você deverá escrever um algoritmo mais sofisticado que 
    usará o sexo e a classe socioeconômica dos passageiros para prever se eles 
    sobreviveram ao desastre do Titanic.

    Sua previsão deve ser 79% precisa ou mais.

    Aqui está o algoritmo, preveja que o passageiro sobreviveu se:
    1) Se o passageiro é do sexo feminino ou 
    2) se seu status socioeconômico é alto E se o passageiro é menor de 18 anos 

    Caso contrário, seu algoritmo deve prever que o passageiro morreu no desastre.

    Ou mais especificamente em termos de codificação:
    feminino ou (status alto e abaixo de 18 anos)
      
    Você pode acessar o sexo de um passageiro via passenger['Sex'].
    Se o passageiro for do sexo masculino, o passenger['Sex'] retornará uma 
    string "male".
    Se o passageiro for do sexo feminino, o passenger['Sex'] retornará uma 
    string "female".

    Você pode acessar o status socioeconômico de um passageiro via passenger['Pclass']:
    Alto status socioeconômico - passenger['Pclass'] é 1
    Médio status socioeconômico - passenger['Pclass'] é 2
    Baixo nível socioeconômico - passenger['Pclass'] é de 3

    Você pode acessar a idade de um passageiro via passenger['Age'].

    Escreva sua previsão de volta no dicionário "predictions". A chave do 
    dicionário deve ser o id do Passageiro (que pode ser acessado via 
    passenger["PassengerId"]) e o valor associado deve ser 1 se o passageiro 
    sobreviver ou 0 caso contrário.

    Por exemplo, se for previsto que um passageiro sobreviveu:
    passenger_id = passenger['PassengerId']
    predictions[passenger_id] = 1

    E se for previsto que um passageiro morreu no desastre:
    passenger_id = passenger['PassengerId']
    predictions[passenger_id] = 0
    '''
    predictions = {}
    df = pandas.read_csv(file_path)
    for passenger_index, passenger in df.iterrows():
        passenger_id = passenger['PassengerId']
        if passenger['Sex'] == "female" or ( passenger['Pclass']== 1 and passenger['Age'] <18):
          passenger_id = passenger['PassengerId']
          predictions[passenger_id] = 1
        elif passenger['Sex'] == 'male' or ( passenger['Pclass'] != 1):
          passenger_id = passenger['PassengerId']
          predictions[passenger_id] = 0
    return predictions, df

In [77]:
# ...
predictions, df_titanic = complex_heuristic('titanic-data.csv')
acertos = 0
for i in predictions:
  if predictions[i] == df_titanic['Survived'][i-1]:
    acertos += 1
# Calcula a quantidade de acerto em porcentagem
p_acertos = acertos / len(predictions) * 100
print("A porcentagem de acerto nas previsões foi de {:.2f}%".format(p_acertos))

A porcentagem de acerto nas previsões foi de 79.12%


In [80]:
# Função para calcular a quantidade de acertos (desenvolver)
def calcula_acertos(predictions, labels):
  # ...
  p_acertos = 0
  for i in predictions:
    if predictions[i] == labels[i-1]:
      p_acertos +=1
  return p_acertos/len(predictions)*100
# ...
# Calcula acertos em porcentagem
p_acertos = calcula_acertos(predictions, df['Survived'])
print("A porcentagem de acerto nas previsões foi de {:.2f}%".format(p_acertos))

A porcentagem de acerto nas previsões foi de 79.12%


## 2.3 - Heurística personalizada (submeter pelo Canvas)

In [0]:
import numpy
import pandas

def custom_heuristic(file_path):
    '''
    Para este exercício, você precisa escrever uma heurística personalizada que 
    considere alguma combinação dos atributos do passageiro para prever se o 
    passageiro sobreviveu ao desastre do Titanic.

    Será que sua heurística personalizada pode bater 80% de precisão?

    Os atributos disponíveis são:
    Pclass          Passenger Class
                    (1 = 1st; 2 = 2nd; 3 = 3rd)
    Name            Name
    Sex             Sex
    Age             Age
    SibSp           Number of Siblings/Spouses Aboard
    Parch           Number of Parents/Children Aboard
    Ticket          Ticket Number
    Fare            Passenger Fare
    Cabin           Cabin
    Embarked        Port of Embarkation
                    (C = Cherbourg; Q = Queenstown; S = Southampton)

    NOTAS ESPECIAIS:
    Pclass é um proxy para status socioeconômico (SES)
    1º ~ Alto; 2º ~ Médio; 3º ~ Baixo

    A idade é em anos; fracionária se idade menor que um.
    Se a idade é estimada, é na forma xx.5

    Com relação às variáveis de relação familiar (ou seja, SibSp e Parch) 
    algumas relações foram ignoradas. A seguir estão as definições usadas para 
    SibSp e Parch.

    Irmão:    irmão, irmã, meio-irmão ou meia-irmã do passageiro a bordo do Titanic
    Cônjuge:  marido ou esposa de passageiro a bordo do Titanic (amantes e noiva foram ignorados)
    Pai:      mãe ou pai de passageiro a bordo do Titanic
    Criança:  filho, filha, enteado ou enteada de passageiros a bordo do Titanic

    Escreva sua previsão de volta no dicionário "predictions". A chave do 
    dicionário deve ser o id do passageiro (que pode ser acessado via 
    passenger["PassengerId"]) e o valor de associação deve ser 1 se o 
    passageiro sobreviveu ou 0 caso contrário.

    Por exemplo, se for previsto que um passageiro sobreviveu:
    passenger_id = passenger['PassengerId']
    predictions[passenger_id] = 1

    E se for previsto que um passageiro morreu no desastre:
    passenger_id = passenger['PassengerId']
    predictions[passenger_id] = 0
    '''
    predictions = {}
    df = pandas.read_csv(file_path)
    for passenger_index, passenger in df.iterrows():
        passenger_id = passenger['PassengerId']
        if (passenger['Age'] ==49 and passenger['Sex']== 'female' or passenger['Pclass']==1 and passenger['Parch'] ==0 and passenger['Embarked'] =='S' and passenger['Cabin']== 'D17'):
          passenger_id = passenger['PassengerId']
          predictions[passenger_id] = 1
          passenger_id_dead = predictions[passenger_id]
        elif (passenger['Sex'] == 'male' and passenger['Pclass'] ==3) or (passenger['Pclass'] ==3 and passenger['Parch'] ==2 ) and passenger['Embarked'] =='Q':
          passenger_id = passenger['PassengerId']
          predictions[passenger_id] = 0
          passenger_id_dead = predictions[passenger_id]
  

    return predictions, df, passenger_id_dead

In [309]:
# ...
predictions,df,passenger = custom_heuristic('titanic-data.csv')
def calcula_acertos(predictions, labels):
  p_acertos = 0
  for i in predictions:
    if predictions[i] == labels[i-1]:
      p_acertos +=1
  return p_acertos/len(predictions)*100
# Calcula acertos em porcentagem
p_acertos = calcula_acertos(predictions, df['Survived'])
print("A porcentagem de acerto nas previsões foi de {:.2f}%".format(p_acertos))

A porcentagem de acerto nas previsões foi de 86.61%


### [Exemplo] Testes para descobrir as variáveis relevantes para melhorar a predição

In [0]:
import numpy
import pandas

file_path = 'titanic-data.csv'
df = pandas.read_csv(file_path)
print(df.head())

df_vivo = df[df['Survived'] == 1]
df_morto = df[df['Survived'] == 0]

print(df_vivo.count() / df.count() * 100)# 38.38% sobreviveram
print(df_morto.count() / df.count() * 100)# 61.61% morreram

print(df_vivo[df_vivo['Embarked']=='C'].count(),'\n')
print(df_vivo[df_vivo['Embarked']=='Q'].count(),'\n')
print(df_vivo[df_vivo['Embarked']=='S'].count(),'\n')

print(df_morto[df_morto['Embarked']=='C'].count(),'\n')
print(df_morto[df_morto['Embarked']=='Q'].count(),'\n')
print(df_morto[df_morto['Embarked']=='S'].count(),'\n')

# Embarked, Sobreviventes, Falecidos
# C, 93, 75
# Q, 30, 47
# S, 217, 427

print('\nSobreviventes:\n', df_vivo.describe())
print('\nFalecidos:\n', df_morto.describe())



   PassengerId  Survived  Pclass  ...     Fare Cabin  Embarked
0            1         0       3  ...   7.2500   NaN         S
1            2         1       1  ...  71.2833   C85         C
2            3         1       3  ...   7.9250   NaN         S
3            4         1       1  ...  53.1000  C123         S
4            5         0       3  ...   8.0500   NaN         S

[5 rows x 12 columns]
PassengerId    38.383838
Survived       38.383838
Pclass         38.383838
Name           38.383838
Sex            38.383838
Age            40.616246
SibSp          38.383838
Parch          38.383838
Ticket         38.383838
Fare           38.383838
Cabin          66.666667
Embarked       38.245219
dtype: float64
PassengerId    61.616162
Survived       61.616162
Pclass         61.616162
Name           61.616162
Sex            61.616162
Age            59.383754
SibSp          61.616162
Parch          61.616162
Ticket         61.616162
Fare           61.616162
Cabin          33.333333
Embarked 