# Predição de Estresse no Challenger

Paulo Cysne Rios Jr | Novembro 2017

Predição do *número de problemas de componentes* nos lançamentos da aeronave Challenger.

Em 28 de janeiro de 1986, sete membros da tripulação do navio espacial Challenger dos Estados Unidos foram mortos quando um impulsionador de foguetes falhou, causando uma desintegração catastrófica. No final, os especialistas se concentraram na temperatura de lançamento como uma potencial causa. Os O-rings de borracha responsáveis pela selagem das juntas de foguetes nunca foram testadas abaixo de 40F (4C) e o clima no dia do lançamento era inusitadamente frio.

Um modelo de regressão que demonstre uma ligação entre a temperatura e a falha no O-ring, poderia prever a chance de falha dada a temperatura esperada no momento de lançamento e ter sido muito útil. Tentaremos fazer um neste exercício.

Para construir o modelo de regressão, os cientistas poderiam ter usado os dados sobre a temperatura de lançamento e o número de distúrbios (problemas) de componentes (distress_ct = distress count = contagem de distúrbios) de 23 lançamentos anteriores de lançamentos bem sucedidos.  Embora o foguete pode suportar um ou mais eventos de distúrbios (problemas) de componentes, cada distúrbio adicional aumenta a probabilidade de uma falha catastrófica!

Baseado em dados apresentados em
 - Dalal SR, Fowlkes EB, Hoadley B. Risk analysis of the space shuttle: pre-Challenger prediction of failure. Journal of the American Statistical Association. 1989; 84:945-957

## Exercício

O objetivo é predizer *distress_ct*, o número de problemas/distúrbios de componentes do foguete no lançamento da aeronave Challenger:<p>
- Prediza distress_ct dependendo somente da temperature (regressão linear simples). 
- Prediza distress_ct dependendo de todas as outras variáveis (regressão linear múltipla).
- Use as classes LinearRegression e SGDRegressor para cada caso.
- Calcule o MSE em cada caso usando o módulo metrics de SciKit-Learn.
- Faça uma tabela ao final com os MSE encontradas para comparação dos resultados.
- Os primeiros passos da modelagem estão abaixo.

In [1]:
import numpy as np
import pandas as pd

In [2]:
import matplotlib.pyplot as plt

In [4]:
challenger = pd.read_csv("data/challenger.csv")

In [5]:
challenger.columns

Index(['distress_ct', 'temperature', 'field_check_pressure', 'flight_num'], dtype='object')

In [9]:
challenger.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23 entries, 0 to 22
Data columns (total 4 columns):
distress_ct             23 non-null int64
temperature             23 non-null int64
field_check_pressure    23 non-null int64
flight_num              23 non-null int64
dtypes: int64(4)
memory usage: 816.0 bytes


In [10]:
challenger.head()

Unnamed: 0,distress_ct,temperature,field_check_pressure,flight_num
0,0,66,50,1
1,1,70,50,2
2,0,69,50,3
3,0,68,50,4
4,0,67,50,5


In [16]:
challenger["distress_ct"].value_counts()

0    16
1     5
2     2
Name: distress_ct, dtype: int64