# Projeto Prático 1.1 -- Explorando Dados

O projeto prático 1.1 da disciplina de Redes Neurais Artificiais deve ser desenvolvido em duplas justas. A ideia geral é seguir o passo a passo das atividades solicitadas para aprender a utilizar as bibliotecas Python para praticar os conceitos de exploração de dados vistos ao longo dessas primeiras aulas.

Na avaliação será levado em conta:
1. Corretude das tarefas solicitadas
2. Qualidade e boas práticas de codificação
3. Eficiência na manipulação dos dados


Preecha aqui os integrantes da dupla e suas respectivas matrículas (duplo clique para editar):
- Manoel Victor Florencio de Souza
- Sérgio Alexandre Arruda Pinheiro

## Apresentação da Atividade

Vamos aprender um pouco mais sobre carros! Para tanto, vamos utilizar o [dataset AutoMPG](https://archive.ics.uci.edu/ml/datasets/auto+mpg), que contém informações de veículos do ano de 1983 apresentados em uma exposição nos EUA. O atributo alvo chama-se mpg, denotando milhas por galão, uma unidade de medida equivalente ao nosso quilômetro por litro.

In [None]:
# Célula reservada para importar bibliotecas
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split

## Tarefa 1: Abrir o dataset

1. Baixe o arquivo 'autompg.csv' do Google Classroom e o abra com a biblioteca pandas
2. Imprima o cabeçalho do dataset
3. Imprima os tipos de dados no dataset

In [None]:
df = pd.read_csv('autompg.csv', ';')

In [None]:
df.head()

In [None]:
df.dtypes

## Tarefa 2: Conhecendo e limpando os dados

1. Imprima os nomes das colunas do datase
2. Quantos exemplos o dataset possui?
3. Quantos exemplos com dados faltantes o dataset possui?
4. Efetue a limpeza do dataset excluindo todos os exemplos em que há alguma informação faltando. Daqui em diante, considere essa versão do dataset.

In [None]:
for column in df.columns: print (column)

In [None]:
df.shape[0]

In [None]:
null_rows = df.isnull().any(axis=1)
null_rows.sum()

In [None]:
df = df.dropna()
df.head()

## Tarefa 3: Consulta aos dados

1. Calcule a média do atributo alvo mpg
2. Imprima o nome dos carros cujo consumo (mpg) é maior que a média
3. Qual o carro mais eficiente (maior mpg)?
4. Quantos carros foram fabricados após 1977?
5. Qual a cilindrada média dos carros fabricados entre 1980 e 1982?
6. Há quantos carros da marca Chevrolet no dataset? Imprima todas as características dos mesmos.

In [None]:
mpg_mean = df.mpg.mean()
mpg_mean

In [None]:
df[df.mpg > mpg_mean].name

In [None]:
df[df.mpg.max() == df.mpg].name

In [None]:
df[df.modelyear > 77].shape[0]

In [None]:
df_80_82 = df[(df.modelyear >= 80) & (df.modelyear <= 82)]
df_80_82.cylinders.mean()

In [None]:
def find_brand(name, marca):
    if(marca in name):
        return True
    return False

In [None]:
df[df.name.apply(find_brand, args=['chevrolet'])].head(10)

## Tarefa 4: Estatística Descritiva

Para o atributo alvo 'mpg', calcule:
 1. Média
 2. Mediana
 3. Máximo
 4. Mínimo
 5. Desvio Padrão
 6. Skewness
 7. Curtose
 6. Há outliers? (Valores de mpg acima ou abaixo da média + 2 desvios padrões)?
 7. Responda: O que se pode afirmar a respeito da distribuição de dados desse atributo?

In [None]:
df.mpg.mean()

In [None]:
df.mpg.median()

In [None]:
df.mpg.max()

In [None]:
df.mpg.min()

In [None]:
df.mpg.std()

In [None]:
df.mpg.skew()

In [None]:
df.mpg.kurtosis()

In [None]:
df.mpg[
    (df.mpg > df.mpg.mean() + 2 * df.mpg.std()) |
    (df.mpg < df.mpg.mean() - 2 * df.mpg.std())
]

Os valores estão mais concentrados para a esquerda da média, visto que a obliquidade está positiva próxima de 0.5.
A curtose é negativa, portanto a distribuição é Platicúrtica, ou seja os valores mínimo e máximo estão bem próximos.

## Tarefa 5: Identificando correlações

1. Qual a correlação entre o peso do chassi (weight) e o consumo (mpg)?
2. Essa medida de correlação é mais forte ao considerarmos apenas os carros da marca Toyota?
3. Qual a correlação entre a potência (horsepower) e o consumo (mpg) para os veículos do dataset?

In [None]:
df_corr_weight_mpg = df[['weight', 'mpg']].corr(method='pearson')
corr_weight_mpg = df_corr_weight_mpg.iloc[0, 1]
corr_weight_mpg

In [None]:
df_toyota = df[df.name.apply(find_brand, args=['toyota'])]
df_corr_weight_mpg_toyota = df_toyota[['weight', 'mpg']].corr(method='pearson')
corr_weight_mpg_toyota = df_corr_weight_mpg_toyota.iloc[0, 1]
corr_weight_mpg_toyota

In [None]:
abs(corr_weight_mpg) < abs(corr_weight_mpg_toyota)

In [None]:
corr_horsepower_mpg = df[['horsepower','mpg']].corr(method='pearson').iloc[0, 1]
corr_horsepower_mpg

## Tarefa 6: Preparando uma partição do tipo Holdout

1. Remova do dataset a coluna 'name'
2. Exclua o atributo alvo mpg do dataset e o atribua a uma variável Y
3. Efetue uma partição holdout 70/30 utilizando o sci-kit learn.
 - Para auxiliar, consulte a [documentação](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)

In [None]:
df = df.drop('name', axis=1)

In [None]:
df.head()

In [None]:
X = df.iloc[:, 1:]
y = df.iloc[:, 0]

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)