# Projeto Prático 1.1 -- Explorando Dados

O projeto prático 1.1 da disciplina de Redes Neurais Artificiais deve ser desenvolvido em duplas justas. A ideia geral é seguir o passo a passo das atividades solicitadas para aprender a utilizar as bibliotecas Python para praticar os conceitos de exploração de dados vistos ao longo dessas primeiras aulas.

Na avaliação será levado em conta:
1. Corretude das tarefas solicitadas
2. Qualidade e boas práticas de codificação
3. Eficiência na manipulação dos dados


Preecha aqui os integrantes da dupla e suas respectivas matrículas (duplo clique para editar):
- Gabriel Faraco (1515310009)
- Juliany Raiol (1515310506)

## Apresentação da Atividade

Vamos aprender um pouco mais sobre carros! Para tanto, vamos utilizar o [dataset AutoMPG](https://archive.ics.uci.edu/ml/datasets/auto+mpg), que contém informações de veículos do ano de 1983 apresentados em uma exposição nos EUA. O atributo alvo chama-se mpg, denotando milhas por galão, uma unidade de medida equivalente ao nosso quilômetro por litro.

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

## Tarefa 1: Abrir o dataset

1. Baixe o arquivo 'autompg.csv' do Google Classroom e o abra com a biblioteca pandas
2. Imprima o cabeçalho do dataset
3. Imprima os tipos de dados no dataset

In [3]:
dataframe = pd.read_csv("../data/autompg.csv", sep = ';')
dataframe.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,modelyear,origin,name
0,18.0,8.0,307.0,130.0,3504.0,12.0,70.0,1.0,chevrolet chevelle malibu
1,15.0,8.0,350.0,165.0,3693.0,11.5,70.0,1.0,buick skylark 320
2,18.0,8.0,318.0,150.0,3436.0,11.0,70.0,1.0,plymouth satellite
3,16.0,8.0,304.0,150.0,3433.0,12.0,70.0,1.0,amc rebel sst
4,17.0,8.0,302.0,140.0,3449.0,10.5,70.0,1.0,ford torino


In [4]:
print("Abaixo é listado os tipos de dados encontrados no dataset por coluna\n")

dataframe.dtypes

Abaixo é listado os tipos de dados encontrados no dataset por coluna



mpg             float64
cylinders       float64
displacement    float64
horsepower      float64
weight          float64
acceleration    float64
modelyear       float64
origin          float64
name             object
dtype: object

Como visualizado na célula anterior, os atributos encontrados nesse dataset são classificados como numérico e nominal. Pode-se perceber que a quantidade de atributos numéricos é maior.

| Atributo    | Característica  |  
|-------------|-----------------|
|mpg          |Numérico         |   
|cylinders    |Numérico         |   
|displacement |Numérico         |
|horsepower   |Numérico         |
|weight       |Numérico         |
|acceleration |Numérico         |
|modelyear    |Numérico         |
|origin       |Numérico         |
|name         |Nominal          |

## Tarefa 2: Conhecendo e limpando os dados

1. Imprima os nomes das colunas do datase
2. Quantos exemplos o dataset possui?
3. Quantos exemplos com dados faltantes o dataset possui?
4. Efetue a limpeza do dataset excluindo todos os exemplos em que há alguma informação faltando. Daqui em diante, considere essa versão do dataset.

In [5]:
columns = dataframe.columns.tolist()

print("O nome das colunas presentes no dataset é\n")
print(columns)

O nome das colunas presentes no dataset é

['mpg', 'cylinders', 'displacement', 'horsepower', 'weight', 'acceleration', 'modelyear', 'origin', 'name']


In [6]:
dataframe.shape

(406, 9)

In [7]:
# Contagem de valores faltantes no dataset

nullValues = dataframe.isnull().values.sum()

print("A quantidade de valores faltantes no dataset é %d" %nullValues)

A quantidade de valores faltantes no dataset é 14


In [8]:
# Exclusão de dados faltantes no dataset

dataframe.dropna(inplace=True)

## Tarefa 3: Consulta aos dados

1. Calcule a média do atributo alvo mpg
2. Imprima o nome dos carros cujo consumo (mpg) é maior que a média
3. Qual o carro mais eficiente (maior mpg)?
4. Quantos carros foram fabricados após 1977?
5. Qual a cilindrada média dos carros fabricados entre 1980 e 1982?
6. Há quantos carros da marca Chevrolet no dataset? Imprima todas as características dos mesmos.

In [9]:
meanMpg = dataframe.mpg.mean()

print("A média do atributo alvo é %.2f" %meanMpg)

A média do atributo alvo é 23.45


In [86]:
print("Nomes de carros cujo consumo (mpg) é maior que a média\n")

groupMPG = dataframe.loc[ dataframe.mpg > meanMpg ].groupby(['name', 'mpg']).size().rename('quantidade').reset_index()
searchMean

Nomes de carros cujo consumo (mpg) é maior que a média



Unnamed: 0,name,mpg,quantidade
0,amc concord,24.3,1
1,amc spirit dl,27.4,1
2,audi 100 ls,24.0,1
3,audi 4000,34.3,1
4,audi 5000s (diesel),36.4,1
5,audi fox,29.0,1
6,bmw 2002,26.0,1
7,buick century limited,25.0,1
8,buick opel isuzu deluxe,30.0,1
9,buick skylark,26.6,1


In [52]:
len(dataframe[dataframe.modelyear > 77])

150

In [54]:
dataframe[ (dataframe.modelyear >= 80) & (dataframe.modelyear <= 82)].cylinders.mean()

4.329411764705882

In [68]:
dataframe[dataframe.name.str.contains('chevrolet')]

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,modelyear,origin,name
0,18.0,8.0,307.0,130.0,3504.0,12.0,70.0,1.0,chevrolet chevelle malibu
6,14.0,8.0,454.0,220.0,4354.0,9.0,70.0,1.0,chevrolet impala
18,15.0,8.0,400.0,150.0,3761.0,9.5,70.0,1.0,chevrolet monte carlo
36,28.0,4.0,140.0,90.0,2264.0,15.5,71.0,1.0,chevrolet vega 2300
42,17.0,6.0,250.0,100.0,3329.0,15.5,71.0,1.0,chevrolet chevelle malibu
45,14.0,8.0,350.0,165.0,4209.0,12.0,71.0,1.0,chevrolet impala
53,22.0,4.0,140.0,72.0,2408.0,19.0,71.0,1.0,chevrolet vega (sw)
67,20.0,4.0,140.0,90.0,2408.0,19.5,72.0,1.0,chevrolet vega
69,13.0,8.0,350.0,165.0,4274.0,12.0,72.0,1.0,chevrolet impala
80,13.0,8.0,307.0,130.0,4098.0,14.0,72.0,1.0,chevrolet chevelle concours (sw)


## Tarefa 4: Estatística Descritiva

Para o atributo alvo 'mpg', calcule:
 1. Média
 2. Mediana
 3. Máximo
 4. Mínimo
 5. Desvio Padrão
 6. Skewness
 7. Curtose
 6. Há outliers? (Valores de mpg acima ou abaixo da média + 2 desvios padrões)?
 7. Responda: O que se pode afirmar a respeito da distribuição de dados desse atributo?

In [84]:
mpgMean = dataframe.mpg.mean()
mpgMean

23.44591836734694

In [70]:
dataframe.mpg.median()

22.75

In [71]:
dataframe.mpg.max()

46.6

In [72]:
dataframe.mpg.min()

9.0

In [85]:
mpgStd = dataframe.mpg.std()
mpgStd

7.805007486571799

In [73]:
dataframe.mpg.skew()

0.45709232306041025

In [75]:
dataframe.mpg.kurtosis()

-0.5159934946351457

In [109]:
outlierMax = mpgMean + (2.0*mpgStd)
outlierMin = mpgMean - (2.0*mpgStd)

In [110]:
outlierMax, outlierMin

(39.05593334049054, 7.835903394203344)

In [96]:
dataframe[(dataframe.mpg >= outlierMax) | (dataframe.mpg <= outlierMin)]

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,modelyear,origin,name
251,43.1,4.0,90.0,48.0,1985.0,21.5,78.0,2.0,volkswagen rabbit custom diesel
254,39.4,4.0,85.0,70.0,2070.0,18.6,78.0,3.0,datsun b210 gx
316,41.5,4.0,98.0,76.0,2144.0,14.7,80.0,2.0,vw rabbit
329,46.6,4.0,86.0,65.0,2110.0,17.9,80.0,3.0,mazda glc
331,40.8,4.0,85.0,65.0,2110.0,19.2,80.0,3.0,datsun 210
332,44.3,4.0,90.0,48.0,2085.0,21.7,80.0,2.0,vw rabbit c (diesel)
333,43.4,4.0,90.0,48.0,2335.0,23.7,80.0,2.0,vw dasher (diesel)
336,44.6,4.0,91.0,67.0,1850.0,13.8,80.0,3.0,honda civic 1500 gl
350,39.1,4.0,79.0,58.0,1755.0,16.9,81.0,3.0,toyota starlet
402,44.0,4.0,97.0,52.0,2130.0,24.6,82.0,2.0,vw pickup


In [None]:
AFTEEEEER

## Tarefa 5: Identificando correlações

1. Qual a correlação entre o peso do chassi (weight) e o consumo (mpg)?
2. Essa medida de correlação é mais forte ao considerarmos apenas os carros da marca Toyota?
3. Qual a correlação entre a potência (horsepower) e o consumo (mpg) para os veículos do dataset?

In [103]:
dataframe.weight.corr(dataframe.mpg)

-0.8322442148315754

In [104]:
dataframe.corr()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,modelyear,origin
mpg,1.0,-0.777618,-0.805127,-0.778427,-0.832244,0.423329,0.580541,0.565209
cylinders,-0.777618,1.0,0.950823,0.842983,0.897527,-0.504683,-0.345647,-0.568932
displacement,-0.805127,0.950823,1.0,0.897257,0.932994,-0.5438,-0.369855,-0.614535
horsepower,-0.778427,0.842983,0.897257,1.0,0.864538,-0.689196,-0.416361,-0.455171
weight,-0.832244,0.897527,0.932994,0.864538,1.0,-0.416839,-0.30912,-0.585005
acceleration,0.423329,-0.504683,-0.5438,-0.689196,-0.416839,1.0,0.290316,0.212746
modelyear,0.580541,-0.345647,-0.369855,-0.416361,-0.30912,0.290316,1.0,0.181528
origin,0.565209,-0.568932,-0.614535,-0.455171,-0.585005,0.212746,0.181528,1.0


In [114]:
toyota = dataframe[dataframe.name.str.contains('toyota')]
toyota.weight.corr(toyota.mpg)

-0.606107333407875

In [115]:
dataframe.horsepower.corr(dataframe.mpg)

-0.7784267838977761

## Tarefa 6: Preparando uma partição do tipo Holdout

1. Remova do dataset a coluna 'name'
2. Exclua o atributo alvo mpg do dataset e o atribua a uma variável Y
3. Efetue uma partição holdout 70/30 utilizando o sci-kit learn.
 - Para auxiliar, consulte a [documentação](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)

AttributeError: name