# Projeto Prático 1.1 -- Explorando Dados

O projeto prático 1.1 da disciplina de Redes Neurais Artificiais deve ser desenvolvido em duplas justas. A ideia geral é seguir o passo a passo das atividades solicitadas para aprender a utilizar as bibliotecas Python para praticar os conceitos de exploração de dados vistos ao longo dessas primeiras aulas.

Na avaliação será levado em conta:
1. Corretude das tarefas solicitadas
2. Qualidade e boas práticas de codificação
3. Eficiência na manipulação dos dados


Preecha aqui os integrantes da dupla e suas respectivas matrículas (duplo clique para editar):
- Integrante 1
- Integrante 2

## Apresentação da Atividade

Vamos aprender um pouco mais sobre carros! Para tanto, vamos utilizar o [dataset AutoMPG](https://archive.ics.uci.edu/ml/datasets/auto+mpg), que contém informações de veículos do ano de 1983 apresentados em uma exposição nos EUA. O atributo alvo chama-se mpg, denotando milhas por galão, uma unidade de medida equivalente ao nosso quilômetro por litro.

In [4]:
# Célula reservada para importar bibliotecas
import pandas as pd
import numpy as np

## Tarefa 1: Abrir o dataset

1. Baixe o arquivo 'autompg.csv' do Google Classroom e o abra com a biblioteca pandas
2. Imprima o cabeçalho do dataset
3. Imprima os tipos de dados no dataset

In [5]:
data = pd.read_csv('autompg.csv',delimiter=';')

In [6]:
data.head()
print(data)

      mpg  cylinders  displacement  horsepower  weight  acceleration  \
0    18.0        8.0         307.0       130.0  3504.0          12.0   
1    15.0        8.0         350.0       165.0  3693.0          11.5   
2    18.0        8.0         318.0       150.0  3436.0          11.0   
3    16.0        8.0         304.0       150.0  3433.0          12.0   
4    17.0        8.0         302.0       140.0  3449.0          10.5   
5    15.0        8.0         429.0       198.0  4341.0          10.0   
6    14.0        8.0         454.0       220.0  4354.0           9.0   
7    14.0        8.0         440.0       215.0  4312.0           8.5   
8    14.0        8.0         455.0       225.0  4425.0          10.0   
9    15.0        8.0         390.0       190.0  3850.0           8.5   
10    NaN        4.0         133.0       115.0  3090.0          17.5   
11    NaN        8.0         350.0       165.0  4142.0          11.5   
12    NaN        8.0         351.0       153.0  4034.0          

In [7]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 406 entries, 0 to 405
Data columns (total 9 columns):
mpg             398 non-null float64
cylinders       406 non-null float64
displacement    406 non-null float64
horsepower      400 non-null float64
weight          406 non-null float64
acceleration    406 non-null float64
modelyear       406 non-null float64
origin          406 non-null float64
name            406 non-null object
dtypes: float64(8), object(1)
memory usage: 28.6+ KB


## Tarefa 2: Conhecendo e limpando os dados

1. Imprima os nomes das colunas do datase
2. Quantos exemplos o dataset possui?
3. Quantos exemplos com dados faltantes o dataset possui?
4. Efetue a limpeza do dataset excluindo todos os exemplos em que há alguma informação faltando. Daqui em diante, considere essa versão do dataset.

In [8]:
#1
data.columns

Index(['mpg', 'cylinders', 'displacement', 'horsepower', 'weight',
       'acceleration', 'modelyear', 'origin', 'name'],
      dtype='object')

In [49]:
#2
data.size

3654

In [44]:
#3
data.isnull().sum()

mpg             8
cylinders       0
displacement    0
horsepower      6
weight          0
acceleration    0
modelyear       0
origin          0
name            0
dtype: int64

In [52]:
#4
data_novo = data.dropna(axis=0)
#data_novo.isnull().sum()

## Tarefa 3: Consulta aos dados

1. Calcule a média do atributo alvo mpg
2. Imprima o nome dos carros cujo consumo (mpg) é maior que a média
3. Qual o carro mais eficiente (maior mpg)?
4. Quantos carros foram fabricados após 1977?
5. Qual a cilindrada média dos carros fabricados entre 1980 e 1982?
6. Há quantos carros da marca Chevrolet no dataset? Imprima todas as características dos mesmos.

In [30]:
#1
data_novo['mpg'].mean()

23.44591836734694

In [31]:
#2
data_novo[data_novo['mpg'] > media_mpg]['name']

20                 toyota corona mark ii
24                          datsun pl510
25          volkswagen 1131 deluxe sedan
26                           peugeot 504
27                           audi 100 ls
28                              saab 99e
29                              bmw 2002
35                          datsun pl510
36                   chevrolet vega 2300
37                         toyota corona
57                             opel 1900
58                           peugeot 304
59                             fiat 124b
60                   toyota corolla 1200
61                           datsun 1200
62                  volkswagen model 111
63                      plymouth cricket
64                 toyota corona hardtop
65                    dodge colt hardtop
86                       renault 12 (sw)
88                       datsun 510 (sw)
90                       dodge colt (sw)
91              toyota corolla 1600 (sw)
109              volkswagen super beetle
121             

In [61]:
#3
mpg_max = data_novo['mpg'].max()
data_novo[data_novo['mpg'] == mpg_max]['name']

329    mazda glc
Name: name, dtype: object

In [62]:
#4
data_novo[data_novo['modelyear'] > 77.0]

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,modelyear,origin,name
251,43.1,4.0,90.0,48.0,1985.0,21.5,78.0,2.0,volkswagen rabbit custom diesel
252,36.1,4.0,98.0,66.0,1800.0,14.4,78.0,1.0,ford fiesta
253,32.8,4.0,78.0,52.0,1985.0,19.4,78.0,3.0,mazda glc deluxe
254,39.4,4.0,85.0,70.0,2070.0,18.6,78.0,3.0,datsun b210 gx
255,36.1,4.0,91.0,60.0,1800.0,16.4,78.0,3.0,honda civic cvcc
256,19.9,8.0,260.0,110.0,3365.0,15.5,78.0,1.0,oldsmobile cutlass salon brougham
257,19.4,8.0,318.0,140.0,3735.0,13.2,78.0,1.0,dodge diplomat
258,20.2,8.0,302.0,139.0,3570.0,12.8,78.0,1.0,mercury monarch ghia
259,19.2,6.0,231.0,105.0,3535.0,19.2,78.0,1.0,pontiac phoenix lj
260,20.5,6.0,200.0,95.0,3155.0,18.2,78.0,1.0,chevrolet malibu


In [16]:
#5

In [17]:
#6

## Tarefa 4: Estatística Descritiva

Para o atributo alvo 'mpg', calcule:
 1. Média
 2. Mediana
 3. Máximo
 4. Mínimo
 5. Desvio Padrão
 6. Skewness
 7. Curtose
 6. Há outliers? (Valores de mpg acima ou abaixo da média + 2 desvios padrões)?
 7. Responda: O que se pode afirmar a respeito da distribuição de dados desse atributo?

In [18]:
#1
data_novo['mpg'].mean()

23.44591836734694

In [19]:
#2
data_novo['mpg'].median()

22.75

In [20]:
#3
data_novo['mpg'].max()

46.6

In [21]:
#4

Duplo clique aqui para editar sua resposta do item 7

## Tarefa 5: Identificando correlações

1. Qual a correlação entre o peso do chassi (weight) e o consumo (mpg)?
2. Essa medida de correlação é mais forte ao considerarmos apenas os carros da marca Toyota?
3. Qual a correlação entre a potência (horsepower) e o consumo (mpg) para os veículos do dataset?

## Tarefa 6: Preparando uma partição do tipo Holdout

1. Remova do dataset a coluna 'name'
2. Exclua o atributo alvo mpg do dataset e o atribua a uma variável Y
3. Efetue uma partição holdout 70/30 utilizando o sci-kit learn.
 - Para auxiliar, consulte a [documentação](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)