# Projeto Prático 1.1 -- Explorando Dados

O projeto prático 1.1 da disciplina de Redes Neurais Artificiais deve ser desenvolvido em duplas justas. A ideia geral é seguir o passo a passo das atividades solicitadas para aprender a utilizar as bibliotecas Python para praticar os conceitos de exploração de dados vistos ao longo dessas primeiras aulas.

Na avaliação será levado em conta:
1. Corretude das tarefas solicitadas
2. Qualidade e boas práticas de codificação
3. Eficiência na manipulação dos dados


Preecha aqui os integrantes da dupla e suas respectivas matrículas (duplo clique para editar):
- Jailson Pereira Januário (1315170056)
- Jackson Kelvin Souza (1515310012)

## Apresentação da Atividade

Vamos aprender um pouco mais sobre carros! Para tanto, vamos utilizar o [dataset AutoMPG](https://archive.ics.uci.edu/ml/datasets/auto+mpg), que contém informações de veículos do ano de 1983 apresentados em uma exposição nos EUA. O atributo alvo chama-se mpg, denotando milhas por galão, uma unidade de medida equivalente ao nosso quilômetro por litro.

In [1]:
# Célula reservada para importar bibliotecas
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

## Tarefa 1: Abrir o dataset

1. Baixe o arquivo 'autompg.csv' do Google Classroom e o abra com a biblioteca pandas
2. Imprima o cabeçalho do dataset
3. Imprima os tipos de dados no dataset

In [2]:
#1
data = pd.read_csv('autompg.csv',delimiter=';')

In [3]:
#2
data.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,modelyear,origin,name
0,18.0,8.0,307.0,130.0,3504.0,12.0,70.0,1.0,chevrolet chevelle malibu
1,15.0,8.0,350.0,165.0,3693.0,11.5,70.0,1.0,buick skylark 320
2,18.0,8.0,318.0,150.0,3436.0,11.0,70.0,1.0,plymouth satellite
3,16.0,8.0,304.0,150.0,3433.0,12.0,70.0,1.0,amc rebel sst
4,17.0,8.0,302.0,140.0,3449.0,10.5,70.0,1.0,ford torino


In [4]:
#3
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 406 entries, 0 to 405
Data columns (total 9 columns):
mpg             398 non-null float64
cylinders       406 non-null float64
displacement    406 non-null float64
horsepower      400 non-null float64
weight          406 non-null float64
acceleration    406 non-null float64
modelyear       406 non-null float64
origin          406 non-null float64
name            406 non-null object
dtypes: float64(8), object(1)
memory usage: 28.6+ KB


## Tarefa 2: Conhecendo e limpando os dados

1. Imprima os nomes das colunas do datase
2. Quantos exemplos o dataset possui?
3. Quantos exemplos com dados faltantes o dataset possui?
4. Efetue a limpeza do dataset excluindo todos os exemplos em que há alguma informação faltando. Daqui em diante, considere essa versão do dataset.

In [5]:
#1
data.columns

Index(['mpg', 'cylinders', 'displacement', 'horsepower', 'weight',
       'acceleration', 'modelyear', 'origin', 'name'],
      dtype='object')

In [9]:
#2
data.shape[0]

406

In [7]:
#3
print("quantidade de exemplos com dados faltantes: ",data.isnull().sum().sum() )


quantidade de exemplos com dados faltantes:  14


In [8]:
#4
data = data.dropna(axis=0)
#data_novo.isnull().sum()
#data.isnull().sum()
data.head(15)

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,modelyear,origin,name
0,18.0,8.0,307.0,130.0,3504.0,12.0,70.0,1.0,chevrolet chevelle malibu
1,15.0,8.0,350.0,165.0,3693.0,11.5,70.0,1.0,buick skylark 320
2,18.0,8.0,318.0,150.0,3436.0,11.0,70.0,1.0,plymouth satellite
3,16.0,8.0,304.0,150.0,3433.0,12.0,70.0,1.0,amc rebel sst
4,17.0,8.0,302.0,140.0,3449.0,10.5,70.0,1.0,ford torino
5,15.0,8.0,429.0,198.0,4341.0,10.0,70.0,1.0,ford galaxie 500
6,14.0,8.0,454.0,220.0,4354.0,9.0,70.0,1.0,chevrolet impala
7,14.0,8.0,440.0,215.0,4312.0,8.5,70.0,1.0,plymouth fury iii
8,14.0,8.0,455.0,225.0,4425.0,10.0,70.0,1.0,pontiac catalina
9,15.0,8.0,390.0,190.0,3850.0,8.5,70.0,1.0,amc ambassador dpl


## Tarefa 3: Consulta aos dados

1. Calcule a média do atributo alvo mpg
2. Imprima o nome dos carros cujo consumo (mpg) é maior que a média
3. Qual o carro mais eficiente (maior mpg)?
4. Quantos carros foram fabricados após 1977?
5. Qual a cilindrada média dos carros fabricados entre 1980 e 1982?
6. Há quantos carros da marca Chevrolet no dataset? Imprima todas as características dos mesmos.

In [9]:
#1
media_mpg = data['mpg'].mean()
media_mpg

23.44591836734694

In [10]:
#2
data[data['mpg'] > media_mpg]['name'].head()

20           toyota corona mark ii
24                    datsun pl510
25    volkswagen 1131 deluxe sedan
26                     peugeot 504
27                     audi 100 ls
Name: name, dtype: object

In [11]:
#3
mpg_max = data['mpg'].max()
data[data['mpg'] == mpg_max]['name']

329    mazda glc
Name: name, dtype: object

In [12]:
#4
data[data['modelyear'] > 77.0].head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,modelyear,origin,name
251,43.1,4.0,90.0,48.0,1985.0,21.5,78.0,2.0,volkswagen rabbit custom diesel
252,36.1,4.0,98.0,66.0,1800.0,14.4,78.0,1.0,ford fiesta
253,32.8,4.0,78.0,52.0,1985.0,19.4,78.0,3.0,mazda glc deluxe
254,39.4,4.0,85.0,70.0,2070.0,18.6,78.0,3.0,datsun b210 gx
255,36.1,4.0,91.0,60.0,1800.0,16.4,78.0,3.0,honda civic cvcc


In [13]:
#5 Qual a cilindrada média dos carros fabricados entre 1980 e 1982?

data[(data['modelyear'] >= 80.0) & (data['modelyear'] <= 82.0)]['cylinders'].mean()

4.329411764705882

In [14]:
#6 Há quantos carros da marca Chevrolet no dataset? Imprima todas as características dos mesmos.
data['name'].str.match('chevrolet').sum()

43

## Tarefa 4: Estatística Descritiva

Para o atributo alvo 'mpg', calcule:
 1. Média
 2. Mediana
 3. Máximo
 4. Mínimo
 5. Desvio Padrão
 6. Skewness
 7. Curtose
 6. Há outliers? (Valores de mpg acima ou abaixo da média + 2 desvios padrões)?
 7. Responda: O que se pode afirmar a respeito da distribuição de dados desse atributo?

In [15]:
#1
media = data['mpg'].mean()
media

23.44591836734694

In [16]:
#2
data['mpg'].median()

22.75

In [72]:
#3
data['mpg'].max()

46.6

In [73]:
#4
data['mpg'].min()

9.0

In [74]:
#5
std = data['mpg'].std()

In [75]:
#6
data['mpg'].skew()

0.45709232306041025

In [76]:
#7
data['mpg'].kurtosis()

-0.5159934946351457

In [77]:
#8
#maior 
data[(data['mpg'] > out)]

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,modelyear,origin,name
251,43.1,4.0,90.0,48.0,1985.0,21.5,78.0,2.0,volkswagen rabbit custom diesel
254,39.4,4.0,85.0,70.0,2070.0,18.6,78.0,3.0,datsun b210 gx
316,41.5,4.0,98.0,76.0,2144.0,14.7,80.0,2.0,vw rabbit
329,46.6,4.0,86.0,65.0,2110.0,17.9,80.0,3.0,mazda glc
331,40.8,4.0,85.0,65.0,2110.0,19.2,80.0,3.0,datsun 210
332,44.3,4.0,90.0,48.0,2085.0,21.7,80.0,2.0,vw rabbit c (diesel)
333,43.4,4.0,90.0,48.0,2335.0,23.7,80.0,2.0,vw dasher (diesel)
336,44.6,4.0,91.0,67.0,1850.0,13.8,80.0,3.0,honda civic 1500 gl
350,39.1,4.0,79.0,58.0,1755.0,16.9,81.0,3.0,toyota starlet
402,44.0,4.0,97.0,52.0,2130.0,24.6,82.0,2.0,vw pickup


In [78]:
#menor
data[data['mpg'] < out].head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,modelyear,origin,name
0,18.0,8.0,307.0,130.0,3504.0,12.0,70.0,1.0,chevrolet chevelle malibu
1,15.0,8.0,350.0,165.0,3693.0,11.5,70.0,1.0,buick skylark 320
2,18.0,8.0,318.0,150.0,3436.0,11.0,70.0,1.0,plymouth satellite
3,16.0,8.0,304.0,150.0,3433.0,12.0,70.0,1.0,amc rebel sst
4,17.0,8.0,302.0,140.0,3449.0,10.5,70.0,1.0,ford torino


Existe outilers com valores acima da média com o desvio padrão

Questão 9: 

A simetria da distribuição de dados , está a cerca da relação com a obliquidade sendo maior que 0 , concentrando-se mais no lado esquerdo. E apresentam uma distribuição achatada.

## Tarefa 5: Identificando correlações

1. Qual a correlação entre o peso do chassi (weight) e o consumo (mpg)?
2. Essa medida de correlação é mais forte ao considerarmos apenas os carros da marca Toyota?
3. Qual a correlação entre a potência (horsepower) e o consumo (mpg) para os veículos do dataset?

In [17]:
#1
corr1 = data.corr()

In [18]:
corr1['weight']['mpg']

-0.8322442148315756

In [22]:
#2
corr2 = data[data['name'].str.match('toyota')].corr()
corr2['weight']['mpg']

-0.6061073334078748

In [23]:
#3
corr3 = data.corr()

In [24]:
corr3['horsepower']['mpg']

-0.7784267838977751

## Tarefa 6: Preparando uma partição do tipo Holdout

1. Remova do dataset a coluna 'name'
2. Exclua o atributo alvo mpg do dataset e o atribua a uma variável Y
3. Efetue uma partição holdout 70/30 utilizando o sci-kit learn.
 - Para auxiliar, consulte a [documentação](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)

In [25]:
# 1
data = data.drop(['name'],axis=1)

In [26]:
data.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,modelyear,origin
0,18.0,8.0,307.0,130.0,3504.0,12.0,70.0,1.0
1,15.0,8.0,350.0,165.0,3693.0,11.5,70.0,1.0
2,18.0,8.0,318.0,150.0,3436.0,11.0,70.0,1.0
3,16.0,8.0,304.0,150.0,3433.0,12.0,70.0,1.0
4,17.0,8.0,302.0,140.0,3449.0,10.5,70.0,1.0


In [27]:
#2.0 
y = data['mpg']

In [28]:
y.head()

0    18.0
1    15.0
2    18.0
3    16.0
4    17.0
Name: mpg, dtype: float64

In [29]:
#2.1
data = data.drop(['mpg'],axis=1)

In [30]:
data.head()

Unnamed: 0,cylinders,displacement,horsepower,weight,acceleration,modelyear,origin
0,8.0,307.0,130.0,3504.0,12.0,70.0,1.0
1,8.0,350.0,165.0,3693.0,11.5,70.0,1.0
2,8.0,318.0,150.0,3436.0,11.0,70.0,1.0
3,8.0,304.0,150.0,3433.0,12.0,70.0,1.0
4,8.0,302.0,140.0,3449.0,10.5,70.0,1.0


In [31]:
#3
X_train, X_test, y_train, y_test = train_test_split(data, y, test_size=0.3, random_state=3)