# Projeto Prático 1.1 -- Explorando Dados

O projeto prático 1.1 da disciplina de Redes Neurais Artificiais deve ser desenvolvido em duplas justas. A ideia geral é seguir o passo a passo das atividades solicitadas para aprender a utilizar as bibliotecas Python para praticar os conceitos de exploração de dados vistos ao longo dessas primeiras aulas.

Na avaliação será levado em conta:
1. Corretude das tarefas solicitadas
2. Qualidade e boas práticas de codificação
3. Eficiência na manipulação dos dados


Preecha aqui os integrantes da dupla e suas respectivas matrículas (duplo clique para editar):
- Kid Mendes de Oliveira Neto - 1615310011

## Apresentação da Atividade

Vamos aprender um pouco mais sobre carros! Para tanto, vamos utilizar o [dataset AutoMPG](https://archive.ics.uci.edu/ml/datasets/auto+mpg), que contém informações de veículos do ano de 1983 apresentados em uma exposição nos EUA. O atributo alvo chama-se mpg, denotando milhas por galão, uma unidade de medida equivalente ao nosso quilômetro por litro.

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split

## Tarefa 1: Abrir o dataset

1. Baixe o arquivo 'autompg.csv' do Google Classroom e o abra com a biblioteca pandas
2. Imprima o cabeçalho do dataset
3. Imprima os tipos de dados no dataset

#### Abrir o dataset com a biblioteca pandas:

In [2]:
dataset = pd.read_csv("autompg.csv", delimiter=";")

#### Cabeçalho do dataset:

In [3]:
dataset.head(0)

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,modelyear,origin,name


#### Tipos de dados no dataset:

In [4]:
dataset.dtypes

mpg             float64
cylinders       float64
displacement    float64
horsepower      float64
weight          float64
acceleration    float64
modelyear       float64
origin          float64
name             object
dtype: object

## Tarefa 2: Conhecendo e limpando os dados

1. Imprima os nomes das colunas do datase
2. Quantos exemplos o dataset possui?
3. Quantos exemplos com dados faltantes o dataset possui?
4. Efetue a limpeza do dataset excluindo todos os exemplos em que há alguma informação faltando. Daqui em diante, considere essa versão do dataset.

#### Nomes das colunas do dataset:

In [5]:
dataset.columns

Index(['mpg', 'cylinders', 'displacement', 'horsepower', 'weight',
       'acceleration', 'modelyear', 'origin', 'name'],
      dtype='object')

#### Quantidade de exemplos que o dataset possui:

In [6]:
dataset.shape[0]

406

#### Quantidade de exemplos com dados faltantes no dataset:

In [7]:
dataset.isnull().sum().sum()

14

#### Exluir os dados com dados faltantes do dataset e considerando essa versão:

In [8]:
dataset.dropna(inplace = True)

## Tarefa 3: Consulta aos dados

1. Calcule a média do atributo alvo mpg
2. Imprima o nome dos carros cujo consumo (mpg) é maior que a média
3. Qual o carro mais eficiente (maior mpg)?
4. Quantos carros foram fabricados após 1977?
5. Qual a cilindrada média dos carros fabricados entre 1980 e 1982?
6. Há quantos carros da marca Chevrolet no dataset? Imprima todas as características dos mesmos.

#### Média do atributo alvo mpg:

In [9]:
media_mpg = dataset['mpg'].mean()
media_mpg

23.44591836734694

#### Imprimir os dados de consumo (mpg) é maior que a média:

In [10]:
dataset[dataset['mpg'] > media_mpg]['name']

20                 toyota corona mark ii
24                          datsun pl510
25          volkswagen 1131 deluxe sedan
26                           peugeot 504
27                           audi 100 ls
28                              saab 99e
29                              bmw 2002
35                          datsun pl510
36                   chevrolet vega 2300
37                         toyota corona
57                             opel 1900
58                           peugeot 304
59                             fiat 124b
60                   toyota corolla 1200
61                           datsun 1200
62                  volkswagen model 111
63                      plymouth cricket
64                 toyota corona hardtop
65                    dodge colt hardtop
86                       renault 12 (sw)
88                       datsun 510 (sw)
90                       dodge colt (sw)
91              toyota corolla 1600 (sw)
109              volkswagen super beetle
121             

#### Carro mais eficiente (maior mpg):

In [11]:
dataset['name'][dataset['mpg'].idxmax()]

'mazda glc'

#### Quantidade de carros que foram fabricados após 1977:

In [12]:
dataset[dataset['modelyear'] > 77].shape[0]

150

#### Cilindrada média dos carros fabricados entre 1980 e 1982:

In [13]:
dataset[(dataset['modelyear'] >= 80.) & (dataset['modelyear'] <= 82.)]['cylinders'].mean()

4.329411764705882

#### Quantidade de carros da marca Chevrolet e imprimir os carros da marca Chevrolet:

In [14]:
car_chevrolet = dataset[dataset['name'].str.contains('chevrolet')]
qtd_car_chevrolet = car_chevrolet.shape[0]
print("Quantidade de carros da marca Chevrolet no dataset: ", qtd_car_chevrolet)
car_chevrolet

Quantidade de carros da marca Chevrolet no dataset:  43


Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,modelyear,origin,name
0,18.0,8.0,307.0,130.0,3504.0,12.0,70.0,1.0,chevrolet chevelle malibu
6,14.0,8.0,454.0,220.0,4354.0,9.0,70.0,1.0,chevrolet impala
18,15.0,8.0,400.0,150.0,3761.0,9.5,70.0,1.0,chevrolet monte carlo
36,28.0,4.0,140.0,90.0,2264.0,15.5,71.0,1.0,chevrolet vega 2300
42,17.0,6.0,250.0,100.0,3329.0,15.5,71.0,1.0,chevrolet chevelle malibu
45,14.0,8.0,350.0,165.0,4209.0,12.0,71.0,1.0,chevrolet impala
53,22.0,4.0,140.0,72.0,2408.0,19.0,71.0,1.0,chevrolet vega (sw)
67,20.0,4.0,140.0,90.0,2408.0,19.5,72.0,1.0,chevrolet vega
69,13.0,8.0,350.0,165.0,4274.0,12.0,72.0,1.0,chevrolet impala
80,13.0,8.0,307.0,130.0,4098.0,14.0,72.0,1.0,chevrolet chevelle concours (sw)


## Tarefa 4: Estatística Descritiva

Para o atributo alvo 'mpg', calcule:
 1. Média
 2. Mediana
 3. Máximo
 4. Mínimo
 5. Desvio Padrão
 6. Skewness
 7. Curtose
 6. Há outliers? (Valores de mpg acima ou abaixo da média + 2 desvios padrões)?
 7. Responda: O que se pode afirmar a respeito da distribuição de dados desse atributo?

#### Média do alvo mpg:

In [15]:
dataset['mpg'].mean()

23.44591836734694

#### Mediana do alvo mpg:

In [16]:
dataset['mpg'].median()

22.75

#### Máximo valor do alvo mpg:

In [17]:
dataset['mpg'].max()

46.6

#### Mínimo valor do alvo mpg:

In [18]:
dataset['mpg'].min()

9.0

#### Desvio padrão do alvo mpg:

In [19]:
dataset['mpg'].std()

7.805007486571799

#### Skewness do alvo mpg:

In [20]:
dataset['mpg'].skew()

0.45709232306041025

#### Curtose do alvo mpg:

In [21]:
dataset['mpg'].kurtosis()

-0.5159934946351457

#### Calculando a existência de outliers do alvo mpg:

In [22]:
outliers = dataset['mpg'][((dataset['mpg'] - dataset['mpg'].mean()).abs() > 2*dataset['mpg'].std())]
print('Não existem outliers no dataset.' if outliers.empty else 'Sim. Existem outliers no dataset.')
outliers

Sim. Existem outliers no dataset.


251    43.1
254    39.4
316    41.5
329    46.6
331    40.8
332    44.3
333    43.4
336    44.6
350    39.1
402    44.0
Name: mpg, dtype: float64

#### O que se pode afirmar a respeito da distribuição de dados desse atributo?

Ao descobrir o desvio padrão, foi encontrado valores que se distanciam da média dos valores que são chamados de outlier e também foi possível conhecer o valor da simetria de MPG, este valor foi considerado como assimetria positiva, indica que existem mais valores um pouco acima da média.

A distribuição de dados no atributo alvo MPG, é declarada como contém outliers, a grande parte dos valores são um pouco acima da média.

## Tarefa 5: Identificando correlações

1. Qual a correlação entre o peso do chassi (weight) e o consumo (mpg)?
2. Essa medida de correlação é mais forte ao considerarmos apenas os carros da marca Toyota?
3. Qual a correlação entre a potência (horsepower) e o consumo (mpg) para os veículos do dataset?

#### Correlação entre o peso do chassi (weight) e o consumo (mpg):

In [23]:
corr_weight_mpg = dataset['weight'].corr(dataset['mpg'])
corr_weight_mpg

-0.8322442148315753

#### Essa medida de correlação é mais forte ao considerarmos apenas os carros da marca Toyota?

In [24]:
corr_weight_mpg_toyota = dataset[dataset['name'].str.contains('toyota')]['weight'].corr(dataset['mpg'])
print("A correlação é mais fraca se considerar somentes os carros da marca Toyota." \
      if corr_weight_mpg_toyota > corr_weight_mpg \
      else "A correlação é mais forte se considerar somentes os carros da marca Toyota.")
corr_weight_mpg_toyota

A correlação é mais fraca se considerar somentes os carros da marca Toyota.


-0.6061073334078747

#### Correlação entre a potência (horsepower) e o consumo (mpg):

In [25]:
dataset['horsepower'].corr(dataset['mpg'])

-0.7784267838977759

## Tarefa 6: Preparando uma partição do tipo Holdout

1. Remova do dataset a coluna 'name'
2. Exclua o atributo alvo mpg do dataset e o atribua a uma variável Y
3. Efetue uma partição holdout 70/30 utilizando o sci-kit learn.
 - Para auxiliar, consulte a [documentação](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)

#### Remover do dataset a coluna 'name':

In [26]:
dataset = dataset.drop("name", axis=1)
dataset

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,modelyear,origin
0,18.0,8.0,307.0,130.0,3504.0,12.0,70.0,1.0
1,15.0,8.0,350.0,165.0,3693.0,11.5,70.0,1.0
2,18.0,8.0,318.0,150.0,3436.0,11.0,70.0,1.0
3,16.0,8.0,304.0,150.0,3433.0,12.0,70.0,1.0
4,17.0,8.0,302.0,140.0,3449.0,10.5,70.0,1.0
5,15.0,8.0,429.0,198.0,4341.0,10.0,70.0,1.0
6,14.0,8.0,454.0,220.0,4354.0,9.0,70.0,1.0
7,14.0,8.0,440.0,215.0,4312.0,8.5,70.0,1.0
8,14.0,8.0,455.0,225.0,4425.0,10.0,70.0,1.0
9,15.0,8.0,390.0,190.0,3850.0,8.5,70.0,1.0


#### Excluir o atributo alvo mpg do dataset e o atribuir a uma variável Y:

In [27]:
y = dataset['mpg']
dataset.drop("mpg", axis=1)

Unnamed: 0,cylinders,displacement,horsepower,weight,acceleration,modelyear,origin
0,8.0,307.0,130.0,3504.0,12.0,70.0,1.0
1,8.0,350.0,165.0,3693.0,11.5,70.0,1.0
2,8.0,318.0,150.0,3436.0,11.0,70.0,1.0
3,8.0,304.0,150.0,3433.0,12.0,70.0,1.0
4,8.0,302.0,140.0,3449.0,10.5,70.0,1.0
5,8.0,429.0,198.0,4341.0,10.0,70.0,1.0
6,8.0,454.0,220.0,4354.0,9.0,70.0,1.0
7,8.0,440.0,215.0,4312.0,8.5,70.0,1.0
8,8.0,455.0,225.0,4425.0,10.0,70.0,1.0
9,8.0,390.0,190.0,3850.0,8.5,70.0,1.0


#### Partição holdout 70/30 utilizando o sci-kit learn:

In [28]:
x = dataset.drop("mpg", axis=1)
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=42)