# Projeto Prático 1.1 -- Explorando Dados

O projeto prático 1.1 da disciplina de Redes Neurais Artificiais deve ser desenvolvido em duplas justas. A ideia geral é seguir o passo a passo das atividades solicitadas para aprender a utilizar as bibliotecas Python para praticar os conceitos de exploração de dados vistos ao longo dessas primeiras aulas.

Na avaliação será levado em conta:
1. Corretude das tarefas solicitadas
2. Qualidade e boas práticas de codificação
3. Eficiência na manipulação dos dados


Preecha aqui os integrantes da dupla e suas respectivas matrículas (duplo clique para editar):
- Manoel Victor Florencio de Souza
- Sérgio Alexandre Arruda Pinheiro

## Apresentação da Atividade

Vamos aprender um pouco mais sobre carros! Para tanto, vamos utilizar o [dataset AutoMPG](https://archive.ics.uci.edu/ml/datasets/auto+mpg), que contém informações de veículos do ano de 1983 apresentados em uma exposição nos EUA. O atributo alvo chama-se mpg, denotando milhas por galão, uma unidade de medida equivalente ao nosso quilômetro por litro.

In [100]:
# Célula reservada para importar bibliotecas
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split

## Tarefa 1: Abrir o dataset

1. Baixe o arquivo 'autompg.csv' do Google Classroom e o abra com a biblioteca pandas
2. Imprima o cabeçalho do dataset
3. Imprima os tipos de dados no dataset

In [86]:
df = pd.read_csv('autompg.csv', ';')

In [3]:
df.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,modelyear,origin,name
0,18.0,8.0,307.0,130.0,3504.0,12.0,70.0,1.0,chevrolet chevelle malibu
1,15.0,8.0,350.0,165.0,3693.0,11.5,70.0,1.0,buick skylark 320
2,18.0,8.0,318.0,150.0,3436.0,11.0,70.0,1.0,plymouth satellite
3,16.0,8.0,304.0,150.0,3433.0,12.0,70.0,1.0,amc rebel sst
4,17.0,8.0,302.0,140.0,3449.0,10.5,70.0,1.0,ford torino


In [4]:
df.dtypes

mpg             float64
cylinders       float64
displacement    float64
horsepower      float64
weight          float64
acceleration    float64
modelyear       float64
origin          float64
name             object
dtype: object

## Tarefa 2: Conhecendo e limpando os dados

1. Imprima os nomes das colunas do datase
2. Quantos exemplos o dataset possui?
3. Quantos exemplos com dados faltantes o dataset possui?
4. Efetue a limpeza do dataset excluindo todos os exemplos em que há alguma informação faltando. Daqui em diante, considere essa versão do dataset.

In [111]:
for column in df.columns: print (column)

mpg
cylinders
displacement
horsepower
weight
acceleration
modelyear
origin
name


In [112]:
df.shape[0]

406

In [6]:
null_rows = df.isnull().any(axis=1)
null_rows.sum()

14

In [87]:
df = df.dropna()
df

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,modelyear,origin,name
0,18.0,8.0,307.0,130.0,3504.0,12.0,70.0,1.0,chevrolet chevelle malibu
1,15.0,8.0,350.0,165.0,3693.0,11.5,70.0,1.0,buick skylark 320
2,18.0,8.0,318.0,150.0,3436.0,11.0,70.0,1.0,plymouth satellite
3,16.0,8.0,304.0,150.0,3433.0,12.0,70.0,1.0,amc rebel sst
4,17.0,8.0,302.0,140.0,3449.0,10.5,70.0,1.0,ford torino
5,15.0,8.0,429.0,198.0,4341.0,10.0,70.0,1.0,ford galaxie 500
6,14.0,8.0,454.0,220.0,4354.0,9.0,70.0,1.0,chevrolet impala
7,14.0,8.0,440.0,215.0,4312.0,8.5,70.0,1.0,plymouth fury iii
8,14.0,8.0,455.0,225.0,4425.0,10.0,70.0,1.0,pontiac catalina
9,15.0,8.0,390.0,190.0,3850.0,8.5,70.0,1.0,amc ambassador dpl


## Tarefa 3: Consulta aos dados

1. Calcule a média do atributo alvo mpg
2. Imprima o nome dos carros cujo consumo (mpg) é maior que a média
3. Qual o carro mais eficiente (maior mpg)?
4. Quantos carros foram fabricados após 1977?
5. Qual a cilindrada média dos carros fabricados entre 1980 e 1982?
6. Há quantos carros da marca Chevrolet no dataset? Imprima todas as características dos mesmos.

In [11]:
mpg_mean = df.mpg.mean()
mpg_mean

23.44591836734694

In [149]:
df[df.mpg > mpg_mean].name

20                 toyota corona mark ii
24                          datsun pl510
25          volkswagen 1131 deluxe sedan
26                           peugeot 504
27                           audi 100 ls
28                              saab 99e
29                              bmw 2002
35                          datsun pl510
36                   chevrolet vega 2300
37                         toyota corona
57                             opel 1900
58                           peugeot 304
59                             fiat 124b
60                   toyota corolla 1200
61                           datsun 1200
62                  volkswagen model 111
63                      plymouth cricket
64                 toyota corona hardtop
65                    dodge colt hardtop
86                       renault 12 (sw)
88                       datsun 510 (sw)
90                       dodge colt (sw)
91              toyota corolla 1600 (sw)
109              volkswagen super beetle
121             

In [12]:
df[df.mpg.max() == df.mpg].name

329    mazda glc
Name: name, dtype: object

In [14]:
df[df.modelyear > 77].shape[0]

150

In [16]:
df_80_82 = df[(df.modelyear >= 80) & (df.modelyear <= 82)]
df_80_82.cylinders.mean()

4.329411764705882

In [59]:
def find_brand(name, marca):
    if(marca in name):
        return True
    return False

In [60]:
df[df.name.apply(find_brand, args=['chevrolet'])]

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,modelyear,origin,name
0,18.0,8.0,307.0,130.0,3504.0,12.0,70.0,1.0,chevrolet chevelle malibu
6,14.0,8.0,454.0,220.0,4354.0,9.0,70.0,1.0,chevrolet impala
18,15.0,8.0,400.0,150.0,3761.0,9.5,70.0,1.0,chevrolet monte carlo
36,28.0,4.0,140.0,90.0,2264.0,15.5,71.0,1.0,chevrolet vega 2300
42,17.0,6.0,250.0,100.0,3329.0,15.5,71.0,1.0,chevrolet chevelle malibu
45,14.0,8.0,350.0,165.0,4209.0,12.0,71.0,1.0,chevrolet impala
53,22.0,4.0,140.0,72.0,2408.0,19.0,71.0,1.0,chevrolet vega (sw)
67,20.0,4.0,140.0,90.0,2408.0,19.5,72.0,1.0,chevrolet vega
69,13.0,8.0,350.0,165.0,4274.0,12.0,72.0,1.0,chevrolet impala
80,13.0,8.0,307.0,130.0,4098.0,14.0,72.0,1.0,chevrolet chevelle concours (sw)


## Tarefa 4: Estatística Descritiva

Para o atributo alvo 'mpg', calcule:
 1. Média
 2. Mediana
 3. Máximo
 4. Mínimo
 5. Desvio Padrão
 6. Skewness
 7. Curtose
 6. Há outliers? (Valores de mpg acima ou abaixo da média + 2 desvios padrões)?
 7. Responda: O que se pode afirmar a respeito da distribuição de dados desse atributo?

In [23]:
df.mpg.mean()

23.44591836734694

In [24]:
df.mpg.median()

22.75

In [25]:
df.mpg.max()

46.6

In [26]:
df.mpg.min()

9.0

In [27]:
df.mpg.std()

7.805007486571799

In [28]:
df.mpg.skew()

0.45709232306041025

In [29]:
df.mpg.kurtosis()

-0.5159934946351457

In [36]:
df.mpg[
    (df.mpg > df.mpg.mean() + 2 * df.mpg.std()) |
    (df.mpg < df.mpg.mean() - 2 * df.mpg.std())
]

251    43.1
254    39.4
316    41.5
329    46.6
331    40.8
332    44.3
333    43.4
336    44.6
350    39.1
402    44.0
Name: mpg, dtype: float64

Os valores estão mais concentrados para a esquerda da média, visto que a obliquidade está positiva próxima de 0.5.
A curtose é negativa, portanto a distribuição é Platicúrtica, ou seja os valores mínimo e máximo estão bem próximos.

## Tarefa 5: Identificando correlações

1. Qual a correlação entre o peso do chassi (weight) e o consumo (mpg)?
2. Essa medida de correlação é mais forte ao considerarmos apenas os carros da marca Toyota?
3. Qual a correlação entre a potência (horsepower) e o consumo (mpg) para os veículos do dataset?

In [67]:
df_corr_weight_mpg = df[['weight', 'mpg']].corr(method='pearson')
corr_weight_mpg = df_corr_weight_mpg.iloc[0, 1]
corr_weight_mpg

-0.8322442148315756

In [68]:
df_toyota = df[df.name.apply(find_brand, args=['toyota'])]
df_corr_weight_mpg_toyota = df_toyota[['weight', 'mpg']].corr(method='pearson')
corr_weight_mpg_toyota = df_corr_weight_mpg_toyota.iloc[0, 1]
corr_weight_mpg_toyota

-0.6061073334078748

In [73]:
abs(corr_weight_mpg) < abs(corr_weight_mpg_toyota)

False

In [76]:
corr_horsepower_mpg = df[['horsepower','mpg']].corr(method='pearson').iloc[0, 1]
corr_horsepower_mpg

-0.7784267838977751

## Tarefa 6: Preparando uma partição do tipo Holdout

1. Remova do dataset a coluna 'name'
2. Exclua o atributo alvo mpg do dataset e o atribua a uma variável Y
3. Efetue uma partição holdout 70/30 utilizando o sci-kit learn.
 - Para auxiliar, consulte a [documentação](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)

In [88]:
df = df.drop('name', axis=1)

In [89]:
df.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,modelyear,origin
0,18.0,8.0,307.0,130.0,3504.0,12.0,70.0,1.0
1,15.0,8.0,350.0,165.0,3693.0,11.5,70.0,1.0
2,18.0,8.0,318.0,150.0,3436.0,11.0,70.0,1.0
3,16.0,8.0,304.0,150.0,3433.0,12.0,70.0,1.0
4,17.0,8.0,302.0,140.0,3449.0,10.5,70.0,1.0


In [97]:
X = df.iloc[:, 1:]
y = df.iloc[:, 0]

In [101]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)