# Projeto Prático 1.1 -- Explorando Dados

## Apresentação da Atividade

Vamos aprender um pouco mais sobre carros! Para tanto, vamos utilizar o [dataset AutoMPG](https://archive.ics.uci.edu/ml/datasets/auto+mpg), que contém informações de veículos do ano de 1983 apresentados em uma exposição nos EUA. O atributo alvo chama-se mpg, denotando milhas por galão, uma unidade de medida equivalente ao nosso quilômetro por litro.

In [1]:
# Célula reservada para importar bibliotecas
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

## Tarefa 1: Abrir o dataset

1. Baixe o arquivo 'autompg.csv' e o abra com a biblioteca pandas
2. Imprima o cabeçalho do dataset
3. Imprima os tipos de dados no dataset

In [2]:
dataset = pd.read_csv('autompg.csv', sep=";")

In [3]:
dataset.head()

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,modelyear,origin,name
0,18.0,8.0,307.0,130.0,3504.0,12.0,70.0,1.0,chevrolet chevelle malibu
1,15.0,8.0,350.0,165.0,3693.0,11.5,70.0,1.0,buick skylark 320
2,18.0,8.0,318.0,150.0,3436.0,11.0,70.0,1.0,plymouth satellite
3,16.0,8.0,304.0,150.0,3433.0,12.0,70.0,1.0,amc rebel sst
4,17.0,8.0,302.0,140.0,3449.0,10.5,70.0,1.0,ford torino


In [4]:
dataset.dtypes

mpg             float64
cylinders       float64
displacement    float64
horsepower      float64
weight          float64
acceleration    float64
modelyear       float64
origin          float64
name             object
dtype: object

## Tarefa 2: Conhecendo e limpando os dados

1. Imprima os nomes das colunas do datase
2. Quantos exemplos o dataset possui?
3. Quantos exemplos com dados faltantes o dataset possui?
4. Efetue a limpeza do dataset excluindo todos os exemplos em que há alguma informação faltando. Daqui em diante, considere essa versão do dataset.

In [5]:
for col in dataset.columns:
    print(col)

mpg
cylinders
displacement
horsepower
weight
acceleration
modelyear
origin
name


In [6]:
len(dataset)

406

In [7]:
cont=0
for i in range(len(dataset)):
    linha = dataset.loc[i].isnull()
    contou = False
    for j in linha:
        if j and not contou:
            cont+=1
            contou = True
            
print(cont)

14


In [8]:
dataset.dropna(inplace=True)

## Tarefa 3: Consulta aos dados

1. Calcule a média do atributo alvo mpg
2. Imprima o nome dos carros cujo consumo (mpg) é maior que a média
3. Qual o carro mais eficiente (maior mpg)?
4. Quantos carros foram fabricados após 1977?
5. Qual a cilindrada média dos carros fabricados entre 1980 e 1982?
6. Há quantos carros da marca Chevrolet no dataset? Imprima todas as características dos mesmos.

In [9]:
mean = dataset.mpg.mean()
mean

23.445918367346938

In [10]:
pd.DataFrame(dataset['name'][dataset['mpg']>=mean])

Unnamed: 0,name
20,toyota corona mark ii
24,datsun pl510
25,volkswagen 1131 deluxe sedan
26,peugeot 504
27,audi 100 ls
28,saab 99e
29,bmw 2002
35,datsun pl510
36,chevrolet vega 2300
37,toyota corona


In [11]:
dataset['name'][dataset['mpg']==max(dataset['mpg'])]

329    mazda glc
Name: name, dtype: object

In [12]:
dataset['modelyear'][dataset['modelyear'] > 77].count()

150

In [13]:
maior_80 = dataset[['cylinders', 'modelyear']][dataset['modelyear']>=80]
entre_80_82 = maior_80[['cylinders', 'modelyear']][maior_80['modelyear']<=82]
entre_80_82['cylinders'].mean()

4.329411764705882

In [14]:
len(dataset[dataset['name'].str.contains('chevrolet')])

43

In [15]:
dataset[dataset['name'].str.contains('chevrolet')]

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,modelyear,origin,name
0,18.0,8.0,307.0,130.0,3504.0,12.0,70.0,1.0,chevrolet chevelle malibu
6,14.0,8.0,454.0,220.0,4354.0,9.0,70.0,1.0,chevrolet impala
18,15.0,8.0,400.0,150.0,3761.0,9.5,70.0,1.0,chevrolet monte carlo
36,28.0,4.0,140.0,90.0,2264.0,15.5,71.0,1.0,chevrolet vega 2300
42,17.0,6.0,250.0,100.0,3329.0,15.5,71.0,1.0,chevrolet chevelle malibu
45,14.0,8.0,350.0,165.0,4209.0,12.0,71.0,1.0,chevrolet impala
53,22.0,4.0,140.0,72.0,2408.0,19.0,71.0,1.0,chevrolet vega (sw)
67,20.0,4.0,140.0,90.0,2408.0,19.5,72.0,1.0,chevrolet vega
69,13.0,8.0,350.0,165.0,4274.0,12.0,72.0,1.0,chevrolet impala
80,13.0,8.0,307.0,130.0,4098.0,14.0,72.0,1.0,chevrolet chevelle concours (sw)


## Tarefa 4: Estatística Descritiva

Para o atributo alvo 'mpg', calcule:
 1. Média
 2. Mediana
 3. Máximo
 4. Mínimo
 5. Desvio Padrão
 6. Skewness
 7. Curtose
 6. Há outliers? (Valores de mpg acima ou abaixo da média + 2 desvios padrões)?
 7. Responda: O que se pode afirmar a respeito da distribuição de dados desse atributo?

In [16]:
dataset['mpg'].mean()

23.445918367346938

In [17]:
dataset['mpg'].median()

22.75

In [18]:
dataset['mpg'].max()

46.6

In [19]:
dataset['mpg'].min()

9.0

In [20]:
dataset['mpg'].std()

7.8050074865717995

In [21]:
dataset['mpg'].skew()

0.45709232306041025

In [22]:
dataset['mpg'].kurtosis()

-0.5159934946351457

In [23]:
media = dataset.mpg.mean()
dp = dataset.mpg.std()
dataset['mpg'][dataset['mpg'] > media+2*dp].count()>0 or dataset['mpg'][dataset['mpg'] < media-2*dp].count()>0

True

### Resposta 9:

Temos que:

Média = 23.44591836734694

Mediana = 22.75

Moda = 13

ou seja:

Moda<Mediana<Média

Portanto, trata-se de uma distribuição assimétrica positiva. Os dados se encontram, principalmente, no início da distribuição.

## Tarefa 5: Identificando correlações

1. Qual a correlação entre o peso do chassi (weight) e o consumo (mpg)?
2. Essa medida de correlação é mais forte ao considerarmos apenas os carros da marca Toyota?
3. Qual a correlação entre a potência (horsepower) e o consumo (mpg) para os veículos do dataset?

In [24]:
correlacoes = dataset.corr()
correlacoes['weight']['mpg']

-0.8322442148315756

In [25]:
correlacoes_toyota = dataset[dataset['name'].str.contains('toyota')].corr()
abs(correlacoes_toyota['weight']['mpg']) > abs(correlacoes['weight']['mpg'])

False

In [26]:
correlacoes['horsepower']['mpg']

-0.7784267838977751

## Tarefa 6: Preparando uma partição do tipo Holdout

1. Remova do dataset a coluna 'name'
2. Exclua o atributo alvo mpg do dataset e o atribua a uma variável Y
3. Efetue uma partição holdout 70/30 utilizando o sci-kit learn.
 - Para auxiliar, consulte a [documentação](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)

In [27]:
dataset.drop(['name'], axis=1, inplace=True)

In [28]:
y = dataset['mpg']

dataset.drop(['mpg'], axis=1, inplace=True)

In [30]:
from sklearn.model_selection import train_test_split

X_train, X_test, Y_train, Y_test = train_test_split(dataset, y, test_size=0.30)