<p style="text-align:center">
    <a href="https://skills.network/?utm_medium=Exinfluencer&utm_source=Exinfluencer&utm_content=000026UJ&utm_term=10006555&utm_id=NA-SkillsNetwork-Channel-SkillsNetworkCoursesIBMDeveloperSkillsNetworkDA0101ENSkillsNetwork20235326-2022-01-01" target="_blank">
    <img src="https://www.ufac.br/nave/imagens/logo.png/@@images/b79444d1-a803-4e49-b5da-98228cf1e2fd.png" width="200" alt="Nave Tech Logo"/>
    </a>
</p>

# Manipulação dos dados

## Objetivos

Após completar este lab, você poderá:

*   Lidar com valores ausentes
*   Corrigir formatação dos dados
*   Padronizar e normalizar os dados


<h2>Tabela de Conteúdos</h2>

<div class="alert alert-block alert-info" style="margin-top: 20px">
<ul>
    <li><a href="https://#identify_handle_missing_values">Identificar e lidar com valores ausentes</a>
        <ul>
            <li><a href="https://#identify_missing_values">Identificar valores ausentes</a></li>
            <li><a href="https://#deal_missing_values">Lidar com valores ausentes</a></li>
            <li><a href="https://#correct_data_format">Corrigir formato dos dados</a></li>
        </ul>
    </li>
    <li><a href="https://#data_standardization">Padronização dos dados</a></li>
    <li><a href="https://#data_normalization">Normalização dos dados (centralização/escala)</a></li>
    <li><a href="https://#binning">Discretização dos dados em intervalos (Binning)</a></li>
    <li><a href="https://#indicator">Variável indicadora</a></li>
</ul>

</div>

<hr>


<h2>Qual é o propósito da manipulação dos dados?</h2>


Manipulação dos dados é o processo de conversão dos dados do formato inicial para um outro formato. Além disso, também pode envolver a correção do formato dos dados e a padronização para que facilite a análise dos dados e aplicação de modelos preditivos. Como consequencia, os procedimentos que serão vistos neste módulo tem como feito a 'limpeza' dos dados brutos.


<h3>Importação dos dados</h3>


<h4>Import pandas</h4> 


In [None]:
#install specific version of libraries used in lab
#! mamba install pandas==1.3.3
#! mamba install numpy=1.21.2


In [1]:
import pandas as pd
import matplotlib.pylab as plt

#sempre consulte a API do pandas para referencia
#dos metodos disponiveis
#https://pandas.pydata.org/pandas-docs/stable/reference/index.html

<h2>Leitura do dataset a partir da URL e adição dos headers (cabeçalhos)</h2>


In [2]:
filename = "https://archive.ics.uci.edu/ml/machine-learning-databases/autos/imports-85.data"

Criaremos um tipo lista <b>headers</b> contendo o nome dos cabeçalhos.


In [3]:
headers = ["symboling","normalized-losses","make","fuel-type","aspiration", "num-of-doors","body-style",
         "drive-wheels","engine-location","wheel-base", "length","width","height","curb-weight","engine-type",
         "num-of-cylinders", "engine-size","fuel-system","bore","stroke","compression-ratio","horsepower",
         "peak-rpm","city-mpg","highway-mpg","price"]

Use o método Pandas <b>read_csv()</b> para carregar os dados do endereço web. Defina o parâmetro "names" recebe a lista "headers".


In [4]:
df = pd.read_csv(filename, names = headers)

Use o método <b>head()</b> para mostrar as cinco primeiras linhas do dataframe.


In [5]:
# Para ver aparencia dos dados, use o metodo head().
df.head()


Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450


Como podemos ver, vários pontos de interrogações apareceram no dataframe; esses são valores ausentes que podem dificultar nossa análise posterior.

<div>Então, como podemos identificar todos os valores ausentes e lidar com eles?</div> 

<b>Como trabalhar com valores ausentes</b>

Passo para trabalhar com dados ausentes:

<ol>
    <li>Identificar os dados ausentes</li>
    <li>Lidar com os dados ausentes</li>
    <li>Corrigir formato dos dados</li>
</ol>


<h2 id="identify_handle_missing_values">Identifique e lide com valores ausentes</h2>

<h3 id="identify_missing_values">Identifique valores ausentes</h3>
<h4>Converte "?" para NaN</h4>
No dataset dos automóveis, valores ausentes vem com ponto de interrogação "?".
Nós substituímos "?" por NaN (Not a Number), um marcador padrão do Python para marcar valor ausente por razões de velocidade de computação e conveniência. Aqui nós usamos a função: 
 <pre>.replace(A, B, inplace = True) </pre>
para substituir A por B.


In [6]:
import numpy as np

# replace "?" to NaN
df.replace("?", np.nan, inplace = True) #inplace=True: modifica diretamente o df original

<h4>Avaliação de dados ausentes</h4>

Os valores ausentes são convertidos por padrão. Usamos as seguintes funções para identificar estes valores ausentes. Há dois métodos para detectar dados ausentes:

<ol>
    <li><b>.isnull()</b></li>
    <li><b>.notnull()</b></li>
</ol>
A saída é um valor boolean indicando se o valor que é passado no argumento é de fato dado ausente.


In [7]:
missing_data = df.isnull()
missing_data.head(5)

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,False,True,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
1,False,True,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
2,False,True,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False



.isnull retorna "True" significa o valor é um valor ausente enquanto "False" significa o valor não é ausente.


<h4>Contagem de valores ausentes em cada coluna</h4>
<p>
Usando um loop <code>for</code> no Python, podemos rapidamente descobrir o número de valores ausentes em cada coluna. Como mencionado acima, "True" representa um valor ausente e "False" significa o valor está presente no dataset.  No corpo do loop, o método ".value_counts()" conta o número de valores "True". 
</p>


In [8]:
#imprime a quantidade de valores NaN de cada coluna
for column in missing_data.columns.values.tolist():
    print(column)
    print (missing_data[column].value_counts())
    print("")    

symboling
False    205
Name: symboling, dtype: int64

normalized-losses
False    164
True      41
Name: normalized-losses, dtype: int64

make
False    205
Name: make, dtype: int64

fuel-type
False    205
Name: fuel-type, dtype: int64

aspiration
False    205
Name: aspiration, dtype: int64

num-of-doors
False    203
True       2
Name: num-of-doors, dtype: int64

body-style
False    205
Name: body-style, dtype: int64

drive-wheels
False    205
Name: drive-wheels, dtype: int64

engine-location
False    205
Name: engine-location, dtype: int64

wheel-base
False    205
Name: wheel-base, dtype: int64

length
False    205
Name: length, dtype: int64

width
False    205
Name: width, dtype: int64

height
False    205
Name: height, dtype: int64

curb-weight
False    205
Name: curb-weight, dtype: int64

engine-type
False    205
Name: engine-type, dtype: int64

num-of-cylinders
False    205
Name: num-of-cylinders, dtype: int64

engine-size
False    205
Name: engine-size, dtype: int64

fuel-system
Fa

Baseado no resumo acima, cada coluna tem 205 linhas de dados e sete colunas contendo dados ausentes:

<ol>
    <li>"normalized-losses": 41 dados ausentes</li>
    <li>"num-of-doors": 2 dados ausentes</li>
    <li>"bore": 4 dados ausentes</li>
    <li>"stroke" : 4 dados ausentes</li>
    <li>"horsepower": 2 dados ausentes</li>
    <li>"peak-rpm": 2 dados ausentes</li>
    <li>"price": 4 dados ausentes</li>
</ol>


<h3 id="deal_missing_values">Lidar com dados ausentes</h3>
<b>Como lidar com dados ausentes?</b>

<ol>
    <li>Descartar dados<br>
        a. Descartar toda linha<br>
        b. Descartar toda coluna
    </li>
    <li>Substituir dados<br>
        a. Substitua pelo valor médio<br>
        b. Substitua pela frequência<br>
        c. Substitua baseado em outras funções
    </li>
</ol>


Toda coluna deve ser descartada somente se a maioria das entradas na coluna estiverem vazias. Neste dataset, nenhuma das colunas estão vazias o suficiente para descartá-las inteiramente.
Nós temos algumas liberdades na escolha de qual método substituir dados; no entanto, alguns métodos podem ser mais razoáveis que outros. Aplicaremos cada método a muitas colunas diferentes:

<b>Substituir pela média:</b>

<ul>
    <li>"normalized-losses": 41 dados ausentes, substitua-os pelo valor médio da coluna "normalized-losses"</li>
    <li>"stroke": 4 dados ausentes, substitua-os pelo valor médio da coluna "stroke"</li>
    <li>"bore": 4 dados ausentes, substituta-os pelo valor médio da coluna "bore"</li>
    <li>"horsepower": 2 dados ausentes, substitua-os pelo valor médio da coluna "horsepower"</li>
    <li>"peak-rpm": 2 dados ausentes, substitua-os pelo valor médio da coluna "peak-rpm"</li>
</ul>

<b>Substituir pela frequência:</b>

<ul>
    <li>"num-of-doors": 2 dados ausentes , substitua-os pelo valor "four". 
        <ul>
            <li>Razão: 84% dos carros sedans tem quatro portas. Como quatro portas é o valor mais frequente, é mais provável que ocorra como valor</li>
        </ul>
    </li>
</ul>

<b>Descarte a linha inteira:</b>

<ul>
    <li>"price": 4 dados ausentes, simplesmente delete a linha inteira
        <ul>
            <li>Razão: price é o atributo-alvo que queremos prever. Qualquer entrada de dados sem o price não pode ser usada para previsão; portanto qualquer linha agora sem dados de price não é útil para criação do modelo de previsão de preços</li>
        </ul>
    </li>
</ul>


<h4>Calcule o valor médio para coluna "normalized-losses"</h4>


In [9]:
#calcula o valor medio da coluna normalized-losses
avg_norm_loss = df["normalized-losses"].astype("float").mean(axis=0)
print("Average of normalized-losses:", avg_norm_loss)

Average of normalized-losses: 122.0


<h4>Substitua "NaN" pelo valor médio na coluna "normalized-losses"</h4>


In [10]:
df["normalized-losses"].replace(np.nan, avg_norm_loss, inplace=True) #inplace=True aplica a substituicao diretamente na coluna

<h4>Calcule o valor médio para coluna "bore"</h4>


In [11]:
avg_bore=df['bore'].astype('float').mean(axis=0)
print("Average of bore:", avg_bore)

Average of bore: 3.3297512437810943


<h4>Substitua "NaN" pelo valor médio da coluna "bore"</h4>


In [12]:
df["bore"].replace(np.nan, avg_bore, inplace=True)

<div class="alert alert-danger alertdanger" style="margin-top: 20px">
<h1> Questão  #1: </h1>

<b>Baseado no exemplo acima, substitua NaN na coluna "stroke" pelo valor médio.</b>

</div>


In [None]:
# Escreva seu codigo abaixo e pressione Shift+Enter para executar


<details><summary>Click here for the solution</summary>

```python
#Calculate the mean vaule for "stroke" column
avg_stroke = df["stroke"].astype("float").mean(axis = 0)
print("Average of stroke:", avg_stroke)

# replace NaN by mean value in "stroke" column
df["stroke"].replace(np.nan, avg_stroke, inplace = True)
```

</details>


<h4>Calcule o valor médio para coluna "horsepower"</h4>


In [None]:
avg_horsepower = df['horsepower'].astype('float').mean(axis=0)
print("Average horsepower:", avg_horsepower)

<h4>Substitua "NaN" pelo valor médio na coluna "horsepower"</h4>


In [None]:
df['horsepower'].replace(np.nan, avg_horsepower, inplace=True)

<h4>Calcule o valor médio para coluna "peak-rpm"</h4>


In [None]:
avg_peakrpm=df['peak-rpm'].astype('float').mean(axis=0)
print("Average peak rpm:", avg_peakrpm)

<h4>Substitua "NaN" pelo valor médio na coluna "peak-rpm"</h4>


In [None]:
df['peak-rpm'].replace(np.nan, avg_peakrpm, inplace=True)

Para ver que valores estão presentes em uma coluna especifica, podemos usa o método ".value_counts()":


In [None]:
df['num-of-doors'].value_counts()

Podemos ver que o valor four é o mais comum. Podemos também usa o método ".idxmax()" para obter o valor mais comum automaticamente:


In [None]:
df['num-of-doors'].value_counts().idxmax()

O procedimento de replace é muito similar ao que vimos anteriorimente:


In [None]:
#substitua os valores ausentes 'num-of-doors' pelo mais frequente 
df["num-of-doors"].replace(np.nan, "four", inplace=True)

Por fim, vamos descartar todas as linhas que não tem dados de preço:


In [None]:
# simplemente descarta toda linha (axis=0) com NaN na coluna "price" 
df.dropna(subset=["price"], axis=0, inplace=True)

# reseta o indice, porque descartamos duas linhas
df.reset_index(drop=True, inplace=True)

In [None]:
df.head()

Agora, temos um dataset sem valores ausentes.


<h3 id="correct_data_format">Corrigir formato dos dados</h3>
<b>Quase lá!</b>
<p>O último passo na limpeza dos dados é verificar e certificar que todos os dados estão no formato correto (int, float, text ou outro).</p>

No Pandas, usamos:

<p><b>.dtype()</b> para verificar os tipos dos dados</p>
<p><b>.astype()</b> para mudar os tipos dos dados -- inclusive já usamos acima no cálculo do valor médio de algumas colunas.</p>


<h4>Vamos listar os tipos dos dados de cada coluna</h4>


In [None]:
df.dtypes

<p>Variáveis ​​numéricas devem ter o tipo 'float' ou 'int', e variáveis ​​com strings como categorias devem ter o tipo 'object'. Por exemplo, as variáveis ​​'bore' e 'stroke' são valores numéricos que descrevem os motores, então devemos esperar que sejam do tipo 'float' ou 'int'; no entanto, eles são mostrados como tipo 'object'. Temos que converter os tipos de dados em um formato adequado para cada coluna usando o método "astype()".</p> 


In [None]:
#vamos checar exemplos de valores que existem nas colunas 'bore' e 'stroke'


<h4>Converte os tipos de dados para um formato apropriado</h4>


In [None]:
df[["bore", "stroke"]] = df[["bore", "stroke"]].astype("float")
df[["normalized-losses"]] = df[["normalized-losses"]].astype("int")
df[["price"]] = df[["price"]].astype("float")
df[["peak-rpm"]] = df[["peak-rpm"]].astype("float")

<h4>Vamos listar as colunas após a conversão</h4>


<b>Maravilha!</b>

Agora finalmente obtemos o dataset limpo sem valores ausentes com todos os dados no seu formato apropriado.


<h2 id="data_standardization">Padronização dos dados (Data Standardization)</h2>
<p>
Os dados geralmente são coletados de diferentes agências em diferentes formatos. Padronização de dados também é um termo para um tipo específico de normalização de dados em que subtraímos a média e dividimos pelo desvio padrão.
</p>

<b>O que é padronização?</b>

<p>A padronização é o processo de transformar os dados em um formato comum, permitindo que o cientista de dados faça comparações significativas.
</p>

<b>Exemplo</b>

<p>Transformar mpg para L/100km:</p>
<p>As colunas de consumo de combustível "city-mpg" e "highway-mpg" são representadas pela unidade mpg (milhas por galão). Suponha que estamos desenvolvendo uma aplicação em um país que aceita o consumo de combustível com padrão L/100km.</p>
<p>Precisamos aplicar <b>transformação dos dados</b> para transformar mpg em L/100km.</p>


<p>A equação para conversão de unidade é:<p>
L/100km = 235 / mpg
<p>Podemos fazer muitas operações matemáticas diretamente no Pandas.</p>


In [None]:
df.head()

In [None]:
# Converte mpg para L/100km por uma operacao matematica (235 dividido por mpg)
df['city-L/100km'] = 235/df["city-mpg"]

# verifique seus dados transformados
df.head()

<div class="alert alert-danger alertdanger" style="margin-top: 20px">
<h1> Questão  #2: </h1>

<b>Conforme o exemplo acima, transforme mpg para L/100km na coluna de "highway-mpg" e mude o nome da coluna para "highway-L/100km".</b>

</div>


In [None]:
# Escreva seu codigo abaixo e pressione Shift+Enter para executar
# consulte o metodo ".rename" na API do Pandas para mudar o nome da coluna
# https://pandas.pydata.org/pandas-docs/stable/reference/index.html
df['highway-mpg'] = 235/df['highway-mpg']


In [None]:
df.rename(columns={'highway-mpg' : 'highway-L/100km'})

<details><summary>Click here for the solution</summary>

```python
# transform mpg to L/100km by mathematical operation (235 divided by mpg)
df["highway-mpg"] = 235/df["highway-mpg"]

# rename column name from "highway-mpg" to "highway-L/100km"
df.rename(columns={'"highway-mpg"':'highway-L/100km'}, inplace=True)

# check your transformed data 
df.head()

```

</details>


<h2 id="data_normalization">Normalização dos dados</h2>

<b>Por que fazê-la?</b>

<p>A normalização é o processo de transformar valores de diversas variáveis ​​em um intervalo semelhante. As normalizações típicas incluem dimensionar a variável para que a média da variável seja 0, dimensionar a variável para que a variância seja 1 ou dimensionar a variável para que os valores da variável variem de 0 a 1.
</p>

<b>Exemplo</b>

<p>Para demonstrar a normalização, digamos que queremos dimensionar as colunas "length", "width" e "height".</p>
<p><b>Objetivo:</b> gostariamos de normalizar essa variáveis para que seus valores variem entre 0 e 1</p>
<p><b>Abordagem:</b> substituir o valor original por: valor original/valor máximo</p>

In [None]:
# substitua (valor original) por (valor original)/(valor maximo)
df['length'] = df['length']/df['length'].max()
df['width'] = df['width']/df['width'].max()

<div class="alert alert-danger alertdanger" style="margin-top: 20px">
<h1> Questão #3: </h1>

<b>Conforme exemplo acima, normaliza as coluna "height". Mostre como os dados da coluna aparecem após normalização</b>

</div>


In [None]:
# Escreva seu codigo abaixo e pressione Shift+Enter para executar


<details><summary>Click here for the solution</summary>

```python
df['height'] = df['height']/df['height'].max() 

# show the scaled columns
df[["length","width","height"]].head()


```

</details>


A partir daqui então, normalizamos "length", "width" e "height" no intervalo de \[0,1].


<h2 id="binning">Binning</h2>
<p><b>Por que fazer binning?</b></p>
<p>
    Binning é um processo de transformação dos valores das variáveis numéricas contínuas em intervalos 'bins' categóricos discretos.
</p>

<b>Exemplo: </b>

<p>No dataset, "horsepower" é uma variável de valor real que varia de 48 a 288 e tem 59 valores únicos. E se nos importarmos apenas com a diferença de preço entre carros de alta potência, média potência e pouca potência (ou seja 3 tipos de valores únicos)? Podemos reorganizá-los em três 'bins' para simplificar a análise. </p>

<p>Usaremos o método '.cut' do pandas para segmentar a coluna 'horsepower' em 3 intervalos.</p>


In [None]:
#escreva um codigo para verificar quantos valores unicos a coluna 'horsepower' tem.


<h3>Exemplo de Binning Data no Pandas</h3>


Converter os dados para formato correto:


In [None]:
df["horsepower"]=df["horsepower"].astype(int, copy=True) #copy=True evita que outra alteracao possa ocorrer na coluna horsepower

Vamos plotar o histograma de 'horsepower' para ver como é a distribuição da coluna 'horsepower'.


In [None]:
%matplotlib inline
#matplotlib inline abre o plot no proprio terminal
import matplotlib as plt
from matplotlib import pyplot
plt.pyplot.hist(df["horsepower"])

# define os labels x e y e plota title
plt.pyplot.xlabel("horsepower")
plt.pyplot.ylabel("count")
plt.pyplot.title("horsepower bins")

<p>Queremos 3 bins de tamanhos iguais então usamos a função do numpy <code>linspace(start_value, end_value, numbers_generated)</code>. Para isso definimos:</p>
<ul>
 <li>start_value = min(df["horsepower"]), o valor mínimo de 'horsepower'</li>
 <li>end_value = max(df["horsepower"]), o valor máximo de 'horsepower'</li>
 <li>numbers_generated = 4, as quatros divisões para construção dos 3 'bins' de tamanho igual</li>
</ul>



Construímos um bin array com um valor mínimo a um valor máximo usando a largura calculada acima. Os valores determinarão quando um bin termina e outro começa.


In [None]:
bins = np.linspace(min(df["horsepower"]), max(df["horsepower"]), 4)
bins

Definimos os nomes dos intervalos 'bin':


In [None]:
group_names = ['Low', 'Medium', 'High']

Aplicamos a função "cut" para determinar que intervalo de bin pertence cada valor de `df['horsepower'].


In [None]:
df['horsepower-binned'] = pd.cut(df['horsepower'], bins, labels=group_names, include_lowest=True )
df[['horsepower','horsepower-binned']].head(20)

Vamos ver o número de veículos em cada bin:


In [None]:
df["horsepower-binned"].value_counts()

Vamos plotar a distribuição de cada bin:


In [None]:
%matplotlib inline
import matplotlib as plt
from matplotlib import pyplot
pyplot.bar(group_names, df["horsepower-binned"].value_counts())

# set x/y labels and plot title
plt.pyplot.xlabel("horsepower")
plt.pyplot.ylabel("count")
plt.pyplot.title("horsepower bins")

<p>
    Observe que a última coluna do dataframe apresente agora os 'bins' para 'horsepower' baseado nas três categorias ("Low", "Medium" and "High"). 
</p>


<h3>Visualização dos Bins</h3>
Um histograma é usado para visualizar a distribuição dos bins que criamos acima. 


In [None]:
%matplotlib inline
import matplotlib as plt
from matplotlib import pyplot


# draw historgram of attribute "horsepower" with bins = 3
plt.pyplot.hist(df["horsepower"], bins = 3)

# set x/y labels and plot title
plt.pyplot.xlabel("horsepower")
plt.pyplot.ylabel("count")
plt.pyplot.title("horsepower bins")

<h2 id="indicator">Variável indicadora (ou Variável Dummy)</h2>
<b>O que é uma variável indicadora?</b>
<p>
    Uma variável indicadora (ou variável dummy) é uma variável numérica usada para rotular categorias. Elas são chamadas de 'dummies' porque os números em si não tem um significado inerente.. 
</p>

<b>Por que usamos variávels indicadoras?</b>

<p>
    Usamos variáveis indicadoras para que possamos usar variáveis categóricas para análise de regressão no módulos posteriores.
</p>
<b>Exemplo</b>
<p>
    Vemos que a coluna "fuel-type" tem dois valores únicos: "gas" ou "diesel". Regressão não entende palavras, somente números. Para usar este tipo de atributo categórico em regressão, convertemos "fuel-type" para variáveis indicadoras.
</p>

<p>
    O método pandas 'get_dummies' atribui valores numéricos a diferentes categorias da variável 'fuel-type'. 
</p>


In [None]:
df.columns

Obtenha variáveis indicadoras e atribua os valores para um data frame "dummy_variable\_1":


In [None]:
dummy_variable_1 = pd.get_dummies(df["fuel-type"])
dummy_variable_1.head()

Muda os nomes das colunas para ficar mais claro:


In [None]:
dummy_variable_1.rename(columns={'gas':'fuel-type-gas', 'diesel':'fuel-type-diesel'}, inplace=True)
dummy_variable_1.head()

No dataframe, a coluna 'fuel-type' tem valores para 'gas' e 'diesel' comos 0s e 1s agora.


In [None]:
# mescla o data frame "df" e "dummy_variable_1" 
df = pd.concat([df, dummy_variable_1], axis=1)

# descarte a coluna original "fuel-type" do "df"
df.drop("fuel-type", axis = 1, inplace=True)

In [None]:
df.head()

As duas últimas colunas são agora variáveis indicadores que representam a variável fuel-type. Elas sao todas 0s e 1s agora.


<div class="alert alert-danger alertdanger" style="margin-top: 20px">
<h1> Questão  #4: </h1>

<b>De forma similar a fuel-type, crie uma variável indicadora para coluna "aspiration"</b>

</div>


In [None]:
# Escreva seu codigo abaixo e pressione Shift+Enter para executar


<details><summary>Click here for the solution</summary>

```python
# get indicator variables of aspiration and assign it to data frame "dummy_variable_2"
dummy_variable_2 = pd.get_dummies(df['aspiration'])

# change column names for clarity
dummy_variable_2.rename(columns={'std':'aspiration-std', 'turbo': 'aspiration-turbo'}, inplace=True)

# show first 5 instances of data frame "dummy_variable_1"
dummy_variable_2.head()


```

</details>


 <div class="alert alert-danger alertdanger" style="margin-top: 20px">
<h1> Questão  #5: </h1>

<b>Mescle o novo dataframe ao dataframe original, então descarte a coluna 'aspiration'.</b>

</div>


In [None]:
# Escreva seu codigo abaixo e pressione Shift+Enter para executar 


<details><summary>Click here for the solution</summary>

```python
# merge the new dataframe to the original datafram
df = pd.concat([df, dummy_variable_2], axis=1)

# drop original column "aspiration" from "df"
df.drop('aspiration', axis = 1, inplace=True)


```

</details>


 <div class="alert alert-danger alertdanger" style="margin-top: 20px">
<h1> Questão  #6: </h1>

Salve o dataframe, com os dados manipulados e limpos, na mesma pasta onde se encontra este notebook no seu drive no arquivo "auto_cleaned.csv". Certifique-se se o arquivo foi de fato salvo:


In [None]:
# Escreva seu codigo abaixo e pressione Shift+Enter para executar 


### Muito bem. Você acabou de completar o notebook de Manipulação dos Dados! Obrigado por ter completado este lab!


### Créditos

Este notebook foi completamente revisado e foi adaptado a partir do material do curso da IBM no Coursera: *Data Analysis with Python* por Joseph Santarcangelo, Ph.D

