# Corrigindo o tipo de dados de `air_pollution_score`
- 2008: converta de string para float
- 2018: converta de int para float

In [1]:
# carregue os conjuntos de dados
import pandas as pd

df_08 = pd.read_csv("data_08.csv")
df_18 = pd.read_csv("data_18.csv")

In [4]:
# tente usar as funções to_numeric ou astype do Pandas para converter a coluna
# air_pollution_score do conjunto de dados de 2008 para float -- isso não vai funcionar

df_08['air_pollution_score'].astype(float)



ValueError: could not convert string to float: '6/4'

# Resolvendo a questão
Parece que isso não vai ser tão simples quanto converter o tipo de dados. Segundo o erro abaixo, o valor na linha 582 seria "6/4" - vamos dar uma olhada.

In [5]:
df_08.iloc[582]

model                   MERCEDES-BENZ C300
displ                                    3
cyl                                      6
trans                              Auto-L7
drive                                  2WD
fuel                           ethanol/gas
veh_class                        small car
air_pollution_score                    6/4
city_mpg                             13/18
hwy_mpg                              19/25
cmb_mpg                              15/21
greenhouse_gas_score                   7/6
smartway                                no
Name: 582, dtype: object

# Não é só o nível de poluição do ar!
As colunas mpg e os nível de gases de efeito estufa também parecem ter o mesmo problema - talvez seja por isso que todos eles foram salvos como strings! Segundo [este link](http://www.fueleconomy.gov/feg/findacarhelp.shtml#airPollutionScore), que eu encontrei na documentação em PDF:

    "Se um veículo pode operar com mais de um tipo de combustível, uma estimativa é fornecida para cada tipo de combustível."
    
Ahh.. então todos veículos com mais de um tipo de combustível, ou híbridos, como aquele visto acima (que usa etanol E gás) terão uma string que armazena dois valores - um para cada. Isto é um pouco complicado, então eu vou mostrar como fazê-lo com o conjunto de dados de 2008, para você então tentar fazer o mesmo com o conjunto de dados de 2018.

In [6]:
# Primeiro, vamos obter todos os híbridos de 2008
hb_08 = df_08[df_08['fuel'].str.contains('/')]
hb_08

Unnamed: 0,model,displ,cyl,trans,drive,fuel,veh_class,air_pollution_score,city_mpg,hwy_mpg,cmb_mpg,greenhouse_gas_score,smartway
582,MERCEDES-BENZ C300,3.0,6,Auto-L7,2WD,ethanol/gas,small car,6/4,13/18,19/25,15/21,7/6,no


Parece que este conjunto de dados só tem um! O de 2018 tem MUITOS mais - mas não se preocupe - os passos que eu estou fazendo aqui vão funcionar para este também!

In [7]:
# híbridos em 2018
hb_18 = df_18[df_18['fuel'].str.contains('/')]
hb_18

Unnamed: 0,model,displ,cyl,trans,drive,fuel,veh_class,air_pollution_score,city_mpg,hwy_mpg,cmb_mpg,greenhouse_gas_score,smartway
52,BMW 330e,2.0,4,SemiAuto-8,2WD,Gasoline/Electricity,small car,3,28/66,34/78,30/71,10,Yes
78,BMW 530e,2.0,4,SemiAuto-8,2WD,Gasoline/Electricity,small car,7,27/70,31/75,29/72,10,Elite
79,BMW 530e,2.0,4,SemiAuto-8,4WD,Gasoline/Electricity,small car,7,27/66,31/68,28/67,10,Elite
92,BMW 740e,2.0,4,SemiAuto-8,4WD,Gasoline/Electricity,large car,3,25/62,29/68,27/64,9,Yes
189,CHEVROLET Impala,3.6,6,SemiAuto-6,2WD,Ethanol/Gas,large car,5,14/18,20/28,16/22,4,No
195,CHEVROLET Silverado 15,4.3,6,Auto-6,2WD,Ethanol/Gas,pickup,5,12/18,16/24,14/20,4,No
196,CHEVROLET Silverado 15,4.3,6,Auto-6,4WD,Ethanol/Gas,pickup,5,12/17,15/22,13/19,3,No
197,CHEVROLET Silverado 15,5.3,8,Auto-6,2WD,Ethanol/Gas,pickup,3,12/16,17/23,14/19,3,No
212,CHEVROLET Suburban 1500,5.3,8,Auto-6,2WD,Ethanol/Gas,standard SUV,3,12/16,17/23,14/19,3,No
214,CHEVROLET Suburban 1500,5.3,8,Auto-6,4WD,Ethanol/Gas,standard SUV,3,11/16,15/22,12/18,3,No


Vamos pegar cada linha que contém um carro híbrido e dividí-la em duas novas linhas - uma com os valores do primeiro tipo de combustível (valores antes da "/") e outra com os valores do segundo tipo de combustível (valores depois da "/"). Vamos separá-los com dois dataframes!

In [8]:
# crie duas cópias do dataframe com híbridos de 2008
df1 = hb_08.copy()  # data on first fuel type of each hybrid vehicle
df2 = hb_08.copy()  # data on second fuel type of each hybrid vehicle

# Cada um deve se parecer com isto
df1

Unnamed: 0,model,displ,cyl,trans,drive,fuel,veh_class,air_pollution_score,city_mpg,hwy_mpg,cmb_mpg,greenhouse_gas_score,smartway
582,MERCEDES-BENZ C300,3.0,6,Auto-L7,2WD,ethanol/gas,small car,6/4,13/18,19/25,15/21,7/6,no


Para a próxima parte, vamos usar a função apply do Pandas. Veja a documentação [aqui](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.apply.html).

In [9]:
# colunas que devem ser divididas por "/"
split_columns = ['fuel', 'air_pollution_score', 'city_mpg', 'hwy_mpg', 'cmb_mpg', 'greenhouse_gas_score']

# aplique a função split para cada coluna de cada cópia do dataframe
for c in split_columns:
    df1[c] = df1[c].apply(lambda x: x.split("/")[0])
    df2[c] = df2[c].apply(lambda x: x.split("/")[1])

In [10]:
# este dataframe armazena informações sobre o PRIMEIRO tipo de combustível do híbrido
# i.e. os valores antes das "/"s
df1

Unnamed: 0,model,displ,cyl,trans,drive,fuel,veh_class,air_pollution_score,city_mpg,hwy_mpg,cmb_mpg,greenhouse_gas_score,smartway
582,MERCEDES-BENZ C300,3.0,6,Auto-L7,2WD,ethanol,small car,6,13,19,15,7,no


In [11]:
# este dataframe armazena informações sobre o SEGUNDO tipo de combustível do híbrido
# i.e. os valores depois das "/"s
df2

Unnamed: 0,model,displ,cyl,trans,drive,fuel,veh_class,air_pollution_score,city_mpg,hwy_mpg,cmb_mpg,greenhouse_gas_score,smartway
582,MERCEDES-BENZ C300,3.0,6,Auto-L7,2WD,gas,small car,4,18,25,21,6,no


In [12]:
# combine dataframes para adicionar ao dataframe original
new_rows = df1.append(df2)

# agora temos linhas separadas para cada tipo de combustível de cada veículo!
new_rows

Unnamed: 0,model,displ,cyl,trans,drive,fuel,veh_class,air_pollution_score,city_mpg,hwy_mpg,cmb_mpg,greenhouse_gas_score,smartway
582,MERCEDES-BENZ C300,3.0,6,Auto-L7,2WD,ethanol,small car,6,13,19,15,7,no
582,MERCEDES-BENZ C300,3.0,6,Auto-L7,2WD,gas,small car,4,18,25,21,6,no


In [13]:
# descarte as linhas originais que continham híbridos
df_08.drop(hb_08.index, inplace=True)

# adicione as novas linhas separadas
df_08 = df_08.append(new_rows, ignore_index=True)

In [14]:
# verifique se todas linhas originais com híbridos, que continham "/"s, sumiram
df_08[df_08['fuel'].str.contains('/')]

Unnamed: 0,model,displ,cyl,trans,drive,fuel,veh_class,air_pollution_score,city_mpg,hwy_mpg,cmb_mpg,greenhouse_gas_score,smartway


In [15]:
df_08.shape

(987, 13)

# Repita este processo para o conjunto de dados de 2018

In [16]:
# crie duas cópias do dataframe com híbridos de 2018, hb_18
df1 = hb_18.copy()
df2 = hb_18.copy()

### Divida valores para `fuel`, `city_mpg`, `hwy_mpg`, `cmb_mpg`
Você não precisa dividir as colunas `air_pollution_score` ou `greenhouse_gas_score` aqui porque estas colunas já são ints no conjunto de dados de 2018.

In [17]:
# lista de colunas que devem ser divididas
split_columns = ['fuel', 'city_mpg', 'hwy_mpg', 'cmb_mpg']

# aplique a função split para cada coluna de cada cópia do dataframe
for c in split_columns:
    df1[c] = df1[c].apply(lambda x: x.split("/")[0])
    df2[c] = df2[c].apply(lambda x: x.split("/")[1])

In [18]:
# combine os dois dataframes
new_rows = df1.append(df2)

# descarte cada linha original que continha híbridos no dataframe original de 2018
# faça isso usando a função drop do Pandas com o índice do hb_18
df_18.drop(hb_18.index, inplace=True)

# anexe new_rows a df_18
df_18 = df_18.append(new_rows, ignore_index=True)

In [19]:
# verifique se elas sumiram
df_18[df_18['fuel'].str.contains('/')]

Unnamed: 0,model,displ,cyl,trans,drive,fuel,veh_class,air_pollution_score,city_mpg,hwy_mpg,cmb_mpg,greenhouse_gas_score,smartway


In [20]:
df_18.shape

(832, 13)

### Agora podemos confortavelmente continuar as mudanças necessárias para `air_pollution_score`! Aqui vão elas novamente:
- 2008: converta de string para float
- 2018: converta de int para float

In [22]:
# converta a coluna de poluição do ar de 2008 de string para float
df_08['air_pollution_score'] = df_08['air_pollution_score'].astype(float)


In [23]:
# converta a coluna de poluição do ar de 2018 de int to float
df_18['air_pollution_score'] = df_18['air_pollution_score'].astype(float)


In [24]:
df_08.to_csv('data_08.csv', index=False)
df_18.to_csv('data_18.csv', index=False)