# Transformación de datos

https://www.kaggle.com/suryanarayanan02/flight-delay-prediction-dataset

In [5]:
import pandas as pd

headers = ["symboling","normalized-losses","make","fuel-type","aspiration", "num-of-doors","body-style",
         "drive-wheels","engine-location","wheel-base", "length","width","height","curb-weight","engine-type",
         "num-of-cylinders", "engine-size","fuel-system","bore","stroke","compression-ratio","horsepower",
         "peak-rpm","city-mpg","highway-mpg","price"]

file_path = "autos.csv"

df = pd.read_csv(file_path, names=headers)

In [6]:
df.head()

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450


In [7]:
df.columns

Index(['symboling', 'normalized-losses', 'make', 'fuel-type', 'aspiration',
       'num-of-doors', 'body-style', 'drive-wheels', 'engine-location',
       'wheel-base', 'length', 'width', 'height', 'curb-weight', 'engine-type',
       'num-of-cylinders', 'engine-size', 'fuel-system', 'bore', 'stroke',
       'compression-ratio', 'horsepower', 'peak-rpm', 'city-mpg',
       'highway-mpg', 'price'],
      dtype='object')

## Descripción de las variables

- 'symboling' : Nivel de riesgo del seguro , de menor riesgo (-3) a mayor riesgto (3)
- "normalized-losses" : Es la perdida del pago promedio del seguro del auto por año y representa la perdida por año del auto. El valor oscila entre 65 a 256
- 'make' : Marca
- "aspiration" : Como el motor de combustión interno trabaja , puede ser estandar (std) o turbo 
- 'num-of-doors' : Número de puertas
- "body-style" : Carroceria
- 'drive-wheels' : Tracción de las ruedas
- 'engine-location' : Localización del motor
- 'wheel-base' : Distancia entre ejes 
- 'length' : Longitud
- 'width' : Ancho
- 'height': Alto
- 'curb-weight' : Peso del auto con equipación completa
- 'engine-type': Tipo de motor
- 'num-of-cylinders' : Número de cilindros
- 'engine-size' : Tamaño del motor
- 'fuel-system' : Sistema de combustible
- 'bore' : Diámetro
- 'stroke' : Distancia recorrida por el pistón durante cada ciclo
- 'compression-ratio': Ratio de comprensión
- 'horsepower' : Caballos de potencia
- 'horsepower-binned' : Caballos de potencia convertidos en una variable categórica 
- 'peak-rpm' : RPM pico 
- 'city-mpg' : consumo en la ciudad en millas por galon
- 'highway-mpg' : consumo en autopista en millas por galon
- 'price' : Precio
- 'city-L/100km' :  consumo en la ciudad en litros por kilometro
- 'diesel' : variable dummy para consumo por petróleo
- 'gas': variable dummy para consumo por gasoina

In [8]:
# Ejercicio : Mostrar los 8 últimos registros
df.tail(8)

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
197,-1,74,volvo,gas,std,four,wagon,rwd,front,104.3,...,141,mpfi,3.78,3.15,9.5,114,5400,24,28,16515
198,-2,103,volvo,gas,turbo,four,sedan,rwd,front,104.3,...,130,mpfi,3.62,3.15,7.5,162,5100,17,22,18420
199,-1,74,volvo,gas,turbo,four,wagon,rwd,front,104.3,...,130,mpfi,3.62,3.15,7.5,162,5100,17,22,18950
200,-1,95,volvo,gas,std,four,sedan,rwd,front,109.1,...,141,mpfi,3.78,3.15,9.5,114,5400,23,28,16845
201,-1,95,volvo,gas,turbo,four,sedan,rwd,front,109.1,...,141,mpfi,3.78,3.15,8.7,160,5300,19,25,19045
202,-1,95,volvo,gas,std,four,sedan,rwd,front,109.1,...,173,mpfi,3.58,2.87,8.8,134,5500,18,23,21485
203,-1,95,volvo,diesel,turbo,four,sedan,rwd,front,109.1,...,145,idi,3.01,3.4,23.0,106,4800,26,27,22470
204,-1,95,volvo,gas,turbo,four,sedan,rwd,front,109.1,...,141,mpfi,3.78,3.15,9.5,114,5400,19,25,22625


In [9]:
# Ejercicio : Mostrar los 5 primeros registros que contentan los campos
#  symboling, normalized-losses , make
df[["symboling", "normalized-losses", "make"]].head()

Unnamed: 0,symboling,normalized-losses,make
0,3,?,alfa-romero
1,3,?,alfa-romero
2,1,?,alfa-romero
3,2,164,audi
4,2,164,audi


In [11]:
# Ejercicio : la media  y mediana del price

# Problemas con los datos perdidos

#df['price'].astype('float').mean() # ..... ? x np.nan 

print("media:",df['price'].astype('float').mean()) 
print("mediana:",df['price'].astype('float').median())

df["price"].astype('float').mean()
df["price"].astype('float').median()

ValueError: could not convert string to float: '?'

In [None]:
df.describe()

In [None]:
df.describe().round(2)

#### Ejercicio : crear un dataframe con los campos : "symboling","normalized-losses","make","fuel-type" y "price"

In [None]:
# Una vista de la información
dfx = df[["symboling", "normalized-losses", "make", "fuel-type", "price"]]

# Cuando solo deseamos ver la información 
df[["symboling", "normalized-losses", "make", "fuel-type", "price"]].head()

# Una copia de la información
df_new = df[["symboling","normalized-losses","make","fuel-type", "price"]].copy()

# 1. - Procedimiento para gestionar datos perdidos

<ol>
    <ul>1.1.- Identificar datos perdidos</ul>
    <ul>1.2.- Tratamiento de datos perdidos</ul>
    <ul>1.3.- Corregir formato de datos</ul>
</ol>


## 1.1.- Identificar datos perdidos

In [15]:
nro_price_validate = df['price'].loc[df['price'] !='?'].count()
nro_price_validate

KEY_DATA_MISSING = "?"
nro_price_validate = df['price'].loc[df['price'] != KEY_DATA_MISSING].count()
nro_price_validate

201

## ¿Cuántos registro existen de la variable dependiente price?


In [13]:
len(df)

205

In [None]:
nro_price_reg = df['price'].count()
nro_price_reg

In [None]:
a=df["price"].count()
a

In [None]:
df["price"].describe()

In [None]:
df.count()

In [None]:
nro_length_validate = df['length'].loc[df['length'] !='?'].count()
nro_length_validate

In [None]:
nro_normalized_losses_validate = df['normalized-losses'].loc[df['normalized-losses'] !='?'].count()
nro_normalized_losses_validate

## ¿Podemos decir que la variable width tiene datos perdidos?

In [16]:
nro_width_validate = df['width'].loc[df['width'] !='?'].count()
nro_width_validate

205

In [17]:
import numpy as np

# replace "?" to NaN  --> np.nan
#df_with_replace = df.replace("?", np.nan, inplace = False)
#df_with_replace.head(10)

# replace "?" to NaN  --> np.nan
df.replace("?", np.nan, inplace = True)
df.head()


Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164.0,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164.0,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450


In [18]:
# Se obtiene las variables con datos perdidos

missing_data = df.isnull()
missing_data.head(5)

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,False,True,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
1,False,True,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
2,False,True,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False


In [19]:
# Contar datos perdidos por columnas

for column in missing_data.columns.values.tolist():
    print(column)
    print(missing_data[column].value_counts())
    print("")

symboling
False    205
Name: symboling, dtype: int64

normalized-losses
False    164
True      41
Name: normalized-losses, dtype: int64

make
False    205
Name: make, dtype: int64

fuel-type
False    205
Name: fuel-type, dtype: int64

aspiration
False    205
Name: aspiration, dtype: int64

num-of-doors
False    203
True       2
Name: num-of-doors, dtype: int64

body-style
False    205
Name: body-style, dtype: int64

drive-wheels
False    205
Name: drive-wheels, dtype: int64

engine-location
False    205
Name: engine-location, dtype: int64

wheel-base
False    205
Name: wheel-base, dtype: int64

length
False    205
Name: length, dtype: int64

width
False    205
Name: width, dtype: int64

height
False    205
Name: height, dtype: int64

curb-weight
False    205
Name: curb-weight, dtype: int64

engine-type
False    205
Name: engine-type, dtype: int64

num-of-cylinders
False    205
Name: num-of-cylinders, dtype: int64

engine-size
False    205
Name: engine-size, dtype: int64

fuel-system
Fa

<ol>
    <li>"normalized-losses": 41 datos faltantes</li>
    <li>"num-of-doors": 2 datos faltantes</li>
    <li>"bore": 4 datos faltantes</li>
    <li>"stroke" : 4 datos faltantes</li>
    <li>"horsepower": 2 datos faltantes</li>
    <li>"peak-rpm": 2 datos faltantes</li>
    <li>"price": 4 datos faltantes</li>
</ol>

## ¿Cálcular el porcentaje de datos perdidos?

In [20]:
NRO_REG = len(df)

for column in missing_data.columns.values.tolist():
    s = missing_data[column].value_counts()
    #print(type(missing_data[column].value_counts()))
    if s[0] != NRO_REG :
       print("-->", column, "tienen", s[0] ," datos completos")
       percentaje_missing_data = ((NRO_REG - s[0])/NRO_REG)*100
       print(round(percentaje_missing_data,0),"%")
        

--> normalized-losses tienen 164  datos completos
20.0 %
--> num-of-doors tienen 203  datos completos
1.0 %
--> bore tienen 201  datos completos
2.0 %
--> stroke tienen 201  datos completos
2.0 %
--> horsepower tienen 203  datos completos
1.0 %
--> peak-rpm tienen 203  datos completos
1.0 %
--> price tienen 201  datos completos
2.0 %


<h2 id="deal_missing_values">1.2.- Tratamiento de datos faltantes</h2>

<b>Como tratar con datos faltantes?</b>

<ol>
    <li>borrar data<br>
        a. borrar la fila entera<br>
        b. borrar la columna entera<br>
    </li>
    <li>remplazar data<br>
        a. remplazar el promedio --> variable númerica<br>
        b. reemplazar la moda --> variable categoricas <br>
        c. reemplazar basado en una función --> ¿?<br>
    </li>
</ol>

Las columnas enteras solo deben descartarse si la mayoría de las entradas de la columna están vacías. En nuestro conjunto de datos, ninguna de las columnas está lo suficientemente vacía como para borrarlo por completo.
Tenemos cierta libertad para elegir qué método reemplazar datos dependiendo la cantidad de datos faltantes; sin embargo, algunos métodos pueden parecer más razonables que otros. Se aplicaran los siguientes método :

<b>Reemplazos por la media:</b>
<ul>
    <li>"normalized-losses": 41 datos perdidos, se reemplazar por la media ==> ¿QUE PASO?</li>
    <li>"stroke": 4 datos perdidos, se reemplazar por la media</li>
    <li>"bore": 4 datos perdidos, se reemplazar por la media</li>
    <li>"horsepower": 2 datos perdidos, se reemplazar por la media</li>
    <li>"peak-rpm": 2 datos perdidos, se reemplazar por la media</li>
</ul>

<b>Reemplazo por la moda:</b>
<ul>
    <li>"num-of-doors": 2 datos perdidos, se reemplazar por la moda que es : "four". 
    </li>
</ul>

<b>Eliminacion de toda una fila</b>
<ul>
    <li>"price": 4 datos perdidos, se elimina la fila
        <ul>
            <li>Razón: El precio es lo que queremos predecir. Cualquier entrada de datos sin datos de precios no se puede utilizar para la predicción; por lo tanto, cualquier fila ahora sin datos de precios no nos es útil</li>
        </ul>
    </li>
</ul>

### 1.- Reemplazo de datos faltantes por la media

In [None]:
df['price'].astype('float').mean()

In [None]:
# bore
avg_bore=df['bore'].astype('float').mean(axis=0)
avg_bore = round(avg_bore,4)
print("Average of bore:", avg_bore)
df["bore"].replace(np.nan, avg_bore, inplace=True)

### Ejercicio : reemplazar la media para las variables númericas 
<ul>
    <li>"normalized-losses": 41 datos perdidos, se reemplazar por la media</li>
    <li>"stroke": 4 datos perdidos, se reemplazar por la media</li>
    <li>"horsepower": 2 datos perdidos, se reemplazar por la media</li>
    <li>"peak-rpm": 2 datos perdidos, se reemplazar por la media</li>
</ul>

In [None]:
# stroke


In [None]:
# horsepower
avg_horsepower=df['horsepower'].astype('float').mean(axis=0)
avg_horsepower = round(avg_horsepower,4)
print("Average of horsepower:", avg_horsepower)
df["horsepower"].replace(np.nan, avg_horsepower, inplace=True)

In [None]:
# peak-rpm


In [None]:
# "stroke", "peak-rpm", "horsepower"
for i in ["stroke", "peak-rpm", "horsepower","normalized-losses"]:
    avg= df[i].astype("float").mean()
    df[i].replace(np.nan, avg, inplace=True)

### 2.- Reemplazo de datos faltantes por la moda ( Reemplazo de datos faltantes para variables categoricas )

In [None]:
df.head()

In [None]:
# Buscando la moda
df["num-of-doors"].value_counts()

In [None]:
# Otra manera de visualizar moda
df['num-of-doors'].value_counts().idxmax()

In [None]:
# Se reemplaza con la moda
df["num-of-doors"].replace(np.nan, "four", inplace=True)

### variable númerica --> son int, float, 
### variable categorica --> son descripciones en forma de texto

### variable independientes
### variable dependientes


#### Diferentes variables independientes : stroke num-of-doors ,etc  






### 3.- Eliminación de datos faltantes para la variable dependientes ( price)

In [None]:
df.dropna(subset=["price"], axis=0, inplace = True)

# reset index, porque se ha borrado 2 lineas
# df.reset_index(drop=True, inplace=True)

In [None]:
len(df)

In [None]:
NRO_REG = len(df)

for column in missing_data.columns.values.tolist():
    s = missing_data[column].value_counts()
    #print(type(missing_data[column].value_counts()))
    if s[0] != NRO_REG :
       print("-->", column, "tienen", s[0] ," datos completos")
       percentaje_missing_data = ((NRO_REG - s[0])/NRO_REG)*100
       print(round(percentaje_missing_data,0),"%")

In [None]:
# missing_data = df.isnull()

# for column in missing_data.columns.values.tolist():
#    print(column)
#    print (missing_data[column].value_counts())
#    print("")


In [None]:
df.head()

 ## 1.3.- Correción de formato de datos  

In [None]:
df.dtypes

<p> Como se observa, algunas columnas no son del tipo de datos correcto. Las variables numéricas deben tener el tipo 'float' o 'int', y las variables con cadenas como las categorías deben tener el tipo 'object'. Por ejemplo, las variables 'bore' y 'stroke' son valores numéricos que describen los motores, por lo que deberíamos esperar que sean del tipo 'float' o 'int'; sin embargo, se muestran como tipo 'object'. Tenemos que convertir los tipos de datos en un formato adecuado para cada columna utilizando el método "astype ()". </p>

In [None]:
df["price"] = df["price"].astype("float")

In [None]:
df.dtypes

### Ejercicio , cambiar el tipo de datos de las variables predictoras:

   - "bore", "stroke", "peak-rpm" a float
   - "normalized-losses" a int  

In [None]:
df.columns

In [None]:
df["bore"] = df["bore"].astype("float")
df["peak-rpm"] = df["peak-rpm"].astype("float")
df["stroke"] = df["stroke"].astype("float")
df["normalized-losses"] = df["normalized-losses"].astype("int")

In [None]:
variables= ["bore", "stroke", "peak-rpm"]
for i in variables:
    df[i]=df[i].astype("float")
df["normalized-losses"] = df["normalized-losses"].astype("int")

In [None]:
#df["normalized-losses"]
#df["normalized-losses"] = df["normalized-losses"].astype("int")

### Crear la columna "price2" en dataframe y completarlo con la siguiente formula

$prices2 = price*2 + 5$


In [None]:
df.columns

In [None]:
df["price2"]= df["price"]*2+5

In [None]:
df.columns

In [None]:
df.loc[:,["price", "price2"]].head()

In [None]:
df[["price","price2"]].head()

In [None]:
# Eliminar la columna price2

df.drop(["price2"], axis='columns', inplace=True)

In [None]:
df.columns

<h1 id = "data_standardization"> 2.- Estandarización de datos </h1>
<p>
Los datos generalmente se recopilan de diferentes formatos.
(La estandarización de datos también es un término para un tipo particular de normalización de datos, donde restamos la media y la dividimos por la desviación estándar)
</p>
    
<b> ¿Qué es la estandarización? </b>
<p> La estandarización es el proceso de transformación de datos en un formato común que permite al investigador hacer una comparación significativa.
</p>

<b> Ejemplo </b>
<p> Transformar mpg a km: </p>
<p> En nuestro conjunto de datos, las columnas de consumo de combustible "city-mpg" y "highway-mpg" están representadas por unidad de mpg (millas por galón). Supongamos que estamos desarrollando una aplicación donde que acepta el consumo de combustible con el estándar km </p>
<p> Tendremos que aplicar <b> transformación de datos </b> para transformar mpg en km? </p>

In [None]:
df.head()

In [None]:
# Convirtiendo mpg a km : (235 dividido por mpg)
df['city-km'] = round(235/df["city-mpg"],3)

# mostramos datos
df[['city-mpg','city-km']].head()

In [None]:
df.columns

### Ejercicio , transformar la variables predictora "highway-mpg" a kilometros en la nueva variable predictora "highway-km"

In [None]:
df['highway-km'] = round(235/df["highway-mpg"],3)
df.columns


<h2 id = "data_normalization"> 3.- Normalización de datos </h2>

<b> ¿Por qué la normalización? </b>
<p> La normalización es el proceso de transformar valores de varias variables en un rango similar. Las normalizaciones típicas incluyen escalar la variable para que el promedio de la variable sea 0, escalar la variable para que la varianza sea 1 o escalar la variable para que los valores de la variable varíen de 0 a 1
</p>

<b> Ejemplo </b>
<p> Para demostrar la normalización, digamos que queremos cambiar la escala de "length", "width" y  "height"</p>
<p> <b> Objetivo: </b> desea Normalizar estas variables para que su valor oscile entre 0 y 1. </p>
<p> <b> Enfoque: </b> reemplace el valor original por (valor original) / (valor máximo) </p>

In [None]:
# replace (original value) by (original value)/(maximum value)
df['length'] = df['length']/df['length'].max()
df['width'] = df['width']/df['width'].max()

In [None]:
# mostramos datos
df[['length','width']].head()

### Ejercicio , normalizar la variable predictora "height"

In [None]:
df['height'] = df['height']/df['height'].max()

<h2 id = "binning"> 4.- Binning </h2>

<b> ¿Por qué binning? </b>
<p>
    Binning es un proceso de transformación de variables numéricas continuas en variables categóricos discretos.
</p>

<b> Ejemplo: </b>
<p> En nuestro conjunto de datos, "horsepower" es una variable con un valor real que oscila entre 48 y 288, tiene 57 valores únicos. ¿Qué sucede si solo nos importa la diferencia de precio entre los automóviles con high horsepower, medium horsepower, y little horsepower (3 tipos)? ¿Podemos reorganizarlos en tres 'categorias' para simplificar el análisis? </p>

<p> Usaremos el método Pandas 'cut' para segmentar la columna 'caballos de fuerza' en 3 bins </p>

In [None]:
df["horsepower"]=df["horsepower"].astype(int, copy=True)

In [None]:
# %matplotlib inline
import matplotlib as plt
from matplotlib import pyplot

plt.pyplot.hist(df["horsepower"])

# set x , y labels y titulo
plt.pyplot.xlabel("horsepower")
plt.pyplot.ylabel("nro. veces")
plt.pyplot.title("horsepower bins")

In [None]:
lista = np.linspace(10,20,4) # Cuando hay 4 puntos de cortes, existe 4-1 intervalos
#lista
for i in lista : print(i)
    
#. 10 --- 15 --- 20 
    

In [None]:
# Genera puntos de corte 

minimo = min(df["horsepower"])
maximo = max(df["horsepower"])
punto_de_corte = 4
bins = np.linspace(minimo,maximo,punto_de_corte)
bins

In [None]:
bins_custom = [48, 100, 200, 262]

In [None]:
group_names = ['Bajo', 'Medio', 'Alto']

In [None]:
df['horsepower-binned'] = \
        pd.cut(df['horsepower'], bins, labels=group_names, include_lowest=True )

#
df[['horsepower','horsepower-binned']].head()

In [None]:
df["horsepower-binned"].value_counts()

In [None]:
# %matplotlib inline
import matplotlib as plt
from matplotlib import pyplot
pyplot.bar(group_names, df["horsepower-binned"].value_counts())

# set x/y labels and plot title
plt.pyplot.xlabel("horsepower")
plt.pyplot.ylabel("nro. veces")
plt.pyplot.title("horsepower bins")

In [None]:
# %matplotlib inline
import matplotlib as plt
from matplotlib import pyplot

a = (0,1,2)

# draw historgram of attribute "horsepower" with bins = 3
plt.pyplot.hist(df["horsepower"], bins = 3)

# set x/y labels and plot title
plt.pyplot.xlabel("horsepower")
plt.pyplot.ylabel("nro. veces")
plt.pyplot.title("horsepower bins")

<h2 id="indicator">Variables Dummy</h2>


In [None]:
df.columns

In [None]:
df["fuel-type"].head()

In [None]:
df["fuel-type"].value_counts()

In [None]:
dummy_variable_1 = pd.get_dummies(df["fuel-type"])
dummy_variable_1.head()

In [None]:
dummy_variable_1.rename(columns={'gas':'fuel-type-gas', 'diesel':'fuel-type-diesel'}, inplace=True)
dummy_variable_1.head()

In [None]:
df = pd.concat([df, dummy_variable_1], axis=1)

In [None]:
df.columns

In [None]:
df[["fuel-type","fuel-type-gas","fuel-type-diesel"]].tail(10)

In [None]:
df.drop("fuel-type", axis = 1, inplace=True)

In [None]:
### Ejercicio : crear variables dummy para "aspiration" con 

In [None]:
df.to_csv('autos_datos_limpios_df.csv')

In [None]:
df.head()