In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import re

In [2]:
ruta_archivo = "Datasets/Alternative Fuel Vehicles US.csv"
df = pd.read_csv(ruta_archivo)

df.head()

Unnamed: 0,Category,Model,Model Year,Manufacturer,Fuel,All-Electric Range,PHEV Total Range,Alternative Fuel Economy City,Alternative Fuel Economy Highway,Alternative Fuel Economy Combined,...,Conventional Fuel Economy Combined,Transmission Type,Transmission Make,Engine Type,Engine Size,Engine Cylinder Count,Number of Passengers,Heavy-Duty Power System,Notes,Drivetrain
0,Sedan/Wagon,NSX,2022.0,Acura,Hybrid Electric,,,,,,...,21.0,Auto,,SI,3.5L,6.0,,,,AWD
1,Sedan/Wagon,A3,2022.0,Audi,Hybrid Electric,,,,,,...,32.0,Auto,,SI,2.0L,4.0,,,,FWD
2,Sedan/Wagon,A3 quattro,2022.0,Audi,Hybrid Electric,,,,,,...,31.0,Auto,,SI,2.0L,4.0,,,,AWD
3,Sedan/Wagon,A4 allroad quattro,2022.0,Audi,Hybrid Electric,,,,,,...,26.0,Auto,,SI,2.0L,4.0,,,,AWD
4,Sedan/Wagon,A4 quattro,2022.0,Audi,Hybrid Electric,,,,,,...,29.0,Auto,,SI,2.0L,4.0,,,,AWD


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 882 entries, 0 to 881
Data columns (total 22 columns):
 #   Column                              Non-Null Count  Dtype  
---  ------                              --------------  -----  
 0   Category                            882 non-null    object 
 1   Model                               882 non-null    object 
 2   Model Year                          594 non-null    float64
 3   Manufacturer                        882 non-null    object 
 4   Fuel                                882 non-null    object 
 5   All-Electric Range                  222 non-null    float64
 6   PHEV Total Range                    43 non-null     float64
 7   Alternative Fuel Economy City       169 non-null    float64
 8   Alternative Fuel Economy Highway    169 non-null    float64
 9   Alternative Fuel Economy Combined   262 non-null    float64
 10  Conventional Fuel Economy City      444 non-null    float64
 11  Conventional Fuel Economy Highway   444 non-n

## I Eliminar columnas que no vamos a utilizar



In [4]:
df.drop(columns=['Heavy-Duty Power System', 'Notes', 'Drivetrain', 'Number of Passengers', 'PHEV Total Range', 'Engine Cylinder Count', 'Transmission Make', 'Transmission Type' ], axis=1, inplace=True)

## II Exploración y tratamiento de Nulos



### 1 Columna Category

1.1) Revisamos los valores únicos en la columna

In [5]:
df['Category'].unique()

array(['Sedan/Wagon', 'SUV', 'Pickup', 'Van', 'Passenger Van/Shuttle Bus',
       'Street Sweeper', 'Refuse', 'Vocational/Cab Chassis', 'Tractor',
       'School Bus', 'Transit Bus', 'Step Van',
       'TractorVocational/Cab Chassis', 'Vocational/Cab ChassisVan',
       'Vocational/Cab ChassisTractor'], dtype=object)

2.2) Nos quedaremos sólo con la categorìa de autos que son SUV o sedań, pues sólo estos autos pueden ser taxis.
    
- Refuse: Se refiere a vehículos de recolección de basura o residuos.

- School Bus: Autobuses escolares utilizados para transportar estudiantes desde y hacia la escuela.

- Street Sweeper: Vehículos de limpieza de calles equipados con cepillos y sistemas de aspiración para recoger la suciedad y los residuos de las calles.

- Tractor: En este contexto, probablemente se refiera a tractores de carretera, que son camiones diseñados para remolcar semirremolques en el transporte de carga.

- TractorVocational/Cab Chassis: Tractores  diseñados para tareas específicas, como la construcción o la entrega de mercancías.

- Transit Bus: Autobuses utilizados para el transporte público en ciudades y áreas urbanas.

- Vocational/Cab Chassis: Vehículos con un chasis de cabina que se pueden adaptar para usos específicos, como camiones de bomberos, ambulancias o vehículos de construcción.

- Vocational/Cab ChassisTractor: Una combinación de chasis de cabina para aplicaciones vocacionales y tractores, probablemente indicando vehículos que pueden ser personalizados para tareas específicas y también utilizados para remolcar.

- Passenger Van/Shuttle Bus: Furgonetas o minibuses utilizados para transportar pasajeros.

- Van: Se refiere a furgonetas, que son vehículos utilizados para transportar mercancías o personas, pero generalmente más pequeños que los camiones o autobuses.

- Pickup: Camionetas con una cabina para pasajeros y una zona de carga abierta en la parte trasera.

- Step Van: Camión ligero o mediano con un cuerpo alto y cuadrado. Estos vehículos son comúnmente utilizados para la entrega de paquetes y correo, servicios de comida móvil (como camiones de comida), y por empresas de servicios como la limpieza y el mantenimiento.

- Vocational/Cab ChassisVan: Esta categoría parece ser una combinación de términos y podría referirse a vehículos vocacionales (especializados para una tarea específica) que están basados en un chasis de cabina y tienen una configuración de tipo furgoneta.

In [6]:
categories_to_remove = [
    'Refuse', 'School Bus', 'Street Sweeper', 'Tractor',
    'TractorVocational/Cab Chassis', 'Transit Bus',
    'Vocational/Cab Chassis', 'Vocational/Cab ChassisTractor',
    'Passenger Van/Shuttle Bus', 'Van', 'Pickup', 'Step Van', 'Vocational/Cab ChassisVan'
]

df = df[~df['Category'].isin(categories_to_remove)]


In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 505 entries, 0 to 593
Data columns (total 14 columns):
 #   Column                              Non-Null Count  Dtype  
---  ------                              --------------  -----  
 0   Category                            505 non-null    object 
 1   Model                               505 non-null    object 
 2   Model Year                          505 non-null    float64
 3   Manufacturer                        505 non-null    object 
 4   Fuel                                505 non-null    object 
 5   All-Electric Range                  216 non-null    float64
 6   Alternative Fuel Economy City       137 non-null    float64
 7   Alternative Fuel Economy Highway    137 non-null    float64
 8   Alternative Fuel Economy Combined   228 non-null    float64
 9   Conventional Fuel Economy City      370 non-null    float64
 10  Conventional Fuel Economy Highway   370 non-null    float64
 11  Conventional Fuel Economy Combined  370 non-null  

### 2 All-Electric Range 

2.1) Abajo podemos ver que donde hay nulos es de un 100% en autos no eléctricos. Lo cual es esperable, pues la columna informa sobre el rango de autos eléctricos.

In [8]:
# Verificamos la relación entre 'All-Electric Range' y el tipo de combustible 'Fuel'

df['All-Electric Range Null'] = df['All-Electric Range'].isnull()

# Agrupando por tipo de combustible para ver la proporción de nulos en 'All-Electric Range' por cada tipo
all_electric_range_nulos_por_fuel = df.groupby('Fuel')['All-Electric Range Null'].mean().sort_values(ascending=False)

all_electric_range_nulos_por_fuel


Fuel
Biodiesel (B20)            1.0
Ethanol (E85)              1.0
Hybrid Electric            1.0
Hydrogen Fuel Cell         1.0
Electric                   0.0
Plug-in Hybrid Electric    0.0
Name: All-Electric Range Null, dtype: float64

### 3 Alternative Fuel Economy City y Alternative Fuel Economy Highway

3.1) Vemos que los autos eléctricos tienen 0% nulos. Esto es esperable en estas columnas, pues sólo tienen la información de los autos con combustible alternativo, por ello coinciden los nulos y no nulos exactamente en ambas columnas. No se puede imputar valores a los nulos, pues se perdería coherencia en el dataset. Eventualmente, y luego de realizar una matriz de correlaciòn y estadísticas descriptivas, estos valores pueden ser imputados a cero para el modelo.

In [9]:
# Analizando la relación entre los nulos en 'Alternative Fuel Economy City' y 'Alternative Fuel Economy Highway' por tipo de combustible
nulos_alt_fuel_economy_por_fuel = df.groupby('Fuel').apply(lambda x: x[['Alternative Fuel Economy City', 'Alternative Fuel Economy Highway']].isnull().mean()).sort_values(by='Alternative Fuel Economy City', ascending=False)

nulos_alt_fuel_economy_por_fuel


  nulos_alt_fuel_economy_por_fuel = df.groupby('Fuel').apply(lambda x: x[['Alternative Fuel Economy City', 'Alternative Fuel Economy Highway']].isnull().mean()).sort_values(by='Alternative Fuel Economy City', ascending=False)


Unnamed: 0_level_0,Alternative Fuel Economy City,Alternative Fuel Economy Highway
Fuel,Unnamed: 1_level_1,Unnamed: 2_level_1
Biodiesel (B20),1.0,1.0
Hybrid Electric,1.0,1.0
Plug-in Hybrid Electric,1.0,1.0
Electric,0.0,0.0
Ethanol (E85),0.0,0.0
Hydrogen Fuel Cell,0.0,0.0


In [10]:
#  Porcentaje de nulos en Alternative Fuel Economy City
nulos = df['Alternative Fuel Economy City'].isnull().sum()
porcentaje_nulos = (nulos / len(df)) * 100

nulos, porcentaje_nulos

(368, 72.87128712871286)

In [11]:
#  Porcentaje de nulos en AAlternative Fuel Economy Highway
nulos = df['Alternative Fuel Economy Highway'].isnull().sum()
porcentaje_nulos = (nulos / len(df)) * 100

nulos, porcentaje_nulos

(368, 72.87128712871286)

### 4 Columna Alternative Fuel Economy Combined

Tenemos valores faltantes en esta columna que los podemos reemplazar por el promedio de las dos columnas anteriores. Sólo en las filas en que no tenga información.

In [12]:
# Calcular el promedio entre 'Alternative Fuel Economy City' y 'Alternative Fuel Economy Highway'
df['Average City Highway'] = (df['Alternative Fuel Economy City'] + df['Alternative Fuel Economy Highway']) / 2

# Reemplazar los valores nulos en 'Alternative Fuel Economy Combined' con el promedio calculado
df['Alternative Fuel Economy Combined'] = df['Alternative Fuel Economy Combined'].fillna(df['Average City Highway'])

# Eliminar la columna auxiliar 'Average City Highway'
df.drop('Average City Highway', axis=1, inplace=True)


### 5 Columnas: Conventional Fuel Economy City, Conventional Fuel Economy Highway y Conventional Fuel Economy Combined

Vemos que tienen coincidencia en las filas donde tienen y no tienen datos. Esto es esperable, pues sólo nos brindan información de las filas que contemplan autos con combustible convencional. Por ahora, no imputamos valores, pues necesitamos realizar anàlisis estadísticos previos.

In [13]:
# Analizamos la relación entre los nulos en 'Alternative Fuel Economy City' y 'Alternative Fuel Economy Highway' por tipo de combustible
nulos_conventional_fuel = df.groupby('Fuel').apply(lambda x: x[['Conventional Fuel Economy City', 'Conventional Fuel Economy Highway', 'Conventional Fuel Economy Combined']].isnull().mean()).sort_values(by='Conventional Fuel Economy City', ascending=False)
nulos_conventional_fuel

  nulos_conventional_fuel = df.groupby('Fuel').apply(lambda x: x[['Conventional Fuel Economy City', 'Conventional Fuel Economy Highway', 'Conventional Fuel Economy Combined']].isnull().mean()).sort_values(by='Conventional Fuel Economy City', ascending=False)


Unnamed: 0_level_0,Conventional Fuel Economy City,Conventional Fuel Economy Highway,Conventional Fuel Economy Combined
Fuel,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Electric,1.0,1.0,1.0
Hydrogen Fuel Cell,1.0,1.0,1.0
Biodiesel (B20),0.0,0.0,0.0
Ethanol (E85),0.0,0.0,0.0
Hybrid Electric,0.0,0.0,0.0
Plug-in Hybrid Electric,0.0,0.0,0.0


### 6 Columnas Engine Size y Engine Type

6.1) Revisamos los valores únicos de la columna Engine Size

In [14]:
df['Engine Size'].unique()

array(['3.5L', '2.0L', '3.0L', '175 kW electric motor',
       '141 kW and 172 kW electric motor', '138kW electric motor',
       '157kW electric motor', '80 kW and 150 kW electric motor', '4.0L',
       '335 kW electric motor', '2.9L', '250 kW electric motor',
       '190 and 230 kW electric motors', '150 kW electric motor', '3.9L',
       '2.5L I4', '2.5L', '3.3L', '3.3L V6',
       '198 kW electric motors (x2)', '258 kW electric motors (x2)',
       '179  kW electric motors (X2)', '179  kW electric motor',
       '198 kW electric motor', '216 kW electric motor', '1.5L', '1.6L',
       '74 kW and 165 kW electric motors', '125 kW electric motor',
       '168 kW electric motor', '120 kW electric motor', '5.7L', '3.6L',
       '370kW and 459kW electric motors',
       '198kW and 498kW electric motors',
       '178kW and 433kW electric motors', '81 kW electric motor',
       '245 kW electric motor', '135 and 255 kW electric motors',
       '135 kW electric motor', '2.4L', '110 kW electri

6.2) Para hacer más comprensible la informaciòn, en donde exista la expresión kw, el valor debe incluir sólo el número y la unidad kw

In [15]:
# Usar expresiones regulares para extraer el número antes de 'kW' o 'kw' y luego agregar ' kW'
df['Engine Size'] = df['Engine Size'].str.replace(r'(\d+)\s*[kK][wW].*', r'\1 kW', regex=True)

# Mostrar los valores únicos resultantes
print(df['Engine Size'].unique())


['3.5L' '2.0L' '3.0L' '175 kW' '141 kW' '138 kW' '157 kW' '80 kW' '4.0L'
 '335 kW' '2.9L' '250 kW' '190 and 230 kW' '150 kW' '3.9L' '2.5L I4'
 '2.5L' '3.3L' '3.3L V6' '198 kW' '258 kW' '179 kW' '216 kW' '1.5L' '1.6L'
 '74 kW' '125 kW' '168 kW' '120 kW' '5.7L' '3.6L' '370 kW' '178 kW'
 '81 kW' '245 kW' '135 and 255 kW' '135 kW' '2.4L' '110 kW' '160 kW'
 '170 kW' '3.0L ' '175 and 320 kW' '150 and 270 kW' '240 kW' '280 kW'
 '170 and 335 kW' '175 and 355 kW' '190 and 335 kW'
 '162, 162, 163, 163 kW' '98 kW' '131 kW' '192 kW' '247 kW'
 '243 and 248 kW' '230 kW' '91 and 200 kW' '133 and 179 kW' '209 kW'
 '1.8L' '134 kW' '80 and 150 kW' '130 kW' '100 kW' nan '20 kW'
 '194 and 280 kW' '210 and 250 kW' '131 and 190 kW' '149 kW'
 '180 and 189 kW' '151 and 273 kW' '69 and 201 kW']


6.3) Revisamos los valores únicos de Engine Type

In [16]:
df['Engine Type'].unique()

array(['SI', 'e-motor', 'CI', 'FC', nan], dtype=object)

Las categorías en la columna "Engine Type" representan diferentes tipos de tecnologías de motores utilizados en vehículos:

- SI: Se refiere a "Spark Ignition" (Encendido por chispa). Los motores SI son motores de combustión interna que utilizan una chispa eléctrica para encender una mezcla de aire y combustible. Este tipo de motor es común en vehículos de gasolina.

- e-motor: Se refiere a "electric motor" (Motor électrico).

- CI: Se refiere a "Compression Ignition" (Encendido por compresión). Los motores CI son motores de combustión interna en los que el combustible se enciende debido a la alta temperatura generada por la compresión del aire en la cámara de combustión. Este tipo de motor es común en vehículos diésel.

- FC: Se refiere a "Fuel Cell" (Celda de combustible). Los vehículos con celdas de combustible utilizan hidrógeno como fuente de energía para generar electricidad que alimenta un motor eléctrico. 

6.4) Reemplazamos los nombres para que sea más comprensible y manejable los datos

In [17]:
# Reemplazar los nombres de las categorías en 'Engine Type'
df['Engine Type'] = df['Engine Type'].replace({
    'SI': 'Spark Ignition',
    'e-motor': 'Electric Motor',
    'CI': 'Compression Ignition',
    'FC': 'Fuel Cell'
})

# Mostrar los valores únicos resultantes
print(df['Engine Type'].unique())


['Spark Ignition' 'Electric Motor' 'Compression Ignition' 'Fuel Cell' nan]


6.5) Dado que ambas columnas tienen pocos nulos (5 nulos cada una), procedemos a eliminarlos.

In [18]:
# Eliminar filas con valores nulos en 'Engine Type' y 'Engine Size'
df = df.dropna(subset=['Engine Type', 'Engine Size'])


In [19]:
df.drop('All-Electric Range Null', axis=1, inplace=True)

## III Tratamiento outliers y duplicados

### 1 Outliers

1.1) Exploramos todos los outliers del dataset.


### Observaciones Generales

- **Presencia de Outliers en Múltiples Categorías:** Hay outliers en todas las categorías de economía de combustible, lo que indica que algunos vehículos tienen valores de economía de combustible significativamente diferentes (tanto más bajos como más altos) que la mayoría.
No osbtante, esto no es necesariamente un error en los datos, pues estos outliers son consistentes ya que los mismos vehículos parecen ser outliers en más de una categoría ( los mismos índices aparecen en ciudad, carretera y combinado), lo que sugiere que ciertos vehículos tienen características de rendimiento de combustible únicas en comparación con el conjunto general. Especialmente autos más nuevos.

### Sobre Economía de Combustible en Combustibles Alternativos y Convencionales

- **Rango de Economía de Combustible:** Los valores atípicos en la economía de combustible alternativo para ciudad y carretera son relativamente bajos (11.0 y 15.0, respectivamente), lo que podría indicar vehículos alternativos con menor eficiencia en ciertas condiciones o errores de datos. Por otro lado, si bien los valores atípicos en la economía de combustible convencional varían más ampliamente y tienden a ser más altos, especialmente en la economía de combustible en carretera, hay un valor de 231.0 lo que parece ser un error al ingresar el dato al dataset.





In [20]:
# Seleccionamos solo las columnas numéricas
df_numeric = df.select_dtypes(include=['float64', 'int64'])

# Calcula el rango intercuartílico (IQR) para cada columna numérica
Q1 = df_numeric.quantile(0.25)
Q3 = df_numeric.quantile(0.75)
IQR = Q3 - Q1

# Identifica los outliers
outliers = ((df_numeric < (Q1 - 1.5 * IQR)) | (df_numeric > (Q3 + 1.5 * IQR)))

# Muestra los outliers
for column in outliers.columns:
    if outliers[column].any():
        print(f"Outliers in {column}:")
        print(df_numeric[column][outliers[column]])
        print()


Outliers in Alternative Fuel Economy City:
91     11.0
391    11.0
Name: Alternative Fuel Economy City, dtype: float64

Outliers in Alternative Fuel Economy Highway:
91     15.0
391    15.0
Name: Alternative Fuel Economy Highway, dtype: float64

Outliers in Conventional Fuel Economy City:
132    48.0
135    55.0
136    51.0
137    49.0
138    53.0
139    54.0
143    58.0
144    52.0
152    50.0
168    51.0
170    53.0
171    48.0
284    51.0
286    53.0
293    54.0
294    51.0
295    58.0
296    55.0
434    48.0
439    55.0
440    51.0
441    49.0
442    53.0
443    54.0
444    59.0
446    52.0
453    50.0
464    51.0
466    53.0
467    48.0
566    51.0
568    53.0
574    54.0
575    51.0
576    58.0
Name: Conventional Fuel Economy City, dtype: float64

Outliers in Conventional Fuel Economy Highway:
132     47.0
135     49.0
137     52.0
138     56.0
139     57.0
143     60.0
144     51.0
151     51.0
152     54.0
168     46.0
170     48.0
284     53.0
285     47.0
286     52.0
293    

Elimiinamos los outliers presentes en Alternative Fuel Economy City, Alternative Fuel Economy Highway y el outlier presente en la fila 342 en la columna Conventional Fuel Economy Highway

In [21]:
# Eliminar outliers en 'Alternative Fuel Economy City' con valores de 11.0
df = df[~((df['Alternative Fuel Economy City'] == 11.0) & 
          (df['Alternative Fuel Economy Highway'] == 15.0))]

# Eliminar el outlier de 231.0 en 'Conventional Fuel Economy Highway'
df = df[df['Conventional Fuel Economy Highway'] != 231.0]


### 2 Revisamos las filas duplicadas

2.1) Identificamos las filas duplicadas

In [22]:
# Buscamos duplicados en todo el DataFrame
duplicates = df.duplicated()

# Contamos el número de duplicados
number_of_duplicates = duplicates.sum()

# Muestra el número de duplicados
print(f'Número de filas duplicadas: {number_of_duplicates}')

# SVemos las filas duplicadas:
duplicated_rows = df[duplicates]
print(duplicated_rows)




Número de filas duplicadas: 1
        Category         Model  Model Year   Manufacturer             Fuel  \
506  Sedan/Wagon  E 450 4MATIC      2021.0  Mercedes-Benz  Hybrid Electric   

     All-Electric Range  Alternative Fuel Economy City  \
506                 NaN                            NaN   

     Alternative Fuel Economy Highway  Alternative Fuel Economy Combined  \
506                               NaN                                NaN   

     Conventional Fuel Economy City  Conventional Fuel Economy Highway  \
506                            23.0                               30.0   

     Conventional Fuel Economy Combined     Engine Type Engine Size  
506                                26.0  Spark Ignition        3.0L  


2.2) Eliminamos la fila duplicada

In [23]:
# Eliminar duplicados, manteniendo la primera ocurrencia
df = df.drop_duplicates()



## IV Estadísticas descriptivas


### Model Year
- **Rango de Años:** Los vehículos en el dataset son bastante recientes, con años de modelo que van desde 2021 hasta 2022.
- **Promedio:** El año modelo promedio es aproximadamente 2021.56.
- **Desviación Estándar:** La desviación estándar es muy baja (0.497), lo que sugiere que casi todos los vehículos son del año 2021 o 2022, con muy poca variación.

### All-Electric Range (Rango Todo Eléctrico)
- **Rango de Valores:** El rango todo eléctrico varía significativamente, desde 8 hasta 520 millas. Esto es explicable si se incluyen aquellos autos que son hibridos, pues  el vehículo puede recorrer sólo 8 millas(por ejemplo)sólo con el motor eléctrico sin recurrir al motor de combustión.
- **Promedio y Mediana:** El rango promedio es de aproximadamente 166 millas, pero la mediana es mucho mayor (201.5 millas), lo que indica una distribución sesgada hacia vehículos con menor rango eléctrico y unos pocos vehículos con rangos muy altos que elevan el promedio.
- **Desviación Estándar:** Una desviación estándar alta (134.3) indica una gran variabilidad en el rango eléctrico entre los vehículos.

### Alternative Fuel Economy (Economía de Combustible Alternativo) - Ciudad, Carretera, Combinado
- **Rango de Valores:** La economía de combustible alternativo varía desde un mínimo de 59 (ciudad) y 54 (carretera) hasta un máximo de 150 (ciudad) y 133 (carretera), lo que sugiere una amplia gama de eficiencia entre los vehículos.
- **Promedio:** Los valores promedio indican una alta eficiencia en ciudad (101.72) comparado con carretera (92.31), lo cual es común en vehículos eléctricos y alternativos debido a la regeneración de energía durante el frenado.
- **Desviación Estándar:** Las desviaciones estándar muestran una variabilidad moderada en la economía de combustible alternativo, especialmente en la ciudad.

### Conventional Fuel Economy (Economía de Combustible Convencional) - Ciudad, Carretera, Combinado
- **Rango de Valores:** La economía de combustible convencional varía desde un mínimo de 13 (ciudad) hasta un máximo de 59 (combinado), indicando una amplia gama de eficiencia entre vehículos convencionales.
- **Promedio:** Los valores promedio de economía de combustible convencional son significativamente más bajos que los de combustible alternativo, lo cual es esperado, con 26.99 (ciudad), 30.57 (carretera), y 28.29 (combinado).
- **Desviación Estándar:** Hay una variabilidad notable en la economía de combustible convencional, especialmente en la ciudad, lo que sugiere una diversidad significativa en la eficiencia de combustible entre los vehículos convencionales.



In [24]:
df.describe()

Unnamed: 0,Model Year,All-Electric Range,Alternative Fuel Economy City,Alternative Fuel Economy Highway,Alternative Fuel Economy Combined,Conventional Fuel Economy City,Conventional Fuel Economy Highway,Conventional Fuel Economy Combined
count,493.0,208.0,130.0,130.0,218.0,363.0,363.0,363.0
mean,2021.555781,165.557692,101.723077,92.315385,84.188073,26.991736,30.575758,28.294766
std,0.497383,134.300034,22.477557,16.976972,25.114786,11.264153,8.767826,10.148001
min,2021.0,8.0,59.0,54.0,42.0,13.0,18.0,15.0
25%,2021.0,22.0,79.0,80.0,64.0,20.0,25.0,22.0
50%,2022.0,201.5,103.5,93.0,80.0,22.0,28.0,25.0
75%,2022.0,260.5,118.75,102.0,105.0,31.0,33.0,31.0
max,2022.0,520.0,150.0,133.0,142.0,59.0,60.0,59.0


Queremos revisar las estadísticas descriptivas de All-Electric Range, filtrando sólo por autos 100% eléctricos y dejando fuera a los híbirdos. Para ello primero revisamos cuáles son los valores para autos exclusivamente eléctricos.

In [25]:
# Ver valores únicos en la columna 'Engine Type'
unique_engine_types = df['Engine Type'].unique()
print("Unique Engine Types:", unique_engine_types)

# Ver valores únicos en la columna 'Fuel'
unique_fuels = df['Fuel'].unique()
print("Unique Fuel Types:", unique_fuels)


Unique Engine Types: ['Spark Ignition' 'Electric Motor' 'Compression Ignition' 'Fuel Cell']
Unique Fuel Types: ['Hybrid Electric' 'Plug-in Hybrid Electric' 'Electric' 'Biodiesel (B20)'
 'Hydrogen Fuel Cell']


Ahora, las estadísticas descriptivas de la columna All-Electric Range, sólo para autos de motor 100% eléctrico:

- Count (Conteo): Hay 120 vehículos eléctricos puros en el dataset. Esta es la cantidad total de registros para los cuales se dispone de datos de rango eléctrico.

- Mean (Promedio): El rango promedio de todos los vehículos eléctricos puros es de aproximadamente 267.54 millas. Esto indica que, en promedio, estos vehículos pueden recorrer esta distancia sin necesidad de recargar su batería.

- Std (Desviación Estándar): Std (Desviación Estándar): La desviación estándar es de aproximadamente 79.64 millas. Esta es una medida de la variabilidad o dispersión de los rangos eléctricos alrededor del promedio. Un valor más alto indica una mayor variabilidad en el rango que pueden recorrer los vehículos eléctricos puros.

-  Min (Mínimo): El rango mínimo en el dataset es de 59 millas. Esto significa que el vehículo eléctrico puro con el menor rango en tu dataset puede recorrer 59 millas con una sola carga completa.

- Max (Máximo): El rango máximo en el dataset es de 520 millas. Este es el mayor rango de autonomía registrado para un vehículo eléctrico puro, lo que indica el potencial máximo de distancia que puede recorrer un vehículo eléctrico sin recargar.

In [26]:
# Filtrar por vehículos eléctricos puros
electric_vehicles = df[(df['Fuel'] == 'Electric') & (df['Engine Type'] == 'Electric Motor')]

# Revisar las estadísticas descriptivas para la columna 'All-Electric Range' de los vehículos eléctricos
electric_vehicles_stats = electric_vehicles['All-Electric Range'].describe()

print(electric_vehicles_stats)


count    120.000000
mean     267.541667
std       79.639724
min       59.000000
25%      222.000000
50%      253.500000
75%      310.250000
max      520.000000
Name: All-Electric Range, dtype: float64


In [30]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 493 entries, 0 to 492
Data columns (total 14 columns):
 #   Column                              Non-Null Count  Dtype  
---  ------                              --------------  -----  
 0   Category                            493 non-null    object 
 1   Model                               493 non-null    object 
 2   Model Year                          493 non-null    float64
 3   Manufacturer                        493 non-null    object 
 4   Fuel                                493 non-null    object 
 5   All-Electric Range                  208 non-null    float64
 6   Alternative Fuel Economy City       130 non-null    float64
 7   Alternative Fuel Economy Highway    130 non-null    float64
 8   Alternative Fuel Economy Combined   218 non-null    float64
 9   Conventional Fuel Economy City      363 non-null    float64
 10  Conventional Fuel Economy Highway   363 non-null    float64
 11  Conventional Fuel Economy Combined  363 non-n

## V Guardar DataSet

In [27]:
# Restablecer el índice del DataFrame
df.reset_index(drop=True, inplace=True)

In [28]:
# Guardar el DataFrame en un archivo CSV
df.to_csv('Clean_Alternative_Fuel_Vehicles_US.csv', index=False)

In [29]:
# Guardar en parquet
#  df.to_parquet('Clean_Alternative_Fuel_Vehicles_US.parquet')
