# Analisis con Pandas y Kaggle (Core)

## Instrucciones

### Objetivo

El objetivo de esta actividad es poner en práctica todos los conocimientos adquiridos sobre Pandas a través del análisis completo de un dataset. Los estudiantes deben aplicar técnicas de carga, exploración, limpieza, transformación, y agregación de datos para extraer insights valiosos. La actividad no incluye visualización de datos, enfocándose únicamente en el análisis y manipulación de datos con Pandas.

### Instrucciones:

1. Preparación del Entorno
   * Asegúrate de tener instalado Pandas en tu entorno de trabajo.
   * Descarga el archivo dataset.csv desde Kaggle. Elige un dataset que te interese y que no incluya visualización de datos. Algunas sugerencias pueden ser datasets relacionados con ventas, compras, productos, etc.
2. Cargar los Datos
   * Carga el archivo CSV en un DataFrame de Pandas.
   * Muestra las primeras 10 filas del DataFrame para confirmar que los datos se han cargado correctamente.
3. Exploración Inicial de los Datos
   * Muestra las últimas 5 filas del DataFrame.
   * Utiliza el método info() para obtener información general sobre el DataFrame, incluyendo el número de entradas, nombres de las columnas, tipos de datos y memoria utilizada.
   * Genera estadísticas descriptivas del DataFrame utilizando el método describe().
4. Inspección de los Datos
   * Limpieza de Datos
   * Identifica y maneja los datos faltantes utilizando técnicas apropiadas (relleno con valores estadísticos, interpolación, eliminación, etc.).
   * Corrige los tipos de datos si es necesario (por ejemplo, convertir cadenas a fechas).
   * Elimina duplicados si los hay.
5. Filtrado de Datos
   * Transformación de Datos
   * Crea nuevas columnas basadas en operaciones con las columnas existentes (por ejemplo, calcular ingresos a partir de ventas y precios).
   * Normaliza o estandariza columnas si es necesario.
   * Clasifica los datos en categorías relevantes.
6. Análisis de Datos
   * Realiza agrupaciones de datos utilizando groupby para obtener insights específicos (por ejemplo, ventas por producto, ventas por región, etc.).
   * Aplica funciones de agregación como sum, mean, count, min, max, std, y var.
   * Utiliza el método apply para realizar operaciones más complejas y personalizadas.
7. Documentación
   * Documenta claramente cada paso del análisis, explicando qué se hizo y por qué se hizo.
   * Asegúrate de que el código sea legible y esté bien comentado.

## Sobre los campos del dataset

About this file


1. **name**: The full name of the vehicle, including make, model, and trim.
2. **description**: A brief description of the vehicle, often including key features and selling points.
3. **make**: The manufacturer of the vehicle (e.g., Ford, Toyota, BMW).
4. **model**: The model name of the vehicle.
5. **type**: The type of the vehicle, which is "New" for all entries in this dataset.
6. **year**: The year the vehicle was manufactured.
7. **price**: The price of the vehicle in USD.
8. **engine**: Details about the engine, including type and specifications.
9. **cylinders**: The number of cylinders in the vehicle's engine.
10. **fuel**: The type of fuel used by the vehicle (e.g., Gasoline, Diesel, Electric).
11. **mileage**: The mileage of the vehicle, typically in miles.
12. **transmission**: The type of transmission (e.g., Automatic, Manual).
13. **trim**: The trim level of the vehicle, indicating different feature sets or packages.
14. **body**: The body style of the vehicle (e.g., SUV, Sedan, Pickup Truck).
15. **doors**: The number of doors on the vehicle.
16. **exterior_color**: The exterior color of the vehicle.
17. **interior_color**: The interior color of the vehicle.
18. **drivetrain**: The drivetrain of the vehicle (e.g., All-wheel Drive, Front-wheel Drive).


*Traducción de los campos del dataset*

 
1. **nombre**: El nombre completo del vehículo, incluyendo marca, modelo y acabado.
2. **descripción**: Una breve descripción del vehículo, que a menudo incluye características clave y puntos de venta.
3. **marca**: El fabricante del vehículo (por ejemplo, Ford, Toyota, BMW).
4. **modelo**: El nombre del modelo del vehículo.
5. **tipo**: El tipo del vehículo, que es «Nuevo» para todas las entradas de este conjunto de datos.
6. **Año**: El año de fabricación del vehículo.
7. **Precio**: El precio del vehículo en USD.
8. **motor**: Detalles sobre el motor, incluyendo tipo y especificaciones.
9. **cilindros**: El número de cilindros del motor del vehículo.
10. **combustible**: El tipo de combustible utilizado por el vehículo (por ejemplo, Gasolina, Diesel, Eléctrico).
11. **kilometraje**: El kilometraje del vehículo, normalmente en millas.
12. **transmisión**: El tipo de transmisión (por ejemplo, Automática, Manual).
13. **trim**: El nivel de acabado del vehículo, indicando diferentes conjuntos de características o paquetes.
14. **carrocería**: El estilo de carrocería del vehículo (por ejemplo, SUV, Sedán, Camioneta).
15. **puertas**: El número de puertas del vehículo.
16. **color_exterior**: El color exterior del vehículo.
17. **color_interior**: El color interior del vehículo.
18. **tracción**: La cadena cinemática del vehículo (por ejemplo, tracción total, tracción delantera).




## Desarrollo

### 1. Preparación del Entorno
   * Asegúrate de tener instalado Pandas en tu entorno de trabajo.
   * Descarga el archivo dataset.csv desde Kaggle. Elige un dataset que te interese y que no incluya visualización de datos. Algunas sugerencias pueden ser datasets relacionados con ventas, compras, productos, etc.

### 2. Cargar los Datos
   * Carga el archivo CSV en un DataFrame de Pandas.
   * Muestra las primeras 10 filas del DataFrame para confirmar que los datos se han cargado correctamente.

#### **Carga el archivo vgsales.csv en un DataFrame de Pandas.**

In [548]:
import pandas as pd
from IPython.display import display #Para Impiimir en formato TABLA
# Cargar datos desde un archivo CSV
df = pd.read_csv(r'C:\Users\GIGABYTE\Documents\tareas_bootcamp_coding_dojo\mod_1_data_fundamentals\1_tareas_core_bootcamp\analisis_con_pandas_y_kaggle\data\vehicles_dataset.csv')

#### **Muestra las primeras 10 filas del DataFrame.**

In [549]:
# Ver las primeras filas del DataFrame
print("Primeras 10 filas del DataFrame:")
df.head(10)

Primeras 10 filas del DataFrame:


Unnamed: 0,name,description,make,model,type,year,price,engine,cylinders,fuel,mileage,transmission,trim,body,doors,exterior_color,interior_color,drivetrain
0,2024 Jeep Wagoneer Series II,"\n \n Heated Leather Seats, Nav Sy...",Jeep,Wagoneer,New,2024,74600.0,24V GDI DOHC Twin Turbo,6.0,Gasoline,10.0,8-Speed Automatic,Series II,SUV,4.0,White,Global Black,Four-wheel Drive
1,2024 Jeep Grand Cherokee Laredo,Al West is committed to offering every custome...,Jeep,Grand Cherokee,New,2024,50170.0,OHV,6.0,Gasoline,1.0,8-Speed Automatic,Laredo,SUV,4.0,Metallic,Global Black,Four-wheel Drive
2,2024 GMC Yukon XL Denali,,GMC,Yukon XL,New,2024,96410.0,"6.2L V-8 gasoline direct injection, variable v...",8.0,Gasoline,0.0,Automatic,Denali,SUV,4.0,Summit White,Teak/Light Shale,Four-wheel Drive
3,2023 Dodge Durango Pursuit,White Knuckle Clearcoat 2023 Dodge Durango Pur...,Dodge,Durango,New,2023,46835.0,16V MPFI OHV,8.0,Gasoline,32.0,8-Speed Automatic,Pursuit,SUV,4.0,White Knuckle Clearcoat,Black,All-wheel Drive
4,2024 RAM 3500 Laramie,\n \n 2024 Ram 3500 Laramie Billet...,RAM,3500,New,2024,81663.0,24V DDI OHV Turbo Diesel,6.0,Diesel,10.0,6-Speed Automatic,Laramie,Pickup Truck,4.0,Silver,Black,Four-wheel Drive
5,2024 Nissan Murano Platinum,\n \n Boasts 28 Highway MPG and 20...,Nissan,Murano,New,2024,46000.0,24V MPFI DOHC,6.0,Gasoline,3838.0,Automatic CVT,Platinum,SUV,4.0,White,Gray,All-wheel Drive
6,2024 Jeep Wagoneer Base,\n \n Alloy Wheels / Premium Whee...,Jeep,Wagoneer,New,2024,63862.0,24V GDI DOHC Twin Turbo,6.0,Gasoline,5.0,8-Speed Automatic,Base,SUV,4.0,Bright White Clearcoat,Black,Rear-wheel Drive
7,2024 Ford F-350 Lariat Super Duty,\n \n Engine: 6.7L High Output Pow...,Ford,F-350,New,2024,89978.0,32V DDI OHV Turbo Diesel,8.0,Diesel,15.0,10-Speed Automatic,Lariat Super Duty,Pickup Truck,4.0,Carbonized Gray Metallic,Black Onyx,Four-wheel Drive
8,2024 Hyundai Tucson Hybrid Limited,,Hyundai,Tucson Hybrid,New,2024,42230.0,16V GDI DOHC Turbo Hybrid,4.0,Hybrid,5.0,6-Speed Automatic,Limited,SUV,4.0,White Pearl,Black,All-wheel Drive
9,2024 Jeep Grand Cherokee Altitude,\n \n Silver Zynith 2024 Jeep Gran...,Jeep,Grand Cherokee,New,2024,42773.0,"ar 3.6L V-6 DOHC, variable valve control, regu...",6.0,Gasoline,20.0,Automatic,Altitude,SUV,4.0,Silver Zynith,Global Black,Four-wheel Drive


### 3. Exploración Inicial de los Datos
   * Muestra las últimas 5 filas del DataFrame.
   * Utiliza el método info() para obtener información general sobre el DataFrame, incluyendo el número de entradas, nombres de las columnas, tipos de datos y memoria utilizada.
   * Genera estadísticas descriptivas del DataFrame utilizando el método describe().


#### **Muestra las últimas 5 filas del DataFrame.**

In [550]:
print("Últimas 5 filas del DataFrame:")
df.tail(5)

Últimas 5 filas del DataFrame:


Unnamed: 0,name,description,make,model,type,year,price,engine,cylinders,fuel,mileage,transmission,trim,body,doors,exterior_color,interior_color,drivetrain
997,2024 Mercedes-Benz Sprinter 2500 Standard Roof,2024 Mercedes-Benz Sprinter 2500 Cargo 144 WB ...,Mercedes-Benz,Sprinter 2500,New,2024,59037.0,16V DDI DOHC Turbo Diesel,4.0,Diesel,10.0,9-Speed Automatic,Standard Roof,Cargo Van,3.0,Arctic White,Black,Rear-wheel Drive
998,2024 Dodge Hornet Hornet R/T Plus Eawd,Dealer Comments +++ Price Ends 5/31/2024 +++ A...,Dodge,Hornet,New,2024,49720.0,"4 gasoline direct injection, DOHC, Multiair va...",4.0,Gasoline,0.0,6-Spd Aisin F21-250 PHEV Auto Trans,Hornet R/T Plus Eawd,SUV,4.0,Acapulco Gold,Black,All-wheel Drive
999,2024 Jeep Wagoneer Base,\n \n The ALL New Friendship CDJR ...,Jeep,Wagoneer,New,2024,69085.0,24V GDI DOHC Twin Turbo,6.0,Gasoline,20.0,8-Speed Automatic,Base,SUV,4.0,Diamond Black,Black,Four-wheel Drive
1000,2024 Nissan Murano SV Intelligent AWD,"\n \n CVT with Xtronic, AWD.At Tod...",Nissan,Murano,New,2024,43495.0,"6 DOHC, variable valve control, regular unlead...",6.0,Gasoline,6.0,Automatic,SV Intelligent AWD,SUV,4.0,Pearl White Tricoat,Graphite,All-wheel Drive
1001,2024 Chevrolet Silverado 2500 WT,01u 2024 Chevrolet Silverado 2500HD Work Truck...,Chevrolet,Silverado 2500,New,2024,48995.0,"8 gasoline direct injection, variable valve co...",8.0,Gasoline,31.0,Automatic,WT,Pickup Truck,4.0,Wheatland Yellow,Jet Black,Rear-wheel Drive


#### **Utiliza el método info() para obtener información general sobre el DataFrame**

In [551]:
# Obtener información general sobre el DataFrame
print("Información del DataFrame:")
df.info()

Información del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1002 entries, 0 to 1001
Data columns (total 18 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   name            1002 non-null   object 
 1   description     946 non-null    object 
 2   make            1002 non-null   object 
 3   model           1002 non-null   object 
 4   type            1002 non-null   object 
 5   year            1002 non-null   int64  
 6   price           979 non-null    float64
 7   engine          1000 non-null   object 
 8   cylinders       897 non-null    float64
 9   fuel            995 non-null    object 
 10  mileage         968 non-null    float64
 11  transmission    1000 non-null   object 
 12  trim            1001 non-null   object 
 13  body            999 non-null    object 
 14  doors           995 non-null    float64
 15  exterior_color  997 non-null    object 
 16  interior_color  964 non-null    object 
 17  drivet

#### **Genera estadísticas descriptivas del DataFrame utilizando el método describe()**

In [552]:
# Generar estadísticas descriptivas
print("Estadísticas descriptivas del DataFrame:")
df.describe()

Estadísticas descriptivas del DataFrame:


Unnamed: 0,year,price,cylinders,mileage,doors
count,1002.0,979.0,897.0,968.0,995.0
mean,2023.916168,50202.9857,4.975474,69.033058,3.943719
std,0.298109,18700.392062,1.392526,507.435745,0.274409
min,2023.0,0.0,0.0,0.0,2.0
25%,2024.0,36600.0,4.0,4.0,4.0
50%,2024.0,47165.0,4.0,8.0,4.0
75%,2024.0,58919.5,6.0,13.0,4.0
max,2025.0,195895.0,8.0,9711.0,5.0


### 4. Limpieza de Datos
   * Identifica y maneja los datos faltantes utilizando técnicas apropiadas (relleno con valores estadísticos, interpolación, eliminación, etc.).
   * Corrige los tipos de datos si es necesario (por ejemplo, convertir cadenas a fechas).
   * Elimina duplicados si los hay.


#### **Identifica y maneja los datos faltantes utilizando técnicas apropiadas (relleno con valores estadísticos, interpolación, eliminación, etc.).**

In [553]:
# Ver tipos de datos de los campos
print("Tipos de datos de las columnas:")
df.dtypes

Tipos de datos de las columnas:


name               object
description        object
make               object
model              object
type               object
year                int64
price             float64
engine             object
cylinders         float64
fuel               object
mileage           float64
transmission       object
trim               object
body               object
doors             float64
exterior_color     object
interior_color     object
drivetrain         object
dtype: object

In [554]:
qsna=df.shape[0]-df.isnull().sum(axis=0)
qna=df.isnull().sum(axis=0)
ppna=round(100*(df.isnull().sum(axis=0)/df.shape[0]),2)
aux= {'datos sin NAs en q': qsna, 'Na en q': qna ,'Na en %': ppna}
na=pd.DataFrame(data=aux)
na.sort_values(by='Na en %',ascending=False)

Unnamed: 0,datos sin NAs en q,Na en q,Na en %
cylinders,897,105,10.48
description,946,56,5.59
interior_color,964,38,3.79
mileage,968,34,3.39
price,979,23,2.3
fuel,995,7,0.7
doors,995,7,0.7
exterior_color,997,5,0.5
body,999,3,0.3
engine,1000,2,0.2


In [555]:
#  Definir las columnas categóricas y de fecha
categorical_cols = ['description', 'interior_color', 'fuel', 'exterior_color', 'body', 'engine', 'transmission', 'trim']
numeric_cols = ['cylinders', 'mileage', 'fuel', 'doors', 'price']
date_cols = ['year']
# Rellenar valores faltantes en columnas categóricas
df[categorical_cols] = df[categorical_cols].fillna('Desconocido')

# Para columnas con más nulos como 'cylinders', 'mileage', 'price', imputamos usando la media.
# Rellenar valores faltantes en columnas específicas

df = df.assign(
    cylinders=df['cylinders'].fillna(df['cylinders'].median()),
    mileage=df['mileage'].fillna(df['mileage'].median()),
    doors=df['doors'].fillna(df['doors'].median()),
    price=df['price'].fillna(df['price'].median())
)

# Rellenar con 0 los valores fuera del rango deseado (2010-2024)
df['year'] = df['year'].apply(lambda x: x if 1900 < x < 2024 else 0)

# Eliminar columna 'type' si solo contiene "New"
if df['type'].nunique() == 1:
    df = df.drop(columns=['type'])



#### **Corrige los tipos de datos si es necesario (por ejemplo, convertir cadenas a fechas).**

In [556]:
# Verificar y ajustar tipos de datos
# Convertir columnas a tipo numérico si es necesario
df['year'] = df['price'].astype(int)
df['price'] = df['price'].astype(float)
df['mileage'] = df['mileage'].astype(float)
df['cylinders'] = df['cylinders'].astype(float) 

qsna=df.shape[0]-df.isnull().sum(axis=0)
qna=df.isnull().sum(axis=0)
ppna=round(100*(df.isnull().sum(axis=0)/df.shape[0]),2)
aux= {'datos sin NAs en q': qsna, 'Na en q': qna ,'Na en %': ppna}
na=pd.DataFrame(data=aux)
na.sort_values(by='Na en %',ascending=False)

Unnamed: 0,datos sin NAs en q,Na en q,Na en %
name,1002,0,0.0
description,1002,0,0.0
make,1002,0,0.0
model,1002,0,0.0
year,1002,0,0.0
price,1002,0,0.0
engine,1002,0,0.0
cylinders,1002,0,0.0
fuel,1002,0,0.0
mileage,1002,0,0.0


#### **Elimina duplicados si los hay.**

In [557]:
# Contar filas duplicadas
num_duplicados = df.duplicated().sum()
print(f"Total de filas duplicadas: {num_duplicados}")

# Mostrar las filas duplicadas
filas_duplicadas = df[df.duplicated()]
print("Filas duplicadas encontradas:")


Total de filas duplicadas: 24
Filas duplicadas encontradas:


In [558]:
# Contar el número de filas antes de eliminar duplicados
filas_antes = len(df)

# Eliminar las filas duplicadas
df_sin_duplicados = df.drop_duplicates()

# Contar el número de filas después de eliminar duplicados
filas_despues = len(df_sin_duplicados)

print(f"Cantidad de Actual filas: {filas_despues}")


Cantidad de Actual filas: 978


### 5. Transformación de Datos
   * Crea nuevas columnas basadas en operaciones con las columnas existentes (por ejemplo, calcular ingresos a partir de ventas y precios).
   * Normaliza o estandariza columnas si es necesario.
   * Clasifica los datos en categorías relevantes.

#### **Crea nuevas columnas basadas en operaciones con las columnas existentes (por ejemplo, calcular ingresos a partir de ventas y precios).**

In [568]:
# Crear una nueva columna 'Revenue' a partir de 'price'
df['Revenue'] = df['price'].fillna(0)  # Rellenar los precios nulos con 0

# Calcular ingresos totales
total_revenue = df['Revenue'].sum()

# Clasificar los ingresos en categorías 'Bajo', 'Medio', 'Alto'
df['Revenue_Category'] = pd.cut(
    df['Revenue'],
    bins=[0, 5000, 15000, float('inf')],
    labels=['Low', 'Medium', 'High']
)

# Mostrar el DataFrame con las nuevas columnas
print("DataFrame con ingresos calculados:")
print(df[['name', 'price', 'Revenue', 'Revenue_Category']].head())  # Muestra las columnas relevantes
print(f"\nIngresos totales: {total_revenue}")

DataFrame con ingresos calculados:
                              name    price  Revenue Revenue_Category
0     2024 jeep wagoneer series ii  74600.0  74600.0             High
1  2024 jeep grand cherokee laredo  50170.0  50170.0             High
2         2024 gmc yukon xl denali  96410.0  96410.0             High
3       2023 dodge durango pursuit  46835.0  46835.0             High
4            2024 ram 3500 laramie  81663.0  81663.0             High

Ingresos totales: 50233518.0


#### **Normaliza o estandariza columnas si es necesario.**

In [559]:
# Normalizar y limpiar valores categóricos
# Convertir valores de texto a minúsculas y eliminar espacios innecesarios en columnas categóricas
# Convertir todas las columnas de tipo string a minúsculas
df = df.apply(lambda col: col.str.lower() if col.dtype == 'object' else col)

# Estandarizar nombres de columnas
df.columns = df.columns.str.lower().str.replace(' ', '_')

#### **Clasifica los datos en categorías relevantes.**

In [569]:
# Crear una nueva columna para clasificar el 'price' en categorías: Bajo, Medio, Alto
# Ajusta los límites de los bins según la distribución de tus precios
df['price_category'] = pd.cut(
    df['price'],
    bins=[0, 20000, 40000, float('inf')],
    labels=['Low', 'Medium', 'High']
)

# Agrupar o contar los vehículos por categorías relevantes (ej. 'make' y 'price_category')
conteo_por_marca_y_precio = df.groupby(['make', 'price_category']).size().reset_index(name='count')

# Calcular estadísticas adicionales como el precio promedio por marca
precio_promedio_por_marca = df.groupby('make')['price'].mean().reset_index(name='avg_price')

# Resultados
print("DataFrame con categorías de precio:")
print(df[['make', 'model', 'price', 'price_category']].head())  # Muestra las columnas relevantes

print("\nConteo de vehículos por marca y categoría de precio:")
print(conteo_por_marca_y_precio)

print("\nPrecio promedio por marca:")
print(precio_promedio_por_marca)


DataFrame con categorías de precio:
    make           model    price price_category
0   jeep        wagoneer  74600.0           High
1   jeep  grand cherokee  50170.0           High
2    gmc        yukon xl  96410.0           High
3  dodge         durango  46835.0           High
4    ram            3500  81663.0           High

Conteo de vehículos por marca y categoría de precio:
          make price_category  count
0        acura            Low      0
1        acura         Medium      0
2        acura           High     12
3         audi            Low      0
4         audi         Medium      1
..         ...            ...    ...
79  volkswagen         Medium     34
80  volkswagen           High      4
81       volvo            Low      0
82       volvo         Medium      0
83       volvo           High      3

[84 rows x 3 columns]

Precio promedio por marca:
             make     avg_price
0           acura  56790.416667
1            audi  74360.625000
2             bmw  89040.

  conteo_por_marca_y_precio = df.groupby(['make', 'price_category']).size().reset_index(name='count')


### 6. Análisis de Datos
   * Realiza agrupaciones de datos utilizando groupby para obtener insights específicos (por ejemplo, ventas por producto, ventas por región, etc.).
   * Aplica funciones de agregación como sum, mean, count, min, max, std, y var.
   * Utiliza el método apply para realizar operaciones más complejas y personalizadas.


In [572]:
# Agrupar los datos por 'make' y calculamos la suma de las ventas (ingresos)
ventas_por_fabricante = df.groupby('make')['price'].sum().reset_index()

# Renombrar la columna para mayor claridad
ventas_por_fabricante.columns = ['Fabricante', 'Ingresos Totales']

# Mostrar el total de ingresos por fabricante
print("Ventas por Fabricante:")
print(ventas_por_fabricante)

# Agrupar los datos por 'model' y contamos cuántos vehículos hay de cada modelo
ventas_por_modelo = df.groupby('model').size().reset_index(name='Cantidad')

# Mostrar el total de vehículos por modelo
print("\nVentas por Modelo:")
print(ventas_por_modelo)

# Aplicar funciones de agregación adicionales a las ventas por fabricante
estadisticas_por_fabricante = df.groupby('make').agg(
    Total_Vehiculos=('name', 'count'),       # Contar el total de vehículos
    Ingreso_Total=('price', 'sum'),          # Sumar ingresos
    Precio_Medio=('price', 'mean'),          # Calcular el precio medio
    Precio_Minimo=('price', 'min'),          # Precio mínimo
    Precio_Maximo=('price', 'max'),          # Precio máximo
    Desviacion_Estandar=('price', 'std')     # Desviación estándar del precio
).reset_index()

# Renombrar las columnas para mayor claridad
estadisticas_por_fabricante.columns = [
    'Fabricante', 'Total Vehículos', 'Ingreso Total',
    'Precio Medio', 'Precio Mínimo', 'Precio Máximo', 'Desviación Estándar'
]

# Mostramos las estadísticas por fabricante
print("\nEstadísticas por Fabricante:")
print(estadisticas_por_fabricante)

# Método apply para calcular una nueva columna que indique si el ingreso total es alto o bajo
def clasificar_ingreso(ingreso):
    if ingreso > 200000:  
        return 'Alto'
    elif ingreso > 50000:
        return 'Medio'
    else:
        return 'Bajo'

# Aplicar la función personalizada a la columna 'Ingreso Total'
estadisticas_por_fabricante['Clasificación de Ingreso'] = estadisticas_por_fabricante['Ingreso Total'].apply(clasificar_ingreso)

# Mostrar el DataFrame final con las clasificaciones
print("\nEstadísticas por Fabricante con Clasificación de Ingreso:")
print(estadisticas_por_fabricante)

# Guardar el resultado a un archivo CSV (opcional)
estadisticas_por_fabricante.to_csv('estadisticas_por_fabricante.csv', index=False)

Ventas por Fabricante:
       Fabricante  Ingresos Totales
0           acura          681485.0
1            audi         1189770.0
2             bmw         1691760.0
3           buick          291667.0
4        cadillac          605025.0
5       chevrolet         2280031.0
6        chrysler          565036.0
7           dodge         5161775.0
8            ford         4345605.0
9         genesis          142015.0
10            gmc         1408090.0
11          honda          929546.0
12        hyundai         4817080.0
13       infiniti          243864.0
14         jaguar           77053.0
15           jeep        10337431.0
16            kia         1890048.0
17     land rover          252651.0
18          lexus           73270.0
19        lincoln          115731.0
20          mazda         2081656.0
21  mercedes-benz         2297524.0
22         nissan         1288763.0
23            ram         5385172.0
24         subaru          293162.0
25         toyota          438624.0
26   

### 7. Documentación
   * Documenta claramente cada paso del análisis, explicando qué se hizo y por qué se hizo.
   * Asegúrate de que el código sea legible y esté bien comentado.