In [22]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# crear un folder para guardar los datos
import os
FOLDER = "data"
if not os.path.exists(FOLDER):
    os.mkdir(FOLDER)

# Pandas

## 1. Crear un archivo csv con el siguiente contenido.

In [23]:
data = {
    "marca": ["Seat", "Seat", "VW", "Opel", "VW", "Seat", "VW", "Opel", "Seat", "Seat", "Opel", "Opel", "Seat", "Opel", "Opel"],
    "modelo": ["Ibiza", "Ibiza", "Polo", "Corsa", "Golf", "Arona", "Polo", "Corsa", "Leon", "Arona", "Corsa", "Corsa", "Ibiza", "Astra", "Corsa"],
    "cilindrada": [1400, 1400, 1600, 1400, 1600, 1600, 2000, 2000, 2000, 1800, 1800, 1800, 1600, 1800, 1800],
    "kms": [59979, 29707, 84461, 98292, 93720, 90083, 57076, 42932, 70544, 52457, 75277, 63751, 24698, 47881, 77320],
    "precio": [7728, 16691, 6638, 11695, 10642, 14982, 14271, 18689, 7874, 8003, 7230, 17087, 11870, 6114, 6239],
    "año": [2021, 2011, 2010, 2018, 2022, 2021, 2014, 2014, 2013, 2013, 2022, 2018, 2022, 2013, 2022]
}

In [24]:
df = pd.DataFrame(data)
csv_path = os.path.join(FOLDER, "vehiculos.csv")
df.to_csv(csv_path, index=False) # Guardar el archivo CSV

## 2. Leer el archivo CSV y obtener información

In [25]:
df = pd.read_csv(csv_path)
num_elements = df.shape[0] * df.shape[1]  # Número total de elementos
num_columns = df.shape[1]  # Número de columnas
nombre_columns = df.columns.tolist()  # Nombre de las columnas

## 3. Mostrar las 5 primeras filas solo con la marca y el modelo

In [26]:
rows = df.loc[:4, ["marca", "modelo"]]
print(rows) # Mostrar las 5 primeras filas solo con la marca y el modelo

# -- (se puede hacer con el método "head" tambien)
rows = df[["marca", "modelo"]]
print(rows.head(5))

  marca modelo
0  Seat  Ibiza
1  Seat  Ibiza
2    VW   Polo
3  Opel  Corsa
4    VW   Golf
  marca modelo
0  Seat  Ibiza
1  Seat  Ibiza
2    VW   Polo
3  Opel  Corsa
4    VW   Golf


## 4. Obtener cuántas marcas diferentes hay y cuáles son

In [27]:
unique_brands = df["marca"].unique()
num_brands = len(unique_brands)

print(unique_brands) # Marcas diferentes
print(num_brands) # Número de marcas diferentes

['Seat' 'VW' 'Opel']
3


## 5. Mostrar solo las filas de la marca Opel

In [28]:
df_opel = df[df["marca"] == "Opel"]
print(df_opel) # Filas de la marca Opel

   marca modelo  cilindrada    kms  precio   año
3   Opel  Corsa        1400  98292   11695  2018
7   Opel  Corsa        2000  42932   18689  2014
10  Opel  Corsa        1800  75277    7230  2022
11  Opel  Corsa        1800  63751   17087  2018
13  Opel  Astra        1800  47881    6114  2013
14  Opel  Corsa        1800  77320    6239  2022


## 6. Calcular los kms promedio de cada marca

In [None]:
brands = df["marca"].unique()
average_kms_per_brand = {brand: np.mean(df[df["marca"] == brand]["kms"]) for brand in brands}

print(average_kms_per_brand)

{'Seat': np.float64(54578.0), 'VW': np.float64(78419.0), 'Opel': np.float64(67575.5)}


El objetivo del ejercicio 6 es calcular el kilometraje promedio de los coches para cada marca en el conjunto de datos. Para ello, en la primera solución usamos un diccionario pero se puede usar tambien el método groupby() de Pandas, que nos permite agrupar los datos por la columna de la marca y luego aplicar la función mean() sobre la columna de kilómetros.

In [42]:
df_group_by_marca = df.groupby("marca")

In [43]:
kms_average_by_brand = df_group_by_marca["kms"].mean()
print(kms_average_by_brand) # Kms promedio por marca

marca
Opel    67575.5
Seat    54578.0
VW      78419.0
Name: kms, dtype: float64


Explicación paso por paso

1. groupby("marca") agrupa el conjunto de datos en tres categorías según las marcas encontradas en la columna "marca".
Internamente, Pandas crea subconjuntos de datos, agrupando todas las filas que corresponden a una misma marca.
Selección de la columna "kms" (["kms"])

2. Después de agrupar los datos por marca, seleccionamos la columna "kms", ya que queremos calcular el promedio de los kilómetros recorridos.Cálculo del promedio (mean())

3. Aplicamos la función mean() sobre la columna "kms", lo que significa que Pandas calculará el promedio de los valores de kilometraje dentro de cada grupo (marca).

## 7. Sumar 1000 euros a los vehículos de año posterior a 2015

In [31]:
df_copy = df.copy() # Copiar el dataframe para no modificar el original

print(df_copy) # Mostrar el dataframe original

   marca modelo  cilindrada    kms  precio   año
0   Seat  Ibiza        1400  59979    7728  2021
1   Seat  Ibiza        1400  29707   16691  2011
2     VW   Polo        1600  84461    6638  2010
3   Opel  Corsa        1400  98292   11695  2018
4     VW   Golf        1600  93720   10642  2022
5   Seat  Arona        1600  90083   14982  2021
6     VW   Polo        2000  57076   14271  2014
7   Opel  Corsa        2000  42932   18689  2014
8   Seat   Leon        2000  70544    7874  2013
9   Seat  Arona        1800  52457    8003  2013
10  Opel  Corsa        1800  75277    7230  2022
11  Opel  Corsa        1800  63751   17087  2018
12  Seat  Ibiza        1600  24698   11870  2022
13  Opel  Astra        1800  47881    6114  2013
14  Opel  Corsa        1800  77320    6239  2022


In [None]:
df_copy.loc[df["año"] > 2015, "precio"] += 1000 # Aumentar 1000 al precio de los coches con año mayor a 2015

print(df_copy) # Mostrar los resultados

   marca modelo  cilindrada    kms  precio   año
0   Seat  Ibiza        1400  59979    8728  2021
1   Seat  Ibiza        1400  29707   16691  2011
2     VW   Polo        1600  84461    6638  2010
3   Opel  Corsa        1400  98292   12695  2018
4     VW   Golf        1600  93720   11642  2022
5   Seat  Arona        1600  90083   15982  2021
6     VW   Polo        2000  57076   14271  2014
7   Opel  Corsa        2000  42932   18689  2014
8   Seat   Leon        2000  70544    7874  2013
9   Seat  Arona        1800  52457    8003  2013
10  Opel  Corsa        1800  75277    8230  2022
11  Opel  Corsa        1800  63751   18087  2018
12  Seat  Ibiza        1600  24698   12870  2022
13  Opel  Astra        1800  47881    6114  2013
14  Opel  Corsa        1800  77320    7239  2022


<!-- # 3. Mostrar las 5 primeras filas solo con la marca y el modelo -->