Importamos las librerías Pandas y Numpy

In [2]:
import pandas as pd
import numpy as np

### Step 2. Tomaremos el fichero en [esta URL](https://raw.githubusercontent.com/justmarkham/DAT8/master/data/chipotle.tsv) y lo leeremos como un dataframe.

Pista: [read_csv](https://numpy.org/doc/stable/user/absolute_beginners.html#importing-and-exporting-a-csv)

In [21]:
url = "https://raw.githubusercontent.com/justmarkham/DAT8/master/data/chipotle.tsv"

df = pd.read_csv(url, sep='\t')

### Step 3. Veamos los tipos de datos. ¿Podríamos obtener el producto de mayor precio?

In [26]:
# Ver los primeros cinco registros del DataFrame
print("Primeros registros del DataFrame:")
print(df.head())

# Ver los tipos de datos
print("\nTipos de datos:")
print(df.dtypes)

# Convertir la columna 'item_price' a un tipo numérico del tipo float 
df['item_price'] = df['item_price'].str.replace('$', '').astype(float)

# Obtener el producto de mayor precio
max_price_row = df.loc[df['item_price'].idxmax()]

print("\nProducto de mayor precio:")
print(max_price_row)

Primeros registros del DataFrame:
   order_id  quantity                              item_name  \
0         1         1           Chips and Fresh Tomato Salsa   
1         1         1                                   Izze   
2         1         1                       Nantucket Nectar   
3         1         1  Chips and Tomatillo-Green Chili Salsa   
4         2         2                           Chicken Bowl   

                                  choice_description item_price  
0                                                NaN     $2.39   
1                                       [Clementine]     $3.39   
2                                            [Apple]     $3.39   
3                                                NaN     $2.39   
4  [Tomatillo-Red Chili Salsa (Hot), [Black Beans...    $16.98   

Tipos de datos:
order_id               int64
quantity               int64
item_name             object
choice_description    object
item_price            object
dtype: object

Producto

### Step 4. ¿Qué productos cuestan más de $10?

In [28]:
# Filtrar los productos que cuestan más de $10
expensive_products = df[df['item_price'] > 10]

print("\nProductos que cuestan más de $10:")
print(expensive_products)  


Productos que cuestan más de $10:
      order_id  quantity           item_name  \
4            2         2        Chicken Bowl   
5            3         1        Chicken Bowl   
7            4         1       Steak Burrito   
13           7         1        Chicken Bowl   
23          12         1     Chicken Burrito   
...        ...       ...                 ...   
4610      1830         1       Steak Burrito   
4611      1830         1      Veggie Burrito   
4617      1833         1       Steak Burrito   
4618      1833         1       Steak Burrito   
4619      1834         1  Chicken Salad Bowl   

                                     choice_description  item_price  
4     [Tomatillo-Red Chili Salsa (Hot), [Black Beans...       16.98  
5     [Fresh Tomato Salsa (Mild), [Rice, Cheese, Sou...       10.98  
7     [Tomatillo Red Chili Salsa, [Fajita Vegetables...       11.75  
13    [Fresh Tomato Salsa, [Fajita Vegetables, Rice,...       11.25  
23    [[Tomatillo-Green Chili Salsa (M

### Step 4.1: ¿Y cuántos pedidos se han hecho con un producto de más de 10$? ¿Es lo mismo?

In [34]:
# Contar el número de pedidos únicos con productos de más de $10
num_pedidos_con_expensive_products = expensive_products['order_id'].nunique()

print(f"Número de pedidos con productos que cuestan más de $10: {num_pedidos_con_expensive_products}") 

Número de pedidos con productos que cuestan más de $10: 863


### Step 4.2: ¿Y cuántos pedidos se han hecho de más de 10$? ¿Es lo mismo?

In [40]:
# Calcular el valor total de cada pedido
order_totals = df.groupby('order_id')['item_price'].sum()

# Contar cuántos pedidos tienen un valor total de más de $10
num_pedidos_mas_de_10 = (order_totals > 10).sum()

print(f"Número de pedidos con un valor total de más de $10: {num_pedidos_mas_de_10}") 

Número de pedidos con un valor total de más de $10: 1834


### Step 4.3: ¿Y en cuántos pedidos se ha pagado más de 10$ por un mismo producto? ¿Es lo mismo?

In [41]:
# Calcular el valor total de cada pedido
order_totals = df.groupby('order_id')['item_price'].sum()

# Contar cuántos pedidos tienen un valor total de más de $10
num_pedidos_mas_de_10 = (order_totals > 10).sum()

print(f"Número de pedidos con un valor total de más de $10: {num_pedidos_mas_de_10}") 

Número de pedidos con un valor total de más de $10: 1834


### Step 5. ¿Qué precio tiene cada producto en distintos pedidos? ¿Hay productos con varios precios?

In [45]:
# Agrupar el DataFrame por nombre de producto y precio único
productos_precios_unicos = df.groupby(['item_name', 'item_price']).size().reset_index(name='num_pedidos')

# Imprimir los resultados
print(productos_precios_unicos) 

             item_name  item_price  num_pedidos
0    6 Pack Soft Drink        6.49           53
1    6 Pack Soft Drink       12.98            1
2        Barbacoa Bowl        8.69            3
3        Barbacoa Bowl        8.99            8
4        Barbacoa Bowl        9.25           28
..                 ...         ...          ...
204  Veggie Salad Bowl       11.25           10
205  Veggie Soft Tacos        8.49            2
206  Veggie Soft Tacos        8.75            2
207  Veggie Soft Tacos       11.25            2
208  Veggie Soft Tacos       16.98            1

[209 rows x 3 columns]


### Step 6. Ordena el dataframe en base al nombre de producto (item name)

In [18]:
# Ordenar el DataFrame en base al nombre del producto
df_sorted = df.sort_values(by='item_name')

# Mostrar el DataFrame ordenado
print(df_sorted) 

      order_id  quantity          item_name  \
3389      1360         2  6 Pack Soft Drink   
341        148         1  6 Pack Soft Drink   
1849       749         1  6 Pack Soft Drink   
1860       754         1  6 Pack Soft Drink   
2713      1076         1  6 Pack Soft Drink   
...        ...       ...                ...   
2384       948         1  Veggie Soft Tacos   
781        322         1  Veggie Soft Tacos   
2851      1132         1  Veggie Soft Tacos   
1699       688         1  Veggie Soft Tacos   
1395       567         1  Veggie Soft Tacos   

                                     choice_description  item_price  
3389                                        [Diet Coke]       12.98  
341                                         [Diet Coke]        6.49  
1849                                             [Coke]        6.49  
1860                                        [Diet Coke]        6.49  
2713                                             [Coke]        6.49  
...            

In [19]:
# Ordenar el DataFrame en base al nombre del producto
df_sorted = df.sort_values(by='item_name', ascending=False) 

# Mostrar el DataFrame ordenado 
print(df_sorted ) 

      order_id  quantity          item_name  \
3889      1559         2  Veggie Soft Tacos   
2851      1132         1  Veggie Soft Tacos   
738        304         1  Veggie Soft Tacos   
1395       567         1  Veggie Soft Tacos   
2384       948         1  Veggie Soft Tacos   
...        ...       ...                ...   
1916       774         1  6 Pack Soft Drink   
1124       465         1  6 Pack Soft Drink   
3789      1517         1  6 Pack Soft Drink   
1392       566         1  6 Pack Soft Drink   
3614      1448         1  6 Pack Soft Drink   

                                     choice_description  item_price  
3889  [Fresh Tomato Salsa (Mild), [Black Beans, Rice...       16.98  
2851  [Roasted Chili Corn Salsa (Medium), [Black Bea...        8.49  
738   [Tomatillo Red Chili Salsa, [Fajita Vegetables...       11.25  
1395  [Fresh Tomato Salsa (Mild), [Pinto Beans, Rice...        8.49  
2384  [Roasted Chili Corn Salsa, [Fajita Vegetables,...        8.75  
...            

### Step 7. ¿Cuantas veces se ha pedido los productos más caros?

In [47]:
# Encontrar el precio más alto
max_price = df['item_price'].max()

# Filtrar los productos que tienen el precio más alto
most_expensive_products = df[df['item_price'] == max_price]

# Contar cuántas veces se ha pedido los productos más caros
num_pedidos_productos_mas_caros = most_expensive_products['quantity'].sum()

print(f"Total de pedidos de los productos más caros: {num_pedidos_productos_mas_caros}") 

Total de pedidos de los productos más caros: 15


### Step 8. Veamos para el caso de Veggie Salad Bowl. Extrae esa información.

In [48]:
# Filtrar el DataFrame para obtener solo el producto "Veggie Salad Bowl"
veggie_salad_bowl = df[df['item_name'] == 'Veggie Salad Bowl']

# Contar cuántas veces se ha pedido "Veggie Salad Bowl"
num_pedidos_veggie_salad_bowl = veggie_salad_bowl['quantity'].sum()

# Calcular el precio máximo de "Veggie Salad Bowl"
precio_max_veggie_salad_bowl = veggie_salad_bowl['item_price'].max()

print(f"Total de pedidos de Veggie Salad Bowl: {num_pedidos_veggie_salad_bowl}")
print(f"Precio máximo de Veggie Salad Bowl: ${precio_max_veggie_salad_bowl:}") 

Total de pedidos de Veggie Salad Bowl: 18
Precio máximo de Veggie Salad Bowl: $11.25
