Importamos las librerías Pandas y Numpy

In [1]:
import pandas as pd
import numpy as np

### Step 2. Tomaremos el fichero en [esta URL](https://raw.githubusercontent.com/justmarkham/DAT8/master/data/chipotle.tsv) y lo leeremos como un dataframe.

Pista: [read_csv](https://numpy.org/doc/stable/user/absolute_beginners.html#importing-and-exporting-a-csv)

In [2]:
url = "https://raw.githubusercontent.com/justmarkham/DAT8/master/data/chipotle.tsv"

In [3]:
chipotle_df = pd.read_csv(url, sep = '\t')

chipotle_df.head(10)

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,1,1,Chips and Fresh Tomato Salsa,,$2.39
1,1,1,Izze,[Clementine],$3.39
2,1,1,Nantucket Nectar,[Apple],$3.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,,$2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",$16.98
5,3,1,Chicken Bowl,"[Fresh Tomato Salsa (Mild), [Rice, Cheese, Sou...",$10.98
6,3,1,Side of Chips,,$1.69
7,4,1,Steak Burrito,"[Tomatillo Red Chili Salsa, [Fajita Vegetables...",$11.75
8,4,1,Steak Soft Tacos,"[Tomatillo Green Chili Salsa, [Pinto Beans, Ch...",$9.25
9,5,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Black Beans, Pinto...",$9.25


In [4]:
chipotle_df.describe()

Unnamed: 0,order_id,quantity
count,4622.0,4622.0
mean,927.254868,1.075725
std,528.890796,0.410186
min,1.0,1.0
25%,477.25,1.0
50%,926.0,1.0
75%,1393.0,1.0
max,1834.0,15.0


### Step 3. Veamos los tipos de datos. ¿Podríamos obtener el producto de mayor precio?

In [5]:
chipotle_df.dtypes

order_id               int64
quantity               int64
item_name             object
choice_description    object
item_price            object
dtype: object

In [6]:
# Vamos a ver que producto es el que tiene mayor precio

chipotle_df['item_price'] = chipotle_df['item_price'].str.replace('[$]', '', regex=True).astype(float)


In [21]:
chipotle_df['precio_unidad'] = chipotle_df['item_price'] / chipotle_df['quantity']

In [29]:
max_unit_price =chipotle_df['precio_unidad'].max()

item_with_max_price = chipotle_df.loc[chipotle_df['precio_unidad'] == max_unit_price, 'item_name'].values[0]

print(f"The item with the maximum unit price is: {item_with_max_price} and its price {max_unit_price}")


The item with the maximum unit price is: Steak Salad Bowl and its price 11.89


### Step 4. ¿Qué productos cuestan más de $10?

In [10]:
chipotle_df['precio_unidad'] = chipotle_df['item_price'] / chipotle_df['quantity']

In [11]:
condicion = chipotle_df['precio_unidad'] > 10

chipotle_df[condicion]

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price,precio_unidad
5,3,1,Chicken Bowl,"[Fresh Tomato Salsa (Mild), [Rice, Cheese, Sou...",10.98,10.98
7,4,1,Steak Burrito,"[Tomatillo Red Chili Salsa, [Fajita Vegetables...",11.75,11.75
13,7,1,Chicken Bowl,"[Fresh Tomato Salsa, [Fajita Vegetables, Rice,...",11.25,11.25
23,12,1,Chicken Burrito,"[[Tomatillo-Green Chili Salsa (Medium), Tomati...",10.98,10.98
39,19,1,Barbacoa Bowl,"[Roasted Chili Corn Salsa, [Fajita Vegetables,...",11.75,11.75
...,...,...,...,...,...,...
4610,1830,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Sour Cream, Cheese...",11.75,11.75
4611,1830,1,Veggie Burrito,"[Tomatillo Green Chili Salsa, [Rice, Fajita Ve...",11.25,11.25
4617,1833,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Black Beans, Sour ...",11.75,11.75
4618,1833,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Sour Cream, Cheese...",11.75,11.75


### Step 4.1: ¿Y cuántos pedidos se han hecho con un producto de más de 10$? ¿Es lo mismo?

In [42]:


len(chipotle_df[(chipotle_df['item_price']>10) & (chipotle_df['precio_unidad']>10)])

1034

In [45]:
pedidos_mas_10 = chipotle_df[chipotle_df['precio_unidad'] > 10]['order_id'].nunique()

pedidos_mas_10

787

In [None]:
result_df = chipotle_df.groupby('item_name').agg({
    'item_price': 'mean',
    'precio_unidad': 'mean',
    'quantity': 'max',
    'order_id': 'count'
}).reset_index()

result_df

Unnamed: 0,item_name,item_price,precio_unidad,quantity,order_id
0,6 Pack Soft Drink,6.610185,6.49,2,54
1,Barbacoa Bowl,10.187273,10.187273,1,66
2,Barbacoa Burrito,9.832418,9.832418,1,91
3,Barbacoa Crispy Tacos,10.928182,10.087273,2,11
4,Barbacoa Salad Bowl,10.64,10.64,1,10
5,Barbacoa Soft Tacos,10.0184,10.0184,1,25
6,Bottled Water,1.867654,1.431667,10,162
7,Bowl,14.8,7.4,3,2
8,Burrito,7.4,7.4,1,6
9,Canned Soda,1.320577,1.09,4,104


### Step 4.2: ¿Y cuántos pedidos se han hecho de más de 10$? ¿Es lo mismo?

In [35]:
chipotle_df.groupby(by='order_id').sum('item_price')

Unnamed: 0_level_0,quantity,item_price,precio_unidad
order_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,4,11.56,11.56
2,2,16.98,8.49
3,2,12.67,12.67
4,2,21.00,21.00
5,2,13.70,13.70
...,...,...,...
1830,2,23.00,23.00
1831,3,12.90,12.90
1832,2,13.20,13.20
1833,2,23.50,23.50


In [36]:
filtrado = chipotle_df.groupby(by='order_id').sum('item_price')


len(filtrado[filtrado['item_price']>10].value_counts())



481

### Step 4.3: ¿Y en cuántos pedidos se ha pagado más de 10$ por un mismo producto? ¿Es lo mismo?

In [48]:
pedidos_producto_mas_10 = chipotle_df.groupby(['order_id', 'item_name']).filter(lambda x: x['item_price'].sum() > 10)['order_id'].unique()

len(pedidos_producto_mas_10)

945

### Step 5. ¿Qué precio tiene cada producto en distintos pedidos? ¿Hay productos con varios precios?

In [58]:
precios_por_articulo = chipotle_df.groupby(by='item_name')['item_price'].nunique()

precios_por_articulo

item_name
6 Pack Soft Drink                         2
Barbacoa Bowl                             6
Barbacoa Burrito                          6
Barbacoa Crispy Tacos                     5
Barbacoa Salad Bowl                       2
Barbacoa Soft Tacos                       4
Bottled Water                            10
Bowl                                      2
Burrito                                   1
Canned Soda                               3
Canned Soft Drink                         4
Carnitas Bowl                             7
Carnitas Burrito                          7
Carnitas Crispy Tacos                     4
Carnitas Salad                            1
Carnitas Salad Bowl                       2
Carnitas Soft Tacos                       3
Chicken Bowl                             13
Chicken Burrito                          12
Chicken Crispy Tacos                      6
Chicken Salad                             3
Chicken Salad Bowl                        4
Chicken Soft Tacos    

In [59]:
# Agrupar por 'item_name' y aplicar una función para obtener una lista de precios únicos
precios_diferentes_por_articulo = chipotle_df.groupby('item_name')['item_price'].apply(lambda x: list(x.unique()))

# Mostrar los resultados
print(precios_diferentes_por_articulo)


item_name
6 Pack Soft Drink                                                            [6.49, 12.98]
Barbacoa Bowl                                      [11.75, 9.25, 8.99, 11.48, 8.69, 11.49]
Barbacoa Burrito                                   [8.99, 9.25, 11.75, 11.08, 8.69, 11.48]
Barbacoa Crispy Tacos                                     [11.75, 9.25, 11.48, 8.99, 18.5]
Barbacoa Salad Bowl                                                          [11.89, 9.39]
Barbacoa Soft Tacos                                             [9.25, 8.99, 11.75, 11.48]
Bottled Water                            [1.09, 1.5, 3.0, 3.27, 2.18, 6.0, 7.5, 4.5, 10...
Bowl                                                                           [22.2, 7.4]
Burrito                                                                              [7.4]
Canned Soda                                                             [2.18, 1.09, 4.36]
Canned Soft Drink                                                   [1.25, 2.5, 

### Step 6. Ordena el dataframe en base al nombre de producto (item name)

In [54]:
chipotle_df.sort_values(by='item_name', ascending=True)


Unnamed: 0,order_id,quantity,item_name,choice_description,item_price,precio_unidad
3389,1360,2,6 Pack Soft Drink,[Diet Coke],12.98,6.49
341,148,1,6 Pack Soft Drink,[Diet Coke],6.49,6.49
1849,749,1,6 Pack Soft Drink,[Coke],6.49,6.49
1860,754,1,6 Pack Soft Drink,[Diet Coke],6.49,6.49
2713,1076,1,6 Pack Soft Drink,[Coke],6.49,6.49
...,...,...,...,...,...,...
2384,948,1,Veggie Soft Tacos,"[Roasted Chili Corn Salsa, [Fajita Vegetables,...",8.75,8.75
781,322,1,Veggie Soft Tacos,"[Fresh Tomato Salsa, [Black Beans, Cheese, Sou...",8.75,8.75
2851,1132,1,Veggie Soft Tacos,"[Roasted Chili Corn Salsa (Medium), [Black Bea...",8.49,8.49
1699,688,1,Veggie Soft Tacos,"[Fresh Tomato Salsa, [Fajita Vegetables, Rice,...",11.25,11.25


### Step 7. ¿Cuantas veces se ha pedido los productos más caros?

In [67]:
# Ordenar los artículos por 'item_price' de mayor a menor y luego seleccionar los primeros
productos_mas_caros_top10 = chipotle_df.sort_values(by='precio_unidad', ascending=False).drop_duplicates(subset='precio_unidad').head(10)

# Mostrar los resultados
print(productos_mas_caros_top10[['item_name', 'precio_unidad']])



                item_name  precio_unidad
2442  Barbacoa Salad Bowl          11.89
3211  Barbacoa Soft Tacos          11.75
4510        Barbacoa Bowl          11.49
1430        Carnitas Bowl          11.48
986       Chicken Burrito          11.25
822         Carnitas Bowl          11.08
2133      Chicken Burrito          10.98
409          Chicken Bowl          10.98
476       Chicken Burrito          10.58
3115  Carnitas Salad Bowl           9.39


In [78]:
# Suponiendo que 'productos_mas_caros_top10' es un DataFrame con los 10 productos más caros y sus precios
conteo_precisos_productos_caros = chipotle_df[chipotle_df.apply(lambda x: (x['item_name'], x['precio_unidad']) in productos_mas_caros_top10[['item_name', 'item_price']].values, axis=1)]['item_name'].value_counts()

# Mostrar los resultados
print(conteo_precisos_productos_caros)


item_name
Chicken Bowl           726
Chicken Burrito        553
Carnitas Bowl           68
Barbacoa Bowl           66
Barbacoa Soft Tacos     25
Barbacoa Salad Bowl     10
Carnitas Salad Bowl      6
Name: count, dtype: int64


### Step 8. Veamos para el caso de Veggie Salad Bowl. Extrae esa información.

In [39]:
chipotle_df[chipotle_df['item_name'] == 'Veggie Salad Bowl'].nunique()

order_id              18
quantity               1
item_name              1
choice_description    16
item_price             2
precio_unidad          2
dtype: int64