# Ex1 - Filtering and Sorting Data



### Step 1. Import the necessary libraries

In [2]:
import pandas as pd
import numpy as np

### Step 2. Import the dataset from this [address](https://raw.githubusercontent.com/justmarkham/DAT8/master/data/chipotle.tsv) and assign it to a variable called chipo.

In [3]:
url = "https://raw.githubusercontent.com/justmarkham/DAT8/master/data/chipotle.tsv"
chipo = pd.read_csv(url, sep="\t")
chipo

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,1,1,Chips and Fresh Tomato Salsa,,$2.39
1,1,1,Izze,[Clementine],$3.39
2,1,1,Nantucket Nectar,[Apple],$3.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,,$2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",$16.98
...,...,...,...,...,...
4617,1833,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Black Beans, Sour ...",$11.75
4618,1833,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Sour Cream, Cheese...",$11.75
4619,1834,1,Chicken Salad Bowl,"[Fresh Tomato Salsa, [Fajita Vegetables, Pinto...",$11.25
4620,1834,1,Chicken Salad Bowl,"[Fresh Tomato Salsa, [Fajita Vegetables, Lettu...",$8.75


### Step 3. Name of the max valued product

In [4]:
chipo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4622 entries, 0 to 4621
Data columns (total 5 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   order_id            4622 non-null   int64 
 1   quantity            4622 non-null   int64 
 2   item_name           4622 non-null   object
 3   choice_description  3376 non-null   object
 4   item_price          4622 non-null   object
dtypes: int64(2), object(3)
memory usage: 180.7+ KB


In [5]:
# Cambio el tipo de elementos de la columna "item_price" a float para poder manipularlo como elemento numérico:

chipo["item_price"] = chipo["item_price"].str.replace("$","").astype(float)
chipo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4622 entries, 0 to 4621
Data columns (total 5 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   order_id            4622 non-null   int64  
 1   quantity            4622 non-null   int64  
 2   item_name           4622 non-null   object 
 3   choice_description  3376 non-null   object 
 4   item_price          4622 non-null   float64
dtypes: float64(1), int64(2), object(2)
memory usage: 180.7+ KB


In [6]:
chipo.head()

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,1,1,Chips and Fresh Tomato Salsa,,2.39
1,1,1,Izze,[Clementine],3.39
2,1,1,Nantucket Nectar,[Apple],3.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,,2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",16.98


In [7]:
# El item más caro sería:

chipo.iloc[chipo["item_price"].argmax()]["item_name"]

'Chips and Fresh Tomato Salsa'

In [8]:
# Otra forma:

str(chipo[chipo["item_price"] == chipo["item_price"].max()]["item_name"].values[0])

'Chips and Fresh Tomato Salsa'

### Step 4. How many products cost more than $10.00?

In [9]:
chipo[chipo["item_price"] > 10]["item_price"].count()

1130

### Step 4.1: Y cuántos pedidos se han hecho con un producto de más de 10$? Es lo mismo?

In [17]:
len(chipo[(chipo["item_price"] > 10) & (chipo["quantity"] == 1)]["order_id"].value_counts())

753

No son lo mismo, el número de pedidos de productos de más de 10$ no tiene por qué coincidir con el número de productos existentes en el inventario del restaurante.

### Step 4.2: Y cuántos pedidos se han hecho de más de 10$? Es lo mismo?

In [13]:
# Primero creo un nuevo feature "total_client_price" que representa el precio total pagado por instancia de "order_id", suponiendo que cada una
# representa un cliente y total de veces que sale el "order_id" representa un grupo de clientes que van juntos:

chipo["total_client_price"] = chipo["item_price"] * chipo["quantity"]
chipo

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price,total_client_price
0,1,1,Chips and Fresh Tomato Salsa,,2.39,2.39
1,1,1,Izze,[Clementine],3.39,3.39
2,1,1,Nantucket Nectar,[Apple],3.39,3.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,,2.39,2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",16.98,33.96
...,...,...,...,...,...,...
4617,1833,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Black Beans, Sour ...",11.75,11.75
4618,1833,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Sour Cream, Cheese...",11.75,11.75
4619,1834,1,Chicken Salad Bowl,"[Fresh Tomato Salsa, [Fajita Vegetables, Pinto...",11.25,11.25
4620,1834,1,Chicken Salad Bowl,"[Fresh Tomato Salsa, [Fajita Vegetables, Lettu...",8.75,8.75


In [99]:
# Genero un nuevo DataFrame agrupando en función de "order_id", le aplico la función suma para obtener el valor 
# de lo que se ha pagado en total por cada pedido y para obtener el total de productos por pedido:

order_prices = chipo.groupby('order_id', as_index=True).agg(
    quantity=('quantity', 'sum'),
    total_order_price=('total_client_price', 'sum')
)

order_prices


Unnamed: 0_level_0,quantity,total_order_price
order_id,Unnamed: 1_level_1,Unnamed: 2_level_1
1,4,11.56
2,2,33.96
3,2,12.67
4,2,21.00
5,2,13.70
...,...,...
1830,2,23.00
1831,3,12.90
1832,2,13.20
1833,2,23.50


In [None]:
# Calculo el número de pedidos en el que lo pagado en total ha superado 10$:

order_prices[chipo["total_order_price"] > 10]["quantity"].sum()

1452

No es lo mismo porque algunos pedidos tienen más de un producto y más de una instancia.

### Step 4.3: Y en cuántos pedidos se ha pagado más de 10$ por un mismo producto? Es lo mismo?

In [None]:
# Compruebo si en algún pedido se ha incluido más de un tipo de plato, ya que en el enunciado se pide para pedidos de un mismo producto:

chipo["item_name"].unique()

array(['Chips and Fresh Tomato Salsa', 'Izze', 'Nantucket Nectar',
       'Chips and Tomatillo-Green Chili Salsa', 'Chicken Bowl',
       'Side of Chips', 'Steak Burrito', 'Steak Soft Tacos',
       'Chips and Guacamole', 'Chicken Crispy Tacos',
       'Chicken Soft Tacos', 'Chicken Burrito', 'Canned Soda',
       'Barbacoa Burrito', 'Carnitas Burrito', 'Carnitas Bowl',
       'Bottled Water', 'Chips and Tomatillo Green Chili Salsa',
       'Barbacoa Bowl', 'Chips', 'Chicken Salad Bowl', 'Steak Bowl',
       'Barbacoa Soft Tacos', 'Veggie Burrito', 'Veggie Bowl',
       'Steak Crispy Tacos', 'Chips and Tomatillo Red Chili Salsa',
       'Barbacoa Crispy Tacos', 'Veggie Salad Bowl',
       'Chips and Roasted Chili-Corn Salsa',
       'Chips and Roasted Chili Corn Salsa', 'Carnitas Soft Tacos',
       'Chicken Salad', 'Canned Soft Drink', 'Steak Salad Bowl',
       '6 Pack Soft Drink', 'Chips and Tomatillo-Red Chili Salsa', 'Bowl',
       'Burrito', 'Crispy Tacos', 'Carnitas Crispy Tacos

Todos los pedidos son de productos únicos, pero se ve cómo se repiten algunos sólo que escritos de distintas formas por errores tipográficos. Habría que reducir el total de tipos de producto teniendo esto en cuenta, pero se escapa del alcance del ejercicio, por lo que considero que cada uno de los valores de "item_name" es un producto distinto.

In [None]:
# El total de pedidos en los que se ha pagado más de 10$ por un mismo producto se mira filtrando con la condición de que
# el precio pagado por cliente sea mayor que 10 y obteniendo la suma de los pedidos "order_id" filtrados:

len(chipo[chipo["total_client_price"] > 10]["order_id"].value_counts())

889

### Step 5. What is the price of each item and name it unit_price. Get only item_name and unit_price

In [48]:
# Como es posible que cada item se haya introducido como vendido a precios ligeramente diferentes, agrupo por tipo de item y calculo
# la media de los precios de ese item:

unit_price = pd.DataFrame(chipo.groupby("item_name")["item_price"].mean().rename("unit_price").reset_index())
unit_price

Unnamed: 0,item_name,unit_price
0,6 Pack Soft Drink,6.610185
1,Barbacoa Bowl,10.187273
2,Barbacoa Burrito,9.832418
3,Barbacoa Crispy Tacos,10.928182
4,Barbacoa Salad Bowl,10.64
5,Barbacoa Soft Tacos,10.0184
6,Bottled Water,1.867654
7,Bowl,14.8
8,Burrito,7.4
9,Canned Soda,1.320577


### Step 6. Sort by the name of the item

In [51]:
unit_price["item_name"].sort_values(ascending=False)

49                        Veggie Soft Tacos
48                        Veggie Salad Bowl
47                             Veggie Salad
46                      Veggie Crispy Tacos
45                           Veggie Burrito
44                              Veggie Bowl
43                         Steak Soft Tacos
42                         Steak Salad Bowl
41                              Steak Salad
40                       Steak Crispy Tacos
39                            Steak Burrito
38                               Steak Bowl
37                            Side of Chips
36                                    Salad
35                         Nantucket Nectar
34                                     Izze
33                             Crispy Tacos
32      Chips and Tomatillo-Red Chili Salsa
31    Chips and Tomatillo-Green Chili Salsa
30      Chips and Tomatillo Red Chili Salsa
29    Chips and Tomatillo Green Chili Salsa
28       Chips and Roasted Chili-Corn Salsa
27       Chips and Roasted Chili

### Step 7. What was the quantity of the most expensive item ordered? 2 ways

Primero obtengo el item vendido más caro:

In [52]:
expensive_item = unit_price["unit_price"].idxmax()
expensive_item

7

Y filtro el DF chipo en función de ese item:

In [53]:
# El total de pedidos de ese item es la suma de los valores de la columna "quantity" para las filas de ese item "Bowl":

chipo[chipo["item_name"] == "Bowl"]["quantity"].sum()

4

### Step 8. How many times was a Veggie Salad Bowl ordered?

In [108]:
chipo[chipo["item_name"] == "Veggie Salad Bowl"]["quantity"].sum()

18

### Step 9. How many times did someone order more than one Canned Soda?

In [109]:
chipo[(chipo["item_name"] == "Canned Soda") & (chipo["quantity"] > 1)]["quantity"].sum()

42