Importamos las librerías Pandas y Numpy

In [3]:
import pandas as pd
import numpy as np

### Step 2. Tomaremos el fichero en [esta URL](https://raw.githubusercontent.com/justmarkham/DAT8/master/data/chipotle.tsv) y lo leeremos como un dataframe.

Pista: [read_csv](https://numpy.org/doc/stable/user/absolute_beginners.html#importing-and-exporting-a-csv)

In [19]:
url = "https://raw.githubusercontent.com/justmarkham/DAT8/master/data/chipotle.tsv"
df_file = pd.read_csv("chipotle.csv",sep = "\t",)#, index_col = "user_id")
df = pd.read_csv(url, sep='\t')#, index_col='user_id')

df["item_price_float"]=df["item_price"].str.replace("$","").astype(float)
df.head()

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price,item_price_float
0,1,1,Chips and Fresh Tomato Salsa,,$2.39,2.39
1,1,1,Izze,[Clementine],$3.39,3.39
2,1,1,Nantucket Nectar,[Apple],$3.39,3.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,,$2.39,2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",$16.98,16.98


### Step 3. Veamos los tipos de datos. ¿Podríamos obtener el producto de mayor precio?

In [5]:
df.info() # Tipos de los datos
print("------------------------")
# Otra forma de obtenerlo:
print(f"El tipo de datos para cada columna es :\n{df.dtypes}") # Tipos de los datos


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4622 entries, 0 to 4621
Data columns (total 6 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   order_id            4622 non-null   int64  
 1   quantity            4622 non-null   int64  
 2   item_name           4622 non-null   object 
 3   choice_description  3376 non-null   object 
 4   item_price          4622 non-null   object 
 5   item_price_float    4622 non-null   float64
dtypes: float64(1), int64(2), object(3)
memory usage: 216.8+ KB
------------------------
El tipo de datos para cada columna es :
order_id                int64
quantity                int64
item_name              object
choice_description     object
item_price             object
item_price_float      float64
dtype: object


In [6]:
# Producto de mayor precio
valor_maximo = df["item_price_float"].max()
condicion = (df["item_price_float"]==valor_maximo)
df[condicion]


Unnamed: 0,order_id,quantity,item_name,choice_description,item_price,item_price_float
3598,1443,15,Chips and Fresh Tomato Salsa,,$44.25,44.25


In [7]:
# Otra forma: Producto de mayor precio
df[df["item_price_float"]==df["item_price_float"].max()]

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price,item_price_float
3598,1443,15,Chips and Fresh Tomato Salsa,,$44.25,44.25


In [8]:
# Con esta forma obtenemos solo el nombre del producto:
nombre_producto_max = df.loc[df['item_price_float'].idxmax(), 'item_name']
print(f"El nombre del producto con el mayor precio es: {nombre_producto_max}") 

El nombre del producto con el mayor precio es: Chips and Fresh Tomato Salsa


### Step 4. ¿Qué productos cuestan más de $10?

In [9]:
# Creamos el subconjunto de los productos con precio > 10
productos_mayores_10 = df[df["item_price_float"]>10]  
# Mostramos los nombres de esos productos (unique() para que no se repitan)
print(productos_mayores_10['item_name'].unique()) 

['Chicken Bowl' 'Steak Burrito' 'Chicken Burrito' 'Barbacoa Bowl'
 'Veggie Burrito' 'Veggie Bowl' 'Chicken Soft Tacos' 'Steak Bowl'
 'Carnitas Burrito' 'Carnitas Bowl' 'Barbacoa Burrito'
 'Chicken Salad Bowl' 'Barbacoa Crispy Tacos' 'Veggie Salad Bowl'
 'Chicken Crispy Tacos' 'Chicken Salad' 'Steak Salad Bowl' 'Bowl'
 'Veggie Soft Tacos' 'Barbacoa Soft Tacos' 'Carnitas Crispy Tacos'
 'Carnitas Salad Bowl' 'Barbacoa Salad Bowl'
 'Chips and Fresh Tomato Salsa' 'Steak Soft Tacos' 'Carnitas Soft Tacos'
 'Steak Crispy Tacos' 'Chips and Guacamole' '6 Pack Soft Drink'
 'Bottled Water' 'Side of Chips']


### Step 4.1: ¿Y cuántos pedidos se han hecho con un producto de más de 10$? ¿Es lo mismo?

In [10]:
# En este caso, se filtra de acuerdo a los pedidos y si hay al menos, un producto con precio > 10, en dichos pedidos
# Subconjunto de los productos con precio > 10
productos_mayores_10 = df[df['item_price_float'] > 10]

# Obtenemos los ids únicos de los pedidos en ese subconjunto
pedidos_filtrado = productos_mayores_10['order_id'].nunique()

print(productos_mayores_10[['order_id',"item_name","item_price_float"]])

print(f"Pedidos con al menos un producto con precio > 10: {pedidos_filtrado}")

      order_id           item_name  item_price_float
4            2        Chicken Bowl             16.98
5            3        Chicken Bowl             10.98
7            4       Steak Burrito             11.75
13           7        Chicken Bowl             11.25
23          12     Chicken Burrito             10.98
...        ...                 ...               ...
4610      1830       Steak Burrito             11.75
4611      1830      Veggie Burrito             11.25
4617      1833       Steak Burrito             11.75
4618      1833       Steak Burrito             11.75
4619      1834  Chicken Salad Bowl             11.25

[1130 rows x 3 columns]
Pedidos con al menos un producto con precio > 10: 863


### Step 4.2: ¿Y cuántos pedidos se han hecho de más de 10$? ¿Es lo mismo?

In [11]:
# En este caso, se filtra de acuerdo a los pedidos y si en total el pedido es de más de $10 
# sumando todos los productos del pedido

# Agregamos una columna con el total por fila
df['subtotal'] = df['quantity'] * df['item_price_float']

# Agrupamos por pedido y sumamos el total
totales_por_pedido = df.groupby('order_id')['subtotal'].sum()

# Contamos cuántos pedidos superan $10
pedidos_mayores_10 = (totales_por_pedido > 10).sum()

print(f"(2) Pedidos cuyo total supera los 10 USD: {pedidos_mayores_10}")

(2) Pedidos cuyo total supera los 10 USD: 1834


### Step 4.3: ¿Y en cuántos pedidos se ha pagado más de 10$ por un mismo producto? ¿Es lo mismo?

In [12]:
# Ya tenemos la columna 'subtotal' creada
pagos_producto_mayores_10 = df[df['subtotal'] > 10]

# Contar pedidos únicos
pedidos_producto_mayor_10 = pagos_producto_mayores_10['order_id'].nunique()

print(f"(3) Pedidos donde se pagó > $10 por un mismo producto: {pedidos_producto_mayor_10}")


(3) Pedidos donde se pagó > $10 por un mismo producto: 889


### Step 5. ¿Qué precio tiene cada producto en distintos pedidos? ¿Hay productos con varios precios?

In [13]:
precios_por_producto = df.groupby('item_name')['item_price_float'].unique()

print("Precios distintos por producto en distintos pedidos:\n")
print(precios_por_producto)

Precios distintos por producto en distintos pedidos:

item_name
6 Pack Soft Drink                                                            [6.49, 12.98]
Barbacoa Bowl                                      [11.75, 9.25, 8.99, 11.48, 8.69, 11.49]
Barbacoa Burrito                                   [8.99, 9.25, 11.75, 11.08, 8.69, 11.48]
Barbacoa Crispy Tacos                                     [11.75, 9.25, 11.48, 8.99, 18.5]
Barbacoa Salad Bowl                                                          [11.89, 9.39]
Barbacoa Soft Tacos                                             [9.25, 8.99, 11.75, 11.48]
Bottled Water                            [1.09, 1.5, 3.0, 3.27, 2.18, 6.0, 7.5, 4.5, 10...
Bowl                                                                           [22.2, 7.4]
Burrito                                                                              [7.4]
Canned Soda                                                             [2.18, 1.09, 4.36]
Canned Soft Drink         

In [14]:
# Hay productos con precios distintos en distintos pedidos

# Número de precios distintos por producto
conteo_distintos = df.groupby('item_name')['item_price_float'].nunique()

# Filtrar los productos que tienen más de un precio
productos_con_precios_variados = conteo_distintos[conteo_distintos > 1]

print("Productos con múltiples precios:\n")
print(productos_con_precios_variados)

Productos con múltiples precios:

item_name
6 Pack Soft Drink                         2
Barbacoa Bowl                             6
Barbacoa Burrito                          6
Barbacoa Crispy Tacos                     5
Barbacoa Salad Bowl                       2
Barbacoa Soft Tacos                       4
Bottled Water                            10
Bowl                                      2
Canned Soda                               3
Canned Soft Drink                         4
Carnitas Bowl                             7
Carnitas Burrito                          7
Carnitas Crispy Tacos                     4
Carnitas Salad Bowl                       2
Carnitas Soft Tacos                       3
Chicken Bowl                             13
Chicken Burrito                          12
Chicken Crispy Tacos                      6
Chicken Salad                             3
Chicken Salad Bowl                        4
Chicken Soft Tacos                        7
Chips                           

### Step 6. Ordena el dataframe en base al nombre de producto (item name)

In [15]:
ordenar_por_nombre_producto = df.sort_values('item_name', ascending=True) 

ordenar_por_nombre_producto.head()

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price,item_price_float,subtotal
3389,1360,2,6 Pack Soft Drink,[Diet Coke],$12.98,12.98,25.96
341,148,1,6 Pack Soft Drink,[Diet Coke],$6.49,6.49,6.49
1849,749,1,6 Pack Soft Drink,[Coke],$6.49,6.49,6.49
1860,754,1,6 Pack Soft Drink,[Diet Coke],$6.49,6.49,6.49
2713,1076,1,6 Pack Soft Drink,[Coke],$6.49,6.49,6.49


### Step 7. ¿Cuantas veces se ha pedido los productos más caros?

In [16]:
# Encontramos el precio máximo
max_precio = df['item_price_float'].max()

# Filtramos para obtener las filas con el precio máximo (aquí se podría pensar en usar un rango con límite el máximo)

producto_mas_costoso = df[df['item_price_float'] == max_precio]
print(producto_mas_costoso)

# Calcular la cantidad total de los productos más costosos pedidos
total = producto_mas_costoso['quantity'].sum()

total
print(f"El producto más costoso se han pedido {total} veces.")



      order_id  quantity                     item_name choice_description  \
3598      1443        15  Chips and Fresh Tomato Salsa                NaN   

     item_price  item_price_float  subtotal  
3598    $44.25              44.25    663.75  
El producto más costoso se han pedido 15 veces.


In [17]:
# Conseguimos el mayor
max_precio = df['item_price_float'].max()
# Ordenamos de mayor a menor
precios_ordenados = df['item_price_float'].sort_values(ascending=False)

# Filtramos para obtener un subconjunto de productos que tienen el precio máximo 
# o $15 por debajo de ese precio máx
productos_mas_costosos = producto_mas_costoso = df[df['item_price_float'] >= (max_precio-15.0)]

print(productos_mas_costosos)

print("............................................")

# Sumamos la cantidad de veces que se han pedido
total = sum(productos_mas_costosos['quantity'])
print(f"Los productos mas costosos se han pedido {total} veces.")



      order_id  quantity                     item_name  \
409        178         3                  Chicken Bowl   
1254       511         4               Chicken Burrito   
3480      1398         3                 Carnitas Bowl   
3598      1443        15  Chips and Fresh Tomato Salsa   
3601      1443         3                Veggie Burrito   
3602      1443         4               Chicken Burrito   

                                     choice_description item_price  \
409   [[Fresh Tomato Salsa (Mild), Tomatillo-Green C...    $32.94    
1254  [Fresh Tomato Salsa, [Fajita Vegetables, Rice,...    $35.00    
3480  [Roasted Chili Corn Salsa, [Fajita Vegetables,...    $35.25    
3598                                                NaN    $44.25    
3601  [Fresh Tomato Salsa, [Fajita Vegetables, Rice,...    $33.75    
3602  [Fresh Tomato Salsa, [Rice, Black Beans, Chees...    $35.00    

      item_price_float  subtotal  
409              32.94     98.82  
1254             35.00    140.00

### Step 8. Veamos para el caso de Veggie Salad Bowl. Extrae esa información.

In [18]:
df_Veggie_Salad_Bowl = df[df['item_name'] == 'Veggie Salad Bowl']
#print(df_Veggie_Salad_Bowl)

total = df_Veggie_Salad_Bowl['quantity'].sum()

print(f"El producto Veggie Salad Bowl se ha pedido {total} veces.")


El producto Veggie Salad Bowl se ha pedido 18 veces.
