Importamos las librerías Pandas y Numpy

# Chipotle

Nos han contactado para hacer un análisis de la cadena de restaurantes Chipotle y entender mejor posibles puntos de mejora... Por ahora solo nos pasan una muestra de los datos [aquí](https://raw.githubusercontent.com/justmarkham/DAT8/master/data/chipotle.tsv). ¿Somos capaces de explorarlos para ver de qué se trata? Qué tipo de información hay, está completa, podemos pedirles que nos la manden de otro modo, que nos informen de algún campo más, etc...


In [None]:
%pip install pandas numpy

import pandas as pd
import numpy as np


### Step 2. Tomaremos el fichero en [esta URL](https://raw.githubusercontent.com/justmarkham/DAT8/master/data/chipotle.tsv) y lo leeremos como un dataframe.

Pista: [read_csv](https://numpy.org/doc/stable/user/absolute_beginners.html#importing-and-exporting-a-csv)

In [None]:
url = "https://raw.githubusercontent.com/justmarkham/DAT8/master/data/chipotle.tsv"

pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)
pd.set_option('display.width', 200)
pd.set_option('display.max_colwidth', 30)

df = pd.read_csv(url, sep='\t')

print(df.head())


### Step 3. Veamos los tipos de datos. ¿Podríamos obtener el producto de mayor precio?

In [None]:
print(df.dtypes)

highest_priced_product = df.loc[df['item_price'].idxmax()]

print("\nProduct with the highest price:")
print(highest_priced_product)


### Step 4. ¿Qué productos cuestan más de $10?

In [None]:
df['item_price'] = df['item_price'].str.replace('$', '')

df['item_price'] = pd.to_numeric(df['item_price'])

expensive_products = df[df['item_price'] > 10]

print("Products that cost more than $10:")
print(expensive_products[['item_name', 'item_price']])
print(f'Number of productos that cost more than $10: {len(expensive_products)}')


### Step 4.1: ¿Y cuántos pedidos se han hecho con un producto de más de 10$? ¿Es lo mismo?

In [None]:
%timeit orders_with_expensive_products = df[df['item_price'] > 10]['order_id'].nunique()

print("Number of orders made with a product that costs more than $10:", orders_with_expensive_products)


### Step 4.2: ¿Y cuántos pedidos se han hecho de más de 10$? ¿Es lo mismo?

In [None]:
%timeit total_per_order = df.groupby('order_id')['item_price'].sum()

%timeit num_orders_total_over_10 = (total_per_order > 10).sum()

print("Number of orders with a total of more than $10:", num_orders_total_over_10)


### Step 4.3: ¿Y en cuántos pedidos se ha pagado más de 10$ por un mismo producto? ¿Es lo mismo?

In [None]:
total_per_product = df.groupby('item_name')['item_price'].sum()

expensive_products = total_per_product[total_per_product > 10]

num_products_over_10 = len(expensive_products)

print("Number of products that have been paid more than $10 for the same product:", num_products_over_10)


### Step 5. ¿Qué precio tiene cada producto en distintos pedidos? ¿Hay productos con varios precios?

In [None]:
prices_per_product = df.groupby('item_name')['item_price'].unique()

print("Prices per product:")
print(prices_per_product)


### Step 6. Ordena el dataframe en base al nombre de producto (item name)

In [None]:
df_sorted = df.sort_values(by='item_name')

print("Sorted DataFrame based on item name:")
print(df_sorted)


### Step 7. ¿Cuantas veces se ha pedido los productos más caros?

In [None]:
most_expensive_products = df[df['item_price'] == df['item_price'].max()]

num_orders_most_expensive = most_expensive_products['quantity'].sum()

print("Number of times the most expensive products have been ordered:", num_orders_most_expensive)


### Step 8. Veamos para el caso de Veggie Salad Bowl. Extrae esa información.

In [None]:
veggie_salad_bowl_info = df[df['item_name'] == 'Veggie Salad Bowl']

print("Information for Veggie Salad Bowl:")
print(veggie_salad_bowl_info)
