# Ejercicios: Getting & Knowing Your Data

### Objetivos de aprendizaje:
- Importar datos desde archivos y URLs
- Explorar la estructura b√°sica de un DataFrame
- Usar m√©todos fundamentales: head(), tail(), shape, info(), describe()
- Entender tipos de datos y conversiones
- Realizar c√°lculos b√°sicos sobre columnas

### Dataset: Chipotle Orders
Vamos a trabajar con datos de pedidos del restaurante Chipotle.

### Ejercicio 1: Importar las librer√≠as necesarias
Importa pandas y numpy

In [1]:
# Pista: import pandas as pd, import numpy as np
import pandas as pd
import numpy as np

In [2]:
# Test: Verificar que pandas est√° importado
assert 'pd' in dir(), "Pandas no est√° importado como 'pd'"
print("‚úì Test pasado: Librer√≠as importadas correctamente")

‚úì Test pasado: Librer√≠as importadas correctamente


### Ejercicio 2: Cargar el dataset
Carga el dataset de Chipotle desde la URL proporcionada y as√≠gnalo a una variable llamada `chipo`.

**URL:** https://raw.githubusercontent.com/justmarkham/DAT8/master/data/chipotle.tsv

In [3]:
# Pista: usa pd.read_csv() con el par√°metro sep='\t' para archivos TSV
url = "https://raw.githubusercontent.com/justmarkham/DAT8/master/data/chipotle.tsv"

chipo = pd.read_csv(url, sep="\t")

In [4]:
# Test: Verificar que el dataset se carg√≥ correctamente
assert 'chipo' in dir(), "Variable 'chipo' no existe"
assert chipo.shape[0] > 0, "El DataFrame est√° vac√≠o"
print(f"‚úì Test pasado: Dataset cargado con {chipo.shape[0]} filas")

‚úì Test pasado: Dataset cargado con 4622 filas


### Ejercicio 3: Visualizar las primeras 10 filas
Muestra las primeras 10 entradas del dataset

In [5]:
# Pista: usa el m√©todo .head() con un par√°metro
chipo.head(10)

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,1,1,Chips and Fresh Tomato Salsa,,$2.39
1,1,1,Izze,[Clementine],$3.39
2,1,1,Nantucket Nectar,[Apple],$3.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,,$2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",$16.98
5,3,1,Chicken Bowl,"[Fresh Tomato Salsa (Mild), [Rice, Cheese, Sou...",$10.98
6,3,1,Side of Chips,,$1.69
7,4,1,Steak Burrito,"[Tomatillo Red Chili Salsa, [Fajita Vegetables...",$11.75
8,4,1,Steak Soft Tacos,"[Tomatillo Green Chili Salsa, [Pinto Beans, Ch...",$9.25
9,5,1,Steak Burrito,"[Fresh Tomato Salsa, [Rice, Black Beans, Pinto...",$9.25


In [6]:
# Test: No hay test autom√°tico para visualizaci√≥n
print("‚úì Revisa visualmente que se muestran 10 filas")

‚úì Revisa visualmente que se muestran 10 filas


### Ejercicio 4: N√∫mero de observaciones
¬øCu√°ntas observaciones (filas) tiene el dataset?

In [7]:
# Pista: usa .shape[0] o len()
num_observaciones = chipo.shape[0]

In [8]:
# Test: Verificar el n√∫mero de observaciones
assert num_observaciones == 4622, f"Esperado 4622, obtenido {num_observaciones}"
print(f"‚úì Test pasado: {num_observaciones} observaciones")

‚úì Test pasado: 4622 observaciones


### Ejercicio 5: N√∫mero de columnas
¬øCu√°ntas columnas tiene el dataset?

In [15]:
# Pista: usa .shape[1] o len(chipo.columns)
num_columnas = chipo.shape[1]


In [16]:
# Test: Verificar el n√∫mero de columnas
assert num_columnas == 5, f"Esperado 5, obtenido {num_columnas}"
print(f"‚úì Test pasado: {num_columnas} columnas")

‚úì Test pasado: 5 columnas


### Ejercicio 6: Nombres de las columnas
Imprime los nombres de todas las columnas

In [17]:
# Pista: usa el atributo .columns
nombres_columnas = list(chipo.columns)

In [18]:
# Test: Verificar nombres de columnas
columnas_esperadas = ['order_id', 'quantity', 'item_name', 'choice_description', 'item_price']
assert list(chipo.columns) == columnas_esperadas, "Columnas incorrectas"
print("‚úì Test pasado: Columnas correctas")

‚úì Test pasado: Columnas correctas


### Ejercicio 7: Informaci√≥n del √≠ndice
¬øC√≥mo est√° indexado el dataset?

In [19]:
# Pista: usa el atributo .index
indice = chipo.index

In [20]:
# Test: Verificar que el √≠ndice es RangeIndex
assert isinstance(chipo.index, pd.RangeIndex), "√çndice no es RangeIndex"
print("‚úì Test pasado: √çndice es RangeIndex (0, 1, 2, ...)")

‚úì Test pasado: √çndice es RangeIndex (0, 1, 2, ...)


### Ejercicio 8: Informaci√≥n general del DataFrame
Usa el m√©todo info() para ver informaci√≥n general sobre el dataset

In [21]:
# Pista: simplemente llama al m√©todo .info()
chipo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4622 entries, 0 to 4621
Data columns (total 5 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   order_id            4622 non-null   int64 
 1   quantity            4622 non-null   int64 
 2   item_name           4622 non-null   object
 3   choice_description  3376 non-null   object
 4   item_price          4622 non-null   object
dtypes: int64(2), object(3)
memory usage: 180.7+ KB


In [22]:
# Test: No hay test autom√°tico
print("‚úì Revisa la informaci√≥n mostrada")

‚úì Revisa la informaci√≥n mostrada


### Ejercicio 9: Tipos de datos
¬øQu√© tipo de dato tiene la columna 'item_price'?

In [23]:
# Pista: usa .dtype o .dtypes
tipo_price = chipo['item_price'].dtype


In [24]:
# Test: Verificar tipo de dato
assert chipo['item_price'].dtype == 'object', "El tipo deber√≠a ser 'object' (string)"
print(f"‚úì Test pasado: item_price es de tipo {chipo['item_price'].dtype}")

‚úì Test pasado: item_price es de tipo object


### Ejercicio 10: Total de items pedidos
¬øCu√°ntos items fueron pedidos en total?

In [25]:
# Pista: suma la columna 'quantity'
total_items = chipo['quantity'].sum()

In [26]:
# Test: Verificar total
assert total_items == 4972, f"Esperado 4972, obtenido {total_items}"
print(f"‚úì Test pasado: {total_items} items pedidos en total")

‚úì Test pasado: 4972 items pedidos en total


### Ejercicio 11: Convertir precio a float
La columna 'item_price' es un string (object). Convi√©rtela a float.

Primero, observa c√≥mo est√°n los valores (tienen el s√≠mbolo $ y espacios)

In [27]:
# Pista: Crea una funci√≥n lambda que elimine el s√≠mbolo $ y convierta a float
# Usa .apply() para aplicarla a toda la columna
chipo['item_price'] = chipo['item_price'].apply(lambda x: float(x.replace('$', '').strip()))

In [28]:
# Test: Verificar conversi√≥n
assert chipo['item_price'].dtype in ['float64', 'float32'], f"Tipo incorrecto: {chipo['item_price'].dtype}"
print(f"‚úì Test pasado: item_price convertido a {chipo['item_price'].dtype}")

‚úì Test pasado: item_price convertido a float64


### Ejercicio 12: Revenue total
¬øCu√°l fue el ingreso total (revenue) del periodo?

In [29]:
# Pista: multiplica quantity * item_price y suma todo
revenue = (chipo['quantity'] * chipo['item_price']).sum()

In [30]:
# Test: Verificar revenue (aproximado)
assert 39000 < revenue < 40000, f"Revenue esperado ~39237, obtenido {revenue}"
print(f"‚úì Test pasado: Revenue total = ${revenue:,.2f}")

‚úì Test pasado: Revenue total = $39,237.02


### Ejercicio 13: N√∫mero de √≥rdenes
¬øCu√°ntas √≥rdenes diferentes se realizaron?

In [31]:
# Pista: cuenta los valores √∫nicos de 'order_id'
num_ordenes = chipo['order_id'].nunique()

In [32]:
# Test: Verificar n√∫mero de √≥rdenes
assert num_ordenes == 1834, f"Esperado 1834, obtenido {num_ordenes}"
print(f"‚úì Test pasado: {num_ordenes} √≥rdenes realizadas")

‚úì Test pasado: 1834 √≥rdenes realizadas


### Ejercicio 14: Revenue promedio por orden
¬øCu√°l es el ingreso promedio por orden?

In [33]:
# Pista: agrupa por order_id, suma el revenue de cada orden, y calcula el promedio
revenue_promedio = (chipo['quantity'] * chipo['item_price']).groupby(chipo['order_id']).sum().mean()

In [34]:
# Test: Verificar revenue promedio
assert 18 < revenue_promedio < 22, f"Revenue promedio esperado ~21, obtenido {revenue_promedio}"
print(f"‚úì Test pasado: Revenue promedio por orden = ${revenue_promedio:.2f}")

‚úì Test pasado: Revenue promedio por orden = $21.39


### Ejercicio 15: Items diferentes vendidos
¬øCu√°ntos items diferentes se venden?

In [35]:
# Pista: cuenta los valores √∫nicos de 'item_name'
items_unicos = chipo['item_name'].nunique()

In [36]:
# Test: Verificar items √∫nicos
assert items_unicos == 50, f"Esperado 50, obtenido {items_unicos}"
print(f"‚úì Test pasado: {items_unicos} items diferentes")

‚úì Test pasado: 50 items diferentes


## ¬°Ejercicios completados! üéâ

Has aprendido a:
- ‚úì Cargar datos desde archivos y URLs
- ‚úì Explorar la estructura de un DataFrame
- ‚úì Trabajar con diferentes tipos de datos
- ‚úì Realizar c√°lculos y agregaciones b√°sicas