# ðŸ“š Comandos BÃ¡sicos de Ciencia de Datos

**Material de enseÃ±anza** â€” GuÃ­a prÃ¡ctica con ejemplos usando el dataset de precios de tortilla en MÃ©xico.

En este cuaderno aprenderÃ¡s los comandos fundamentales de Pandas para explorar, limpiar y analizar datos. Utilizaremos un dataset real con precios de tortilla por kilogramo en distintas ciudades de MÃ©xico (2007-2016).

---
## 1. Importar librerÃ­as y cargar datos

La primera tarea en cualquier proyecto de ciencia de datos es **importar las librerÃ­as** necesarias. Pandas es la biblioteca estÃ¡ndar para manipulaciÃ³n de datos en Python.

In [None]:
import pandas as pd

# Cargar el archivo CSV en un DataFrame
df = pd.read_csv('tortilla_prices.csv')

# Renombrar columnas al espaÃ±ol para mayor claridad
df.columns = ['Estado', 'Ciudad', 'AÃ±o', 'Mes', 'DÃ­a', 'Tipo de tienda', 'Precio por kilogramo']

print("âœ… Datos cargados correctamente")
df.head()

**ExplicaciÃ³n:**
- `pd.read_csv()` â€” Carga un archivo CSV y lo convierte en un DataFrame
- `df.columns` â€” Permite ver o asignar los nombres de las columnas

---
## 2. ExploraciÃ³n inicial: ver los primeros y Ãºltimos registros

Antes de analizar, necesitamos **explorar** los datos. Los comandos `head()` y `tail()` muestran los primeros y Ãºltimos registros del DataFrame.

In [None]:
# Ver los primeros 5 registros (por defecto)
df.head()

In [None]:
# Ver los primeros 10 registros
df.head(10)

In [None]:
# Ver los Ãºltimos 5 registros
df.tail()

---
## 3. Dimensiones y estructura del DataFrame

Conocer el **tamaÃ±o** y la **estructura** del dataset es fundamental para planificar el anÃ¡lisis.

In [None]:
# shape: retorna (filas, columnas)
print("Dimensiones del DataFrame:")
print(f"  Filas: {df.shape[0]}")
print(f"  Columnas: {df.shape[1]}")
print(f"  Total: {df.shape[0] * df.shape[1]} celdas")

In [None]:
# columns: lista los nombres de todas las columnas
print("Columnas del dataset:")
df.columns.tolist()

In [None]:
# info(): muestra tipo de datos, valores no nulos y memoria utilizada
df.info()

---
## 4. EstadÃ­sticas descriptivas

El mÃ©todo `describe()` genera un **resumen estadÃ­stico** automÃ¡tico de las columnas numÃ©ricas: conteo, media, desviaciÃ³n estÃ¡ndar, mÃ­nimo, cuartiles y mÃ¡ximo.

In [None]:
df.describe()

In [None]:
# EstadÃ­sticas de una columna especÃ­fica
print("Precio por kilogramo - EstadÃ­sticas:")
print(f"  Media: {df['Precio por kilogramo'].mean():.2f} pesos")
print(f"  Mediana: {df['Precio por kilogramo'].median():.2f} pesos")
print(f"  MÃ­nimo: {df['Precio por kilogramo'].min():.2f} pesos")
print(f"  MÃ¡ximo: {df['Precio por kilogramo'].max():.2f} pesos")
print(f"  DesviaciÃ³n estÃ¡ndar: {df['Precio por kilogramo'].std():.2f}")

---
## 5. SelecciÃ³n de columnas

Puedes seleccionar **una o varias columnas** de diferentes maneras.

In [None]:
# Seleccionar una columna (devuelve una Serie)
precios = df['Precio por kilogramo']
precios.head()

In [None]:
# Seleccionar varias columnas (devuelve un DataFrame)
df[['Estado', 'Ciudad', 'Precio por kilogramo']].head(8)

---
## 6. Valores Ãºnicos y conteo

Para columnas categÃ³ricas, `unique()` y `value_counts()` nos ayudan a entender la **distribuciÃ³n** de las categorÃ­as.

In [None]:
# unique(): obtiene los valores Ãºnicos de una columna
print("Estados en el dataset:")
df['Estado'].unique()[:15]  # Mostramos los primeros 15

In [None]:
# value_counts(): cuenta cuÃ¡ntas veces aparece cada valor
print("Registros por tipo de tienda:")
df['Tipo de tienda'].value_counts()

In [None]:
# Con normalize=True obtenemos proporciones (porcentajes)
df['Tipo de tienda'].value_counts(normalize=True).round(2)

---
## 7. Filtrado de datos

Filtrar nos permite **extraer subconjuntos** de datos que cumplen ciertas condiciones.

In [None]:
# Filtrar: solo registros de la Ciudad de MÃ©xico (D.F.)
df_cdmx = df[df['Estado'] == 'D.F.']
df_cdmx.head(10)

In [None]:
# Filtrar: precios mayores a 15 pesos
df[df['Precio por kilogramo'] > 15].head()

In [None]:
# MÃºltiples condiciones con & (AND) y | (OR)
# Precios entre 10 y 12 pesos en el aÃ±o 2010
df[(df['Precio por kilogramo'] >= 10) & 
   (df['Precio por kilogramo'] <= 12) & 
   (df['AÃ±o'] == 2010)].head(10)

---
## 8. Valores faltantes (NaN)

En datasets reales es comÃºn encontrar **valores faltantes**. Pandas los representa como `NaN` (Not a Number).

In [None]:
# isnull(): identifica valores faltantes (True = falta el valor)
# sum() cuenta cuÃ¡ntos hay por columna
print("Valores faltantes por columna:")
df.isnull().sum()

In [None]:
# Porcentaje de valores faltantes
(df.isnull().sum() / len(df) * 100).round(2)

In [None]:
# dropna(): eliminar filas con valores faltantes
df_limpio = df.dropna(subset=['Precio por kilogramo'])
print(f"Filas originales: {len(df)}")
print(f"Filas despuÃ©s de eliminar NaN en precio: {len(df_limpio)}")

In [None]:
# fillna(): reemplazar valores faltantes (ej: con la mediana)
# df['Precio por kilogramo'].fillna(df['Precio por kilogramo'].median())

---
## 9. AgrupaciÃ³n (groupby)

`groupby` es uno de los comandos mÃ¡s poderosos: **agrupa** los datos por una o mÃ¡s columnas y aplica funciones de agregaciÃ³n.

In [None]:
# Precio promedio por estado (usando datos limpios)
precio_por_estado = df_limpio.groupby('Estado')['Precio por kilogramo'].mean().sort_values(ascending=False)
precio_por_estado.head(15)

In [None]:
# MÃºltiples agregaciones a la vez
df_limpio.groupby('Tipo de tienda')['Precio por kilogramo'].agg(['mean', 'min', 'max', 'count'])

---
## 10. Ordenar datos

Ordenar filas por los valores de una o mÃ¡s columnas facilita la **exploraciÃ³n** y presentaciÃ³n de resultados.

In [None]:
# sort_values(): ordenar por una columna
# ascending=False para orden descendente (mayor a menor)
df_limpio.sort_values('Precio por kilogramo', ascending=False).head(10)

In [None]:
# Ordenar por varias columnas
df_limpio.sort_values(['Estado', 'Precio por kilogramo'], ascending=[True, False]).head(15)

---
## 11. Crear y modificar columnas

Es comÃºn **crear nuevas columnas** derivadas de las existentes (feature engineering).

In [None]:
# Crear columna de fecha combinando AÃ±o, Mes, DÃ­a
df_limpio['Fecha'] = pd.to_datetime(df_limpio[['AÃ±o', 'Mes', 'DÃ­a']])
df_limpio[['Estado', 'Ciudad', 'Fecha', 'Precio por kilogramo']].head()

In [None]:
# Crear columna categÃ³rica: precio bajo/medio/alto
df_limpio['Rango_precio'] = pd.cut(df_limpio['Precio por kilogramo'], 
                                   bins=[0, 10, 15, 100], 
                                   labels=['Bajo', 'Medio', 'Alto'])
df_limpio['Rango_precio'].value_counts()

---
## 12. VisualizaciÃ³n bÃ¡sica con Matplotlib

Pandas se integra con **Matplotlib** para crear grÃ¡ficos directamente desde DataFrames.

In [None]:
import matplotlib.pyplot as plt

# Histograma del precio por kilogramo
df_limpio['Precio por kilogramo'].hist(bins=30, edgecolor='black', alpha=0.7)
plt.title('DistribuciÃ³n del precio de la tortilla (por kg)')
plt.xlabel('Precio (pesos)')
plt.ylabel('Frecuencia')
plt.show()

In [None]:
# GrÃ¡fico de barras: precio promedio por tipo de tienda
precio_tienda = df_limpio.groupby('Tipo de tienda')['Precio por kilogramo'].mean()
precio_tienda.plot(kind='bar', figsize=(8, 4))
plt.title('Precio promedio por tipo de tienda')
plt.xlabel('Tipo de tienda')
plt.ylabel('Precio (pesos)')
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()

---
## Resumen de comandos esenciales

| Comando | DescripciÃ³n |
|---------|-------------|
| `df.head(n)` | Primeros n registros |
| `df.tail(n)` | Ãšltimos n registros |
| `df.shape` | Dimensiones (filas, columnas) |
| `df.info()` | Tipos de datos y valores no nulos |
| `df.describe()` | EstadÃ­sticas descriptivas |
| `df['col']` | Seleccionar columna |
| `df.unique()` | Valores Ãºnicos |
| `df.value_counts()` | Conteo por categorÃ­a |
| `df[df['col'] > x]` | Filtrar por condiciÃ³n |
| `df.isnull().sum()` | Valores faltantes |
| `df.dropna()` | Eliminar filas con NaN |
| `df.groupby('col')` | Agrupar datos |
| `df.sort_values('col')` | Ordenar por columna |

Â¡Practica estos comandos y experimenta con el dataset! ðŸš€