# Lección 7: NumPy y pandas para manipulación de datos

En este módulo aprenderás a usar NumPy para cálculos numéricos eficientes y pandas para trabajar con datos tabulares al estilo “tidy” (orden limpio) frente al tradicional `data.frame` de R.



## NumPy: Arrays y operaciones vectorizadas

a. Creación de arrays

In [4]:
import numpy as np

# 1D: vector
v = np.array([1, 2, 3, 4, 5])

# 2D: matriz
M = np.array([[1, 2, 3],
             [4, 5, 6]])

# zeros, ones, arange y linspace
z = np.zeros((3,))          # [0., 0., 0.]
o = np.ones((2, 3))         # matriz 2×3 de unos
r = np.arange(0, 10, 2)     # [0, 2, 4, 6, 8]
l = np.linspace(0, 1, 5)    # [0., 0.25, 0.5, 0.75, 1.]

b. Indexación y slicing

In [7]:
# 1D
v[0]       # primer elemento
v[-1]      # último elemento
v[1:4]     # subvector

# 2D
M[0, 1]    # fila 0, columna 1
M[:, 2]    # toda la fila para columna 2 → [3, 6]
M[1, :]    # fila 1 → [4, 5, 6]

array([4, 5, 6])

c. Operaciones vectorizadas

In [8]:
# Operaciones elemento a elemento
v * 2          # [2, 4, 6, 8, 10]
v + np.array([5,5,5,5,5])

# Álgebra lineal
M.dot(v[:3])   # producto matriz–vector
np.linalg.inv(np.eye(2))  # inversa de matriz 2×2

# Broadcasting
a = np.array([1, 2, 3])
b = np.array([[10], [20], [30]])
a + b  # suma broadcasting → cada fila de b + a


array([[11, 12, 13],
       [21, 22, 23],
       [31, 32, 33]])

Analogía con R:
* Vectores NumPy ≈ vectores atómicos de R;
* Matrices NumPy ≈ matrices de R;
* Broadcasting ≈ operaciones “replicadas” por vectores reciclando en R.

## pandas: Series y DataFrame

a. Creación

In [None]:
import pandas as pd

# Series: etiqueta unidimensional
s = pd.Series([10, 20, 30], index = ["a","b", "c"])

# DataFrame: tabla bidimensional
df = pd.DataFrame({
    "ciudad": ["CDMX", "GDL", "MTY"],
    "poblacion": [9.2e6, 1.5e6, 1.15e6]
})

b. Indexación y selección

In [17]:
# Selección de columna (Series)
df["poblacion"]

# .loc usa etiquetas, .iloc usa posiciones
df.loc[1, "ciudad"]     # GDL
df.iloc[0,1]            # 9.2e6

# Filtrado por condición
df[df["poblacion"] > 1e6]


Unnamed: 0,ciudad,poblacion
0,CDMX,9200000.0
1,GDL,1500000.0
2,MTY,1150000.0


Analogía con R:
* `pd.DataFrame` ≈ `data.frame` o `tibble`;
* Selección con `$`, `[` y `filter()` en dplyr ≈ `.loc`, boolean indexing.

c. Lectura y escritura de datos

```python
# CSV
df = pd.read_csv("datos.csv")
df.to_csv("salida.csv", index=False)

# Excel
df = pd.read_excel("datos.xlsx", sheet_name="Hoja1")
df.to_excel("salida.xlsx", index=False)

```

## Operaciones básicas de DataFrame

a. Descripción y resumen

```python
df.describe()        # estadísticas descriptivas de columnas numéricas
df.info()            # tipos y conteos de valores no nulos
```

b. Ordenar y renombrar

```python
df.sort_values("poblacion", ascending=False)
df.rename(columns={"poblacion": "hab"}, inplace=True)
```

c. Selección de columnas

```python
df[["ciudad", "poblacion"]]
```

## Agrupaciones y merges

a. Agrupar (`groupby`)

In [18]:
ventas = pd.DataFrame({
    "producto": ["A", "B", "A", "C"],
    "venta": [100, 200, 150, 300]
})
ventas.groupby("producto")["venta"].sum()
# producto
# A    250
# B    200
# C    300


producto
A    250
B    200
C    300
Name: venta, dtype: int64

b. Merge / Join (similar a `merge()` en R)

```python
info = pd.DataFrame({
    "ciudad": ["CDMX", "GDL"],
    "region": ["Centro", "Occidente"]
})
df.merge(info, on="ciudad", how="left")
```

## Tidy vs. wide: melt y pivot

a. De wide a tidy (melt)

In [22]:
df_wide = pd.DataFrame({
    "id": [1,2],
    "ingresos_2020": [500, 600],
    "ingresos_2021": [550, 650]
})
df_tidy = df_wide.melt(id_vars = "id",
                       value_vars = ["ingresos_2020", "ingresos_2021"],
                       var_name = "año",
                       value_name = "ingreso")


b. De tidy a wide (pivot)

In [23]:
df_tidy.pivot(index = "id", columns = "año", values = "ingreso")

año,ingresos_2020,ingresos_2021
id,Unnamed: 1_level_1,Unnamed: 2_level_1
1,500,550
2,600,650


Equivalente en R (tidyr):
* `melt()` ≈ `pivot_longer()`;
* `pivot()` ≈ `pivot_wider()`.