<a href="https://colab.research.google.com/github/hfelizzola/Curso-Ciencia-de-Datos-con-Python/blob/main/2_numpy_pandas_limpieza_datos/2_numpy_pandas_ciencia_datos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Semana 3. NumPy y Pandas para Ciencia de Datos (b√°sico‚Äìintermedio)

**Curso:** Ciencia de Datos con Python  
**Semana:** 3  
**Tema:** NumPy y Pandas ‚Äî limpieza, procesamiento y an√°lisis  
**Modalidad:** Notebook (teor√≠a + pr√°ctica guiada)


---
## ¬øQu√© aprender√°s hoy?

Al finalizar este notebook podr√°s:

1. Crear y manipular **arrays** de NumPy, usando operaciones **vectorizadas** y **m√°scaras booleanas**.
2. Calcular estad√≠sticas y manejar valores faltantes num√©ricos con funciones tipo `nan*`.
3. Cargar datos tabulares en **pandas** (`DataFrame`) y hacer una inspecci√≥n r√°pida.
4. Limpiar datos: faltantes, duplicados, tipos, texto sucio y fechas.
5. Transformar datos: crear variables, segmentar con `cut/qcut`.
6. Resumir y analizar: `groupby`, `agg`, `pivot_table`, y ordenamiento.
7. Integrar tablas con `merge` y apilar con `concat`.

---

## Prerrequisitos

- Fundamentos de python: variables y tipos de datos
- Estructuras de datos listas/diccionarios
- Control de flujos `if`, `for`, funciones.
- Funciones de python



---

## Agenda

1. Configuraci√≥n y reproducibilidad
2. NumPy: arrays, vectorizaci√≥n e indexaci√≥n
3. NumPy: estad√≠sticas, NaNs y reshape
4. Pandas: cargar, inspeccionar, seleccionar
5. Pandas: limpieza (missing, duplicados, tipos, texto, fechas)
6. Pandas: transformaci√≥n y an√°lisis (groupby, pivot)
7. Integraci√≥n de datos (merge/concat)
8. Mini-reto integrador

---

## Reglas de trabajo (importante)

- Ejecuta las celdas **en orden** (de arriba hacia abajo).
- En los ejercicios: intenta t√∫ primero; luego revisa la soluci√≥n si se incluye.
- Si algo sale raro: **Entorno de ejecuci√≥n ‚Üí Reiniciar sesi√≥n y ejecutar todo**.


In [None]:
# =========================================
# 1. Configuraci√≥n del notebook
# =========================================

import numpy as np
import pandas as pd

# Para reproducibilidad
np.random.seed(42)

# Opciones visuales de pandas (solo para comodidad en clase)
pd.set_option("display.max_columns", 50)
pd.set_option("display.width", 120)

print("‚úÖ Librer√≠as importadas. Versi√≥n NumPy:", np.__version__, "| Versi√≥n pandas:", pd.__version__)


In [None]:
# Conectar con drive
from google.colab import drive
drive.mount('/content/drive')

In [None]:
# Configurar el directorio de trabajo en colab: "/content/drive/MyDrive/Colab Notebooks"
import os
#os.chdir("/content/drive/MyDrive/Colab Notebooks")
os.chdir("/content/drive/MyDrive/Colab Notebooks/Ciencia de Datos con Python")
# Verificar lista de archivos
!ls

# 2. NumPy: el motor num√©rico

NumPy trabaja con el objeto principal **`ndarray`** (array N-dimensional).

¬øPor qu√© es clave en Ciencia de Datos?

- Es **r√°pido** (vectorizaci√≥n en C).
- Permite operaciones matem√°ticas sobre grandes vol√∫menes de datos.
- Es la base de muchas librer√≠as (pandas, scikit-learn, etc.).

En esta secci√≥n veremos funciones y patrones m√°s usados.


## 2.1 Crear arrays

Funciones t√≠picas:

- `np.array(...)`: crea un array desde una lista.
- `np.arange(inicio, fin, paso)`: rango (similar a `range`, pero devuelve array).
- `np.linspace(inicio, fin, n)`: n puntos igualmente espaciados.
- `np.zeros(n)`, `np.ones(n)`: inicializadores.
- `np.random.*`: datos simulados.

**Rol en ciencia de datos:** generar datos de ejemplo, crear estructuras num√©ricas, simular escenarios.


In [None]:
# Crear arrays a partir de una lista
a = np.array([10, 20, 30, 40])
a

In [None]:
# Crear un array de 0 a 8 con incrementos de 2
b = np.arange(0, 10, 2)
b

In [None]:
# Crear un array de 0 - 1, con 5 valores igualmente espaciados
c = np.linspace(0, 1, 5)
c

In [None]:
# Crear un array de ceros, unos y valores aleatorios
z = np.zeros(4)
o = np.ones(4)
ru = np.random.random(size=4) # Distribuci√≥n Uniforme
rn = np.random.normal(size=4) # Distribuci√≥n Normal
z, o, ru, rn


### üß© Tu turno (3‚Äì5 min)

1. Crea un array llamado `x` con valores del 1 al 12 usando `np.arange`.
2. Crea un array llamado `p` con 6 puntos entre 0 y 100 usando `np.linspace`.
3. Crea un array `ruido` de 12 n√∫meros aleatorios normales con media 0 y desviaci√≥n 1 (`np.random.normal`).

> Pista: `np.random.normal(loc=0, scale=1, size=...)`


In [None]:
# Escribe tu soluci√≥n aqu√≠


## 2.2 Vectorizaci√≥n y broadcasting

**Vectorizaci√≥n** = aplicar operaciones a todo el array sin bucles expl√≠citos.

Ejemplos t√≠picos:
- Escalar: `x * 2`, `x + 10`
- Funciones: `np.log(x)`, `np.sqrt(x)`
- Comparaciones: `x > 5` (devuelve booleanos)

**Broadcasting** = reglas para operar arrays con formas compatibles.

**Rol en ciencia de datos:** acelerar transformaciones y c√°lculos.


In [None]:
x = np.arange(1, 13)

x2 = x * 2
x2

In [None]:
logx = np.log(x)
logx

In [None]:
mask = x > 6
mask

## 2.3 Filtrado con m√°scaras booleanas

Una m√°scara booleana te permite **seleccionar** elementos que cumplen una condici√≥n.

Patr√≥n com√∫n:
```python
mask = x > 6
x_filtrado = x[mask]
```

**Rol:** limpiar outliers, filtrar registros, aplicar reglas de negocio.


In [None]:
x = np.arange(1, 13)
mask = (x >= 4) & (x <= 9)

x_filtrado = x[mask]
x_filtrado


### üß© Tu turno (5‚Äì7 min)

Con el array `x = np.arange(1, 31)`:

1. Selecciona los m√∫ltiplos de 3 (Use la operador de modulo de python `%`).
2. Selecciona los valores entre 10 y 20 (incluidos).
3. Reemplaza por 0 los valores mayores a 25 (sin usar `for`).

> Pista 3: `x_mod = x.copy()` y luego indexaci√≥n booleana.


In [None]:
# Escribe tu soluci√≥n aqu√≠


## 2.4 Estad√≠sticos y agregaciones

Funciones comunes:

- `np.mean`, `np.median`, `np.std`
- `np.min`, `np.max`, `np.sum`
- `np.quantile` (cuantiles)

Con faltantes `np.nan`, usa la familia:
- `np.nanmean`, `np.nanmedian`, `np.nanstd`, etc.

**Rol:** resumen r√°pido del comportamiento de variables num√©ricas.


In [None]:
y = np.array([10, 12, 11, np.nan, 9, 13, np.nan, 12])

# Estad√≠sticos ignorando NaNs
media = np.nanmean(y)
mediana = np.nanmedian(y)
desv = np.nanstd(y)

media, mediana, desv


## 2.5 `reshape`, `ravel` y `transpose`

En ciencia de datos es com√∫n convertir datos entre forma "vector" y forma "matriz".

- `reshape(r, c)`: cambia la forma (si el tama√±o total coincide).
- `ravel()`: aplana a 1D (vista cuando es posible).
- `.T`: transpuesta.

**Rol:** preparar datos para modelos y operaciones matriciales.


In [None]:
# Crear una matriz de 3 X 4
m = np.arange(1, 13).reshape(3, 4)
m


In [None]:
# Aplanar a un vector de una dimensi√≥n
m.ravel()

In [None]:
# Transponer
m.T

### üß© Tu turno (4‚Äì6 min)

1. Crea una matriz `A` de tama√±o (4, 3) con n√∫meros del 1 al 12.
2. Obt√©n la **segunda columna** de `A`.
3. Calcula la suma y promedio. por filas y la suma por columnas.

> Pista: `A[:, 1]`, operaciones por columna `A.sum(axis=0)`, operaciones por fila: `A.sum(axis=1)`.


In [None]:
# Escribe tu soluci√≥n aqu√≠


# 3. pandas: datos tabulares (DataFrame)

pandas est√° dise√±ado para trabajar con datos tipo tabla (como Excel o SQL).

Objeto principal: **`DataFrame`** (filas = observaciones, columnas = variables).

En esta secci√≥n trabajaremos con un dataset peque√±o **intencionalmente sucio** para practicar limpieza.


## 3.1 Dataset de clase (intencionalmente sucio)

Crearemos un dataset de ventas con problemas t√≠picos:

- valores faltantes
- duplicados
- columnas num√©ricas guardadas como texto (`"1,200"`, `"$ 35.000"`)
- texto con espacios / may√∫sculas inconsistentes
- fechas en formatos mixtos

> En proyectos reales estos problemas son MUY comunes.


In [None]:
# Cargar datos de ventas
df_raw = pd.read_csv("ventas.csv")

# Ver las primeras filas de la tabla
df_raw.head()

## 3.2 Inspecci√≥n r√°pida

Funciones clave:

- `.head()` / `.tail()`: primeras/√∫ltimas filas
- `.shape`: (filas, columnas)
- `.info()`: tipos, nulos y memoria
- `.describe()`: estad√≠sticos (num√©ricos por defecto)
- `.value_counts()`: conteos de categor√≠as

**Rol:** diagn√≥stico inicial antes de limpiar o modelar.


In [None]:
# Numero de filas y columnas
df_raw.shape

In [None]:
# Informaci√≥n general de la tabla
df_raw.info()


### üß© Tu turno (5 min)

1. Muestra las √∫ltimas 3 filas (`tail`).
2. Obt√©n los conteos de `canal` con `value_counts("col_name")`.
3. Usa `describe(include="all")` para ver un resumen m√°s amplio.


In [None]:
# Escribe tu soluci√≥n aqu√≠


## 3.3 Selecci√≥n: columnas, `loc` y `iloc`

- Selecci√≥n por columna: `df["col"]` o `df[["col1","col2"]]`
- Selecci√≥n por posici√≥n: `df.iloc[filas, cols]`
- Selecci√≥n por etiqueta (si hay √≠ndice): `df.loc[filas, cols]`

**Rol:** construir subconjuntos para an√°lisis y para reglas de limpieza.


In [None]:
# Columnas espec√≠ficas
df_raw[["fecha", "ciudad", "producto", "unidades"]].head()

In [None]:
# iloc: filas 0-2 y columnas 0-3
df_raw.iloc[0:3, 0:4]

# 4. Limpieza de datos con pandas

Vamos a construir un `df` limpio paso a paso, aplicando operaciones comunes:

1. Normalizar texto (`str.strip`, `str.lower`, reemplazos)
2. Convertir tipos (`to_datetime`, `to_numeric`)
3. Manejar faltantes (`isna`, `fillna`, `dropna`)
4. Eliminar duplicados (`drop_duplicates`)

> **Buenas pr√°ctica:** no sobreescribir el dataset original; crea una copia.


## 4.1 Copia de trabajo y normalizaci√≥n de texto

Funciones clave:
- `df.copy()`: copia segura
- `.str.strip()`: quitar espacios
- `.str.lower()` / `.str.upper()` / `.str.title()`
- `.replace(...)`: mapear categor√≠as inconsistentes

**Rol:** homogeneizar variables categ√≥ricas para que sean analizables.


In [None]:
# Crear una copia
df = df_raw.copy()

In [None]:
# Revisar valores √∫nicos y posibles errores
df["ciudad"].unique()

In [None]:
# Normalizaci√≥n de texto: ciudad
df["ciudad"] = df["ciudad"].astype("string").str.strip()


In [None]:
# Normalizaci√≥n de texto: canal
df["canal"] = df["canal"].astype("string").str.strip().str.lower()

In [None]:
# Unificar "Bogot√°" / "Bogota" (y variantes por espacios)
df["ciudad"] = (df["ciudad"]
                .str.replace("Bogota", "Bogot√°", regex=False)
                .str.replace("bogota", "Bogot√°", regex=False)
               )

df[["ciudad", "canal"]].head(10)

### üß© Tu turno (6‚Äì8 min)

1. Normaliza `producto`: quita espacios y ponlo en min√∫scula.
2. Normaliza `cliente`: quita espacios al inicio/fin y ponlo en formato *Title Case* (`str.title()`).
3. Termina de normalizar `ciudad`: unifica el nombre de todas las ciudades y ponlo en formato *Title Case*
4. Revisa los valores √∫nicos (`unique`) de `producto` y `canal` despu√©s de limpiar.


In [None]:
# Escribe tu soluci√≥n aqu√≠


## 4.2 Convertir fechas (formatos mixtos)

Usaremos `pd.to_datetime` con `errors="coerce"`:
- Si una fecha no se puede convertir, queda como `NaT` (faltante de fecha).

**Rol:** estandarizar fechas para series de tiempo, filtros por periodo, y reportes.


In [None]:
df["fecha"]

In [None]:
df["fecha_dt"] = pd.to_datetime(df["fecha"], errors="coerce", dayfirst=True)

df[["fecha", "fecha_dt"]]


## 4.3 Convertir n√∫meros que vienen como texto

Problema t√≠pico: `"$ 35.000"` o `"120.000"`.

Estrategia:
1. Limpiar s√≠mbolos (`$`, espacios)
2. Quitar separadores de miles (`.` o `,` seg√∫n convenci√≥n)
3. Convertir con `pd.to_numeric(..., errors="coerce")`

**Rol:** llevar datos a tipo num√©rico para poder calcular.


In [None]:
# Limpieza de precio_unitario a num√©rico (COP)
precio_txt = df["precio_unitario"].astype("string").str.strip()

# Quitar s√≠mbolos y espacios
precio_txt = (precio_txt
              .str.replace("$", "", regex=False)
              .str.replace(" ", "", regex=False)
             )

# Quitar separadores de miles tipo "." (ej: 120.000 -> 120000)
precio_txt = precio_txt.str.replace(".", "", regex=False)

df["precio_cop"] = pd.to_numeric(precio_txt, errors="coerce")

# Unidades a num√©rico (puede tener faltantes)
df["unidades"] = pd.to_numeric(df["unidades"], errors="coerce")

df[["precio_unitario", "precio_cop", "unidades"]]


### üß© Tu turno (6‚Äì8 min)

1. Crea una columna `venta_cop = unidades * precio_cop`.
2. Identifica cu√°ntos valores faltantes hay en `unidades`, `ciudad` y `fecha_dt`.
3. Rellena los faltantes de `unidades` con la mediana (solo en este dataset de ejemplo).

> Pista: `df["unidades"].fillna(df["unidades"].median())`


In [None]:
# Escribe tu soluci√≥n aqu√≠


## 4.4 Duplicados

Funciones clave:
- `df.duplicated()`: marca duplicados
- `df.drop_duplicates()`: elimina duplicados

**Rol:** evitar doble conteo (ventas repetidas, registros replicados).


In [None]:
# ¬øCu√°ntas filas duplicadas hay?
df.duplicated().sum()


In [None]:
df = df.drop_duplicates()
df.shape


## 4.5 Tratamiento de faltantes (missing data)

Patrones comunes:

- `.isna()` / `.sum()`: diagnosticar
- `.dropna(subset=[...])`: eliminar filas si son inservibles
- `.fillna(valor)` o `.fillna(mediana/ moda)`: imputaci√≥n simple

**Rol:** preparar dataset para an√°lisis/modelado.


In [None]:
df.isna().sum()


# 5. An√°lisis con pandas: `groupby`, `agg` y `pivot_table`

Una vez limpio el dataset, podemos responder preguntas como:

- ¬øCu√°nto vendimos por ciudad?
- ¬øQu√© canal vende m√°s?
- ¬øCu√°l es el ticket promedio por canal?

Funciones clave:
- `groupby(...).agg(...)`
- `value_counts()`
- `pivot_table(...)`
- `sort_values(...)`


In [None]:
# Asegurar venta_cop (si a√∫n no existe)
if "venta_cop" not in df.columns:
    df["venta_cop"] = df["unidades"] * df["precio_cop"]

resumen_ciudad = (df
                  .groupby("ciudad", dropna=False)
                  .agg(ventas=("venta_cop", "sum"),
                       unidades=("unidades", "sum"),
                       n_registros=("id_venta", "count"))
                  .sort_values("ventas", ascending=False)
                 )

resumen_ciudad


### üß© Tu turno (8‚Äì10 min)

1. Calcula ventas totales por `canal`.
2. Calcula la **venta promedio** por canal (promedio de `venta_cop`).
3. Ordena de mayor a menor por ventas.

> Pista: `groupby("canal").agg(...)`


In [None]:
# Escribe tu soluci√≥n aqu√≠


## 5.1 `pivot_table` para res√∫menes tipo ‚Äútabla din√°mica‚Äù

`pivot_table` es √∫til cuando quieres cruzar dos dimensiones, por ejemplo:

- filas = ciudad
- columnas = canal
- valores = ventas (suma)


In [None]:
tabla = pd.pivot_table(
    df,
    index="ciudad",
    columns="canal",
    values="venta_cop",
    aggfunc="sum",
    fill_value=0
)

tabla


### üß© Tu turno (6‚Äì8 min)

1. Crea una `pivot_table` con filas = `producto`, columnas = `canal`, valores = `venta_cop` (suma).
2. Agrega una columna `total` a la tabla con el total por fila.
3. Identifica el producto con mayor total.


In [None]:
# Escribe tu soluci√≥n aqu√≠


# 6. Transformaci√≥n: variables nuevas y segmentaci√≥n

Ejemplos t√≠picos en ciencia de datos:

- Variables derivadas (`venta_cop`, `mes`, `d√≠a_semana`)
- Segmentaci√≥n por cuantiles (RFM, niveles de gasto) con `qcut`
- Binning por rangos con `cut`


In [None]:
# Variables derivadas de fecha
df["mes"] = df["fecha_dt"].dt.to_period("M").astype("string")
df["dia_semana"] = df["fecha_dt"].dt.day_name()

# Segmentaci√≥n simple por cuantiles del valor de venta (bajo/medio/alto)
df["segmento_venta"] = pd.qcut(df["venta_cop"], q=3, labels=["bajo", "medio", "alto"])

df[["fecha_dt", "mes", "dia_semana", "venta_cop", "segmento_venta"]].head(10)


### üß© Tu turno (6‚Äì8 min)

1. Crea una columna `es_online` que valga 1 si `canal == "online"` y 0 en caso contrario.
2. Crea una columna `precio_categoria` usando `pd.cut`:
   - barato: precio_cop < 60000
   - medio: 60000 a 200000
   - premium: > 200000
3. Haz un `groupby` por `precio_categoria` y calcula ventas totales.


In [None]:
# Escribe tu soluci√≥n aqu√≠


# 7. Integraci√≥n de datos: `merge` y `concat`

En proyectos reales, casi nunca tienes ‚Äúuna sola tabla‚Äù.

- `merge`: unir tablas por claves (similar a JOIN en SQL).
- `concat`: apilar (vertical u horizontal) varias tablas.

**Rol:** construir un dataset maestro combinando fuentes.


In [None]:
# Tabla de referencia: categor√≠a por producto
ref_producto = pd.DataFrame({
    "producto": ["mouse", "teclado", "monitor", "headset"],
    "categoria": ["accesorios", "accesorios", "pantallas", "audio"]
})
ref_producto

In [None]:
# Nota: aseguramos que producto est√© limpio y en min√∫scula
df["producto"] = df["producto"].astype("string").str.strip().str.lower()

df_merged = df.merge(ref_producto, on="producto", how="left")
df_merged[["producto", "categoria"]]


### üß© Tu turno (5‚Äì7 min)

1. Despu√©s del `merge`, calcula ventas totales por `categoria`.
2. Identifica si hay productos sin categor√≠a (valores `NaN` en `categoria`) y lista cu√°les son.


In [None]:
# Escribe tu soluci√≥n aqu√≠
