# Tema 2: DataFrames en Python con Pandas

Notebook para la sesión de clase sobre **DataFrames** y operaciones básicas de análisis de datos.

**Subtemas:**
- Primeros análisis utilizando Pandas
- Manejo y procesamiento de datos
- Indexación y selección de datos en DataFrames
- Aplicación de funciones y operaciones en columnas


In [None]:
#!pip install matplotlib seaborn plotly numpy pandas missingno

In [5]:
# Importación de librerías básicas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline

## 0. Creación / Carga del DataFrame de ejemplo

En un escenario real, los datos se leerían desde un archivo (`.csv`, `.xlsx`, base de datos, etc.).

Para esta sesión, vamos a **simular un pequeño dataset de ventas** directamente en código para enfocarnos en el uso de los DataFrames.

In [6]:
# Simulación de un dataset de ventas
data = {
    'id_venta': [1, 2, 3, 4, 5, 6, 7, 8],
    'cliente': ['Ana', 'Luis', 'Ana', 'María', 'Pedro', 'Ana', 'Luis', 'María'],
    'categoria': ['A', 'B', 'A', 'C', 'B', 'A', 'C', 'B'],
    'monto': [15000, 22000, 13000, 18000, 25000, np.nan, 21000, 26000],
    'ciudad': ['San José', 'San José', 'Alajuela', 'Alajuela', 'San José', 'Alajuela', 'San José', None],
    'canal': ['Tienda', 'En línea', 'Tienda', 'Tienda', 'En línea', 'Tienda', 'En línea', 'Tienda']
}

df = pd.DataFrame(data)
df

Unnamed: 0,id_venta,cliente,categoria,monto,ciudad,canal
0,1,Ana,A,15000.0,San José,Tienda
1,2,Luis,B,22000.0,San José,En línea
2,3,Ana,A,13000.0,Alajuela,Tienda
3,4,María,C,18000.0,Alajuela,Tienda
4,5,Pedro,B,25000.0,San José,En línea
5,6,Ana,A,,Alajuela,Tienda
6,7,Luis,C,21000.0,San José,En línea
7,8,María,B,26000.0,,Tienda


## 1. Primeros análisis utilizando Pandas (EDA básico)

En esta sección realizamos un **primer reconocimiento del DataFrame**, sin modificar los datos.

Preguntas típicas:
- ¿Cuántas filas y columnas hay?
- ¿Cómo lucen las primeras filas?
- ¿Qué tipos de datos tiene cada columna?
- ¿Hay valores nulos?
- ¿Cómo se distribuyen las columnas numéricas?


In [7]:
# Dimensiones del DataFrame (filas, columnas)
df.shape

(8, 6)

In [8]:
# Primeras filas del DataFrame
df.head()

Unnamed: 0,id_venta,cliente,categoria,monto,ciudad,canal
0,1,Ana,A,15000.0,San José,Tienda
1,2,Luis,B,22000.0,San José,En línea
2,3,Ana,A,13000.0,Alajuela,Tienda
3,4,María,C,18000.0,Alajuela,Tienda
4,5,Pedro,B,25000.0,San José,En línea


In [9]:
# Información general: tipos de datos, nulos, etc.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   id_venta   8 non-null      int64  
 1   cliente    8 non-null      object 
 2   categoria  8 non-null      object 
 3   monto      7 non-null      float64
 4   ciudad     7 non-null      object 
 5   canal      8 non-null      object 
dtypes: float64(1), int64(1), object(4)
memory usage: 516.0+ bytes


In [10]:
# Estadísticas descriptivas de las columnas numéricas
df.describe()

Unnamed: 0,id_venta,monto
count,8.0,7.0
mean,4.5,20000.0
std,2.44949,4898.979486
min,1.0,13000.0
25%,2.75,16500.0
50%,4.5,21000.0
75%,6.25,23500.0
max,8.0,26000.0


In [11]:
# Conteo de valores nulos por columna
df.isna().sum()

id_venta     0
cliente      0
categoria    0
monto        1
ciudad       1
canal        0
dtype: int64

### Ejercicio 1 

1. Usar `df.tail()` para ver las últimas filas.
2. Usar `df['cliente'].value_counts()` para ver cuántas ventas tiene cada cliente.
3. Verificar el tipo de dato de la columna `monto` usando `df['monto'].dtype`.

In [None]:
# Punto 1
df.tail()

Unnamed: 0,id_venta,cliente,categoria,monto,ciudad,canal
3,4,María,C,18000.0,Alajuela,Tienda
4,5,Pedro,B,25000.0,San José,En línea
5,6,Ana,A,,Alajuela,Tienda
6,7,Luis,C,21000.0,San José,En línea
7,8,María,B,26000.0,,Tienda


In [None]:
# Punto 2
df['cliente'].value_counts()

cliente
Ana      3
Luis     2
María    2
Pedro    1
Name: count, dtype: int64

In [None]:
# Punto 3
df['monto'].dtype

dtype('float64')

## 2. Indexación y selección de datos en DataFrames

La **indexación y selección** permiten trabajar con subconjuntos específicos del DataFrame.

Formas comunes de selección:
- Por columnas
- Por filas (posición o etiqueta)
- Por condiciones lógicas


In [15]:
# Seleccionar una sola columna (devuelve una Serie)
df['cliente']

0      Ana
1     Luis
2      Ana
3    María
4    Pedro
5      Ana
6     Luis
7    María
Name: cliente, dtype: object

In [16]:
# Seleccionar varias columnas (devuelve un DataFrame)
df[['cliente', 'monto', 'ciudad']]

Unnamed: 0,cliente,monto,ciudad
0,Ana,15000.0,San José
1,Luis,22000.0,San José
2,Ana,13000.0,Alajuela
3,María,18000.0,Alajuela
4,Pedro,25000.0,San José
5,Ana,,Alajuela
6,Luis,21000.0,San José
7,María,26000.0,


In [17]:
# Selección de filas por posición con iloc (fila 0 a la 3)
df.iloc[0:4]

Unnamed: 0,id_venta,cliente,categoria,monto,ciudad,canal
0,1,Ana,A,15000.0,San José,Tienda
1,2,Luis,B,22000.0,San José,En línea
2,3,Ana,A,13000.0,Alajuela,Tienda
3,4,María,C,18000.0,Alajuela,Tienda


In [20]:
# Selección de filas por condición: ventas mayores a 20,000
df[(df['monto'] > 20000)]

Unnamed: 0,id_venta,cliente,categoria,monto,ciudad,canal
1,2,Luis,B,22000.0,San José,En línea
4,5,Pedro,B,25000.0,San José,En línea
6,7,Luis,C,21000.0,San José,En línea
7,8,María,B,26000.0,,Tienda


In [21]:
# Selección combinada: ventas mayores a 20,000 en San José
df[(df['monto'] > 20000) & (df['ciudad'] == 'San José')]

Unnamed: 0,id_venta,cliente,categoria,monto,ciudad,canal
1,2,Luis,B,22000.0,San José,En línea
4,5,Pedro,B,25000.0,San José,En línea
6,7,Luis,C,21000.0,San José,En línea


### Ejercicio 2

1. Seleccionar solo las columnas `cliente`, `monto` y `canal`.
2. Mostrar las filas donde el `canal` sea `'En línea'`.
3. Mostrar las filas donde el `monto` sea menor o igual a 18,000.

In [23]:
# Punto 1
df[['cliente','monto','canal']]

Unnamed: 0,cliente,monto,canal
0,Ana,15000.0,Tienda
1,Luis,22000.0,En línea
2,Ana,13000.0,Tienda
3,María,18000.0,Tienda
4,Pedro,25000.0,En línea
5,Ana,,Tienda
6,Luis,21000.0,En línea
7,María,26000.0,Tienda


In [25]:
# Punto 2
df[(df['canal'] == 'En línea')]

Unnamed: 0,id_venta,cliente,categoria,monto,ciudad,canal
1,2,Luis,B,22000.0,San José,En línea
4,5,Pedro,B,25000.0,San José,En línea
6,7,Luis,C,21000.0,San José,En línea


In [26]:
# Punto 3
df[(df['monto'] <= 18000)]

Unnamed: 0,id_venta,cliente,categoria,monto,ciudad,canal
0,1,Ana,A,15000.0,San José,Tienda
2,3,Ana,A,13000.0,Alajuela,Tienda
3,4,María,C,18000.0,Alajuela,Tienda


## 3. Manejo y procesamiento de datos

En esta sección realizamos operaciones que permiten **analizar y transformar** el DataFrame.

Ejemplos típicos:
- Ordenar datos
- Agrupar y agregar valores
- Contar frecuencias
- Eliminar duplicados


In [27]:
# Ordenar las ventas por monto de forma descendente
df_ordenado = df.sort_values(by='monto', ascending=False)
df_ordenado

Unnamed: 0,id_venta,cliente,categoria,monto,ciudad,canal
7,8,María,B,26000.0,,Tienda
4,5,Pedro,B,25000.0,San José,En línea
1,2,Luis,B,22000.0,San José,En línea
6,7,Luis,C,21000.0,San José,En línea
3,4,María,C,18000.0,Alajuela,Tienda
0,1,Ana,A,15000.0,San José,Tienda
2,3,Ana,A,13000.0,Alajuela,Tienda
5,6,Ana,A,,Alajuela,Tienda


In [28]:
# Agrupar por cliente y calcular el monto total de ventas
ventas_por_cliente = df.groupby('cliente')['monto'].sum().reset_index()
ventas_por_cliente

Unnamed: 0,cliente,monto
0,Ana,28000.0
1,Luis,43000.0
2,María,44000.0
3,Pedro,25000.0


In [29]:
# Conteo de ventas por ciudad
df['ciudad'].value_counts(dropna=False)

ciudad
San José    4
Alajuela    3
None        1
Name: count, dtype: int64

In [30]:
# Eliminar filas duplicadas (si existieran)
df_sin_duplicados = df.drop_duplicates()
df_sin_duplicados

Unnamed: 0,id_venta,cliente,categoria,monto,ciudad,canal
0,1,Ana,A,15000.0,San José,Tienda
1,2,Luis,B,22000.0,San José,En línea
2,3,Ana,A,13000.0,Alajuela,Tienda
3,4,María,C,18000.0,Alajuela,Tienda
4,5,Pedro,B,25000.0,San José,En línea
5,6,Ana,A,,Alajuela,Tienda
6,7,Luis,C,21000.0,San José,En línea
7,8,María,B,26000.0,,Tienda


### Ejercicio 3

1. Ordenar el DataFrame por `cliente` y luego por `monto` de forma descendente.
2. Calcular el monto promedio de venta por `ciudad`.
3. Obtener cuántas ventas hay por `canal` usando `value_counts()`.

In [32]:
# Punto 1
df_ordenado_cliente_monto = df.sort_values(by=['cliente','monto'], ascending=False)
df_ordenado_cliente_monto

Unnamed: 0,id_venta,cliente,categoria,monto,ciudad,canal
4,5,Pedro,B,25000.0,San José,En línea
7,8,María,B,26000.0,,Tienda
3,4,María,C,18000.0,Alajuela,Tienda
1,2,Luis,B,22000.0,San José,En línea
6,7,Luis,C,21000.0,San José,En línea
0,1,Ana,A,15000.0,San José,Tienda
2,3,Ana,A,13000.0,Alajuela,Tienda
5,6,Ana,A,,Alajuela,Tienda


In [33]:
# Punto 2
promedio_ventas_por_ciudad = df.groupby('ciudad')['monto'].mean().reset_index()
promedio_ventas_por_ciudad

Unnamed: 0,ciudad,monto
0,Alajuela,15500.0
1,San José,20750.0


In [35]:
# Punto 3
ventas_por_canal = df['canal'].value_counts()  #df.value_counts(df['canal'])
ventas_por_canal

canal
Tienda      5
En línea    3
Name: count, dtype: int64

## 4. Aplicación de funciones y operaciones en columnas

Las columnas de un DataFrame permiten aplicar operaciones matemáticas, lógicas y de texto.

Ejemplos:
- Operaciones aritméticas
- Transformaciones de texto
- Creación de columnas derivadas
- Uso de `apply()` con funciones o `lambda`


In [36]:
# Crear una nueva columna con el monto en miles de colones
df['monto_miles'] = df['monto'] / 1000
df

Unnamed: 0,id_venta,cliente,categoria,monto,ciudad,canal,monto_miles
0,1,Ana,A,15000.0,San José,Tienda,15.0
1,2,Luis,B,22000.0,San José,En línea,22.0
2,3,Ana,A,13000.0,Alajuela,Tienda,13.0
3,4,María,C,18000.0,Alajuela,Tienda,18.0
4,5,Pedro,B,25000.0,San José,En línea,25.0
5,6,Ana,A,,Alajuela,Tienda,
6,7,Luis,C,21000.0,San José,En línea,21.0
7,8,María,B,26000.0,,Tienda,26.0


In [37]:
# Crear una columna booleana indicando si la venta es mayor a 20,000
df['venta_alta'] = df['monto'] > 20000
df

Unnamed: 0,id_venta,cliente,categoria,monto,ciudad,canal,monto_miles,venta_alta
0,1,Ana,A,15000.0,San José,Tienda,15.0,False
1,2,Luis,B,22000.0,San José,En línea,22.0,True
2,3,Ana,A,13000.0,Alajuela,Tienda,13.0,False
3,4,María,C,18000.0,Alajuela,Tienda,18.0,False
4,5,Pedro,B,25000.0,San José,En línea,25.0,True
5,6,Ana,A,,Alajuela,Tienda,,False
6,7,Luis,C,21000.0,San José,En línea,21.0,True
7,8,María,B,26000.0,,Tienda,26.0,True


In [38]:
# Limpiar y transformar texto: pasar ciudad a mayúsculas
df['ciudad_mayus'] = df['ciudad'].str.upper()
df

Unnamed: 0,id_venta,cliente,categoria,monto,ciudad,canal,monto_miles,venta_alta,ciudad_mayus
0,1,Ana,A,15000.0,San José,Tienda,15.0,False,SAN JOSÉ
1,2,Luis,B,22000.0,San José,En línea,22.0,True,SAN JOSÉ
2,3,Ana,A,13000.0,Alajuela,Tienda,13.0,False,ALAJUELA
3,4,María,C,18000.0,Alajuela,Tienda,18.0,False,ALAJUELA
4,5,Pedro,B,25000.0,San José,En línea,25.0,True,SAN JOSÉ
5,6,Ana,A,,Alajuela,Tienda,,False,ALAJUELA
6,7,Luis,C,21000.0,San José,En línea,21.0,True,SAN JOSÉ
7,8,María,B,26000.0,,Tienda,26.0,True,


In [39]:
# Usar apply con una función lambda para clasificar el monto
def clasificar_monto(valor):
    if pd.isna(valor):
        return 'Desconocido'
    elif valor < 18000:
        return 'Bajo'
    elif valor <= 23000:
        return 'Medio'
    else:
        return 'Alto'

df['categoria_monto'] = df['monto'].apply(clasificar_monto)
df

Unnamed: 0,id_venta,cliente,categoria,monto,ciudad,canal,monto_miles,venta_alta,ciudad_mayus,categoria_monto
0,1,Ana,A,15000.0,San José,Tienda,15.0,False,SAN JOSÉ,Bajo
1,2,Luis,B,22000.0,San José,En línea,22.0,True,SAN JOSÉ,Medio
2,3,Ana,A,13000.0,Alajuela,Tienda,13.0,False,ALAJUELA,Bajo
3,4,María,C,18000.0,Alajuela,Tienda,18.0,False,ALAJUELA,Medio
4,5,Pedro,B,25000.0,San José,En línea,25.0,True,SAN JOSÉ,Alto
5,6,Ana,A,,Alajuela,Tienda,,False,ALAJUELA,Desconocido
6,7,Luis,C,21000.0,San José,En línea,21.0,True,SAN JOSÉ,Medio
7,8,María,B,26000.0,,Tienda,26.0,True,,Alto


### Ejercicio 4 

1. Crear una columna llamada `monto_dolares` asumiendo un tipo de cambio de 495 colones.
2. Crear una columna llamada `es_tienda` que sea `True` si el canal es `'Tienda'`.
3. Crear una columna llamada `cliente_mayus` con el nombre del cliente en mayúsculas.
4. Usar `apply` para marcar las ventas como `'Pequeña'` (monto < 15,000), `'Mediana'` (entre 15,000 y 22,000) o `'Grande'` (mayor a 22,000).

In [40]:
# Punto 1
df['monto_dolares'] = df['monto'] / 495 
df

Unnamed: 0,id_venta,cliente,categoria,monto,ciudad,canal,monto_miles,venta_alta,ciudad_mayus,categoria_monto,monto_dolares
0,1,Ana,A,15000.0,San José,Tienda,15.0,False,SAN JOSÉ,Bajo,30.30303
1,2,Luis,B,22000.0,San José,En línea,22.0,True,SAN JOSÉ,Medio,44.444444
2,3,Ana,A,13000.0,Alajuela,Tienda,13.0,False,ALAJUELA,Bajo,26.262626
3,4,María,C,18000.0,Alajuela,Tienda,18.0,False,ALAJUELA,Medio,36.363636
4,5,Pedro,B,25000.0,San José,En línea,25.0,True,SAN JOSÉ,Alto,50.505051
5,6,Ana,A,,Alajuela,Tienda,,False,ALAJUELA,Desconocido,
6,7,Luis,C,21000.0,San José,En línea,21.0,True,SAN JOSÉ,Medio,42.424242
7,8,María,B,26000.0,,Tienda,26.0,True,,Alto,52.525253


In [52]:
# Punto 2
df['es_tienda'] = df['canal'] == 'Tienda'
df

Unnamed: 0,id_venta,cliente,categoria,monto,ciudad,canal,monto_miles,venta_alta,ciudad_mayus,categoria_monto,monto_dolares,es_tienda
0,1,Ana,A,15000.0,San José,Tienda,15.0,False,SAN JOSÉ,Bajo,30.30303,True
1,2,Luis,B,22000.0,San José,En línea,22.0,True,SAN JOSÉ,Medio,44.444444,False
2,3,Ana,A,13000.0,Alajuela,Tienda,13.0,False,ALAJUELA,Bajo,26.262626,True
3,4,María,C,18000.0,Alajuela,Tienda,18.0,False,ALAJUELA,Medio,36.363636,True
4,5,Pedro,B,25000.0,San José,En línea,25.0,True,SAN JOSÉ,Alto,50.505051,False
5,6,Ana,A,,Alajuela,Tienda,,False,ALAJUELA,Desconocido,,True
6,7,Luis,C,21000.0,San José,En línea,21.0,True,SAN JOSÉ,Medio,42.424242,False
7,8,María,B,26000.0,,Tienda,26.0,True,,Alto,52.525253,True


In [54]:
# Punto 3
df['cliente_mayus'] = df['cliente'].str.upper()
df

Unnamed: 0,id_venta,cliente,categoria,monto,ciudad,canal,monto_miles,venta_alta,ciudad_mayus,categoria_monto,monto_dolares,es_tienda,cliente_mayus
0,1,Ana,A,15000.0,San José,Tienda,15.0,False,SAN JOSÉ,Bajo,30.30303,True,ANA
1,2,Luis,B,22000.0,San José,En línea,22.0,True,SAN JOSÉ,Medio,44.444444,False,LUIS
2,3,Ana,A,13000.0,Alajuela,Tienda,13.0,False,ALAJUELA,Bajo,26.262626,True,ANA
3,4,María,C,18000.0,Alajuela,Tienda,18.0,False,ALAJUELA,Medio,36.363636,True,MARÍA
4,5,Pedro,B,25000.0,San José,En línea,25.0,True,SAN JOSÉ,Alto,50.505051,False,PEDRO
5,6,Ana,A,,Alajuela,Tienda,,False,ALAJUELA,Desconocido,,True,ANA
6,7,Luis,C,21000.0,San José,En línea,21.0,True,SAN JOSÉ,Medio,42.424242,False,LUIS
7,8,María,B,26000.0,,Tienda,26.0,True,,Alto,52.525253,True,MARÍA


In [56]:
# Punto 4
def clasificar_venta(valor):
    if pd.isna(valor):
        return 'Desconocido'
    elif valor < 15000:
        return 'Pequeña'
    elif valor <= 22000:
        return 'Mediana'
    else:
        return 'Grande'

df['categoria_venta'] = df['monto'].apply(clasificar_venta)
df

Unnamed: 0,id_venta,cliente,categoria,monto,ciudad,canal,monto_miles,venta_alta,ciudad_mayus,categoria_monto,monto_dolares,es_tienda,cliente_mayus,categoria_venta
0,1,Ana,A,15000.0,San José,Tienda,15.0,False,SAN JOSÉ,Bajo,30.30303,True,ANA,Mediana
1,2,Luis,B,22000.0,San José,En línea,22.0,True,SAN JOSÉ,Medio,44.444444,False,LUIS,Mediana
2,3,Ana,A,13000.0,Alajuela,Tienda,13.0,False,ALAJUELA,Bajo,26.262626,True,ANA,Pequeña
3,4,María,C,18000.0,Alajuela,Tienda,18.0,False,ALAJUELA,Medio,36.363636,True,MARÍA,Mediana
4,5,Pedro,B,25000.0,San José,En línea,25.0,True,SAN JOSÉ,Alto,50.505051,False,PEDRO,Grande
5,6,Ana,A,,Alajuela,Tienda,,False,ALAJUELA,Desconocido,,True,ANA,Desconocido
6,7,Luis,C,21000.0,San José,En línea,21.0,True,SAN JOSÉ,Medio,42.424242,False,LUIS,Mediana
7,8,María,B,26000.0,,Tienda,26.0,True,,Alto,52.525253,True,MARÍA,Grande


## 5. Resumen de la sesión

En este notebook se trabajó con los siguientes conceptos clave sobre DataFrames:

- Cómo inspeccionar un DataFrame (primeros análisis con Pandas).
- Cómo seleccionar filas y columnas mediante indexación básica, condiciones y `iloc`.
- Cómo ordenar, agrupar y resumir información para análisis.
- Cómo crear y transformar columnas mediante operaciones directas, funciones y `apply()`.

Estos son los fundamentos para continuar con análisis más avanzados, visualización y modelado.