# **Sesión: Introducción a pandas y manipulación de datos para analytics**

**Objetivo:** Aprender los fundamentos de pandas para la manipulación y análisis de datos, incluyendo carga de datos, selección, filtrado, y operaciones básicas, mediante un caso práctico orientado a resolver preguntas de un usuario de negocio.

---

## **Estructura de la clase**

### **1. Introducción al caso práctico (15 minutos)**

**Escenario:**
Un gerente de Red Pandilla, una empresa de e-commerce, quiere analizar información de clientes para resolver las siguientes preguntas:

1. ¿Cuántos clientes se registraron en cada zona postal?
2. ¿Cuál es la edad promedio de los clientes por zona?
3. ¿Cuántos clientes son nuevos, intermedios o veteranos según su antigüedad?

**Contexto del caso:**

- El gerente necesita un reporte inicial para entender el perfil de los clientes y priorizar las zonas más relevantes para una próxima campaña de marketing.
- El equipo de datos deberá usar Python y pandas para responder a estas preguntas de manera eficiente.

**Introducción a pandas:**

- Breve explicación sobre qué es pandas y cómo facilita el análisis de datos.
- Importación de la librería:

In [1]:
import pandas as pd

---

### **2. Carga y exploración inicial de datos (20 minutos)**

**Objetivo:** Cargar datos desde un archivo CSV y realizar una exploración inicial.

**Carga de datos:**

In [5]:
customer = pd.read_csv("customers_data.csv")

**Explorar datos:**
- Primeras y últimas filas:

In [6]:
customer.head(1)

Unnamed: 0.1,Unnamed: 0,customer_id,zip_code,join_date,date_of_birth
0,0,1,60091,2011-04-17 10:48:33,1994-07-18


In [7]:
customer.tail(1)

Unnamed: 0.1,Unnamed: 0,customer_id,zip_code,join_date,date_of_birth
4,4,5,60091,2010-07-17 05:27:50,1984-07-28


- Información básica del DataFrame:

In [9]:
customer.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Unnamed: 0     5 non-null      int64 
 1   customer_id    5 non-null      int64 
 2   zip_code       5 non-null      int64 
 3   join_date      5 non-null      object
 4   date_of_birth  5 non-null      object
dtypes: int64(3), object(2)
memory usage: 328.0+ bytes


In [10]:
customer.describe()

Unnamed: 0.1,Unnamed: 0,customer_id,zip_code
count,5.0,5.0,5.0
mean,2.0,3.0,41352.2
std,1.581139,1.581139,25659.158651
min,0.0,1.0,13244.0
25%,1.0,2.0,13244.0
50%,2.0,3.0,60091.0
75%,3.0,4.0,60091.0
max,4.0,5.0,60091.0


**Eliminar columnas irrelevantes:**

Antes de correr el siguiente chunk, abran el archivo en excel. ¿Que es Unnamed?

In [13]:
customer.drop(columns=["Unnamed: 0"], inplace=True)
# inplace=True, modifica el dataframe 

# ó customer = customer.drop(columns=["Unnamed: 0"], inplace=True)

In [14]:
customer

Unnamed: 0,customer_id,zip_code,join_date,date_of_birth
0,1,60091,2011-04-17 10:48:33,1994-07-18
1,2,13244,2012-04-15 23:31:04,1986-08-18
2,3,13244,2011-08-13 15:42:34,2003-11-21
3,4,60091,2011-04-08 20:08:14,2006-08-15
4,5,60091,2010-07-17 05:27:50,1984-07-28


**Contextualización:** Explica cómo estas operaciones ayudan a preparar los datos para responder las preguntas del gerente.

---

### **3. Selección e indexación de datos (30 minutos)**

**Objetivo:** Aprender a seleccionar y modificar datos en un DataFrame utilizando diferentes métodos.

#### **Selección básica:**

- Por columnas:

In [15]:
customer["zip_code"]

0    60091
1    13244
2    13244
3    60091
4    60091
Name: zip_code, dtype: int64

In [22]:
customer[['customer_id','date_of_birth']]

Unnamed: 0,customer_id,date_of_birth
0,1,1994-07-18
1,2,1986-08-18
2,3,2003-11-21
3,4,2006-08-15
4,5,1984-07-28


- Por filas:

In [23]:
customer[0:2]

# index in PYTHON empiezan en 0 

Unnamed: 0,customer_id,zip_code,join_date,date_of_birth
0,1,60091,2011-04-17 10:48:33,1994-07-18
1,2,13244,2012-04-15 23:31:04,1986-08-18


#### **Uso de ***`loc`*** e ***`iloc`***:**

- Basado en etiquetas:

In [25]:
# customers.loc[renglon, columna] - llamar la columna por name

customer.loc[0:2 , ['customer_id', 'join_date']]

Unnamed: 0,customer_id,join_date
0,1,2011-04-17 10:48:33
1,2,2012-04-15 23:31:04
2,3,2011-08-13 15:42:34


- Basado en índices numéricos:

In [27]:
# customers.iloc[renglon, columna] - llamar columnas por índice

customer.iloc[0:2 , 0:2]

Unnamed: 0,customer_id,zip_code
0,1,60091
1,2,13244


#### **Creación de columnas nuevas:**

- Calcular la edad:

In [28]:
pd.to_datetime(customer['date_of_birth']).dt.year 

# formato de fecha 

0    1994
1    1986
2    2003
3    2006
4    1984
Name: date_of_birth, dtype: int64

In [32]:
customer['edad']=2025-pd.to_datetime(customer['date_of_birth']).dt.year
customer

Unnamed: 0,customer_id,zip_code,join_date,date_of_birth,edad
0,1,60091,2011-04-17 10:48:33,1994-07-18,31
1,2,13244,2012-04-15 23:31:04,1986-08-18,39
2,3,13244,2011-08-13 15:42:34,2003-11-21,22
3,4,60091,2011-04-08 20:08:14,2006-08-15,19
4,5,60091,2010-07-17 05:27:50,1984-07-28,41


#### **Renombrar columnas:**

In [38]:
customer.rename(columns={'join_date':'registration_date'}, inplace=True)
customer

Unnamed: 0,customer_id,zip_code,registration_date,date_of_birth,edad
0,1,60091,2011-04-17 10:48:33,1994-07-18,31
1,2,13244,2012-04-15 23:31:04,1986-08-18,39
2,3,13244,2011-08-13 15:42:34,2003-11-21,22
3,4,60091,2011-04-08 20:08:14,2006-08-15,19
4,5,60091,2010-07-17 05:27:50,1984-07-28,41


**Aplicación:**

- Responde preguntas como "¿Cuántos clientes hay por edad?" ó "¿Cuál es el promedio de edad por zip code?"

In [41]:
customer.groupby('edad').size()

edad
19    1
22    1
31    1
39    1
41    1
dtype: int64

In [43]:
customer.groupby('zip_code')['edad'].mean()

#                                   . cualquier función de agrupación (media, mediana, moda)

zip_code
13244    30.500000
60091    30.333333
Name: edad, dtype: float64

---

### **4. Filtrado y operaciones avanzadas (30 minutos)**

**Objetivo:** Filtrar datos utilizando condiciones simples y múltiples, y realizar operaciones de agrupamiento.

#### **Filtrado de datos:**

- Condición simple:

In [45]:
# clientes con más de 21

customer['edad']>=21

0     True
1     True
2     True
3    False
4     True
Name: edad, dtype: bool

In [48]:
# clientes con más de 31

age = customer[customer['edad'] >= 21]
age# clientes con más de 21


Unnamed: 0,customer_id,zip_code,registration_date,date_of_birth,edad
0,1,60091,2011-04-17 10:48:33,1994-07-18,31
1,2,13244,2012-04-15 23:31:04,1986-08-18,39
2,3,13244,2011-08-13 15:42:34,2003-11-21,22
4,5,60091,2010-07-17 05:27:50,1984-07-28,41


In [57]:
# clientes con más de 21 y zip code - dos condicionantes

con_filtro = customer[(customer['edad'] >= 21) & (customer['zip_code'] == 13244)]
con_filtro

Unnamed: 0,customer_id,zip_code,registration_date,date_of_birth,edad
1,2,13244,2012-04-15 23:31:04,1986-08-18,39
2,3,13244,2011-08-13 15:42:34,2003-11-21,22


- Múltiples condiciones:

#### **Agrupamiento y cálculos:**

- Número de clientes por zona postal:

In [51]:
group_ed = customer.groupby('zip_code').agg({'customer_id': 'count'})
group_ed

Unnamed: 0_level_0,customer_id
zip_code,Unnamed: 1_level_1
13244,2
60091,3


In [59]:
grouped = customer.groupby('zip_code').agg({'edad': 'mean'})
grouped

Unnamed: 0_level_0,edad
zip_code,Unnamed: 1_level_1
13244,30.5
60091,30.333333


- Crear categorías de antigüedad:

In [None]:
customer['registration_date'] = pd.to_datetime(customer['registration_date'])
                                                        
bins = [
    pd.Timestamp('1900-01-01'), # fecha mínima para "VETERANO
    pd.Timestamp('2011-01-01'), # fecha mpinima para "INTERMEDIA"
    pd.Timestamp('2012-01-01'), 
]

pd  
]                                                        

**Relación con el caso:**
Explica cómo estas operaciones ayudan al gerente a priorizar zonas y segmentos.

---

### **5. Resolviendo el caso práctico (20 minutos)**

**Ejercicios de los estudiantes:**

Responder a las preguntas del gerente:
  1. Número de clientes por zona postal.

  2. Edad promedio de los clientes por zona postal.

  3. Número de clientes por segmento (Nuevo, Intermedio, Veterano).


- Discutir cómo los resultados ayudan al gerente a tomar decisiones.

---

## **Cierre y preparación para la siguiente sesión (10 minutos)**

- **Reflexión:**
  - Repasar los conceptos aprendidos: carga de datos, selección, filtrado y agrupamiento.
  - Conectar el uso de pandas con su utilidad para calcular indicadores clave (KPIs) en la próxima sesión.