## üéØ **Objetivos Ampliados**

- Transformar y preparar datos para an√°lisis  
- Aplicar operaciones avanzadas de filtrado y ordenamiento  
- Dominar t√©cnicas de limpieza de datos  
- Crear y transformar columnas eficientemente  


## üì±  Uso de una Aplicaci√≥n Tecnol√≥gica

El siguiente conjunto de datos simula informaci√≥n recolectada de **100 usuarios** de una aplicaci√≥n tecnol√≥gica (por ejemplo, una *app de aprendizaje en l√≠nea* o una *plataforma de productividad personal*).  
Los registros contienen variables demogr√°ficas y de comportamiento de uso, √∫tiles para realizar an√°lisis exploratorios, segmentaci√≥n de usuarios y estudios de satisfacci√≥n.

---

### üßæ Descripci√≥n general
Cada fila del DataFrame representa un usuario √∫nico, e incluye informaci√≥n sobre:
- Su edad y pa√≠s de residencia.  
- Su nivel de interacci√≥n con la aplicaci√≥n (tiempo y sesiones).  
- Su nivel de satisfacci√≥n reportado con la experiencia de uso.

---

### üìö Diccionario de variables

| Variable | Tipo de dato | Descripci√≥n |
|-----------|---------------|-------------|
| `Usuario` | *string* | Identificador √∫nico del usuario (ej. `user_001`) |
| `Edad` | *int* | Edad del usuario en a√±os |
| `Pa√≠s` | *string* | Pa√≠s de residencia del usuario (ej. Colombia, M√©xico, Espa√±a) |
| `Tiempo_uso_min` | *int* | Tiempo promedio de uso diario de la aplicaci√≥n (en minutos) |
| `Sesiones_dia` | *int* | N√∫mero promedio de sesiones abiertas por d√≠a |
| `Satisfacci√≥n` | *string* | Nivel de satisfacci√≥n del usuario con la aplicaci√≥n (`Bajo`, `Medio`, `Alto`) |

---


In [1]:
import pandas as pd
import numpy as np

# Semilla para reproducibilidad
np.random.seed(123)

# N√∫mero de registros
n = 100

# Variables simuladas
usuarios = [f"user_{i:03d}" for i in range(1, n+1)]
edades = np.random.randint(18, 50, size=n)
pais = np.random.choice(["Colombia", "M√©xico", "Argentina", "Chile", "Per√∫", "Espa√±a"], size=n)
tiempo_uso_min = np.random.randint(5, 240, size=n)              # minutos diarios de uso
sesiones = np.random.randint(1, 10, size=n)                     # sesiones por d√≠a
nivel_satisfaccion = np.random.choice(["Bajo", "Medio", "Alto"], size=n, p=[0.2, 0.5, 0.3])

# Crear DataFrame
df = pd.DataFrame({
    "Usuario": usuarios,
    "Edad": edades,
    "Pa√≠s": pais,
    "Tiempo_uso_min": tiempo_uso_min,
    "Sesiones_dia": sesiones,
    "Satisfacci√≥n": nivel_satisfaccion
})

# Mostrar primeras filas
df.head()


Unnamed: 0,Usuario,Edad,Pa√≠s,Tiempo_uso_min,Sesiones_dia,Satisfacci√≥n
0,user_001,48,M√©xico,106,4,Medio
1,user_002,31,Per√∫,135,4,Medio
2,user_003,48,Argentina,151,2,Bajo
3,user_004,20,M√©xico,51,8,Alto
4,user_005,46,M√©xico,50,9,Medio


In [2]:
df.shape

(100, 6)

## 1Ô∏è‚É£ Filtrado de datos

Permite seleccionar filas que cumplan ciertas condiciones.

In [3]:
# Ejemplo: Filtrar mayores de 45 a√±os
df1=df[df['Edad'] > 45]
df1.shape


(12, 6)

In [4]:
df['Edad'] > 45

Unnamed: 0,Edad
0,True
1,False
2,True
3,False
4,True
...,...
95,False
96,False
97,False
98,False


In [5]:
# Filtrar por varias condiciones
df[(df['Edad'] > 45) & (df['Pa√≠s'] == 'M√©xico')]

Unnamed: 0,Usuario,Edad,Pa√≠s,Tiempo_uso_min,Sesiones_dia,Satisfacci√≥n
0,user_001,48,M√©xico,106,4,Medio
4,user_005,46,M√©xico,50,9,Medio
46,user_047,46,M√©xico,199,2,Alto


In [6]:
# Usuarios de Colombia o M√©xico con satisfacci√≥n ‚ÄúMedio‚Äù
df2=df[(df["Pa√≠s"].isin(["Colombia", "M√©xico"])) & (df["Satisfacci√≥n"] == "Medio")]
df2.shape

(20, 6)

In [7]:
# Usuarios de Colombia o M√©xico con satisfacci√≥n ‚ÄúMedio‚Äù
df3=df[ (( df["Pa√≠s"]=="Colombia" ) | (df["Pa√≠s"]=="M√©xico")) & (df["Satisfacci√≥n"] == "Medio")]
df3.shape

(20, 6)

## Ejercicio 1

¬øCu√°ntas personas son de Per√∫, no tienen satisfacci√≥n alta y sus sesiones por d√≠a son exactamente 3? Rta: user_089


In [8]:
# Soluci√≥n ejercicio 1
df[(df["Satisfacci√≥n"]!="Alto") & (df["Pa√≠s"]=="Per√∫") &(df["Sesiones_dia"]==3)]["Edad"]

Unnamed: 0,Edad
88,29


## 2Ô∏è‚É£ Ordenamiento

Ordenar por tiempo de uso (de mayor a menor)

In [9]:
df.sort_values("Tiempo_uso_min", ascending=False).head(10)


Unnamed: 0,Usuario,Edad,Pa√≠s,Tiempo_uso_min,Sesiones_dia,Satisfacci√≥n
92,user_093,29,Colombia,238,1,Alto
95,user_096,41,M√©xico,237,1,Bajo
47,user_048,46,Colombia,234,6,Medio
56,user_057,19,Per√∫,233,8,Alto
84,user_085,32,Argentina,230,6,Medio
75,user_076,30,Espa√±a,229,8,Medio
87,user_088,25,Espa√±a,225,4,Medio
61,user_062,23,Colombia,224,3,Bajo
8,user_009,37,M√©xico,224,8,Medio
94,user_095,23,Chile,220,8,Medio


Ordenar por pa√≠s y dentro de cada pa√≠s por edad

In [10]:
df.sort_values(["Pa√≠s", "Edad"], ascending=[True, True]).head(20)


Unnamed: 0,Usuario,Edad,Pa√≠s,Tiempo_uso_min,Sesiones_dia,Satisfacci√≥n
19,user_020,18,Argentina,143,1,Medio
84,user_085,32,Argentina,230,6,Medio
80,user_081,37,Argentina,70,2,Medio
32,user_033,41,Argentina,211,7,Alto
99,user_100,42,Argentina,169,6,Medio
73,user_074,45,Argentina,15,7,Medio
74,user_075,47,Argentina,141,5,Alto
2,user_003,48,Argentina,151,2,Bajo
14,user_015,18,Chile,200,1,Medio
21,user_022,18,Chile,50,2,Alto


### Ejercicio 2:

Ordena los usuarios primero por nivel de satisfacci√≥n (Ascendente) y luego por sesiones diarias (Descendente) y por ultimo la edad (Ascendente).

In [11]:
# Soluci√≥n 2
df.sort_values(["Satisfacci√≥n", "Sesiones_dia", "Edad"], ascending=[True, False,True]).head(10)

Unnamed: 0,Usuario,Edad,Pa√≠s,Tiempo_uso_min,Sesiones_dia,Satisfacci√≥n
29,user_030,34,Chile,115,9,Alto
56,user_057,19,Per√∫,233,8,Alto
3,user_004,20,M√©xico,51,8,Alto
24,user_025,37,Colombia,192,8,Alto
38,user_039,38,Colombia,92,8,Alto
27,user_028,22,M√©xico,32,7,Alto
68,user_069,31,Colombia,158,7,Alto
32,user_033,41,Argentina,211,7,Alto
63,user_064,29,Per√∫,39,6,Alto
30,user_031,22,M√©xico,8,5,Alto


In [12]:
df.head(3)

Unnamed: 0,Usuario,Edad,Pa√≠s,Tiempo_uso_min,Sesiones_dia,Satisfacci√≥n
0,user_001,48,M√©xico,106,4,Medio
1,user_002,31,Per√∫,135,4,Medio
2,user_003,48,Argentina,151,2,Bajo


##  3Ô∏è‚É£ Creaci√≥n y eliminaci√≥n de columnas y filas



In [13]:
df["PAIS"]=df["Pa√≠s"].str.upper()
df

Unnamed: 0,Usuario,Edad,Pa√≠s,Tiempo_uso_min,Sesiones_dia,Satisfacci√≥n,PAIS
0,user_001,48,M√©xico,106,4,Medio,M√âXICO
1,user_002,31,Per√∫,135,4,Medio,PER√ö
2,user_003,48,Argentina,151,2,Bajo,ARGENTINA
3,user_004,20,M√©xico,51,8,Alto,M√âXICO
4,user_005,46,M√©xico,50,9,Medio,M√âXICO
...,...,...,...,...,...,...,...
95,user_096,41,M√©xico,237,1,Bajo,M√âXICO
96,user_097,43,Colombia,154,4,Medio,COLOMBIA
97,user_098,36,Espa√±a,94,8,Bajo,ESPA√ëA
98,user_099,38,M√©xico,55,1,Bajo,M√âXICO


### Ejerccio 3:

crear una nueva colunma que represente el tiempo de uso minimo por el numero de seriones al d√≠a

In [14]:
# Solucion ejercicio 3
df["Tiempo_X_Sesion"]=df["Tiempo_uso_min"]*df["Sesiones_dia"]
df

Unnamed: 0,Usuario,Edad,Pa√≠s,Tiempo_uso_min,Sesiones_dia,Satisfacci√≥n,PAIS,Tiempo_X_Sesion
0,user_001,48,M√©xico,106,4,Medio,M√âXICO,424
1,user_002,31,Per√∫,135,4,Medio,PER√ö,540
2,user_003,48,Argentina,151,2,Bajo,ARGENTINA,302
3,user_004,20,M√©xico,51,8,Alto,M√âXICO,408
4,user_005,46,M√©xico,50,9,Medio,M√âXICO,450
...,...,...,...,...,...,...,...,...
95,user_096,41,M√©xico,237,1,Bajo,M√âXICO,237
96,user_097,43,Colombia,154,4,Medio,COLOMBIA,616
97,user_098,36,Espa√±a,94,8,Bajo,ESPA√ëA,752
98,user_099,38,M√©xico,55,1,Bajo,M√âXICO,55


In [15]:
# Elinimar una colunma:
df=df.drop(columns="PAIS")
df

Unnamed: 0,Usuario,Edad,Pa√≠s,Tiempo_uso_min,Sesiones_dia,Satisfacci√≥n,Tiempo_X_Sesion
0,user_001,48,M√©xico,106,4,Medio,424
1,user_002,31,Per√∫,135,4,Medio,540
2,user_003,48,Argentina,151,2,Bajo,302
3,user_004,20,M√©xico,51,8,Alto,408
4,user_005,46,M√©xico,50,9,Medio,450
...,...,...,...,...,...,...,...
95,user_096,41,M√©xico,237,1,Bajo,237
96,user_097,43,Colombia,154,4,Medio,616
97,user_098,36,Espa√±a,94,8,Bajo,752
98,user_099,38,M√©xico,55,1,Bajo,55


In [16]:
# Agregar una nueva fila con loc
df.loc[-1] = ["user000",34,'Chile', 35, 666, 'Medio',1111]
df

Unnamed: 0,Usuario,Edad,Pa√≠s,Tiempo_uso_min,Sesiones_dia,Satisfacci√≥n,Tiempo_X_Sesion
0,user_001,48,M√©xico,106,4,Medio,424
1,user_002,31,Per√∫,135,4,Medio,540
2,user_003,48,Argentina,151,2,Bajo,302
3,user_004,20,M√©xico,51,8,Alto,408
4,user_005,46,M√©xico,50,9,Medio,450
...,...,...,...,...,...,...,...
96,user_097,43,Colombia,154,4,Medio,616
97,user_098,36,Espa√±a,94,8,Bajo,752
98,user_099,38,M√©xico,55,1,Bajo,55
99,user_100,42,Argentina,169,6,Medio,1014


In [None]:
# Eliminar una fila o un registro
df=df.drop(-1)
df

Unnamed: 0,Usuario,Edad,Pa√≠s,Tiempo_uso_min,Sesiones_dia,Satisfacci√≥n,Tiempo_X_Sesion
0,user_001,48,M√©xico,106,4,Medio,424
1,user_002,31,Per√∫,135,4,Medio,540
2,user_003,48,Argentina,151,2,Bajo,302
3,user_004,20,M√©xico,51,8,Alto,408
4,user_005,46,M√©xico,50,9,Medio,450
...,...,...,...,...,...,...,...
95,user_096,41,M√©xico,237,1,Bajo,237
96,user_097,43,Colombia,154,4,Medio,616
97,user_098,36,Espa√±a,94,8,Bajo,752
98,user_099,38,M√©xico,55,1,Bajo,55


# Modificaci√≥n de un dato



In [17]:
# Ubircar por indexacci√≥n
df.iloc[3, 2] = 'Per√∫'
df

Unnamed: 0,Usuario,Edad,Pa√≠s,Tiempo_uso_min,Sesiones_dia,Satisfacci√≥n,Tiempo_X_Sesion
0,user_001,48,M√©xico,106,4,Medio,424
1,user_002,31,Per√∫,135,4,Medio,540
2,user_003,48,Argentina,151,2,Bajo,302
3,user_004,20,Per√∫,51,8,Alto,408
4,user_005,46,M√©xico,50,9,Medio,450
...,...,...,...,...,...,...,...
96,user_097,43,Colombia,154,4,Medio,616
97,user_098,36,Espa√±a,94,8,Bajo,752
98,user_099,38,M√©xico,55,1,Bajo,55
99,user_100,42,Argentina,169,6,Medio,1014


In [18]:
# Ubicar por variable
df.loc[df['Usuario'] == 'user_003', 'Pa√≠s'] = 'Chile'
df

Unnamed: 0,Usuario,Edad,Pa√≠s,Tiempo_uso_min,Sesiones_dia,Satisfacci√≥n,Tiempo_X_Sesion
0,user_001,48,M√©xico,106,4,Medio,424
1,user_002,31,Per√∫,135,4,Medio,540
2,user_003,48,Chile,151,2,Bajo,302
3,user_004,20,Per√∫,51,8,Alto,408
4,user_005,46,M√©xico,50,9,Medio,450
...,...,...,...,...,...,...,...
96,user_097,43,Colombia,154,4,Medio,616
97,user_098,36,Espa√±a,94,8,Bajo,752
98,user_099,38,M√©xico,55,1,Bajo,55
99,user_100,42,Argentina,169,6,Medio,1014


### 4Ô∏è‚É£  map() y apply() en Pandas

#### üîπ  `map()`

üëâ Se usa sobre **una sola columna (Serie)**.  
Sirve para **reemplazar o transformar valores individuales** de forma r√°pida.



In [None]:
# Diccionario de mapeo
mapeo = {"Bajo": 1, "Medio": 2, "Alto": 3}

df["Satisfacci√≥n_num"] = df["Satisfacci√≥n"].map(mapeo)
df

Unnamed: 0,Usuario,Edad,Pa√≠s,Tiempo_uso_min,Sesiones_dia,Satisfacci√≥n,Tiempo_X_Sesion,Satisfacci√≥n_num
0,user_001,48,M√©xico,106,4,Medio,424,2
1,user_002,31,Per√∫,135,4,Medio,540,2
2,user_003,48,Argentina,151,2,Bajo,302,1
3,user_004,20,M√©xico,51,8,Alto,408,3
4,user_005,46,M√©xico,50,9,Medio,450,2
...,...,...,...,...,...,...,...,...
95,user_096,41,M√©xico,237,1,Bajo,237,1
96,user_097,43,Colombia,154,4,Medio,616,2
97,user_098,36,Espa√±a,94,8,Bajo,752,1
98,user_099,38,M√©xico,55,1,Bajo,55,1


In [None]:
# Funci√≥n simple para clasificar edad
def clasificar_edad(edad):
    if edad < 25:
        return "Joven"
    elif edad < 35:
        return "Adulto"
    else:
        return "Maduro"

# Aplicar map con funci√≥n

df['Grupo_edad'] = df['Edad'].map(clasificar_edad)
df.head()

Unnamed: 0,Usuario,Edad,Pa√≠s,Tiempo_uso_min,Sesiones_dia,Satisfacci√≥n,Tiempo_X_Sesion,Satisfacci√≥n_num,Grupo_edad
0,user_001,48,M√©xico,106,4,Medio,424,2,Maduro
1,user_002,31,Per√∫,135,4,Medio,540,2,Adulto
2,user_003,48,Argentina,151,2,Bajo,302,1,Maduro
3,user_004,20,M√©xico,51,8,Alto,408,3,Joven
4,user_005,46,M√©xico,50,9,Medio,450,2,Maduro


### Ejercicios 4: Crear una nueva variable con `map()` y `lambda`

Crea una nueva columna llamada **`N_Usuario`** que tome los valores de la columna **`Usuario`** (por ejemplo `"user_023"`) y extraiga **solo la parte num√©rica** usando el m√©todo `map()`  junto con una **funci√≥n an√≥nima (`lambda`)**.

In [None]:
df["N_Usuario"]=df["Usuario"].map(lambda x : int(x[-3:]))
df


Unnamed: 0,Usuario,Edad,Pa√≠s,Tiempo_uso_min,Sesiones_dia,Satisfacci√≥n,Tiempo_X_Sesion,Satisfacci√≥n_num,Grupo_edad,N_Usuario
0,user_001,48,M√©xico,106,4,Medio,424,2,Maduro,1
1,user_002,31,Per√∫,135,4,Medio,540,2,Adulto,2
2,user_003,48,Argentina,151,2,Bajo,302,1,Maduro,3
3,user_004,20,M√©xico,51,8,Alto,408,3,Joven,4
4,user_005,46,M√©xico,50,9,Medio,450,2,Maduro,5
...,...,...,...,...,...,...,...,...,...,...
95,user_096,41,M√©xico,237,1,Bajo,237,1,Maduro,96
96,user_097,43,Colombia,154,4,Medio,616,2,Maduro,97
97,user_098,36,Espa√±a,94,8,Bajo,752,1,Maduro,98
98,user_099,38,M√©xico,55,1,Bajo,55,1,Maduro,99


üîπ 2Ô∏è‚É£ apply()

üëâ Se usa sobre columnas completas o filas completas.
Permite aplicar funciones m√°s complejas, incluso que involucren varias columnas.

In [None]:
def clasificar_usuario(fila):
    if fila["Tiempo_uso_min"] > 180 and fila["Satisfacci√≥n"] == "Alto":
        return "Usuario Premium"
    elif fila["Tiempo_uso_min"] < 60:
        return "Usuario Ocasional"
    else:
        return "Usuario Regular"

df["Tipo_usuario"] = df.apply(clasificar_usuario, axis=1)
df.head()

Unnamed: 0,Usuario,Edad,Pa√≠s,Tiempo_uso_min,Sesiones_dia,Satisfacci√≥n,Tiempo_X_Sesion,Satisfacci√≥n_num,Grupo_edad,N_Usuario,Tipo_usuario
0,user_001,48,M√©xico,106,4,Medio,424,2,Maduro,1,Usuario Regular
1,user_002,31,Per√∫,135,4,Medio,540,2,Adulto,2,Usuario Regular
2,user_003,48,Argentina,151,2,Bajo,302,1,Maduro,3,Usuario Regular
3,user_004,20,M√©xico,51,8,Alto,408,3,Joven,4,Usuario Ocasional
4,user_005,46,M√©xico,50,9,Medio,450,2,Maduro,5,Usuario Ocasional


#  Taller:

Usa el DataFrame `df` definido en clase (con las columnas `Usuario`, `Edad`, `Pa√≠s`, `Tiempo_uso_min`, `Sesiones_dia`, `Satisfacci√≥n`).

## 1) Ejercicio de Filtrado

Halla la cantidad de personas que cumplen las siguientes condiciones:

a) Son de M√©xico y su tiempo de uso m√≠nimo es menor o igual a 70 minutos.  

b) Son menores de 60 a√±os pero mayores o iguales a 40, y tienen satisfacci√≥n alta.  

c) No son de Argentina ni de Espa√±a y sus sesiones diarias son de 3, 4, 5 o 6.  

d) Indica en qu√© pa√≠s vive la persona que tiene 42 a√±os, 8 sesiones al d√≠a y una satisfacci√≥n media.




## 2) Clasificar sesiones con una funci√≥n y `apply()`

### Enunciado
Crea una funci√≥n llamada **`clasificar_sesiones`** que reciba el n√∫mero de sesiones y retorne:
- `"Pocas sesiones"` si tiene **2 o menos** sesiones  
- `"Sesiones normales"` si tiene **entre 3 y 5** sesiones  
- `"Muchas sesiones"` si tiene **m√°s de 5** sesiones

Aplica esta funci√≥n a la columna `Sesiones_dia` usando `apply()` y guarda el resultado en una nueva columna llamada **`Categoria_sesiones`**.


## 3) Crear perfil de usuario por fila con `apply(axis=1)`


Crea una funci√≥n llamada **`crear_perfil`** que reciba una **fila completa** del DataFrame y retorne un string que describa el perfil del usuario seg√∫n las siguientes reglas:

**Edad:**
- Menor de 25 ‚Üí agregar `"Joven"`  
- Mayor de 40 ‚Üí agregar `"Experimentado"`

**Tiempo de uso:**
- M√°s de 120 minutos diarios ‚Üí agregar `"Gran consumidor"`

**Satisfacci√≥n:**
- `"Alto"` ‚Üí agregar `"Satisfecho"`  
- `"Bajo"` ‚Üí agregar `"Insatisfecho"`

Si no aplica ninguna caracter√≠stica especial, retornar `"Usuario promedio"`.

Aplica esta funci√≥n al DataFrame usando `apply()` con `axis=1` y guarda el resultado en una nueva columna llamada **`Perfil_usuario`**.
