<a href="https://colab.research.google.com/github/segam77/sgmautomatizacion/blob/main/Ejemplo_actividad_Python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 🏋️‍♀️ Análisis de Datos de Clases en un Gimnasio

**Contexto**
Un gimnasio con varias sucursales ha compartido tres bases de datos:  
- asistencias.csv: incluye los asistentes registrados a distintas clases (yoga, spinning, HIIT, etc.) por sucursal, el precio por clase y el total de asistentes.  
- capacidad.csv: indica la capacidad máxima de cada clase en cada sucursal.  
- satisfaccion.csv: muestra la puntuación promedio de satisfacción de los usuarios en cada sucursal.
-
La empresa quiere evaluar el rendimiento económico, la ocupación de las clases y la percepción del servicio.


## 🧠 Tareas a realizar

1. Carga los tres archivos en tu entorno de trabajo (asistencias.csv, capacidad.csv y satisfaccion.csv).
2. Procesamiento de datos:
- Realiza una inspección inicial de los datos con print()
- Verifica que no haya valores nulos con isnull().sum())
- Limpiar los datos eliminando filas con valores nulos con .dropna(inplace=True)
- Asegúrate que los DataFrames tengan la estructura correcta y estén listos para su análisis, utilizando .info()
3.  Análisis exploratorio de datos:
- En asistencias.csv, crea una nueva columna llamada Ingreso que se obtenga multiplicando los asistentes por el precio por clase (Ingreso = Asistentes * Precio_Clase).
- Calcula el ingreso total por sucursal.
- Calcula el número total de asistentes por sucursal.
- Une asistencias.csv con capacidad.csv para poder calcular la rotación de cada clase: Rotacion = Asistentes / Capacidad_Maxima
- Identifica las clases con rotación baja (por ejemplo, inferior al 10%) y analiza si se repiten en ciertas sucursales o tipos de clase.
- A partir del archivo satisfaccion.csv, identifica las sucursales con puntuaciones de satisfacción inferiores a 60 puntos.
- Calcula la mediana y la desviación estándar del número total de asistentes por sucursal.
- Aplica el método .describe() para describir la variable original de "Asistentes".

**💬 Preguntas para el análisis**  
- ¿Qué clases o sucursales generan mayores ingresos?  
- ¿Existen clases que sistemáticamente tienen baja rotación?  
- ¿Las sucursales con menor satisfacción coinciden con las de menor ocupación o menor ingreso?  
- ¿Qué sugerencias podrías dar al equipo de operaciones del gimnasio?

**Entrega**  
- Asegúrate de que el código esté bien comentado y cada sección claramente delimitada.  
- El archivo entregable debe ser un Jupyter Notebook con extensión .ipynb.
- Si usas Visual Studio Code en la actividad, las rutas de los archivos deben ser absolutas, como se muestra a continuación:
/workspace/ventas.csv
/workspace/inventarios.csv
/workspace/satisfaccion.csv


## Importación y preparación

In [None]:
# 1. Importar los datos y las librerías que vamos a utilizar
import pandas as pd
import numpy as np

# Cargar datos desde CSV
asistencias = pd.read_csv("workspace/asistencias.csv")
capacidad = pd.read_csv("workspace/capacidad.csv")
satisfaccion = pd.read_csv("workspace/satisfaccion.csv")

In [None]:
# 2. Preparación e inspección inicial

# Visualizar los DataFrames para asegurar que se cargaron correctamente
print('Asistencia \n', asistencias)

print('Capacidad \n', capacidad)

print('Satisfacción \n', satisfaccion)


Asistencia 
    ID_Sucursal     Clase  Asistentes  Precio_Clase Fecha_Clase
0            1      Yoga          20            15  2023-01-05
1            1  Spinning          18            18  2023-01-06
2            2      Yoga          22            15  2023-01-07
3            2     Zumba          30            12  2023-01-08
4            3      Yoga          15            15  2023-01-09
5            3  Spinning          28            18  2023-01-10
6            4     Zumba          35            12  2023-01-11
7            4      Yoga          20            15  2023-01-12
8            5  Spinning          25            18  2023-01-13
9            5     Zumba          27            12  2023-01-14
Capacidad 
    ID_Sucursal     Clase  Capacidad_Maxima Fecha_Actualización
0            1      Yoga                40          2023-01-05
1            1  Spinning                30          2023-01-06
2            2      Yoga                35          2023-01-07
3            2     Zumba      

In [None]:

# Verificar que no haya valores nulos
print(asistencias.isnull().sum())
print(capacidad.isnull().sum())
print(satisfaccion.isnull().sum())


ID_Sucursal     0
Clase           0
Asistentes      0
Precio_Clase    0
Fecha_Clase     0
dtype: int64
ID_Sucursal            0
Clase                  0
Capacidad_Maxima       0
Fecha_Actualización    0
dtype: int64
ID_Sucursal              0
Satisfacción_Promedio    0
Fecha_Evaluación         0
dtype: int64


In [None]:
# Limpieza de datos

asistencias.dropna(inplace=True)
capacidad.dropna(inplace=True)
satisfaccion.dropna(inplace=True)


In [None]:

# Asegurarse de que los DataFrames tengan la estructura correcta:

# Verificar las estructuras
print('Asistencias \n', asistencias.info())
print('Capacidad \n', capacidad.info())
print('Satisfacción \n', satisfaccion.info())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   ID_Sucursal   10 non-null     int64 
 1   Clase         10 non-null     object
 2   Asistentes    10 non-null     int64 
 3   Precio_Clase  10 non-null     int64 
 4   Fecha_Clase   10 non-null     object
dtypes: int64(3), object(2)
memory usage: 532.0+ bytes
Asistencias 
 None
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 4 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   ID_Sucursal          10 non-null     int64 
 1   Clase                10 non-null     object
 2   Capacidad_Maxima     10 non-null     int64 
 3   Fecha_Actualización  10 non-null     object
dtypes: int64(2), object(2)
memory usage: 452.0+ bytes
Capacidad 
 None
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 t

# Análisis exploratorio

Calcula:

- 1. Ingresos por clase: Asistentes * Precio_Clase

- 2. Ingresos totales por sucursal: Agrupar los Ingresos por Sucursal (df.group.by), y sumar (['Ingreso'].sum()).

NOTA: al final incluir .reset_index()

- 3. Asistencias totales por sucursal: ídem anterior.

- 4. Rotación de clase: Asistentes / Capacidad_Maxima

NOTA: Primero debemos unir las bases de datos de asistencias y capacidad.
Asistentes es una información de la base de datos de asistencias, y Capacidad_Máxima se encuentra en la de capacidad.
rotacion = asistencias.merge(capacidad, on=["ID_Sucursal", "Clase"])

Luego, calculamos Asistentes / Capacidad_Maxima

- 5. Sucursales con rotación baja (<10%)

- 6. Satisfacción baja (<60%)

- 7. Mediana y desviación estándar de asistentes totales (el sumado por sucursual)

- 8. Describir la variable original de asistentes.



In [None]:
# 💰1: Calcular ingresos por clase (Asistentes * Precio_Clase)

asistencias["Ingreso"] = asistencias["Asistentes"] * asistencias["Precio_Clase"]

asistencias.head()

Unnamed: 0,ID_Sucursal,Clase,Asistentes,Precio_Clase,Fecha_Clase,Ingreso
0,1,Yoga,20,15,2023-01-05,300
1,1,Spinning,18,18,2023-01-06,324
2,2,Yoga,22,15,2023-01-07,330
3,2,Zumba,30,12,2023-01-08,360
4,3,Yoga,15,15,2023-01-09,225


In [None]:
# 🧾 2: Ingresos totales por sucursal

ingresos_totales = asistencias.groupby("ID_Sucursal")["Ingreso"].sum().reset_index()


ingresos_totales


Unnamed: 0,ID_Sucursal,Ingreso
0,1,624
1,2,690
2,3,729
3,4,720
4,5,774


In [None]:
# 👥 3: Asistencias totales por sucursal

asistencias_totales = asistencias.groupby("ID_Sucursal")["Asistentes"].sum().reset_index()

asistencias_totales

Unnamed: 0,ID_Sucursal,Asistentes
0,1,38
1,2,52
2,3,43
3,4,55
4,5,52


In [None]:
# 🔗 4: Combinar con capacidad y calcular rotación (Asistentes / Capacidad)
# Primero unimos por ID_Sucursal y Clase:

asistencia_capacidad = asistencias.merge(capacidad, on=["ID_Sucursal", "Clase"])

asistencia_capacidad["Rotacion"] = asistencia_capacidad["Asistentes"] / asistencia_capacidad["Capacidad_Maxima"]

asistencia_capacidad

Unnamed: 0,ID_Sucursal,Clase,Asistentes,Precio_Clase,Fecha_Clase,Ingreso,Capacidad_Maxima,Fecha_Actualización,Rotacion
0,1,Yoga,20,15,2023-01-05,300,40,2023-01-05,0.5
1,1,Spinning,18,18,2023-01-06,324,30,2023-01-06,0.6
2,2,Yoga,22,15,2023-01-07,330,35,2023-01-07,0.628571
3,2,Zumba,30,12,2023-01-08,360,50,2023-01-08,0.6
4,3,Yoga,15,15,2023-01-09,225,25,2023-01-09,0.6
5,3,Spinning,28,18,2023-01-10,504,40,2023-01-10,0.7
6,4,Zumba,35,12,2023-01-11,420,60,2023-01-11,0.583333
7,4,Yoga,20,15,2023-01-12,300,30,2023-01-12,0.666667
8,5,Spinning,25,18,2023-01-13,450,35,2023-01-13,0.714286
9,5,Zumba,27,12,2023-01-14,324,55,2023-01-14,0.490909


In [None]:
# ⚠️ 5: Sucursales con rotación baja (por ejemplo, < 0.10)

baja_rotacion = asistencia_capacidad[asistencia_capacidad["Rotacion"] < 0.10]

baja_rotacion

#💡 En estos casos, la clase podría estar infrautilizada.

Unnamed: 0,ID_Sucursal,Clase,Asistentes,Precio_Clase,Fecha_Clase,Ingreso,Capacidad_Maxima,Fecha_Actualización,Rotacion


In [None]:
# 😐 6: Sucursales con satisfacción promedio baja (por ejemplo, < 60)

satisfaccion_baja = satisfaccion[satisfaccion["Satisfacción_Promedio"] < 60]

satisfaccion_baja

Unnamed: 0,ID_Sucursal,Satisfacción_Promedio,Fecha_Evaluación
4,5,52,2023-01-15


In [None]:
# 📊 7: Mediana y desviación estándar de asistentes totales
mediana_asist = asistencias_totales["Asistentes"].median()
desv_asist = asistencias_totales["Asistentes"].std()

print(f"Mediana de asistentes totales: {mediana_asist}")
print(f"Desviación estándar: {desv_asist}")

Mediana de asistentes totales: 52.0
Desviación estándar: 7.176350047203662


In [None]:

# 8. Describir la variable original de asistentes

resumen_asistencias = asistencias['Asistentes'].describe()

print(resumen_asistencias)

count    10.000000
mean     24.000000
std       6.110101
min      15.000000
25%      20.000000
50%      23.500000
75%      27.750000
max      35.000000
Name: Asistentes, dtype: float64
