# Introducción a Pandas

## Objetivo:

Explorar las funciones básicas de la biblioteca Pandas en Python para cargar, visualizar y manipular estructuras de datos tipo DataFrame.

*Nota: Este laboratorio está diseñado para desarrollar razonamiento estadístico. Evita el uso de herramientas de IA para responder las preguntas a menos que esto sea explícitamente sugerido* 🤖. *En su lugar, enfócate en aplicar los conceptos revisados.*

## Actividad 1

Antes de comenzar a trabajar con bases de datos más complejas, aprenderás a crear tus propios datos dentro de Python usando Pandas. Esto te permitirá entender mejor cómo funciona un DataFrame y practicar operaciones básicas de conteo y selección.

1. Crea un DataFrame con los siguientes datos de estudiantes:

<center>

|Nombre| Edad (años)| Carrera|
|------|:-----------:|--------|
|Rodrigo | 21 | Informática|
|Pedro | 23 | Telecomunicaciones|
|Ignacia | 20 | Informática|
|Luis | 24 | Informática|
|Valentina | 22 | Analista|
|Carlos | 20 | Telecomunicaciones|
|Martina | 22 | Analista|
|Javiera | 21 | Telecomunicaciones|
|Camilo | 20 | Informática|
|Bastián | 20 | Informática|

</center>

Luego, muestra en la consola el contenido completo del DataFrame.

In [22]:
#Primero importamos la biblioteca Pandas que nos permitirá trabajar con DataFrames
import pandas as pd

In [1]:
#Creamos un DataFrame con la información de la tabla
tabla_1 = pd.DataFrame({
    'Nombre': ['Rodrigo', 'Pedro', 'Ignacia', 'Luis', 'Valentina', 'Carlos',
               'Martina', 'Javiera', 'Camilo', 'Bastián'],
    'Edad (años)': [21, 23, 20, 24, 22, 20, 22, 21, 20, 20],
    'Carrera': ['Informática', 'Telecomunicaciones', 'Informática', 'Informática', 'Analista',
                'Telecomunicaciones', 'Analista', 'Telecomunicaciones', 'Informática', 'Informática']
})

#Mostramos el DataFrame completo
tabla_1

Unnamed: 0,Nombre,Edad (años),Carrera
0,Rodrigo,21,Informática
1,Pedro,23,Telecomunicaciones
2,Ignacia,20,Informática
3,Luis,24,Informática
4,Valentina,22,Analista
5,Carlos,20,Telecomunicaciones
6,Martina,22,Analista
7,Javiera,21,Telecomunicaciones
8,Camilo,20,Informática
9,Bastián,20,Informática


2. Muestra únicamente la columna "Carrera" del DataFrame creado en el inciso anterior.

In [2]:
#Mostramos solo la columna "Carrera" del DataFrame
tabla_1['Carrera']

Unnamed: 0,Carrera
0,Informática
1,Telecomunicaciones
2,Informática
3,Informática
4,Analista
5,Telecomunicaciones
6,Analista
7,Telecomunicaciones
8,Informática
9,Informática


3. ¿Cuántos estudiantes hay en cada carrera? Utiliza alguna función de Python para responder.

In [3]:
#Contamos cuántas veces aparece cada carrera en la columna "Carrera"
cant_estudiantes = tabla_1['Carrera'].value_counts()

#Mostramos el resultado de aplicar la función value_counts()
cant_estudiantes

Unnamed: 0_level_0,count
Carrera,Unnamed: 1_level_1
Informática,5
Telecomunicaciones,3
Analista,2


De los estudiantes indicados en la tabla inicial, 5 pertenecen a la carrera de Informática, 3 a Telecomunicaciones y solo 2 a Analista.

4. ¿Cuál es la edad más común entre los estudiantes?

In [4]:
#Contamos cuántas veces aparece cada edad en la columna "Edad (años)"
edad_comun = tabla_1['Edad (años)'].value_counts()

#Mostramos el resultado de aplicar la función value_counts()
edad_comun

Unnamed: 0_level_0,count
Edad (años),Unnamed: 1_level_1
20,4
21,2
22,2
23,1
24,1


La edad más común de este grupo de estudiantes es 20 años, con 4 personas.

5. Se espera que estos estudiantes egresen de su carrera en aproximadamente 3 años más. Agrega una nueva columna al DataFrame llamada "Edad al egresar" que contenga la edad que tendrá cada estudiante al finalizar sus estudios. Luego, muestra en la consola el DataFrame actualizado.

In [5]:
#Agregamos una nueva columna al DataFrame inicial con la suma indicada
tabla_1['Edad al egresar'] =  tabla_1['Edad (años)'] + 3

#Mostramos el DataFrame actualizado
tabla_1

Unnamed: 0,Nombre,Edad (años),Carrera,Edad al egresar
0,Rodrigo,21,Informática,24
1,Pedro,23,Telecomunicaciones,26
2,Ignacia,20,Informática,23
3,Luis,24,Informática,27
4,Valentina,22,Analista,25
5,Carlos,20,Telecomunicaciones,23
6,Martina,22,Analista,25
7,Javiera,21,Telecomunicaciones,24
8,Camilo,20,Informática,23
9,Bastián,20,Informática,23


## Actividad 2

Eres parte del equipo de soporte de datos de una empresa de telecomunicaciones. Te han pedido cargar una base de datos de clientes y realizar una primera revisión para comprender su estructura y conocer su contenido.

Descarga la base de datos **<a href="https://docs.google.com/spreadsheets/d/1v6euDfqECe1HTJz0yFUrn7mmrt-rG9gG/export?format=xlsx
">aquí</a>** y sigue las instrucciones detalladas a continuación:

1. Sube la base de datos al entorno "Archivos" de Google Colab (ícono de carpeta en la barra lateral izquierda). Luego, cárgala en un DataFrame llamado `df_1`.

$\hspace{1 cm}$ *Nota: Recuerda que para cargar la base de datos a un DF debes utilizar la biblioteca Pandas de Python*.

In [6]:
import pandas as pd
df_1 =  pd.read_excel('Base0.xlsx')

2. Explora el contenido del DataFrame mostrando las primeras y últimas 10 filas.

In [7]:
#Primeras 10 filas
df_1.head(10)

Unnamed: 0,ID,Género,Ciudadano mayor,Pareja,Dependientes,Antigüedad,Servicio telefónico,Líneas múltiples,Servicio de Internet,Protección contra Malware,Protección del dispositivo,Soporte técnico,Televisión en streaming,Películas en streaming,Contrato,Facturación sin papel,Método de pago,Cargos mensuales (dólares),Cargos totales (dólares),Deserción Cliente
0,7590-VHVEG,Femenino,0,Sí,No,1,No,No hay servicio telefónico,DSL,No,No,No,No,No,Mes a mes,Sí,Cheque electrónico,29.85,29.85,No
1,5575-GNVDE,Masculino,0,No,No,34,Sí,No,DSL,Sí,Sí,No,No,No,Un año,No,Cheque enviado por correo,56.95,1889.5,No
2,3668-QPYBK,Masculino,0,No,No,2,Sí,No,DSL,Sí,No,No,No,No,Mes a mes,Sí,Cheque enviado por correo,53.85,108.15,Sí
3,7795-CFOCW,Masculino,0,No,No,45,No,No hay servicio telefónico,DSL,Sí,Sí,Sí,No,No,Un año,No,Transferencia bancaria (automática),42.3,1840.75,No
4,9237-HQITU,Femenino,0,No,No,2,Sí,No,Fibra óptica,No,No,No,No,No,Mes a mes,Sí,Cheque electrónico,70.7,151.65,Sí
5,9305-CDSKC,Femenino,0,No,No,8,Sí,Sí,Fibra óptica,No,Sí,No,Sí,Sí,Mes a mes,Sí,Cheque electrónico,99.65,820.5,Sí
6,1452-KIOVK,Masculino,0,No,Sí,22,Sí,Sí,Fibra óptica,No,No,No,Sí,No,Mes a mes,Sí,Tarjeta de crédito (automática),89.1,1949.4,No
7,6713-OKOMC,Femenino,0,No,No,10,No,No hay servicio telefónico,DSL,Sí,No,No,No,No,Mes a mes,No,Cheque enviado por correo,29.75,301.9,No
8,7892-POOKP,Femenino,0,Sí,No,28,Sí,Sí,Fibra óptica,No,Sí,Sí,Sí,Sí,Mes a mes,Sí,Cheque electrónico,104.8,3046.05,Sí
9,6388-TABGU,Masculino,0,No,Sí,62,Sí,No,DSL,Sí,No,No,No,No,Un año,No,Transferencia bancaria (automática),56.15,3487.95,No


In [8]:
#Últimas 10 filas
df_1.tail(10)

Unnamed: 0,ID,Género,Ciudadano mayor,Pareja,Dependientes,Antigüedad,Servicio telefónico,Líneas múltiples,Servicio de Internet,Protección contra Malware,Protección del dispositivo,Soporte técnico,Televisión en streaming,Películas en streaming,Contrato,Facturación sin papel,Método de pago,Cargos mensuales (dólares),Cargos totales (dólares),Deserción Cliente
4089,0829-XXPLX,Femenino,0,No,No,20,Sí,No,Fibra óptica,Sí,Sí,No,Sí,No,Mes a mes,Sí,Transferencia bancaria (automática),89.4,1871.15,No
4090,9974-JFBHQ,Masculino,0,No,Sí,64,Sí,No,Fibra óptica,No,No,Sí,Sí,Sí,Mes a mes,Sí,Tarjeta de crédito (automática),99.15,6171.2,No
4091,5356-RHIPP,Masculino,0,No,No,1,Sí,No,No,Sin servicio de internet,Sin servicio de internet,Sin servicio de internet,Sin servicio de internet,Sin servicio de internet,Mes a mes,Sí,Cheque enviado por correo,20.2,20.2,Sí
4092,6624-JDRDS,Femenino,0,No,No,6,No,No hay servicio telefónico,DSL,Sí,No,No,No,No,Mes a mes,No,Transferencia bancaria (automática),29.45,161.45,No
4093,0608-JDVEC,Masculino,0,Sí,No,50,Sí,No,No,Sin servicio de internet,Sin servicio de internet,Sin servicio de internet,Sin servicio de internet,Sin servicio de internet,Dos años,No,Cheque electrónico,19.8,1013.2,No
4094,9780-FKVVF,Masculino,0,No,No,6,Sí,No,DSL,Sí,No,No,No,Sí,Mes a mes,Sí,Transferencia bancaria (automática),59.15,336.7,No
4095,1919-RTPQD,Masculino,0,Sí,Sí,7,Sí,No,DSL,No,No,No,No,No,Mes a mes,No,Cheque electrónico,44.75,333.65,No
4096,5214-NLTIT,Masculino,0,Sí,Sí,72,Sí,Sí,Fibra óptica,No,Sí,No,No,Sí,Dos años,Sí,Tarjeta de crédito (automática),90.8,6511.8,No
4097,3345-PBBFH,Masculino,0,Sí,No,8,Sí,No,DSL,No,No,No,No,No,Mes a mes,Sí,Transferencia bancaria (automática),49.55,393.45,No
4098,5055-BRMNE,Femenino,0,Sí,Sí,67,Sí,Sí,Fibra óptica,Sí,No,Sí,Sí,Sí,Dos años,No,Tarjeta de crédito (automática),106.7,7009.5,No


3. ¿Cuántas filas y columnas tiene la base de datos? Responde utilizando solo una línea de código.

In [9]:
#Para conocer la dimensión del DataFrame usaremos la función shape
df_1.shape

(4099, 20)

La base de datos tiene 4099 filas y 20 columnas.

4. ¿Qué tipo de objeto es `df_1`? Justifica utilizando una función de Python.

In [10]:
type(df_1)

Tal como indica la función `type()`, el objeto `df_1` es un DataFrame, esto quiere decir que es una tabla de datos organizada en filas y columnas.

*Nota: Google Colab puede mostrar información adicional del objeto analizado con `type()`. En este caso, además del tipo de objeto,  muestra su definición y descripción técnica.*

5. Usa la función `info()` para examinar el contenido  del DataFrame. ¿Qué tipo de datos contiene cada columna?

In [11]:
df_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4099 entries, 0 to 4098
Data columns (total 20 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   ID                          4099 non-null   object 
 1   Género                      4099 non-null   object 
 2   Ciudadano mayor             4099 non-null   int64  
 3   Pareja                      4099 non-null   object 
 4   Dependientes                4099 non-null   object 
 5   Antigüedad                  4099 non-null   int64  
 6   Servicio telefónico         4099 non-null   object 
 7   Líneas múltiples            4099 non-null   object 
 8   Servicio de Internet        4099 non-null   object 
 9   Protección contra Malware   4099 non-null   object 
 10  Protección del dispositivo  4099 non-null   object 
 11  Soporte técnico             4099 non-null   object 
 12  Televisión en streaming     4099 non-null   object 
 13  Películas en streaming      4099 

El DataFrame contiene 2 columnas con datos tipo `float` (números decimales), 2 columnas con datos tipo `int` (números enteros) y 16 columnas con datos tipo  `object`, que generalmente corresponden a datos que almacenan texto.

6. Cambia el tipo de dato de la columna "Antigüedad" a `float`. Para lograrlo, deberás reasignar esta columna con el nuevo tipo de dato. Luego, muestra las primeras 3 filas del DataFrame.

In [12]:
#Accedemos a la columna "Antigüedad" y la reasignamos con el cambio utilizando la
#función astype()
df_1['Antigüedad'] = df_1['Antigüedad'].astype(float)

#Mostramos las primeras 3 filas
df_1.head(3)

Unnamed: 0,ID,Género,Ciudadano mayor,Pareja,Dependientes,Antigüedad,Servicio telefónico,Líneas múltiples,Servicio de Internet,Protección contra Malware,Protección del dispositivo,Soporte técnico,Televisión en streaming,Películas en streaming,Contrato,Facturación sin papel,Método de pago,Cargos mensuales (dólares),Cargos totales (dólares),Deserción Cliente
0,7590-VHVEG,Femenino,0,Sí,No,1.0,No,No hay servicio telefónico,DSL,No,No,No,No,No,Mes a mes,Sí,Cheque electrónico,29.85,29.85,No
1,5575-GNVDE,Masculino,0,No,No,34.0,Sí,No,DSL,Sí,Sí,No,No,No,Un año,No,Cheque enviado por correo,56.95,1889.5,No
2,3668-QPYBK,Masculino,0,No,No,2.0,Sí,No,DSL,Sí,No,No,No,No,Mes a mes,Sí,Cheque enviado por correo,53.85,108.15,Sí


7. Verifica que la columna "Antigüedad" haya cambiado correctamente su tipo de dato a `float`.

In [13]:
#Verificamos el cambio realizado con la función info()
df_1['Antigüedad'].info()

<class 'pandas.core.series.Series'>
RangeIndex: 4099 entries, 0 to 4098
Series name: Antigüedad
Non-Null Count  Dtype  
--------------  -----  
4099 non-null   float64
dtypes: float64(1)
memory usage: 32.2 KB


8. ¿Te parece correcto cambiar el tipo de dato de la columna "Cargos mensuales (dólares)" a tipo `int`? Justifica tu respuesta.

No me parece correcto cambiar el tipo de dato de la columna "Cargos mensuales (dólares)", ya que esta columna representa montos de dinero expresados con valores decimales. Al realizar el cambio, se perdería precisión, lo que afectaría los análisis posteriores.

## Actividad 3

La empresa de telecomunicaciones te ha pedido que analices ciertas variables clave de sus clientes. Necesitas extraer columnas específicas, aplicar filtros básicos y comenzar a preparar los datos para futuros análisis más avanzados.

Puedes descargar la base de datos **<a href="https://docs.google.com/spreadsheets/d/1v6euDfqECe1HTJz0yFUrn7mmrt-rG9gG/export?format=xlsx
">aquí</a>** para responder las siguientes preguntas:

1. Muestra las cuatro primeras filas de las columnas "Género", "Antigüedad" y "Deserción Cliente" del DataFrame.

In [14]:
import pandas as pd
df_1 = pd.read_excel('Base0.xlsx')

In [15]:
#Vamos a mostrar solo las columnas solicitadas
df_1[['Género', 'Antigüedad', 'Deserción Cliente']].head(4)

Unnamed: 0,Género,Antigüedad,Deserción Cliente
0,Femenino,1,No
1,Masculino,34,No
2,Masculino,2,Sí
3,Masculino,45,No


2. ¿Cuántos clientes de la base de datos pertenecen al género masculino y cuántos al femenino?

In [16]:
#Vamos a contar la cantidad de hombres y mujeres de la base de datos.
#Para esto, agrupamos con la función groupby por los valores de la columna "Género"
#y luego usamos esa misma columna para contar cuántos registros hay en cada grupo.
genero =  df_1.groupby('Género')['Género'].count()

#Mostramos la variable "genero"
genero

Unnamed: 0_level_0,Género
Género,Unnamed: 1_level_1
Femenino,2016
Masculino,2083


En la base de datos se registran 2.016 clientes de género femenino y 2.083 de género masculino.

3. Calcula el total que un cliente habría pagado si su cargo mensual se hubiera mantenido constante durante todo el tiempo en la empresa. Para esto, agrega una nueva columna al DataFrame llamada "Cargos acumulados (dólares)", que sea el resultado de multiplicar "Cargos mensuales" por "Antigüedad". Luego, muestra las primeras 5 filas del DataFrame para verificar que la nueva columna fue agregada correctamente.

In [17]:
#Agregamos la nueva columna
df_1['Cargos acumulados (dólares)'] = df_1['Cargos mensuales (dólares)'] * df_1['Antigüedad']

#Mostramos las primeras 5 filas de DataFrame
df_1.head()

Unnamed: 0,ID,Género,Ciudadano mayor,Pareja,Dependientes,Antigüedad,Servicio telefónico,Líneas múltiples,Servicio de Internet,Protección contra Malware,...,Soporte técnico,Televisión en streaming,Películas en streaming,Contrato,Facturación sin papel,Método de pago,Cargos mensuales (dólares),Cargos totales (dólares),Deserción Cliente,Cargos acumulados (dólares)
0,7590-VHVEG,Femenino,0,Sí,No,1,No,No hay servicio telefónico,DSL,No,...,No,No,No,Mes a mes,Sí,Cheque electrónico,29.85,29.85,No,29.85
1,5575-GNVDE,Masculino,0,No,No,34,Sí,No,DSL,Sí,...,No,No,No,Un año,No,Cheque enviado por correo,56.95,1889.5,No,1936.3
2,3668-QPYBK,Masculino,0,No,No,2,Sí,No,DSL,Sí,...,No,No,No,Mes a mes,Sí,Cheque enviado por correo,53.85,108.15,Sí,107.7
3,7795-CFOCW,Masculino,0,No,No,45,No,No hay servicio telefónico,DSL,Sí,...,Sí,No,No,Un año,No,Transferencia bancaria (automática),42.3,1840.75,No,1903.5
4,9237-HQITU,Femenino,0,No,No,2,Sí,No,Fibra óptica,No,...,No,No,No,Mes a mes,Sí,Cheque electrónico,70.7,151.65,Sí,141.4


4. Crea un nuevo DataFrame que contenga la información solo de los clientes cuyo "Servicio de Internet" es Fibra óptica. ¿Cuántas filas tiene este nuevo DataFrame? Muestra sus primeras 5 filas para comprobar que el filtro se aplicó correctamente.

In [18]:
#Vamos a filtrar el DataFrame y guardar el contenido en una nueva variable llamada df_filtrado.
#Para esto, seleccionaremos todas las filas de df_1 cuyo valor de
#"Servicio de Internet" sea igual a "Fibra óptica"
df_filtrado = df_1[df_1['Servicio de Internet'] == 'Fibra óptica']

#Ahora calculamos la cantidad de filas de este nuevo DataFrame
cant_filas = df_filtrado.shape[0]

print(f'Cantidad de filas: {cant_filas}.')

#Mostramos las primeras 5 filas del DataFrame filtrado
df_filtrado.head()

Cantidad de filas: 1804.


Unnamed: 0,ID,Género,Ciudadano mayor,Pareja,Dependientes,Antigüedad,Servicio telefónico,Líneas múltiples,Servicio de Internet,Protección contra Malware,...,Soporte técnico,Televisión en streaming,Películas en streaming,Contrato,Facturación sin papel,Método de pago,Cargos mensuales (dólares),Cargos totales (dólares),Deserción Cliente,Cargos acumulados (dólares)
4,9237-HQITU,Femenino,0,No,No,2,Sí,No,Fibra óptica,No,...,No,No,No,Mes a mes,Sí,Cheque electrónico,70.7,151.65,Sí,141.4
5,9305-CDSKC,Femenino,0,No,No,8,Sí,Sí,Fibra óptica,No,...,No,Sí,Sí,Mes a mes,Sí,Cheque electrónico,99.65,820.5,Sí,797.2
6,1452-KIOVK,Masculino,0,No,Sí,22,Sí,Sí,Fibra óptica,No,...,No,Sí,No,Mes a mes,Sí,Tarjeta de crédito (automática),89.1,1949.4,No,1960.2
8,7892-POOKP,Femenino,0,Sí,No,28,Sí,Sí,Fibra óptica,No,...,Sí,Sí,Sí,Mes a mes,Sí,Cheque electrónico,104.8,3046.05,Sí,2934.4
12,8091-TTVAX,Masculino,0,Sí,No,58,Sí,Sí,Fibra óptica,No,...,No,Sí,Sí,Un año,No,Tarjeta de crédito (automática),100.35,5681.1,No,5820.3


El nuevo DataFrame contiene solo a los clientes cuyo servicio de internet es "Fibra óptica", por esto tiene menos filas que el DataFrame original, 1804 comparado con 4099<sup>1</sup>.

Al aplicar el filtro, los índices que se mantienen son los mismos que el DataFrame original `df_1`, por eso no son correlativos ni comienzan desde cero. Esto permite mantener trazabilidad con la fuente original de los datos.

Si deseas que el nuevo DataFrame tenga índices consecutivos desde cero, se puede usar la función `reset_index(drop = True)`.


<br>


<small><sup>1</sup> *Este valor se obtuvo en la Actividad 2, inciso 3.*</small>

5. ¿Cuántos clientes con fibra óptica abandonaron la empresa? Muestra las primeras 5 filas del nuevo DataFrame para comprobar que el filtro se aplicó correctamente.

In [19]:
#Para responder la pregunta, se debe trabajar con el DataFrame filtrado del inciso anterior y filtrarlo nuevamente.
#Esta vez, seleccionamos todas las filas donde el valor de Deserción Cliente sea Sí.
df_filtrado2 = df_filtrado[df_filtrado['Deserción Cliente'] == 'Sí']

#Calculamos la cantidad de filas de este nuevo DataFrame
desercion_si = df_filtrado2.shape[0]

print(f'Cantidad de filas: {desercion_si}')

#Mostramos las primeras cinco filas
df_filtrado2.head()

Cantidad de filas: 760


Unnamed: 0,ID,Género,Ciudadano mayor,Pareja,Dependientes,Antigüedad,Servicio telefónico,Líneas múltiples,Servicio de Internet,Protección contra Malware,...,Soporte técnico,Televisión en streaming,Películas en streaming,Contrato,Facturación sin papel,Método de pago,Cargos mensuales (dólares),Cargos totales (dólares),Deserción Cliente,Cargos acumulados (dólares)
4,9237-HQITU,Femenino,0,No,No,2,Sí,No,Fibra óptica,No,...,No,No,No,Mes a mes,Sí,Cheque electrónico,70.7,151.65,Sí,141.4
5,9305-CDSKC,Femenino,0,No,No,8,Sí,Sí,Fibra óptica,No,...,No,Sí,Sí,Mes a mes,Sí,Cheque electrónico,99.65,820.5,Sí,797.2
8,7892-POOKP,Femenino,0,Sí,No,28,Sí,Sí,Fibra óptica,No,...,Sí,Sí,Sí,Mes a mes,Sí,Cheque electrónico,104.8,3046.05,Sí,2934.4
13,0280-XJGEX,Masculino,0,No,No,49,Sí,Sí,Fibra óptica,No,...,No,Sí,Sí,Mes a mes,Sí,Transferencia bancaria (automática),103.7,5036.3,Sí,5081.3
26,6467-CHFZW,Masculino,0,Sí,Sí,47,Sí,Sí,Fibra óptica,No,...,No,Sí,Sí,Mes a mes,Sí,Cheque electrónico,99.35,4749.15,Sí,4669.45


De los clientes con fibra óptica, 760 abandonaron la empresa.

6. 🤖 Utiliza la IA de Google Colab para realizar el código que permita responder esta pregunta:

Calcula el promedio de "Cargos mensuales" de los clientes que cumplen estas tres condiciones al mismo tiempo:

* Tienen servicio de internet por Fibra óptica.
* Usan protección contra Malware.
* Continúan en la empresa.

Luego, realiza el mismo cálculo para los clientes que cumplen estas otras tres condiciones:
* Tienen servicio de internet por DSL.
* No usan protección contra Malware.
* Han abandonado la empresa.

Finalmente, compara ambos promedios y responde: ¿Cuál grupo paga más en promedio por los cargos mensuales? ¿ A qué crees que se podría deber esa diferencia?

In [20]:
# prompt: Calcula el promedio de Cargos mensuales (dólares) de clientes cumplen estas tres condiciones a la vez: tienen servicio de internet por Fibra óptica, usan protección contra Malware y continúan en la empresa (Deserción cliente = No)

# Filter the DataFrame for customers with Fiber optic internet, Malware protection, and no churn
df_filtered_fiber_malware_no_churn = df_1[
    (df_1['Servicio de Internet'] == 'Fibra óptica') &
    (df_1['Protección contra Malware'] == 'Sí') &
    (df_1['Deserción Cliente'] == 'No')
]

# Calculate the average of 'Cargos mensuales (dólares)' for the first group
average_charges_fiber_malware_no_churn = df_filtered_fiber_malware_no_churn['Cargos mensuales (dólares)'].mean()

print(f"Promedio: ${average_charges_fiber_malware_no_churn:.2f}")

Promedio: $100.40


In [21]:
# prompt: Calcula el promedio de Cargos mensuales (dólares) de clientes cumplen estas tres condiciones a la vez: tienen servicio de internet por DSL, no usan protección contra Malware y no continúan en la empresa (Deserción cliente = Sí)

# Filter the DataFrame for customers with DSL internet, no Malware protection, and churn
df_filtered_dsl_no_malware_churn = df_1[
    (df_1['Servicio de Internet'] == 'DSL') &
    (df_1['Protección contra Malware'] == 'No') &
    (df_1['Deserción Cliente'] == 'Sí')
]

# Calculate the average of 'Cargos mensuales (dólares)' for the second group
average_charges_dsl_no_malware_churn = df_filtered_dsl_no_malware_churn['Cargos mensuales (dólares)'].mean()

print(f"Promedio: ${average_charges_dsl_no_malware_churn:.2f}")

Promedio: $45.86


El promedio de los cargos mensuales de los clientes que tienen servicio de internet por fibra óptica, cuentan con protección contra Malware y continúan en la compañía es de 100,4 dólares. Mientras que el promedio para los clientes que tienen servicio de internet por DSL, no cuentan con protección contra Malware y abandonaron la compañía es de 45,86 dólares.

El grupo que tiene un menor promedio de cargos mensuales es el segundo. Esta diferencia podría deberse a que los clientes del primer grupo están suscritos a planes más avanzados y costosos, como la fibra óptica y la protección contra Malware. Mientras que los clientes del segundo grupo estaban suscritos a planes más básicos y económicos, como el internet por DSL y la ausencia de protecciones adicionales, lo que podría reflejar una menor satisfacción con el servicio recibido.

