# Introducción a Pandas

## Objetivo:

Explorar las funciones básicas de la biblioteca Pandas en Python para cargar, visualizar y manipular estructuras de datos tipo DataFrame.

*Nota: Este laboratorio está diseñado para desarrollar razonamiento estadístico. Evita el uso de herramientas de IA para responder las preguntas a menos que esto sea explícitamente sugerido* 🤖. *En su lugar, enfócate en aplicar los conceptos revisados.*

## Actividad 1

Antes de comenzar a trabajar con bases de datos más complejas, aprenderás a crear tus propios datos dentro de Python usando Pandas. Esto te permitirá entender mejor cómo funciona un DataFrame y practicar operaciones básicas de conteo y selección.

1. Crea un DataFrame con los siguientes datos de estudiantes:

<center>

|Nombre| Edad (años)| Carrera|
|------|:-----------:|--------|
|Rodrigo | 21 | Informática|
|Pedro | 23 | Telecomunicaciones|
|Ignacia | 20 | Informática|
|Luis | 24 | Informática|
|Valentina | 22 | Analista|
|Carlos | 20 | Telecomunicaciones|
|Martina | 22 | Analista|
|Javiera | 21 | Telecomunicaciones|
|Camilo | 20 | Informática|
|Bastián | 20 | Informática|

</center>

Luego, muestra en la consola el contenido completo del DataFrame.

2. Muestra únicamente la columna "Carrera" del DataFrame creado en el inciso anterior.

3. ¿Cuántos estudiantes hay en cada carrera? Utiliza alguna función de Python para responder.

4. ¿Cuál es la edad más común entre los estudiantes?

5. Se espera que estos estudiantes egresen de su carrera en aproximadamente 3 años más. Agrega una nueva columna al DataFrame llamada "Edad al egresar" que contenga la edad que tendrá cada estudiante al finalizar sus estudios. Luego, muestra en la consola el DataFrame actualizado.

In [12]:
import pandas as pd
import os

#Crear Tabla
tabla_1 = pd.DataFrame({
    'Nombre': ['Rodrigo', 'Pedro', 'Ignacia', 'Luis', 'Valentina', 'Carlos', 'Martina', 'Javiera', 'Camilo', 'Basrian'],
    'Edad(Años)': [21, 23, 20, 24, 22,20,22,21,20, 20],
    'Carrera': ['Informatica', 'Telecomunicaciones', 'Informatica', 'Informatica', 'Analista', 'Telecomunicaciones','Analista', 'Telecomunicaciones', 'Informatica', 'Informatica']
})

#Ejecutar
print('--------------------------')
print(tabla_1)
os.system('cls')
#Mostrar todas las carreras
print('--------------------------')
print(tabla_1['Carrera'])
#Conteo de estudiantes:
print('--------------------------')
conteo_estudiantes= tabla_1['Carrera'].value_counts()
print(conteo_estudiantes)
#Cual es la edad mas comun
print('--------------------------')
edad_comun=tabla_1['Edad(Años)'].mode()
print(edad_comun)
#Crear Nueva columna
tabla_1['Edad_al_egresar']=tabla_1['Edad(Años)']+3
print('--------------------------')
print(tabla_1)


--------------------------
      Nombre  Edad(Años)             Carrera
0    Rodrigo          21         Informatica
1      Pedro          23  Telecomunicaciones
2    Ignacia          20         Informatica
3       Luis          24         Informatica
4  Valentina          22            Analista
5     Carlos          20  Telecomunicaciones
6    Martina          22            Analista
7    Javiera          21  Telecomunicaciones
8     Camilo          20         Informatica
9    Basrian          20         Informatica
--------------------------
0           Informatica
1    Telecomunicaciones
2           Informatica
3           Informatica
4              Analista
5    Telecomunicaciones
6              Analista
7    Telecomunicaciones
8           Informatica
9           Informatica
Name: Carrera, dtype: object
--------------------------
Carrera
Informatica           5
Telecomunicaciones    3
Analista              2
Name: count, dtype: int64
--------------------------
0    20
Name: Edad(Año

## Actividad 2

Eres parte del equipo de soporte de datos de una empresa de telecomunicaciones. Te han pedido cargar una base de datos de clientes y realizar una primera revisión para comprender su estructura y conocer su contenido.

Descarga la base de datos **<a href="https://docs.google.com/spreadsheets/d/1v6euDfqECe1HTJz0yFUrn7mmrt-rG9gG/export?format=xlsx
">aquí</a>** y sigue las instrucciones detalladas a continuación:

1. Sube la base de datos al entorno "Archivos" de Google Colab (ícono de carpeta en la barra lateral izquierda). Luego, cárgala en un DataFrame llamado `df_1`.

$\hspace{1 cm}$ *Nota: Recuerda que para cargar la base de datos a un DF debes utilizar la biblioteca Pandas de Python*.

2. Explora el contenido del DataFrame mostrando las primeras y últimas 10 filas.

3. ¿Cuántas filas y columnas tiene la base de datos? Responde utilizando solo una línea de código.

4. ¿Qué tipo de objeto es `df_1`? Justifica utilizando una función de Python.

5. Usa la función `info()` para examinar el contenido  del DataFrame. ¿Qué tipo de datos contiene cada columna?

6. Cambia el tipo de dato de la columna "Antigüedad" a `float`. Para lograrlo, deberás reasignar esta columna con el nuevo tipo de dato. Luego, muestra las primeras 3 filas del DataFrame.

7. Verifica que la columna "Antigüedad" haya cambiado correctamente su tipo de dato a `float`.

8. ¿Te parece correcto cambiar el tipo de dato de la columna "Cargos mensuales (dólares)" a tipo `int`? Justifica tu respuesta.

In [19]:
#Mostrar las primeras 10 filas
df_1=pd.read_excel("/content/df_1.xlsx")
display(df_1.head(10))


Unnamed: 0,ID,Género,Ciudadano mayor,Pareja,Dependientes,Antigüedad,Servicio telefónico,Líneas múltiples,Servicio de Internet,Protección contra Malware,Protección del dispositivo,Soporte técnico,Televisión en streaming,Películas en streaming,Contrato,Facturación sin papel,Método de pago,Cargos mensuales (dólares),Cargos totales (dólares),Deserción Cliente
0,7590-VHVEG,Femenino,0,Sí,No,1,No,No hay servicio telefónico,DSL,No,No,No,No,No,Mes a mes,Sí,Cheque electrónico,29.85,29.85,No
1,5575-GNVDE,Masculino,0,No,No,34,Sí,No,DSL,Sí,Sí,No,No,No,Un año,No,Cheque enviado por correo,56.95,1889.5,No
2,3668-QPYBK,Masculino,0,No,No,2,Sí,No,DSL,Sí,No,No,No,No,Mes a mes,Sí,Cheque enviado por correo,53.85,108.15,Sí
3,7795-CFOCW,Masculino,0,No,No,45,No,No hay servicio telefónico,DSL,Sí,Sí,Sí,No,No,Un año,No,Transferencia bancaria (automática),42.3,1840.75,No
4,9237-HQITU,Femenino,0,No,No,2,Sí,No,Fibra óptica,No,No,No,No,No,Mes a mes,Sí,Cheque electrónico,70.7,151.65,Sí
5,9305-CDSKC,Femenino,0,No,No,8,Sí,Sí,Fibra óptica,No,Sí,No,Sí,Sí,Mes a mes,Sí,Cheque electrónico,99.65,820.5,Sí
6,1452-KIOVK,Masculino,0,No,Sí,22,Sí,Sí,Fibra óptica,No,No,No,Sí,No,Mes a mes,Sí,Tarjeta de crédito (automática),89.1,1949.4,No
7,6713-OKOMC,Femenino,0,No,No,10,No,No hay servicio telefónico,DSL,Sí,No,No,No,No,Mes a mes,No,Cheque enviado por correo,29.75,301.9,No
8,7892-POOKP,Femenino,0,Sí,No,28,Sí,Sí,Fibra óptica,No,Sí,Sí,Sí,Sí,Mes a mes,Sí,Cheque electrónico,104.8,3046.05,Sí
9,6388-TABGU,Masculino,0,No,Sí,62,Sí,No,DSL,Sí,No,No,No,No,Un año,No,Transferencia bancaria (automática),56.15,3487.95,No


In [20]:
#2. Contar Clientes Hombres y Mujeres
conteo_genero=df_1['Género'].value_counts()
print(conteo_genero)

Género
Masculino    2083
Femenino     2016
Name: count, dtype: int64


In [21]:
#3. Cuantas filas y cuantas coñumnas tiene la base de datos
print(f"La base de datos tiene {df_1.shape[0]} filas y {df_1.shape[1]} columnas.")

La base de datos tiene 4099 filas y 20 columnas.


In [None]:
#Tipó de Objeto df_1
print("El tipo de objeto de df_1 es:")
print(type(df_1))


In [23]:
#examinar con info
df_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4099 entries, 0 to 4098
Data columns (total 20 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   ID                          4099 non-null   object 
 1   Género                      4099 non-null   object 
 2   Ciudadano mayor             4099 non-null   int64  
 3   Pareja                      4099 non-null   object 
 4   Dependientes                4099 non-null   object 
 5   Antigüedad                  4099 non-null   int64  
 6   Servicio telefónico         4099 non-null   object 
 7   Líneas múltiples            4099 non-null   object 
 8   Servicio de Internet        4099 non-null   object 
 9   Protección contra Malware   4099 non-null   object 
 10  Protección del dispositivo  4099 non-null   object 
 11  Soporte técnico             4099 non-null   object 
 12  Televisión en streaming     4099 non-null   object 
 13  Películas en streaming      4099 

In [25]:
#Cambiar y corroborar que Antiguedad cambie a tipo float
df_1['Antigüedad']=df_1['Antigüedad'].astype(float)
display(df_1.head(3))
print('Yo creo que es mejor mantener el cargo mensual en dolares debido a que la aproximación de el dolar podria subir, tanto como podria bajar.')

Unnamed: 0,ID,Género,Ciudadano mayor,Pareja,Dependientes,Antigüedad,Servicio telefónico,Líneas múltiples,Servicio de Internet,Protección contra Malware,Protección del dispositivo,Soporte técnico,Televisión en streaming,Películas en streaming,Contrato,Facturación sin papel,Método de pago,Cargos mensuales (dólares),Cargos totales (dólares),Deserción Cliente
0,7590-VHVEG,Femenino,0,Sí,No,1.0,No,No hay servicio telefónico,DSL,No,No,No,No,No,Mes a mes,Sí,Cheque electrónico,29.85,29.85,No
1,5575-GNVDE,Masculino,0,No,No,34.0,Sí,No,DSL,Sí,Sí,No,No,No,Un año,No,Cheque enviado por correo,56.95,1889.5,No
2,3668-QPYBK,Masculino,0,No,No,2.0,Sí,No,DSL,Sí,No,No,No,No,Mes a mes,Sí,Cheque enviado por correo,53.85,108.15,Sí


Yo creo que es mejor mantener el cargo mensual en dolares debido a que la aproximación de el dolar podria subir, tanto como podria bajar.


## Actividad 3

La empresa de telecomunicaciones te ha pedido que analices ciertas variables clave de sus clientes. Necesitas extraer columnas específicas, aplicar filtros básicos y comenzar a preparar los datos para futuros análisis más avanzados.

Puedes descargar la base de datos **<a href="https://docs.google.com/spreadsheets/d/1v6euDfqECe1HTJz0yFUrn7mmrt-rG9gG/export?format=xlsx
">aquí</a>** para responder las siguientes preguntas:

1. Muestra las cuatro primeras filas de las columnas "Género", "Antigüedad" y "Deserción Cliente" del DataFrame.

2. ¿Cuántos clientes de la base de datos pertenecen al género masculino y cuántos al femenino?

3. Calcula el total que un cliente habría pagado si su cargo mensual se hubiera mantenido constante durante todo el tiempo en la empresa. Para esto, agrega una nueva columna al DataFrame llamada "Cargos acumulados (dólares)", que sea el resultado de multiplicar "Cargos mensuales" por "Antigüedad". Luego, muestra las primeras 5 filas del DataFrame para verificar que la nueva columna fue agregada correctamente.

4. Crea un nuevo DataFrame que contenga la información solo de los clientes cuyo "Servicio de Internet" es Fibra óptica. ¿Cuántas filas tiene este nuevo DataFrame? Muestra sus primeras 5 filas para comprobar que el filtro se aplicó correctamente.

5. ¿Cuántos clientes con fibra óptica abandonaron la empresa? Muestra las primeras 5 filas del nuevo DataFrame para comprobar que el filtro se aplicó correctamente.

6. 🤖 Utiliza la IA de Google Colab para realizar el código que permita responder esta pregunta:

Calcula el promedio de "Cargos mensuales" de los clientes que cumplen estas tres condiciones al mismo tiempo:

* Tienen servicio de internet por Fibra óptica.
* Usan protección contra Malware.
* Continúan en la empresa.

Luego, realiza el mismo cálculo para los clientes que cumplen estas otras tres condiciones:
* Tienen servicio de internet por DSL.
* No usan protección contra Malware.
* Han abandonado la empresa.

Finalmente, compara ambos promedios y responde: ¿Cuál grupo paga más en promedio por los cargos mensuales? ¿ A qué crees que se podría deber esa diferencia?

In [34]:
#Mostrar las primeras 4 lineas de las columnas antiguedad genero y desercion cliente
df_2=pd.read_excel("/content/df_2.xlsx")
display(df_2[['Género', 'Antigüedad', 'Deserción Cliente']].head(4))

Unnamed: 0,Género,Antigüedad,Deserción Cliente
0,Femenino,1,No
1,Masculino,34,No
2,Masculino,2,Sí
3,Masculino,45,No


In [35]:
#Contar Clientes de genero masculino y femenino
conteo_clientes=df_2['Género'].value_counts()
print(conteo_clientes)


Género
Masculino    2083
Femenino     2016
Name: count, dtype: int64


In [41]:
#Crear nueva columna
df_2['Cargos acumulados (dólares)'] = df_2['Cargos mensuales (dólares)'] * df_2['Antigüedad']
display(df_2.head(5))

Unnamed: 0,ID,Género,Ciudadano mayor,Pareja,Dependientes,Antigüedad,Servicio telefónico,Líneas múltiples,Servicio de Internet,Protección contra Malware,...,Soporte técnico,Televisión en streaming,Películas en streaming,Contrato,Facturación sin papel,Método de pago,Cargos mensuales (dólares),Cargos totales (dólares),Deserción Cliente,Cargos acumulados (dólares)
0,7590-VHVEG,Femenino,0,Sí,No,1,No,No hay servicio telefónico,DSL,No,...,No,No,No,Mes a mes,Sí,Cheque electrónico,29.85,29.85,No,29.85
1,5575-GNVDE,Masculino,0,No,No,34,Sí,No,DSL,Sí,...,No,No,No,Un año,No,Cheque enviado por correo,56.95,1889.5,No,1936.3
2,3668-QPYBK,Masculino,0,No,No,2,Sí,No,DSL,Sí,...,No,No,No,Mes a mes,Sí,Cheque enviado por correo,53.85,108.15,Sí,107.7
3,7795-CFOCW,Masculino,0,No,No,45,No,No hay servicio telefónico,DSL,Sí,...,Sí,No,No,Un año,No,Transferencia bancaria (automática),42.3,1840.75,No,1903.5
4,9237-HQITU,Femenino,0,No,No,2,Sí,No,Fibra óptica,No,...,No,No,No,Mes a mes,Sí,Cheque electrónico,70.7,151.65,Sí,141.4


In [42]:
#Crear DataFrame
df_fibraOptica=df_2[df_2['Servicio de Internet']== 'Fibra óptica'].copy()
#Tener el numero de filas:
numero=df_fibraOptica.shape[0]
print(f'el nuevo DataFrame con clientes que tengan fibra optica es: {numero} filas')

#Mostrar Primeras 5 lineas:
display(df_fibraOptica.head(5))

el nuevo DataFrame con clientes que tengan fibra optica es: 1804 filas


Unnamed: 0,ID,Género,Ciudadano mayor,Pareja,Dependientes,Antigüedad,Servicio telefónico,Líneas múltiples,Servicio de Internet,Protección contra Malware,...,Soporte técnico,Televisión en streaming,Películas en streaming,Contrato,Facturación sin papel,Método de pago,Cargos mensuales (dólares),Cargos totales (dólares),Deserción Cliente,Cargos acumulados (dólares)
4,9237-HQITU,Femenino,0,No,No,2,Sí,No,Fibra óptica,No,...,No,No,No,Mes a mes,Sí,Cheque electrónico,70.7,151.65,Sí,141.4
5,9305-CDSKC,Femenino,0,No,No,8,Sí,Sí,Fibra óptica,No,...,No,Sí,Sí,Mes a mes,Sí,Cheque electrónico,99.65,820.5,Sí,797.2
6,1452-KIOVK,Masculino,0,No,Sí,22,Sí,Sí,Fibra óptica,No,...,No,Sí,No,Mes a mes,Sí,Tarjeta de crédito (automática),89.1,1949.4,No,1960.2
8,7892-POOKP,Femenino,0,Sí,No,28,Sí,Sí,Fibra óptica,No,...,Sí,Sí,Sí,Mes a mes,Sí,Cheque electrónico,104.8,3046.05,Sí,2934.4
12,8091-TTVAX,Masculino,0,Sí,No,58,Sí,Sí,Fibra óptica,No,...,No,Sí,Sí,Un año,No,Tarjeta de crédito (automática),100.35,5681.1,No,5820.3
