<a href="https://colab.research.google.com/github/spalominor/UWorks/blob/main/TLP_Pandas01_060725.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Samuel Palomino Restrepo - Pandas - TLP

# Netflix Customer Churn dataset

Este conjunto de datos contiene datos sintéticos que simulan el comportamiento de los clientes de un servicio de streaming de vídeo similar a Netflix. Incluye 5.000 registros con 14 características cuidadosamente diseñadas para el modelado de la predicción de la pérdida de clientes, información comercial y segmentación de clientes.

[***Link al dataset original en Kaggle***](https://www.kaggle.com/datasets/abdulwadood11220/netflix-customer-churn-dataset)

El dataset ha sido descargado y publicado como un archivo *.csv a través de Google Drive.

Se recomienda ir a la opción, 'Entorno de ejecución' -> 'Ejecutar todas' para visualizar mejor la actividad y evitar errores de reasignación.


# Carga del dataset

Definir e importar las librerías de Python necesarias para la actividad.

In [None]:
import numpy as np
import pandas as pd

Desactivar los warnings ya controlados

In [None]:
pd.options.mode.chained_assignment = None

Cargar la ruta y leer el archivo con la información del dataset.

In [None]:
# Cargar la ruta del archivo CSV con la información
ruta_archivo = ("https://docs.google.com/spreadsheets/d/e/2PACX-1vTpodFYqbyQZF"
  "mY55uJyzCrilvvpvoaSn_BQ8MabazMRxXcwOuZnvYPS3caGyOBZDf6nrWPWDxdbwtq/pub?gid="
  "1967085121&single=true&output=csv"
  )

# Leer el archivo CSV en un DataFrame de Pandas
df_churn = pd.read_csv(ruta_archivo)

# Verificar que el DataFrame se cargó correctamente
df_churn.head()

Unnamed: 0,customer_id,age,gender,subscription_type,watch_hours,last_login_days,region,device,monthly_fee,churned,payment_method,number_of_profiles,avg_watch_time_per_day,favorite_genre
0,a9b75100-82a8-427a-a208-72f24052884a,51,Other,Basic,14.73,29,Africa,TV,8.99,1,Gift Card,1,0.49,Action
1,49a5dfd9-7e69-4022-a6ad-0a1b9767fb5b,47,Other,Standard,0.7,19,Europe,Mobile,13.99,1,Gift Card,5,0.03,Sci-Fi
2,4d71f6ce-fca9-4ff7-8afa-197ac24de14b,27,Female,Standard,16.32,10,Asia,TV,13.99,0,Crypto,2,1.48,Drama
3,d3c72c38-631b-4f9e-8a0e-de103cad1a7d,53,Other,Premium,4.51,12,Oceania,TV,17.99,1,Crypto,2,0.35,Horror
4,4e265c34-103a-4dbb-9553-76c9aa47e946,56,Other,Standard,1.89,13,Africa,Mobile,13.99,1,Crypto,2,0.13,Action


Eliminemos filas con valores nulos o con NaN

In [None]:
# Eliminar valores inúltiles
df_churn = df_churn.dropna()

# Mostrar el DataFrame resultante
df_churn.head(n=1)

Unnamed: 0,customer_id,age,gender,subscription_type,watch_hours,last_login_days,region,device,monthly_fee,churned,payment_method,number_of_profiles,avg_watch_time_per_day,favorite_genre
0,a9b75100-82a8-427a-a208-72f24052884a,51,Other,Basic,14.73,29,Africa,TV,8.99,1,Gift Card,1,0.49,Action


Obtener información sobre la estructura del DataFrame.
- Dimensiones
- Tipo de valor por columna
- Nombre de las columnas
- Número de filas sin valores nulos
- Conteo por tipo de valor

In [None]:
# Imprimir la información del DataFrame
df_churn.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 14 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   customer_id             5000 non-null   object 
 1   age                     5000 non-null   int64  
 2   gender                  5000 non-null   object 
 3   subscription_type       5000 non-null   object 
 4   watch_hours             5000 non-null   float64
 5   last_login_days         5000 non-null   int64  
 6   region                  5000 non-null   object 
 7   device                  5000 non-null   object 
 8   monthly_fee             5000 non-null   float64
 9   churned                 5000 non-null   int64  
 10  payment_method          5000 non-null   object 
 11  number_of_profiles      5000 non-null   int64  
 12  avg_watch_time_per_day  5000 non-null   float64
 13  favorite_genre          5000 non-null   object 
dtypes: float64(3), int64(4), object(7)
memor

# Operaciones con columnas

Traduzcamos el nombre de cada una de las columnas para mejorar el entendimiento del dataset

In [None]:
# Definir las columnas es el idioma Español
columnas_espanol = ['id_cliente',
                    'edad',
                    'genero',
                    'tipo_subscripcion',
                    'horas_vistas',
                    'dias_ultimo_login',
                    'region',
                    'dispositivo',
                    'pago_mensual',
                    'renovacion',
                    'metodo_pago',
                    'numero_perfiles',
                    'horas_promedio_por_dia',
                    'genero_favorito']

# Asignar las columnas al DataFrame
df_churn.columns = columnas_espanol

# Mostrar las primeras filas del DataFrame para verificar los cambios
df_churn.head(n=3)

Unnamed: 0,id_cliente,edad,genero,tipo_subscripcion,horas_vistas,dias_ultimo_login,region,dispositivo,pago_mensual,renovacion,metodo_pago,numero_perfiles,horas_promedio_por_dia,genero_favorito
0,a9b75100-82a8-427a-a208-72f24052884a,51,Other,Basic,14.73,29,Africa,TV,8.99,1,Gift Card,1,0.49,Action
1,49a5dfd9-7e69-4022-a6ad-0a1b9767fb5b,47,Other,Standard,0.7,19,Europe,Mobile,13.99,1,Gift Card,5,0.03,Sci-Fi
2,4d71f6ce-fca9-4ff7-8afa-197ac24de14b,27,Female,Standard,16.32,10,Asia,TV,13.99,0,Crypto,2,1.48,Drama


Eliminemos la columna "id_cliente". Al fin y al cabo, no consideramos esa información relevante para ningún uso. Además podemos usar el índice de Pandas como valor único para cada usuario.

In [None]:
# Eliminar la columna 'customer_id'
del df_churn['id_cliente']

# Mostrar los últimos 10 registros
df_churn.tail(n=10)

Unnamed: 0,edad,genero,tipo_subscripcion,horas_vistas,dias_ultimo_login,region,dispositivo,pago_mensual,renovacion,metodo_pago,numero_perfiles,horas_promedio_por_dia,genero_favorito
4990,57,Male,Standard,2.09,13,Asia,TV,13.99,1,Crypto,3,0.15,Romance
4991,62,Male,Standard,7.31,26,Oceania,Desktop,13.99,0,Credit Card,2,0.27,Sci-Fi
4992,34,Male,Standard,10.25,41,Oceania,Desktop,13.99,1,Crypto,3,0.24,Documentary
4993,23,Other,Standard,3.1,12,Europe,Laptop,13.99,1,Crypto,5,0.24,Comedy
4994,58,Other,Basic,10.9,22,Europe,TV,8.99,0,Credit Card,3,0.47,Action
4995,19,Female,Basic,49.17,11,Europe,Desktop,8.99,0,Credit Card,4,4.1,Drama
4996,67,Female,Basic,9.24,2,North America,Desktop,8.99,0,PayPal,3,3.08,Documentary
4997,66,Male,Standard,16.55,49,South America,Desktop,13.99,1,Debit Card,2,0.33,Action
4998,59,Female,Basic,9.12,3,Europe,Laptop,8.99,0,Credit Card,4,2.28,Sci-Fi
4999,57,Male,Basic,1.62,17,Africa,Mobile,8.99,1,Crypto,2,0.09,Action


Cambiemos el nombre del índice al id del cliente

In [None]:
# Cambiar el nombre del índice del DataFrame
df_churn.index.name = 'id_cliente'

# Mostrar el resultado
df_churn.loc[100:102]

Unnamed: 0_level_0,edad,genero,tipo_subscripcion,horas_vistas,dias_ultimo_login,region,dispositivo,pago_mensual,renovacion,metodo_pago,numero_perfiles,horas_promedio_por_dia,genero_favorito
id_cliente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
100,33,Other,Premium,31.11,39,South America,Mobile,17.99,0,Crypto,4,0.78,Comedy
101,31,Other,Premium,2.81,39,Europe,Desktop,17.99,1,Credit Card,5,0.07,Horror
102,20,Male,Standard,9.87,29,Africa,Desktop,13.99,0,PayPal,3,0.33,Documentary


Creemos un nuevo dataframe que reúna la información relacionada a los pagos, en este caso, a la que esta guardada en las columnas:

- Tipo de subscripción
- Región
- Pago Mensual
- Método de pago
- Renovación

In [None]:
# Definir las columnas que interesan en este análisis
columnas_pagos = ['tipo_subscripcion',
                  'region',
                  'pago_mensual',
                  'metodo_pago',
                  'renovacion']

# Crear una copiar del DataFrame con las columnas seleccionadas
df_pagos = df_churn[columnas_pagos]

# Mostrar el nuevo DataFrame
df_pagos.head(n=50).tail()

Unnamed: 0_level_0,tipo_subscripcion,region,pago_mensual,metodo_pago,renovacion
id_cliente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
45,Standard,Oceania,13.99,Gift Card,1
46,Basic,South America,8.99,Gift Card,0
47,Standard,North America,13.99,Debit Card,1
48,Premium,South America,17.99,PayPal,0
49,Basic,Europe,8.99,Credit Card,0


Hagamos un conteo de cuántas personas renovaron y cuántas no

In [None]:
# Realizar la suma en la columna 'renovacion'
df_pagos['renovacion'].value_counts()

Unnamed: 0_level_0,count
renovacion,Unnamed: 1_level_1
1,2515
0,2485


Cambiemos el valor a 100 registros. Los usuarios con id de 1000 a 1099 habrán renovado.

In [None]:
# Recortar el dataframe y asignar el valor de 1 en la columna 'renovacion'
df_pagos.loc[1000:1100, 'renovacion'] = 1

# Mostrar el resultado
df_pagos.iloc[1000:1100, 4]

Unnamed: 0_level_0,renovacion
id_cliente,Unnamed: 1_level_1
1000,1
1001,1
1002,1
1003,1
1004,1
...,...
1095,1
1096,1
1097,1
1098,1


Mostrar el resultado del conteo de renovaciones después de la modificación

In [None]:
# Realizar la consulta
df_pagos['renovacion'].value_counts()

Unnamed: 0_level_0,count
renovacion,Unnamed: 1_level_1
1,2565
0,2435


Veamos un resumen estadístico del dataset original para ver una columna interesante que valga la pena analizar.

In [None]:
# Imprimir el resumen estadístico de las variables numéricas
df_churn.describe()

Unnamed: 0,edad,horas_vistas,dias_ultimo_login,pago_mensual,renovacion,numero_perfiles,horas_promedio_por_dia
count,5000.0,5000.0,5000.0,5000.0,5000.0,5000.0,5000.0
mean,43.8474,11.64945,30.0898,13.6834,0.503,3.0244,0.8748
std,15.501128,12.014654,17.536078,3.692062,0.500041,1.415841,2.619824
min,18.0,0.01,0.0,8.99,0.0,1.0,0.0
25%,30.0,3.3375,15.0,8.99,0.0,2.0,0.11
50%,44.0,8.0,30.0,13.99,1.0,3.0,0.29
75%,58.0,16.03,45.0,17.99,1.0,4.0,0.72
max,70.0,110.4,60.0,17.99,1.0,5.0,98.42


Vayamos al DataFrame 'df_pagos', y realicemos de nuevo el resumen. Este DataFrame solo contiene una variable numérica, el valor del pago mensual.

In [None]:
# Imprimir el resumen estadístico
df_pagos.describe()

Unnamed: 0,pago_mensual,renovacion
count,5000.0,5000.0
mean,13.6834,0.513
std,3.692062,0.499881
min,8.99,0.0
25%,8.99,0.0
50%,13.99,1.0
75%,17.99,1.0
max,17.99,1.0


Analicemos cuál es el promedio y la desviación estándar del precio pagado por los clientes

In [None]:
# Calcular con NumPy la media de los datos
promedio = np.mean(df_pagos['pago_mensual'])
print(f"Promedio del precio pagado: {promedio:.2f}")

# Calcular con NumPy la desviación estándar de los datos
desviacion = np.std(df_pagos['pago_mensual'])
print(f"Desviación estándar del precio pagado: {desviacion:.2f}")

Promedio del precio pagado: 13.68
Desviación estándar del precio pagado: 3.69


Realicemos la conversión de la moneda. Suponiendo que el valor del pago mensual en el dataset está en dólares estadounidenses, multiplicando por 3.980,61 obtenemos el valor en pesos colombianos.

In [None]:
# Guardar el valor de la conversión (1 USD son **** COP)
conversion = 3980.61

# Realizar la operación a cada fila
df_pagos['pago_mensual'] = df_pagos['pago_mensual'] * conversion

# Mostrar el resultado
df_pagos.head()

Unnamed: 0_level_0,tipo_subscripcion,region,pago_mensual,metodo_pago,renovacion
id_cliente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,Basic,Africa,35785.6839,Gift Card,1
1,Standard,Europe,55688.7339,Gift Card,1
2,Standard,Asia,55688.7339,Crypto,0
3,Premium,Oceania,71611.1739,Crypto,1
4,Standard,Africa,55688.7339,Crypto,1


Cambiemos el tipo de dato en la columna pago mensual, de flotante a entero

In [None]:
# Realizar el cambio de tipo
df_pagos['pago_mensual'] = df_pagos['pago_mensual'].astype('int64')

# Mostrar el resultado del tipo por columna
df_pagos.dtypes

Unnamed: 0,0
tipo_subscripcion,object
region,object
pago_mensual,int64
metodo_pago,object
renovacion,int64


Mostrar el resultado del DataFrame

In [None]:
df_pagos.tail(n=3)

Unnamed: 0_level_0,tipo_subscripcion,region,pago_mensual,metodo_pago,renovacion
id_cliente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
4997,Standard,South America,55688,Debit Card,1
4998,Basic,Europe,35785,Credit Card,0
4999,Basic,Africa,35785,Crypto,1


Cambiemos el tipo de dato para la variable 'renovacion'. De entero, como 0 ó 1, a True ó False.

In [None]:
# Realizar la reasignación
df_pagos['renovacion'] = df_pagos['renovacion'].astype('bool')

# Mostrar el resultado del tipo por columna
df_pagos.dtypes

Unnamed: 0,0
tipo_subscripcion,object
region,object
pago_mensual,int64
metodo_pago,object
renovacion,bool


Mostrar el resultado del arreglo

In [None]:
df_pagos.loc[1000:1100]

Unnamed: 0_level_0,tipo_subscripcion,region,pago_mensual,metodo_pago,renovacion
id_cliente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1000,Basic,Asia,35785,Credit Card,True
1001,Premium,Europe,71611,Gift Card,True
1002,Standard,Europe,55688,PayPal,True
1003,Basic,North America,35785,Crypto,True
1004,Premium,South America,71611,Credit Card,True
...,...,...,...,...,...
1096,Standard,North America,55688,Gift Card,True
1097,Premium,Europe,71611,Gift Card,True
1098,Premium,Oceania,71611,Crypto,True
1099,Standard,South America,55688,Debit Card,True


Busquemos en el DataFrame, cuáles son las regiones del mundo donde está Netflix

In [None]:
# Realizar la consulta
consulta = df_pagos['region'].unique()

# Imprimir el resultado
print("  ".join(consulta))

Africa  Europe  Asia  Oceania  South America  North America


Obtengamos un DataFrame con las personas en América

In [None]:
# Realizar el recorte del DataFrame 'df_pagos'
df_america = df_pagos[
    (df_pagos['region'] == 'South America') | (
        df_pagos['region'] == 'North America')]

# Mostrar el resultado
df_america.loc[20:40]

Unnamed: 0_level_0,tipo_subscripcion,region,pago_mensual,metodo_pago,renovacion
id_cliente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
22,Standard,South America,55688,Crypto,False
27,Premium,North America,71611,Debit Card,True
34,Premium,South America,71611,Gift Card,True
35,Standard,North America,55688,Credit Card,False
38,Premium,North America,71611,PayPal,True
40,Premium,South America,71611,Credit Card,False


Contemos cuantas personas renovaron su membresía en Norte América versus Suramérica

In [None]:
# Crear un nuevo arreglo para los que renovaron distinguiendo por región
# Suramérica
df_churn_south = df_america[
    (df_america['region'] == 'South America') & (
        df_america['renovacion'] == True)]

# Norte América
df_churn_north = df_america[
    (df_america['region'] == 'North America') & (
        df_america['renovacion'] == True)]

# Realizar el conteo
print(f"Norte América: {df_churn_north['renovacion'].count()}")
print(f"Suramérica: {df_churn_south['renovacion'].count()}")

Norte América: 430
Suramérica: 458


Observemos cuánto pagan en promedio aquellas personas que renovaron, discriminado por región

In [None]:
# Calcular el promedio del precio pagado por región
promedio_north = np.mean(df_churn_north['pago_mensual'])
promedio_south = np.mean(df_churn_south['pago_mensual'])

# Imprimir los resultados
print(f"Norte América: {promedio_north:.2f}")
print(f"Suramérica: {promedio_south:.2f}")

Norte América: 52309.31
Suramérica: 52342.05
