# TP final - Customer Churn

En este trabajo se abordará el problema de determinar si un cliente es propenso a abandonar un negocio en particular. En este caso, el análisis es para un sitio web del tipo e-Commerce. La fuente es [Kaggle](https://www.kaggle.com/datasets/undersc0re/predict-the-churn-risk-rate)

In [1]:
import pandas as pd

DATA = 'data/'

In [10]:
df = pd.read_csv(DATA + 'churn.csv', sep=',', encoding='utf-8')
df.rename(columns={'Unnamed: 0': 'id'}, inplace=True)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 36992 entries, 0 to 36991
Data columns (total 24 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   id                            36992 non-null  int64  
 1   age                           36992 non-null  int64  
 2   gender                        36992 non-null  object 
 3   security_no                   36992 non-null  object 
 4   region_category               31564 non-null  object 
 5   membership_category           36992 non-null  object 
 6   joining_date                  36992 non-null  object 
 7   joined_through_referral       36992 non-null  object 
 8   referral_id                   36992 non-null  object 
 9   preferred_offer_types         36704 non-null  object 
 10  medium_of_operation           36992 non-null  object 
 11  internet_option               36992 non-null  object 
 12  last_visit_time               36992 non-null  object 
 13  d

In [9]:
df.describe()

Unnamed: 0,id,age,days_since_last_login,avg_time_spent,avg_transaction_value,points_in_wallet,churn_risk_score
count,36992.0,36992.0,36992.0,36992.0,36992.0,33549.0,36992.0
mean,18495.5,37.118161,-41.915576,243.472334,29271.194003,686.882199,0.540982
std,10678.814916,15.867412,228.8199,398.289149,19444.806226,194.063624,0.498324
min,0.0,10.0,-999.0,-2814.10911,800.46,-760.661236,0.0
25%,9247.75,23.0,8.0,60.1025,14177.54,616.15,0.0
50%,18495.5,37.0,12.0,161.765,27554.485,697.62,1.0
75%,27743.25,51.0,16.0,356.515,40855.11,763.95,1.0
max,36991.0,64.0,26.0,3235.578521,99914.05,2069.069761,1.0


# Field data

1. **customer_id**: Identificador único
2. **name** : Nombre del cliente
3. **age**: Edad del cliente
4. **security_no**: número de seguridad social que identifica a una persona
5. **region_category**: representa la región geográfica del cliente
6. **membership_category**: categoría de membresía en la que cae el cliente
7. **joining_date**: fecha en la que el cliente se unió al e-commerce
8. **joined_through_referral**: determina si el cliente se unió con un código de referido
9. **referral_id**: este es el ID de referido
10. **preferred_offer_types**: representa el tipo de oferta que prefiere el cliente en cuestión
11. **medium_of_operation**: dispositivo que utiliza el cliente para las transacciones
12. **internet_option**: tipo de servicio de internet a través del que el cliente se conecta
13. **last_visit_time**: representa la última visita del cliente al sitio web
14. **days_since_last_login**: representa el número de días en unidades desde que visitó por última vez el sitio web
15. **avg_time_spent**: tiempo promedio que el cliente pasa en el sitio
16. **avg_transaction_value**: valor transaccional promedio del cliente
17. **avg_frequency_login_days**: cantidad de días en los que el cliente se loggeó
18. **points_in_wallet**: puntos que posee el cliente en su poder
19. **used_special_discount**: representa si usó un descuento especial
20. **offer_application_preference**: representa si un cliente prefiere o no las ofertas
21. **past_complaint**: indica si el cliente submitteó una queja en el pasado
22. **complaint_status**: indica el estado de la queja en cuestión
23. **feedback**: representa el feedback provisto por un cliente
24. **churn_risk_score**: 0 si el cliente no representa riesgo de abandono o 1 si lo representa.

El objetivo del presente análisis será obtener un model predictivo que nos permita determinar si un cliente abandonará la plataforma en cuestión o no. Para esto, 
 - ¿Es importante saber si el cliente llegó referido? 
 - ¿Nos importa cuándo fue la última vez que se conectó? 
 - ¿Cuánto tiempo pasó en la plataforma? 
 - ¿Es relevante si tuvo quejas y cómo fueron resueltas? ¿Y si dio feedback al sitio?
 - ¿Si tiene una categoría de membresía más distinguida o más convencional?