

---
# **Proyecto 1 – Relación Minutos Ingreso**
---
# **Universidad EAN**
##**Machine Learning 1**
##**Guía 1 Actividad 1**
Presentado por


María Camila Tarazona Nieto

Leyla Rocío Becerra Barajas

El problema planteado implica analizar si existe alguna relación entre dos variables clave en el negocio de una empresa de telecomunicaciones: el total de minutos usados por los clientes y los ingresos totales generados por esos clientes. Esta relación puede ser fundamental para comprender el comportamiento de los clientes y desarrollar estrategias efectivas de mejora de productos, publicidad y toma de decisiones.

Para abordar este problema, se dispone de un conjunto de datos llamado Credito_dias.csv, que contiene varias variables relevantes, incluyendo totrev (ingresos del cliente) y totmou (total de minutos usados por el cliente), entre otras.

Dado que el análisis manual de una gran cantidad de clientes no es práctico, se propone utilizar programación y análisis de datos para extraer información valiosa de manera rápida y precisa. Se puede emplear técnicas de visualización y modelado de datos para explorar la relación entre totrev y totmou, lo que permitirá identificar patrones y tendencias que pueden no ser evidentes a simple vista.

Al comprender la relación entre el uso de minutos y los ingresos generados, la empresa podrá tomar decisiones informadas sobre cómo optimizar sus servicios y estrategias comerciales para maximizar los ingresos y mejorar la satisfacción del cliente.

---
# **Librerías**
---
Instalación de paquetes, importar las librerías necesarias y cargar la base de datos

In [1]:
# Importar librerías
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from scipy.stats import pearsonr
import seaborn as sns

---
# **Versiones**
---
Este documento fue realizado con las siguientes versiones:

- Python 3.10.12
- Pandas 1.5.3
- Matplotlib 3.8

In [2]:
#Versiones actuales
!python --version
print('NumPy', np.__version__)
print('Pandas', pd.__version__)

Python 3.10.12
NumPy 1.25.2
Pandas 2.0.3


---
# **Base de datos**
---

## **URL Github**

Inicialmente se carga la base de datos.  Debido a que la misma se encuentra en un repositorio de Github, se designa una variable para almacenar el URL del repositorio.

In [3]:
url='https://raw.githubusercontent.com/lrbecerrab/ML1/main/Credito_dias.csv'

## **Uso de un dataframe (pandas)**

Se crea una estructura de datos "dataframe" de la librería [pandas](https://https://pandas.pydata.org/) la cual facilita el análisis de los datos, puesto que  ya cuenta con funciones implementadas para ello.

In [5]:
df = pd.read_csv(url)
df

HTTPError: HTTP Error 404: Not Found

---
# **Análisis exploratorio de los datos**
---

Se realiza una exploración inicial de los datos de la base de datos para familiarizarse con la información disponible, entender los tipos de datos presentes y obtener una visión general de la cantidad de registros disponibles.

In [None]:
df.info()

##**Identificación de variables**

In [None]:
df.columns

##**Estadísticas principales**

Se explora el archivo revisando el nombre, el tipo de información y cantidad de registros con valores nulos para cada variable.

In [None]:
# Exploración inicial de los datos - valores estadísticos totales calculados a las variables numéricas
df.describe()

## **Variables numéricas**

###**totrev**

Es una variable numérica que almacena los ingresos del cliente

In [None]:
#Estadísticas de la variable
df['totrev'].describe()

In [None]:
df['totrev'].hist()

In [None]:
plt.boxplot(x=df['totrev'])

###**totmou**

Es una variable numérica que almacena el total de minutos usados por el cliente.

In [None]:
#Estadísticas de la variable
df['totmou'].describe()

In [None]:
df['totmou'].hist()

In [None]:
plt.boxplot(x=df['totmou'])

###**eqpdays**

Es una variable numérica que almacena el número de días (antigüedad) del equipo actual  

In [None]:
#Estadísticas de la variable
df['eqpdays'].describe()

In [None]:
df['eqpdays'].hist()

In [None]:
plt.boxplot(x=df['eqpdays'])

###**Customer_ID**

Es una variable numérica entera que identifica al cliente.  Cada ID es único  por tanto no se obtendrán valores estadísticos de este campo.  


In [None]:
df['Customer_ID'].nunique()

## **Variables categóricas**

### **creditcd**
Es una variable categórica que muestra un indicador de aprobación de la tarjeta de crédito

In [None]:
#Categorías de la variable
df['creditcd'].unique()

In [None]:
df['creditcd'].value_counts()

In [None]:
df['creditcd'].value_counts().plot(kind='bar', color='green')

---
# **Limpieza de los datos**
---

Debido a que en la variable ***creditcd*** existen valores válidos únicamente para 9848 registros, y los restantes corresponden a valores nulos, se eliminarán los registros con valores nulos para facilitar el análisis posterior de la base de datos.

In [None]:
df=df.dropna()
df

---
# **Análisis comparativo**
---

Se quiere identificar si existe una relación entre el total de minutos usados por el cliente con la compañía y el ingreso total de los clientes, es decir, ¿Será posible afirmar que cuando una persona tiene un mayor ingreso, entonces es mayor la utilización de minutos o todo lo contrario?


Para ello se puede realizar el análisis mediante un diagrama de dispersión, el cual permitirá ver gráficamente la relación entre las dos variables.

Finalmente, podría validarse mediante el cálculo del coeficiente de Pearson.

## **Diagrama de dispersión**

Este diagrama despliega una gráfica de Ingresos totales Vs Minutos totales de uso del teléfono móvil.

In [None]:
df['indicadorTC']=df['creditcd']

In [None]:
df_con_credito = df[df['creditcd'] == 'Y']
df_sin_credito = df[df['creditcd'] == 'N']

# Graficar el diagrama de dispersión con leyenda
plt.figure(figsize=(8, 6))
sns.scatterplot(x='totrev', y='totmou', data=df_con_credito, color='blue', alpha=0.5, label='Con Crédito')
sns.scatterplot(x='totrev', y='totmou', data=df_sin_credito, color='red', alpha=0.5, label='Sin Crédito')

# Agregar la línea de regresión lineal para cada grupo
sns.regplot(x='totrev', y='totmou', data=df_con_credito, scatter=False, color='blue')
sns.regplot(x='totrev', y='totmou', data=df_sin_credito, scatter=False, color='red')

# Añadir título y etiquetas
plt.title(f'Diagrama de Dispersión y Regresión Lineal\nCoeficiente de Pearson: {correlation:.2f}')
plt.xlabel('Ingresos Totales')
plt.ylabel('Minutos Totales de Uso del Teléfono Móvil')
plt.legend()

# Mostrar la gráfica
plt.grid(True)
plt.show()

## **Coeficiente de Pearson**

Este indicador permite calcular un número entre -1 y 1, el cual entre más cercano a -1 o a 1 nos permitirá encontrar la relación inversa o directamente proporcional entre las dos variables.

In [None]:
correlation, p_value = pearsonr(df['totrev'], df['totmou'])

print("Coeficiente de correlación de Pearson:", correlation)
print("Valor p:", p_value)

---
# **Conclusiones**
---

- En el diagrama de dispersión se puede evidenciar que en la medida en la que los ingresos totales del cliente se incrementan, así mismo se incrementa el consumo.
- Del coeficente de Pearson tiene correlación positiva fuerte y significativa entre los ingresos totales de los clientes y los minutos totales de uso del teléfono móvil. Esto sugiere que existe una relación entre el comportamiento de gasto de los clientes y su uso del servicio de telefonía móvil, lo que podría ser útil para desarrollar estrategias comerciales y de marketing dirigidas a diferentes segmentos de clientes.
- Después de incluir una leyenda que indica si los clientes tienen o no crédito en el diagrama de dispersión, se observa que no hay una diferencia clara en la distribución de los puntos entre los clientes con y sin crédito. Esto sugiere que el hecho de tener crédito no parece afectar significativamente la relación entre las dos variables analizadas (minutos usados por el cliente e ingresos del cliente). Por lo tanto, basándonos en esta visualización, no podemos concluir que el tener crédito tenga un impacto notable en estas dos variables.