In [6]:

# Importación de librerias necesarias para el analisis exploratorio (EDA)
# -------------------------------------------------------------------------------
# Tratamiento de datos
import pandas as pd
import numpy as np
import os #Gestion de archivos y rutas

# Visualizacion de datos
import matplotlib.pyplot as plt
import seaborn as sns

# Estadisticas y evaluacion de relaciones entre variables
import scipy.stats as stats
from scipy.stats import chi2_contingency, ttest_ind

# Configuracion de Pandas y eliminacion de warnings
pd.set_option('display.max_columns', None)  # Mostrar todas las columnas en los DataFrames
import warnings
warnings.filterwarnings("ignore")  # Ocultar warnings innecesarios

## DEFINIR FUNCIONES DE CARGA Y EXPLORACION ✨

In [7]:
def cargar_datos(ruta):
    """
    Carga un archivo CSV en un DataFrame de Pandas y muestra sus primeras filas.

    Parametros:
        ruta (str): Ruta del archivo CSV a cargar.

    Retorna:
        pd.DataFrame: DataFrame con los datos cargados.
    """
    if not os.path.exists(ruta):
        print(f"⚠ Error: El archivo '{ruta}' no existe.")
        return None  # Retornar None si el archivo no existe
    
    try:
        df = pd.read_csv(ruta)
        print(f"✅ Datos cargados correctamente. Filas: {df.shape[0]}, Columnas: {df.shape[1]}")
        display(df.head())  # Mostrar las primeras filas
        return df
    except Exception as e: # Capturar posibles errores inesperados y guardarlos en la variable e
        print(f"⚠ Error al cargar el archivo: {e}")
        return None 


In [10]:
def revisar_estructura(df):
    """
    Muestra informacion basica sobre la estructura del DataFrame.

    Parametros:
        df (pd.DataFrame): DataFrame a analizar.

    Retorna:
        None
    """
    print("📌 Dimensiones del dataset:")
    print(f"  - Filas: {df.shape[0]}")
    print(f"  - Columnas: {df.shape[1]}\n")

    print("📌 Nombres de las columnas:")
    print(df.columns.tolist(), "\n")

    print("📌 Tipos de datos:")
    print(df.dtypes, "\n")

    # Identificar duplicados
    duplicados = df.duplicated().sum()
    print(f"📌 Datos duplicados: {duplicados} ({round(duplicados / df.shape[0] * 100, 2)}%)\n")


In [11]:
def get_duplicate_rows(df):
    """
    Encuentra y devuelve las filas duplicadas completas de un DataFrame.

    Parametros:
        df (pd.DataFrame): DataFrame de entrada.

    Retorna:
        pd.DataFrame: DataFrame con las filas duplicadas.
    """
    duplicate_rows = df[df.duplicated(keep=False)]
    
    if duplicate_rows.empty:
        print("✅ No hay filas duplicadas en el dataset.")
    else:
        print(f"⚠ Hay {duplicate_rows.shape[0]} filas duplicadas en el dataset.")
        display(duplicate_rows)
    
    return duplicate_rows

In [12]:
def revisar_valores_nulos(df):
    """
    Muestra la cantidad y porcentaje de valores nulos en cada columna.

    Parametros:
        df (pd.DataFrame): DataFrame a analizar.

    Retorna:
        pd.DataFrame: DataFrame con informacion sobre valores nulos.
    """
    nulos = df.isnull().sum()
    porcentaje_nulos = round((nulos / len(df)) * 100, 2)
    no_nulos = df.notna().sum()
    porcentaje_no_nulos = round((no_nulos / len(df)) * 100, 2)
    
    df_nulos = pd.DataFrame({
        "Valores nulos": nulos, 
        "% Nulos": porcentaje_nulos.astype(str) + "%", # astype(str) para convertir float a str y poder concatenar con %
        "% No Nulos": porcentaje_no_nulos.astype(str) + "%",
        "Valores Unicos": df.nunique(),
        "Tipo de Dato": df.dtypes
    })

    print(f"📌 Columnas con valores nulos: {len(df_nulos[df_nulos['Valores nulos'] > 0])}")
    print(f"📌 Columnas sin valores nulos: {len(df_nulos[df_nulos['Valores nulos'] == 0])}")
    
    display(df_nulos[df_nulos["Valores nulos"] > 0])  # Muestra solo columnas con nulos
    
    return df_nulos

In [13]:
def obtener_estadisticas(df):
    """
    Muestra estadisticas descriptivas de variables numericas y categoricas.

    Parametros:
        df (pd.DataFrame): DataFrame a analizar.

    Retorna:
        None
    """
    print("📌 Estadisticas descriptivas de variables numericas:")
    display(df.describe().T)

    print("\n📌 Estadisticas descriptivas de variables categoricas:")
    display(df.describe(include="O").T)  # O = Object (cadenas de texto)

In [14]:
def revisar_valores_unicos(df):
    """
    Muestra los valores unicos y sus frecuencias en cada variable categorica.

    Parametros:
        df (pd.DataFrame): DataFrame a analizar.

    Retorna:
        None
    """
    columnas_categoricas = df.select_dtypes(include='object').columns.tolist()
    
    if not columnas_categoricas:
        print("✅ No hay columnas categoricas en el dataset.")
        return
    
    print("📌 Analisis de valores unicos en variables categoricas:\n")
    
    for columna in columnas_categoricas:
        print(f"\n----------- ANALIZANDO: '{columna.upper()}' -----------\n")
        print(f"Valores unicos: {df[columna].unique()}\n")
        print(f"Frecuencia de valores:\n{df[columna].value_counts()}\n")

## APLICACION FUNCIONES DE CARGA Y EXPLORACION ✨

In [16]:
# cargar datos
df = cargar_datos("../datos/bruto/Bank_Customer_Churn_Prediction.csv")

✅ Datos cargados correctamente. Filas: 10000, Columnas: 12


Unnamed: 0,customer_id,credit_score,country,gender,age,tenure,balance,products_number,credit_card,active_member,estimated_salary,churn
0,15634602,619,France,Female,42,2,0.0,1,1,1,101348.88,1
1,15647311,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,15619304,502,France,Female,42,8,159660.8,3,1,0,113931.57,1
3,15701354,699,France,Female,39,1,0.0,2,0,0,93826.63,0
4,15737888,850,Spain,Female,43,2,125510.82,1,1,1,79084.1,0


In [17]:
# Revisar estructura del dataset
revisar_estructura(df)

📌 Dimensiones del dataset:
  - Filas: 10000
  - Columnas: 12

📌 Nombres de las columnas:
['customer_id', 'credit_score', 'country', 'gender', 'age', 'tenure', 'balance', 'products_number', 'credit_card', 'active_member', 'estimated_salary', 'churn'] 

📌 Tipos de datos:
customer_id           int64
credit_score          int64
country              object
gender               object
age                   int64
tenure                int64
balance             float64
products_number       int64
credit_card           int64
active_member         int64
estimated_salary    float64
churn                 int64
dtype: object 

📌 Datos duplicados: 0 (0.0%)



In [18]:
# Identificar filas duplicadas
get_duplicate_rows(df)

✅ No hay filas duplicadas en el dataset.


Unnamed: 0,customer_id,credit_score,country,gender,age,tenure,balance,products_number,credit_card,active_member,estimated_salary,churn


In [19]:
# Revisar valores nulos y duplicados
df_nulos = revisar_valores_nulos(df)

📌 Columnas con valores nulos: 0
📌 Columnas sin valores nulos: 12


Unnamed: 0,Valores nulos,% Nulos,% No Nulos,Valores Unicos,Tipo de Dato


In [20]:
# Obtener estadisticas descriptivas
obtener_estadisticas(df)

📌 Estadisticas descriptivas de variables numericas:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
customer_id,10000.0,15690940.0,71936.186123,15565701.0,15628528.25,15690740.0,15753230.0,15815690.0
credit_score,10000.0,650.5288,96.653299,350.0,584.0,652.0,718.0,850.0
age,10000.0,38.9218,10.487806,18.0,32.0,37.0,44.0,92.0
tenure,10000.0,5.0128,2.892174,0.0,3.0,5.0,7.0,10.0
balance,10000.0,76485.89,62397.405202,0.0,0.0,97198.54,127644.2,250898.09
products_number,10000.0,1.5302,0.581654,1.0,1.0,1.0,2.0,4.0
credit_card,10000.0,0.7055,0.45584,0.0,0.0,1.0,1.0,1.0
active_member,10000.0,0.5151,0.499797,0.0,0.0,1.0,1.0,1.0
estimated_salary,10000.0,100090.2,57510.492818,11.58,51002.11,100193.9,149388.2,199992.48
churn,10000.0,0.2037,0.402769,0.0,0.0,0.0,0.0,1.0



📌 Estadisticas descriptivas de variables categoricas:


Unnamed: 0,count,unique,top,freq
country,10000,3,France,5014
gender,10000,2,Male,5457


In [21]:
# Revisar valores unicos en variables categoricas
revisar_valores_unicos(df)

📌 Analisis de valores unicos en variables categoricas:


----------- ANALIZANDO: 'COUNTRY' -----------

Valores unicos: ['France' 'Spain' 'Germany']

Frecuencia de valores:
country
France     5014
Germany    2509
Spain      2477
Name: count, dtype: int64


----------- ANALIZANDO: 'GENDER' -----------

Valores unicos: ['Female' 'Male']

Frecuencia de valores:
gender
Male      5457
Female    4543
Name: count, dtype: int64

