## Primero cargamos la data con la que vamos a trabajar en el entorno google colab

In [2]:
from google.colab import files
uploaded = files.upload()

Saving survey_base.csv to survey_base.csv


1.1. Objetivos de la investigación
El objetivo principal de la investigación era conocer la percepción de calidad de los clientes sobre una de las grandes compañías de distribución. Este objetivo se pretendía alcanzar a partir del establecimiento de 4 subobjetivos, cada uno de ellos en base a distintas técnicas de análisis estadístico:
• Conocer el perfil de los clientes en función de sus opiniones sobre el centro, que se alcanzaría a través de métodos descriptivos, tanto univariantes como bivariantes, y que serán cubiertos en los capítulos.
• Extraer los factores más importantes para los clientes y elaborar un ranking de importancia tanto para cada factor, como para las variables clave de cada uno de ellos. Estas técnicas conocidas como análisis factorial.
• Clasificar a los clientes en función de sus opiniones sobre los centros, está técnica conocida como análisis de conglomerados o cluster.
• El cuarto subojetivo trataba de explicar las variables clave que afectan tanto al nivel de satisfacción con el centro como a la compra media realizada, y se tratarán a través de métodos de regresión múltiple.

## Instalar la librería D-Tale
Ayuda de la librería: https://pypi.org/project/dtale/
Ventajas: Esta librería hace que sea muy fácil interactuar con los datos, realizar análisis básicos e incluso editarlos. Es bastante rápida y fácil de usar.

In [3]:
# Instalando la librería. Es posible que tengas que reiniciar el entorno de ejecución (mira si te sale este warning al final de la instalación)
!pip install dtale

Collecting dtale
  Downloading dtale-3.17.0-py2.py3-none-any.whl.metadata (16 kB)
Collecting dash-daq<=0.5.0 (from dtale)
  Downloading dash_daq-0.5.0.tar.gz (642 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m642.7/642.7 kB[0m [31m11.3 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting squarify (from dtale)
  Downloading squarify-0.4.4-py3-none-any.whl.metadata (600 bytes)
Collecting strsimpy (from dtale)
  Downloading strsimpy-0.2.1-py3-none-any.whl.metadata (20 kB)
Collecting dash-bootstrap-components<=1.7.1 (from dtale)
  Downloading dash_bootstrap_components-1.7.1-py3-none-any.whl.metadata (17 kB)
Collecting lz4 (from dtale)
  Downloading lz4-4.4.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (3.8 kB)
Collecting dash<=2.18.2 (from dtale)
  Downloading dash-2.18.2-py3-none-any.whl.metadata (10 kB)
Collecting Flask-Compress (from dtale)
  Downloading Flask_Compress-1.17-py3-none-any.whl.meta

In [5]:
# Importaciones
import pandas as pd
# Leer los datos de nuevo (si reseteamos el entorno RESTART RUNTIME)
df = pd.read_csv('survey_base.csv', sep=';')

In [6]:
# Mostrar la cantidad de valores perdidos (NaN) por variable
print(df.isnull().sum())

Establecimiento        0
Pc1.Actitud            4
Pc1.Atencion           0
Pc1.AtencRapida       10
Pc1.Reconocic         53
Pc1.Servicio           3
Pd1.Asesora           11
Pd1.InfoCompleta      17
Pd1.Aspectos          69
Pe1.Experienc         13
Pe1.Consultas         18
Pe1.ConocGama         10
Pe1.ResolConsulta     27
Pe1.Interes           18
Pe1.EsperaAtenc        4
Pe1.EsperaCaja         5
Pe1.ResolucRapida     40
Pe1.EmpleadCaja       17
Pe1.TiempoRecla      479
Pe1.SoluQuejas       471
Pe1.SencTramites     472
Pf1.Competitivid      14
Pf1.Variedad          11
Pf1.BenefHabitual     46
Pg1.NumEmplead         7
Pg1.CajasCerradas     44
Pg1.Decoracion         9
Pg1.Iluminacion        8
Pg1.Climatizacion      9
Pg1.OrdenLimpieza      6
Pg1.Amplitud           4
Pg1.Senalizacion       6
Pg1.IdentCadena       10
Ph1.CalidadPrecio      3
Ph1.Satisfaccion       9
C1.Edad                4
C2.Sexo                0
C3.EstadoCivil         6
C4.CompraMedia        55
C5.IngMes            265


In [7]:
import dtale
import dtale.app as dtale_app

# PARA USAR EN GOOGLE COLAB:
dtale_app.USE_COLAB = True #REQUIRED!

Para usar en jupyter notebook debería funcionar SIN tener que usar:

dtale_app.USE_COLAB = True

Y si te da algún problema podrías probar:

dtale.show(df, host='localhost')

In [8]:
# Habilitar filtros personalizados
import dtale
import dtale.app as dtale_app
import dtale.global_state as global_state

global_state.set_app_settings(dict(enable_custom_filters=True))

dtale_app.USE_COLAB = True
dtale.show(df)



https://40000-m-s-2nficjnmwjueg-c.us-central1-1.prod.colab.dev/dtale/main/1

In [9]:
# Usando la librería D-Tale.
# Después de esperar un poco, aparecerá la tabla interactiva de D-Tale con todos los datos contenidos en el dataframe.
dtale.show(df)



https://40000-m-s-2nficjnmwjueg-c.us-central1-1.prod.colab.dev/dtale/main/2

Eliminamos las variables con gran cantidad de valores perdidos: Pe1.SoluQuejas; Pe1.SencTramites

In [10]:
df = df.drop(columns=['Pe1.TiempoRecla', 'Pe1.SoluQuejas', 'Pe1.SencTramites'])

Imputamos la media a la variable C5.IngMes

In [11]:
# Imputar valores faltantes de C5.IngMes con la media de la columna
df['C5.IngMes'] = df['C5.IngMes'].fillna(df['C5.IngMes'].mean())

Cerramos el visor de la sesión anterior y abrimos un nuevo visor para ver los cambios

In [40]:
import dtale

# Cerrar la sesión anterior (si es necesario manualmente)

# Volver a abrir D-Tale con el df actualizado
d = dtale.show(df)
d.open_browser()



In [41]:
dtale.show(df)



https://40000-m-s-2nficjnmwjueg-c.us-central1-1.prod.colab.dev/dtale/main/6

Vemos ahora el tipo de dato de cada variable del dataset

In [14]:
# Ver tipos de variables
print(df.dtypes)

Establecimiento        int64
Pc1.Actitud          float64
Pc1.Atencion           int64
Pc1.AtencRapida      float64
Pc1.Reconocic        float64
Pc1.Servicio         float64
Pd1.Asesora          float64
Pd1.InfoCompleta     float64
Pd1.Aspectos         float64
Pe1.Experienc        float64
Pe1.Consultas        float64
Pe1.ConocGama        float64
Pe1.ResolConsulta    float64
Pe1.Interes          float64
Pe1.EsperaAtenc      float64
Pe1.EsperaCaja       float64
Pe1.ResolucRapida    float64
Pe1.EmpleadCaja      float64
Pf1.Competitivid     float64
Pf1.Variedad         float64
Pf1.BenefHabitual    float64
Pg1.NumEmplead       float64
Pg1.CajasCerradas    float64
Pg1.Decoracion       float64
Pg1.Iluminacion      float64
Pg1.Climatizacion    float64
Pg1.OrdenLimpieza    float64
Pg1.Amplitud         float64
Pg1.Senalizacion     float64
Pg1.IdentCadena      float64
Ph1.CalidadPrecio    float64
Ph1.Satisfaccion     float64
C1.Edad              float64
C2.Sexo                int64
C3.EstadoCivil

Recodificamos la variable Establecimiento y la convertimos a factor
1 = carrefour; 2= dia; 3= mercadona

In [15]:
# Reemplazar los códigos numéricos por nombres
df['Establecimiento'] = df['Establecimiento'].replace({
    1: 'carrefour',
    2: 'dia',
    3: 'mercadona'
})

# Convertir a tipo categórico
df['Establecimiento'] = df['Establecimiento'].astype('category')

A continuación crearemos nuevas variables a partir de otras ya existentes y les cambiaremos el tipo, esto es: transformar a numericas las variables edad, compra media, e ingresos usando los valores medios como las marcas de clase.

In [16]:
# 1. Imputar NaN con la media
df['C1.Edad'] = df['C1.Edad'].fillna(df['C1.Edad'].mean())

# 2. Redondear edad para que queden números enteros
df['C1.Edad'] = df['C1.Edad'].round()

In [17]:
# Crear un diccionario de recodificación en el mismo orden que en R
edad_recode = {
    1: 21,
    2: 30,
    3: 40,
    4: 50,
    5: 60,
    6: 65
}

# Aplicar la recodificación
df['RC1.Edad'] = df['C1.Edad'].map(edad_recode)

In [18]:
# Mostrar combinaciones únicas de la Edad original y recodificada, ordenadas
df[['C1.Edad', 'RC1.Edad']].drop_duplicates().sort_values('C1.Edad')


Unnamed: 0,C1.Edad,RC1.Edad
13,1.0,21
4,2.0,30
2,3.0,40
3,4.0,50
1,5.0,60
0,6.0,65


Compra media

In [19]:
# 1. Imputar valores faltantes con la media
df['C4.CompraMedia'] = df['C4.CompraMedia'].fillna(df['C4.CompraMedia'].mean())

In [20]:
# 2. Redondear y convertir a enteros
df['C4.CompraMedia'] = df['C4.CompraMedia'].round().astype(int)

In [21]:
# Diccionario de recodificación: Código original -> Valor medio asignado
compra_media_recode = {
    1: 15,
    2: 23,
    3: 38,
    4: 53,
    5: 68,
    6: 83,
    7: 103,
    8: 120
}

In [22]:
# 4. Crear nueva variable con marcas de clase
df['RC4.CompraMedia'] = df['C4.CompraMedia'].map(compra_media_recode)

In [23]:
# Mostrar combinaciones únicas de valor original y recodificado
df[['C4.CompraMedia', 'RC4.CompraMedia']].drop_duplicates().sort_values('C4.CompraMedia')


Unnamed: 0,C4.CompraMedia,RC4.CompraMedia
10,1,15
6,2,23
0,3,38
2,4,53
5,5,68
35,6,83
32,7,103
13,8,120


Ingresos mensuales

In [24]:
# Redondear y convertir a entero por seguridad
df['C5.IngMes'] = df['C5.IngMes'].round().astype(int)

# Diccionario de recodificación: códigos a valores medios de los intervalos
ingresos_recode = {
    1: 600,
    2: 800,
    3: 1250,
    4: 1750,
    5: 2500,
    6: 3750,
    7: 4500
}

# Crear nueva variable RC5.IngMes
df['RC5.IngMes'] = df['C5.IngMes'].map(ingresos_recode)


In [25]:
df[['C5.IngMes', 'RC5.IngMes']].drop_duplicates().sort_values('C5.IngMes')


Unnamed: 0,C5.IngMes,RC5.IngMes
0,1,600
310,2,800
606,3,1250
973,4,1750
1302,5,2500
1530,6,3750
1665,7,4500


## Convertimos varibles a categóricas

In [26]:
# Definimos las etiquetas para los rangos de edad en el mismo orden que sus códigos (1 a 6)
edad_labels = ["de 18 a 24", "de 25 a 35", "de 35 a 44",
               "de 45 a 54", "de 55 a 64", "mas de 64"]

# Creamos una nueva variable categórica 'C1.Edad_cat' a partir de los códigos numéricos en 'C1.Edad'
df['C1.Edad_cat'] = pd.Categorical.from_codes(
    codes=df['C1.Edad'].astype(int) - 1,  # Restamos 1 porque from_codes espera índices que comienzan en 0 (Python), no en 1 (como en R)
    categories=edad_labels,               # Asignamos las etiquetas que describen cada código
    ordered=True                          # Indicamos que esta categoría tiene un orden (ordinal), útil para gráficos y modelos
)


In [27]:
# Ver combinaciones únicas de C1.Edad y C1.Edad_cat, ordenadas por código
df[['C1.Edad', 'C1.Edad_cat']].drop_duplicates().sort_values('C1.Edad')


Unnamed: 0,C1.Edad,C1.Edad_cat
13,1.0,de 18 a 24
4,2.0,de 25 a 35
2,3.0,de 35 a 44
3,4.0,de 45 a 54
1,5.0,de 55 a 64
0,6.0,mas de 64


In [28]:
# Verificar el tipo de la nueva variable
print(df['C1.Edad_cat'].dtype)


category


In [29]:
# Definimos las etiquetas para la variable Sexo
sexo_labels = ["hombre", "mujer"]

# Creamos una nueva variable categórica 'C2.Sexo_cat' basada en los códigos originales
df['C2.Sexo_cat'] = pd.Categorical.from_codes(
    codes=df['C2.Sexo'].astype(int) - 1,  # Restamos 1 porque los códigos en Python empiezan en 0
    categories=sexo_labels
)


In [30]:
df[['C2.Sexo', 'C2.Sexo_cat']].drop_duplicates().sort_values('C2.Sexo')


Unnamed: 0,C2.Sexo,C2.Sexo_cat
2,1,hombre
0,2,mujer


In [31]:
# Verificar el tipo de la variable C2.Sexo_cat
print(df['C2.Sexo_cat'].dtype)


category


In [34]:
# 1. Definir las etiquetas
estado_civil_labels = ["soltero/a", "casado/a", "unido/a", "separado/a", "viudo/a"]

# 2. Preparar los códigos: restar 1 y reemplazar NaN por -1
estado_civil_codes = df['C3.EstadoCivil'].subtract(1).fillna(-1).astype(int)

# 3. Crear variable categórica con etiquetas
df['C3.EstadoCivil_cat'] = pd.Categorical.from_codes(
    codes=estado_civil_codes,
    categories=estado_civil_labels
)


In [35]:
df[['C3.EstadoCivil', 'C3.EstadoCivil_cat']].drop_duplicates().sort_values('C3.EstadoCivil')


Unnamed: 0,C3.EstadoCivil,C3.EstadoCivil_cat
4,1.0,soltero/a
0,2.0,casado/a
2,3.0,unido/a
3,4.0,separado/a
6,5.0,viudo/a
470,,


In [36]:
# 1. Definir etiquetas para cada código de C4.CompraMedia
compra_media_labels = [
    "menos de 15", "entre 15 y 30", "entre 31 y 45", "entre 46 y 60",
    "entre 61 y 75", "entre 76 y 90", "entre 91 y 120", "mas de 120"
]

# 2. Asegurar que la columna sea tipo Int64 para manejar NaN
df['C4.CompraMedia'] = df['C4.CompraMedia'].astype('Int64')

# 3. Preparar los códigos: restar 1 (Python cuenta desde 0), y manejar NaN con -1
compra_media_codes = df['C4.CompraMedia'].subtract(1).fillna(-1).astype(int)

# 4. Crear nueva variable categórica con etiquetas
df['C4.CompraMedia_cat'] = pd.Categorical.from_codes(
    codes=compra_media_codes,
    categories=compra_media_labels,
    ordered=True
)


In [37]:
# Ver combinaciones únicas para verificar correcta asignación
df[['C4.CompraMedia', 'C4.CompraMedia_cat']].drop_duplicates().sort_values('C4.CompraMedia')


Unnamed: 0,C4.CompraMedia,C4.CompraMedia_cat
10,1,menos de 15
6,2,entre 15 y 30
0,3,entre 31 y 45
2,4,entre 46 y 60
5,5,entre 61 y 75
35,6,entre 76 y 90
32,7,entre 91 y 120
13,8,mas de 120


In [38]:
# 1. Definir etiquetas para cada código
ingresos_labels = [
    "menos de 600", "601 a 1000", "1001 a 1500", "1501 a 2000",
    "2001 a 3000", "3001 a 4500", "más de 4500"
]

# 2. Asegurarse que la columna permita NaN y esté en entero
df['C5.IngMes'] = df['C5.IngMes'].astype('Int64')

# 3. Preparar los códigos: restar 1 y manejar NaN con -1
ingresos_codes = df['C5.IngMes'].subtract(1).fillna(-1).astype(int)

# 4. Crear nueva variable categórica con etiquetas
df['C5.IngMes_cat'] = pd.Categorical.from_codes(
    codes=ingresos_codes,
    categories=ingresos_labels,
    ordered=True
)


In [39]:
df[['C5.IngMes', 'C5.IngMes_cat']].drop_duplicates().sort_values('C5.IngMes')


Unnamed: 0,C5.IngMes,C5.IngMes_cat
0,1,menos de 600
310,2,601 a 1000
606,3,1001 a 1500
973,4,1501 a 2000
1302,5,2001 a 3000
1530,6,3001 a 4500
1665,7,más de 4500
