## **Preprocesamiento de Datos, Ingeniería de Características y Visualización ⛅**

### **Paso 1: Incorporar las librerías y la data ⏰**

In [8]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.preprocessing import LabelEncoder, OneHotEncoder

# Creación de datos de ejemplo
data = {
    'id_cliente': range(1, 11),
    'edad': [25, 34, 45, 23, 54, 32, 41, 28, 37, 49],
    'ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Madrid', 'Sevilla', 'Barcelona', 'Madrid', 'Valencia', 'Sevilla', 'Bilbao'],
    'nivel_satisfaccion': ['Bueno', 'Excelente', 'Regular', 'Bueno', 'Excelente', 'Regular', 'Bueno', 'Malo', 'Excelente', 'Bueno'],
    'ingresos_anuales': [50000, 75000, 60000, 48000, 95000, 52000, 82000, 41000, 91000, 78000],
    'fecha_registro': pd.to_datetime(['2022-01-10', '2021-03-15', '2022-05-20', '2023-01-05', '2020-11-30', '2022-08-12', '2021-06-25', '2023-02-18', '2020-09-01', '2022-12-05'])
}
df = pd.DataFrame(data)

df.head()


Unnamed: 0,id_cliente,edad,ciudad,nivel_satisfaccion,ingresos_anuales,fecha_registro
0,1,25,Madrid,Bueno,50000,2022-01-10
1,2,34,Barcelona,Excelente,75000,2021-03-15
2,3,45,Valencia,Regular,60000,2022-05-20
3,4,23,Madrid,Bueno,48000,2023-01-05
4,5,54,Sevilla,Excelente,95000,2020-11-30


### **Paso 2: Label Encoding ⏰**

In [9]:
df['nivel_satisfaccion'].value_counts()

Unnamed: 0_level_0,count
nivel_satisfaccion,Unnamed: 1_level_1
Bueno,4
Excelente,3
Regular,2
Malo,1


In [10]:
##Método de transformación de variable categóricas - M1
orden_satisfaccion = ['Bueno','Excelente','Malo', 'Regular' ]
mapeo = {categoria:i for i, categoria in enumerate(orden_satisfaccion)}
df['nivel_Satisfacion_manual'] = df['nivel_satisfaccion'].map(mapeo)
df

#df.drop(columns=['nivel_satisfaccion'], inplace=True)
#df

Unnamed: 0,id_cliente,edad,ciudad,nivel_satisfaccion,ingresos_anuales,fecha_registro,nivel_Satisfacion_manual
0,1,25,Madrid,Bueno,50000,2022-01-10,0
1,2,34,Barcelona,Excelente,75000,2021-03-15,1
2,3,45,Valencia,Regular,60000,2022-05-20,3
3,4,23,Madrid,Bueno,48000,2023-01-05,0
4,5,54,Sevilla,Excelente,95000,2020-11-30,1
5,6,32,Barcelona,Regular,52000,2022-08-12,3
6,7,41,Madrid,Bueno,82000,2021-06-25,0
7,8,28,Valencia,Malo,41000,2023-02-18,2
8,9,37,Sevilla,Excelente,91000,2020-09-01,1
9,10,49,Bilbao,Bueno,78000,2022-12-05,0


In [17]:
##Método de transformación de variable categóricas - M2 >3 Categorías
le = LabelEncoder()
df['nivel_satisfaccion_le'] = le.fit_transform(df['nivel_satisfaccion'])
df

Unnamed: 0,id_cliente,edad,ciudad,nivel_satisfaccion,ingresos_anuales,fecha_registro,nivel_Satisfacion_manual,nivel_satisfaccion_le
0,1,25,Madrid,Bueno,50000,2022-01-10,0,0
1,2,34,Barcelona,Excelente,75000,2021-03-15,1,1
2,3,45,Valencia,Regular,60000,2022-05-20,3,3
3,4,23,Madrid,Bueno,48000,2023-01-05,0,0
4,5,54,Sevilla,Excelente,95000,2020-11-30,1,1
5,6,32,Barcelona,Regular,52000,2022-08-12,3,3
6,7,41,Madrid,Bueno,82000,2021-06-25,0,0
7,8,28,Valencia,Malo,41000,2023-02-18,2,2
8,9,37,Sevilla,Excelente,91000,2020-09-01,1,1
9,10,49,Bilbao,Bueno,78000,2022-12-05,0,0


### **Paso 3: One Hot Encoding ⏰**

In [14]:
##M1 -One Hot Encoding
df_onehot = pd.get_dummies(df, columns=['ciudad'])

df_onehot['ciudad_Barcelona'] = np.where(df_onehot['ciudad_Barcelona']==True, 1, 0)
df_onehot['ciudad_Bilbao'] = np.where(df_onehot['ciudad_Bilbao']==True, 1, 0)
df_onehot['ciudad_Madrid'] = np.where(df_onehot['ciudad_Madrid']==True, 1, 0)
df_onehot['ciudad_Sevilla'] = np.where(df_onehot['ciudad_Sevilla']==True, 1, 0)
df_onehot['ciudad_Valencia'] = np.where(df_onehot['ciudad_Valencia']==True, 1, 0)

df_onehot

Unnamed: 0,id_cliente,edad,nivel_satisfaccion,ingresos_anuales,fecha_registro,nivel_Satisfacion_manual,nivel_satisfaccion_le,ciudad_Barcelona,ciudad_Bilbao,ciudad_Madrid,ciudad_Sevilla,ciudad_Valencia
0,1,25,Bueno,50000,2022-01-10,0,0,0,0,1,0,0
1,2,34,Excelente,75000,2021-03-15,1,1,1,0,0,0,0
2,3,45,Regular,60000,2022-05-20,3,3,0,0,0,0,1
3,4,23,Bueno,48000,2023-01-05,0,0,0,0,1,0,0
4,5,54,Excelente,95000,2020-11-30,1,1,0,0,0,1,0
5,6,32,Regular,52000,2022-08-12,3,3,1,0,0,0,0
6,7,41,Bueno,82000,2021-06-25,0,0,0,0,1,0,0
7,8,28,Malo,41000,2023-02-18,2,2,0,0,0,0,1
8,9,37,Excelente,91000,2020-09-01,1,1,0,0,0,1,0
9,10,49,Bueno,78000,2022-12-05,0,0,0,1,0,0,0


In [16]:
##M2 -One Hot Encoding <3 categorías
ohe = OneHotEncoder(sparse_output=False)
ciudad_encoded = ohe.fit_transform(df[['ciudad']])
ciudad_encoded_df = pd.DataFrame(ciudad_encoded, columns=ohe.get_feature_names_out(['ciudad']))
df_encoded = pd.concat([df, ciudad_encoded_df], axis=1)
df_encoded


Unnamed: 0,id_cliente,edad,ciudad,nivel_satisfaccion,ingresos_anuales,fecha_registro,nivel_Satisfacion_manual,nivel_satisfaccion_le,ciudad_Barcelona,ciudad_Bilbao,ciudad_Madrid,ciudad_Sevilla,ciudad_Valencia
0,1,25,Madrid,Bueno,50000,2022-01-10,0,0,0.0,0.0,1.0,0.0,0.0
1,2,34,Barcelona,Excelente,75000,2021-03-15,1,1,1.0,0.0,0.0,0.0,0.0
2,3,45,Valencia,Regular,60000,2022-05-20,3,3,0.0,0.0,0.0,0.0,1.0
3,4,23,Madrid,Bueno,48000,2023-01-05,0,0,0.0,0.0,1.0,0.0,0.0
4,5,54,Sevilla,Excelente,95000,2020-11-30,1,1,0.0,0.0,0.0,1.0,0.0
5,6,32,Barcelona,Regular,52000,2022-08-12,3,3,1.0,0.0,0.0,0.0,0.0
6,7,41,Madrid,Bueno,82000,2021-06-25,0,0,0.0,0.0,1.0,0.0,0.0
7,8,28,Valencia,Malo,41000,2023-02-18,2,2,0.0,0.0,0.0,0.0,1.0
8,9,37,Sevilla,Excelente,91000,2020-09-01,1,1,0.0,0.0,0.0,1.0,0.0
9,10,49,Bilbao,Bueno,78000,2022-12-05,0,0,0.0,1.0,0.0,0.0,0.0


### **Paso 4: Discretizar ⏰**

In [18]:
df['edad'].describe()

Unnamed: 0,edad
count,10.0
mean,36.8
std,10.368756
min,23.0
25%,29.0
50%,35.5
75%,44.0
max,54.0


In [20]:
bins_edad = [0, 30, 50, 100]
rangos_edad = ['Joven', 'Adulto', 'Adulto Mayor']
df['grupos_edad'] = pd.cut(df['edad'], bins=bins_edad, labels=rangos_edad)
print(df[['edad' , 'grupos_edad']])

   edad   grupos_edad
0    25         Joven
1    34        Adulto
2    45        Adulto
3    23         Joven
4    54  Adulto Mayor
5    32        Adulto
6    41        Adulto
7    28         Joven
8    37        Adulto
9    49        Adulto


### **Paso 5: Extraer o Crear Nuevas Variables ⏰**

In [21]:
df['ingreso_edad'] = df['ingresos_anuales']/ df['edad']
df

Unnamed: 0,id_cliente,edad,ciudad,nivel_satisfaccion,ingresos_anuales,fecha_registro,nivel_Satisfacion_manual,nivel_satisfaccion_le,grupos_edad,ingreso_edad
0,1,25,Madrid,Bueno,50000,2022-01-10,0,0,Joven,2000.0
1,2,34,Barcelona,Excelente,75000,2021-03-15,1,1,Adulto,2205.882353
2,3,45,Valencia,Regular,60000,2022-05-20,3,3,Adulto,1333.333333
3,4,23,Madrid,Bueno,48000,2023-01-05,0,0,Joven,2086.956522
4,5,54,Sevilla,Excelente,95000,2020-11-30,1,1,Adulto Mayor,1759.259259
5,6,32,Barcelona,Regular,52000,2022-08-12,3,3,Adulto,1625.0
6,7,41,Madrid,Bueno,82000,2021-06-25,0,0,Adulto,2000.0
7,8,28,Valencia,Malo,41000,2023-02-18,2,2,Joven,1464.285714
8,9,37,Sevilla,Excelente,91000,2020-09-01,1,1,Adulto,2459.459459
9,10,49,Bilbao,Bueno,78000,2022-12-05,0,0,Adulto,1591.836735


In [22]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 10 columns):
 #   Column                    Non-Null Count  Dtype         
---  ------                    --------------  -----         
 0   id_cliente                10 non-null     int64         
 1   edad                      10 non-null     int64         
 2   ciudad                    10 non-null     object        
 3   nivel_satisfaccion        10 non-null     object        
 4   ingresos_anuales          10 non-null     int64         
 5   fecha_registro            10 non-null     datetime64[ns]
 6   nivel_Satisfacion_manual  10 non-null     int64         
 7   nivel_satisfaccion_le     10 non-null     int64         
 8   grupos_edad               10 non-null     category      
 9   ingreso_edad              10 non-null     float64       
dtypes: category(1), datetime64[ns](1), float64(1), int64(5), object(2)
memory usage: 994.0+ bytes


In [23]:
df['año_registro']=df['fecha_registro'].dt.year
df['mes_registro']=df['fecha_registro'].dt.month
df['dia_registro']=df['fecha_registro'].dt.day
df['dia_semana_registro']=df['fecha_registro'].dt.day_name()

print(df[['fecha_registro','año_registro','mes_registro','dia_registro','dia_semana_registro','ingreso_edad']])



  fecha_registro  año_registro  mes_registro  dia_registro  \
0     2022-01-10          2022             1            10   
1     2021-03-15          2021             3            15   
2     2022-05-20          2022             5            20   
3     2023-01-05          2023             1             5   
4     2020-11-30          2020            11            30   
5     2022-08-12          2022             8            12   
6     2021-06-25          2021             6            25   
7     2023-02-18          2023             2            18   
8     2020-09-01          2020             9             1   
9     2022-12-05          2022            12             5   

  dia_semana_registro  ingreso_edad  
0              Monday   2000.000000  
1              Monday   2205.882353  
2              Friday   1333.333333  
3            Thursday   2086.956522  
4              Monday   1759.259259  
5              Friday   1625.000000  
6              Friday   2000.000000  
7            

### **Paso 6: Procesos Avanzados con Pandas ⏰**

In [24]:
##Apply - Map - transform
def clasificar_ingresos(ingresos):
  if ingresos <50000: return 'Bajo'
  elif 50000 <= ingresos <80000: return 'Medio'
  else: return 'Alto'

df['Clasificacion_ingresos']= df['ingresos_anuales'].apply(clasificar_ingresos)
df[['Clasificacion_ingresos','ingresos_anuales']]

Unnamed: 0,Clasificacion_ingresos,ingresos_anuales
0,Medio,50000
1,Medio,75000
2,Medio,60000
3,Bajo,48000
4,Alto,95000
5,Medio,52000
6,Alto,82000
7,Bajo,41000
8,Alto,91000
9,Medio,78000


In [25]:
##Transform
##calcular el ingreso promedio por ciudad y añadir a una nueva columna
df['ingresosxciudad'] = df.groupby('ciudad')['ingresos_anuales'].transform('mean')
df[['ciudad','ingresos_anuales','ingresosxciudad']]

Unnamed: 0,ciudad,ingresos_anuales,ingresosxciudad
0,Madrid,50000,60000.0
1,Barcelona,75000,63500.0
2,Valencia,60000,50500.0
3,Madrid,48000,60000.0
4,Sevilla,95000,93000.0
5,Barcelona,52000,63500.0
6,Madrid,82000,60000.0
7,Valencia,41000,50500.0
8,Sevilla,91000,93000.0
9,Bilbao,78000,78000.0


In [29]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 16 columns):
 #   Column                    Non-Null Count  Dtype         
---  ------                    --------------  -----         
 0   id_cliente                10 non-null     int64         
 1   edad                      10 non-null     int64         
 2   ciudad                    10 non-null     object        
 3   nivel_satisfaccion        10 non-null     object        
 4   ingresos_anuales          10 non-null     int64         
 5   fecha_registro            10 non-null     datetime64[ns]
 6   nivel_Satisfacion_manual  10 non-null     int64         
 7   nivel_satisfaccion_le     10 non-null     int64         
 8   grupos_edad               10 non-null     category      
 9   ingreso_edad              10 non-null     float64       
 10  año_registro              10 non-null     int32         
 11  mes_registro              10 non-null     int32         
 12  dia_registro             

In [30]:
##Group by
resumen_ciudad = df.groupby('ciudad').agg(ingreso_promedio= ('ingresos_anuales', 'mean'),
                                          edad_maxima=('edad','max'),
                                          conteo_clientes=('id_cliente','count'))
resumen_ciudad

Unnamed: 0_level_0,ingreso_promedio,edad_maxima,conteo_clientes
ciudad,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Barcelona,63500.0,34,2
Bilbao,78000.0,49,1
Madrid,60000.0,41,3
Sevilla,93000.0,54,2
Valencia,50500.0,45,2
