In [1]:
import pandas as pd
import numpy as np

# Union de los datos de las hojas del Excel.

In [5]:
# Cargar todas las hojas del archivo Excel

df_completo = pd.read_excel("archivos/customer-details.xlsx", sheet_name=None,index_col=0)  # carga todas las hojas

In [6]:
# Unir todas las hojas en un solo DataFrame
df_unido = pd.concat(df_completo.values(), ignore_index=True)

In [7]:
df_unido.shape

(43170, 6)

In [8]:
df_unido.head(4)

Unnamed: 0,Income,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079
1,85477,1,1,2012-12-30,7,e9d37224-cb6f-4942-98d7-46672963d097
2,147233,1,1,2012-02-02,5,3f9f49b5-e410-4948-bf6e-f9244f04918b
3,121393,1,2,2012-12-21,29,9991fafb-4447-451a-8be2-b0df6098d13e


# EDA preliminar antes de limpieza y transformación de datos

- **Income**: Representa el ingreso anual del cliente en términos monetarios.
- **Kidhome**: Indica el número de niños en el hogar del cliente.
- **Teenhome**: Indica el número de adolescentes en el hogar del cliente.
- **Dt_Customer**: Representa la fecha en que el cliente se convirtió en cliente de la empresa.
- **NumWebVisitsMonth**: Indica la cantidad de visitas mensuales del cliente al sitio web de la empresa.
- **ID**: Identificador único del cliente.


In [10]:
df_unido.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 43170 entries, 0 to 43169
Data columns (total 6 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   Income             43170 non-null  int64         
 1   Kidhome            43170 non-null  int64         
 2   Teenhome           43170 non-null  int64         
 3   Dt_Customer        43170 non-null  datetime64[ns]
 4   NumWebVisitsMonth  43170 non-null  int64         
 5   ID                 43170 non-null  object        
dtypes: datetime64[ns](1), int64(4), object(1)
memory usage: 2.0+ MB


In [11]:
df_unido.dtypes

Income                        int64
Kidhome                       int64
Teenhome                      int64
Dt_Customer          datetime64[ns]
NumWebVisitsMonth             int64
ID                           object
dtype: object

In [14]:
df_unido.isnull().sum() 
#no hay nulos

Income               0
Kidhome              0
Teenhome             0
Dt_Customer          0
NumWebVisitsMonth    0
ID                   0
dtype: int64

In [13]:
df_unido.duplicated()

0        False
1        False
2        False
3        False
4        False
         ...  
43165    False
43166    False
43167    False
43168    False
43169    False
Length: 43170, dtype: bool

# Transformación y limpieza de datos tras el EDA Preliminar

## En este caso no se han apreciado transformaciones ni limpiezas necesarias a realizar.

In [None]:
#lo siguiente es antiguo. Antes de saber como juntar todas las hojas.

In [2]:
df_o = pd.read_excel("archivos/customer-details.xlsx", index_col=0)

In [3]:
df = df_o.copy()

In [4]:
df.head()

Unnamed: 0,Income,Kidhome,Teenhome,Dt_Customer,NumWebVisitsMonth,ID
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079
1,85477,1,1,2012-12-30,7,e9d37224-cb6f-4942-98d7-46672963d097
2,147233,1,1,2012-02-02,5,3f9f49b5-e410-4948-bf6e-f9244f04918b
3,121393,1,2,2012-12-21,29,9991fafb-4447-451a-8be2-b0df6098d13e
4,63164,1,2,2012-06-20,20,eca60b76-70b6-4077-80ba-bc52e8ebb0eb


In [6]:
df.shape

(20115, 6)

In [13]:
df_2012 = pd.read_excel ("archivos/customer-details.xlsx", index_col=0,sheet_name='2012')

In [16]:
df_2013 = pd.read_excel ("archivos/customer-details.xlsx", index_col=0,sheet_name='2013')

In [17]:
df_2014 = pd.read_excel ("archivos/customer-details.xlsx", index_col=0,sheet_name='2014')

In [28]:
pd.merge(df_2012,df_2013, how = 'outer', on = 'ID')

Unnamed: 0,Income_x,Kidhome_x,Teenhome_x,Dt_Customer_x,NumWebVisitsMonth_x,ID,Income_y,Kidhome_y,Teenhome_y,Dt_Customer_y,NumWebVisitsMonth_y
0,62489.0,2.0,0.0,2012-01-25,7.0,00024507-c59b-4eee-86d5-cc341b96eb6d,,,,NaT,
1,27570.0,1.0,2.0,2012-04-14,26.0,000625bd-cc08-4653-b8b7-1853c458527d,,,,NaT,
2,,,,NaT,,0006c8fd-9dea-439d-a3b9-571b3901ff58,166403.0,1.0,1.0,2013-06-15,29.0
3,137400.0,1.0,2.0,2012-06-09,10.0,0008228c-57b0-464b-b337-dee02c4e433d,,,,NaT,
4,,,,NaT,,00094f46-568d-4309-9bf9-d591a45e03da,66837.0,0.0,1.0,2013-05-04,19.0
...,...,...,...,...,...,...,...,...,...,...,...
29075,56188.0,2.0,1.0,2012-06-30,24.0,fff1b2e4-477f-4075-9973-1b84d92a5084,,,,NaT,
29076,112653.0,2.0,1.0,2012-01-20,25.0,fff67187-c301-41e8-a58a-b2daf7ff17e0,,,,NaT,
29077,,,,NaT,,fffd1227-80ee-4feb-98e0-3e4c7f8c30fd,47325.0,0.0,2.0,2013-10-02,1.0
29078,,,,NaT,,fffe3fc3-ee08-41f1-82e0-872d9d90f51a,20846.0,1.0,2.0,2013-09-04,21.0


EDA preliminar de los datos:

Columnas:
●	Income: Representa el ingreso anual del cliente en términos monetarios.
●	Kidhome: Indica el número de niños en el hogar del cliente.
●	Teenhome: Indica el número de adolescentes en el hogar del cliente.
●	Dt_Customer: Representa la fecha en que el cliente se convirtió en cliente de la empresa.
●	NumWebVisitsMonth: Indica la cantidad de visitas mensuales del cliente al sitio web de la empresa.
●	ID: Identificador único del cliente.


In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 20115 entries, 0 to 20114
Data columns (total 6 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   Income             20115 non-null  int64         
 1   Kidhome            20115 non-null  int64         
 2   Teenhome           20115 non-null  int64         
 3   Dt_Customer        20115 non-null  datetime64[ns]
 4   NumWebVisitsMonth  20115 non-null  int64         
 5   ID                 20115 non-null  object        
dtypes: datetime64[ns](1), int64(4), object(1)
memory usage: 1.1+ MB


In [9]:
df.isnull().sum()

Income               0
Kidhome              0
Teenhome             0
Dt_Customer          0
NumWebVisitsMonth    0
ID                   0
dtype: int64

In [11]:
df.describe().T

Unnamed: 0,count,mean,min,25%,50%,75%,max,std
Income,20115.0,93087.213224,5852.0,49110.0,92962.0,136705.0,180791.0,50614.798255
Kidhome,20115.0,1.004176,0.0,0.0,1.0,2.0,2.0,0.816811
Teenhome,20115.0,0.999503,0.0,0.0,1.0,2.0,2.0,0.815298
Dt_Customer,20115.0,2012-07-01 17:15:14.362416128,2012-01-01 00:00:00,2012-04-01 00:00:00,2012-07-02 00:00:00,2012-09-30 00:00:00,2012-12-31 00:00:00,
NumWebVisitsMonth,20115.0,16.54079,1.0,9.0,16.0,25.0,32.0,9.235324
