In [1]:
#Importación de librerías con las que trabajaremos
import numpy as np
import pandas as pd

# Métodos útiles en pandas

In [2]:
import numpy as np
import pandas as pd

#Creamos el dataframe con el que probaremos los distintos métodos
df_pruebas = pd.DataFrame({
    'columnaA': [1, np.NaN, np.NaN, 5, 1],
    'columnaB': [2, 4, np.NaN, 6, 2], 
    'columnaC': [3, np.NaN, np.NaN, np.NaN, 3]
})
df_pruebas

Unnamed: 0,columnaA,columnaB,columnaC
0,1.0,2.0,3.0
1,,4.0,
2,,,
3,5.0,6.0,
4,1.0,2.0,3.0


## Procesado de NAs

In [3]:
#Obtenemos booleanos con posiciones vacías
print(df_pruebas.isna())
print("------------------------------------")
print(df_pruebas['columnaA'].isna())

   columnaA  columnaB  columnaC
0     False     False     False
1      True     False      True
2      True      True      True
3     False     False      True
4     False     False     False
------------------------------------
0    False
1     True
2     True
3    False
4    False
Name: columnaA, dtype: bool


In [4]:
#Obtenemos filas que tengan en 'columnaA' un valor vacío.
df_pruebas[df_pruebas['columnaA'].isna()]

Unnamed: 0,columnaA,columnaB,columnaC
1,,4.0,
2,,,


In [5]:
#Obtenemos filas que no tengan en 'columnaA' un valor vacío.
df_pruebas[df_pruebas['columnaA'].notna()]

Unnamed: 0,columnaA,columnaB,columnaC
0,1.0,2.0,3.0
3,5.0,6.0,
4,1.0,2.0,3.0


In [6]:
#Creamos un nuevo dataframe sin filas con NA
df_sinfilasNA = df_pruebas.dropna()
df_sinfilasNA

Unnamed: 0,columnaA,columnaB,columnaC
0,1.0,2.0,3.0
4,1.0,2.0,3.0


In [7]:
#Borrado de columnas con algún NaN
df_sincolumnasNA = df_pruebas.dropna(axis=1)
df_sincolumnasNA

0
1
2
3
4


In [8]:
#No recuperamos las filas que tengan todos sus valores a nulo
df_pruebas.dropna(how='all')

Unnamed: 0,columnaA,columnaB,columnaC
0,1.0,2.0,3.0
1,,4.0,
3,5.0,6.0,
4,1.0,2.0,3.0


In [9]:
#Eliminamos aquellas filas que tengan dos o más de sus columnas vacías
df_pruebas.dropna(thresh=2)

Unnamed: 0,columnaA,columnaB,columnaC
0,1.0,2.0,3.0
3,5.0,6.0,
4,1.0,2.0,3.0


In [10]:
#Rellenamos con 0 los NA.
#Devuelve un nuevo dataframe con el resultado, no modifica el original.
#Si queremos modificar el original --> inplace=True
df_pruebas.fillna(0)

Unnamed: 0,columnaA,columnaB,columnaC
0,1.0,2.0,3.0
1,0.0,4.0,0.0
2,0.0,0.0,0.0
3,5.0,6.0,0.0
4,1.0,2.0,3.0


In [11]:
#Segun la columna donde esté el NA ponemos un valor diferente
df_pruebas.fillna({
    'columnaA': 0, 
    'columnaB': 50, 
    'columnaC': 100
})

Unnamed: 0,columnaA,columnaB,columnaC
0,1.0,2.0,3.0
1,0.0,4.0,100.0
2,0.0,50.0,100.0
3,5.0,6.0,100.0
4,1.0,2.0,3.0


In [12]:
#Sustituimos NA por el valor que tenga en la fila anterior
df_pruebas.fillna(method='ffill')

  df_pruebas.fillna(method='ffill')


Unnamed: 0,columnaA,columnaB,columnaC
0,1.0,2.0,3.0
1,1.0,4.0,3.0
2,1.0,4.0,3.0
3,5.0,6.0,3.0
4,1.0,2.0,3.0


In [14]:
#VERSION NUEVA Sustituimos NA por el valor que tenga en la fila anterior
df_pruebas.ffill()

Unnamed: 0,columnaA,columnaB,columnaC
0,1.0,2.0,3.0
1,1.0,4.0,3.0
2,1.0,4.0,3.0
3,5.0,6.0,3.0
4,1.0,2.0,3.0


In [15]:
#Sustituimos NA por la media en esa columna
df_pruebas.fillna({
    'columnaA': df_pruebas['columnaA'].mean(), 
    'columnaB': df_pruebas['columnaB'].mean(), 
    'columnaC': df_pruebas['columnaC'].mean()
})

Unnamed: 0,columnaA,columnaB,columnaC
0,1.0,2.0,3.0
1,2.333333,4.0,3.0
2,2.333333,3.5,3.0
3,5.0,6.0,3.0
4,1.0,2.0,3.0


## Gestión de duplicados

In [16]:
#Recordamos el contenido de nuestro dataframe de pruebas
df_pruebas

Unnamed: 0,columnaA,columnaB,columnaC
0,1.0,2.0,3.0
1,,4.0,
2,,,
3,5.0,6.0,
4,1.0,2.0,3.0


In [17]:
#Vemos si hay filas duplicadas
df_pruebas.duplicated()

0    False
1    False
2    False
3    False
4     True
dtype: bool

In [18]:
#Obtenemos un dataframe sin duplicados
df_pruebas.drop_duplicates()

Unnamed: 0,columnaA,columnaB,columnaC
0,1.0,2.0,3.0
1,,4.0,
2,,,
3,5.0,6.0,


In [19]:
#Vemos si hay filas dupicadas
df_pruebas.duplicated(['columnaA','columnaC'])

0    False
1    False
2     True
3    False
4     True
dtype: bool

In [23]:
#Vemos si hay filas dupicadas. En caso de haberlas, la "original" es la última.
df_pruebas.duplicated(['columnaA','columnaC'],keep='last')

0     True
1     True
2    False
3    False
4    False
dtype: bool

## Transformaciones mediante funciones

In [24]:
## Transformación mediante mapeo.
#Traduciremos los valores numéricos por caracteres
num_a_car = {
    0.0: 'cero',
    1.0: 'uno',
    2.0: 'dos',
    3.0: 'tres',
    4.0: 'cuatro',
    5.0: 'cinco',
    6.0: 'seis',
}

#Sustitiumos NAN por 0
df_pruebas.fillna(0, inplace=True) #dataframe del principio

display(df_pruebas)

df_pruebas['columnaA'].map(lambda elemento: num_a_car[elemento])

Unnamed: 0,columnaA,columnaB,columnaC
0,1.0,2.0,3.0
1,0.0,4.0,0.0
2,0.0,0.0,0.0
3,5.0,6.0,0.0
4,1.0,2.0,3.0


0      uno
1     cero
2     cero
3    cinco
4      uno
Name: columnaA, dtype: object

## Métodos para reemplazar valores

In [25]:
#Recordamos contenido de nuestro dataframe de pruebas.
#En un paso anterior hemos sustituido NaN por 0's
df_pruebas

Unnamed: 0,columnaA,columnaB,columnaC
0,1.0,2.0,3.0
1,0.0,4.0,0.0
2,0.0,0.0,0.0
3,5.0,6.0,0.0
4,1.0,2.0,3.0


In [29]:
#Reemplazamos 1 por 'uno'
print(df_pruebas.replace(1.0, 1000.0))
print("--------------------------------")
print(df_pruebas.replace([1.0,2.0], 1000.0))
print("--------------------------------")
print(df_pruebas.replace([1.0,2.0], [1000.0, 2000.0]))
print("--------------------------------")
print(df_pruebas.replace([1.0,2.0,0.0], [1000.0, 2000.0,000.001]))

   columnaA  columnaB  columnaC
0    1000.0       2.0       3.0
1       0.0       4.0       0.0
2       0.0       0.0       0.0
3       5.0       6.0       0.0
4    1000.0       2.0       3.0
--------------------------------
   columnaA  columnaB  columnaC
0    1000.0    1000.0       3.0
1       0.0       4.0       0.0
2       0.0       0.0       0.0
3       5.0       6.0       0.0
4    1000.0    1000.0       3.0
--------------------------------
   columnaA  columnaB  columnaC
0    1000.0    2000.0       3.0
1       0.0       4.0       0.0
2       0.0       0.0       0.0
3       5.0       6.0       0.0
4    1000.0    2000.0       3.0
--------------------------------
   columnaA  columnaB  columnaC
0  1000.000  2000.000     3.000
1     0.001     4.000     0.001
2     0.001     0.001     0.001
3     5.000     6.000     0.001
4  1000.000  2000.000     3.000


## Renombrado de índices

In [30]:
#Recordamos contenido de nuestro dataframe de pruebas.
#En un paso anterior hemos sustituido NaN por 0's
df_pruebas

Unnamed: 0,columnaA,columnaB,columnaC
0,1.0,2.0,3.0
1,0.0,4.0,0.0
2,0.0,0.0,0.0
3,5.0,6.0,0.0
4,1.0,2.0,3.0


In [31]:
#La siguiente función lambda recibe una palabra y la devuelve con la inicial en mayúsculas
convMayus = lambda palabra: palabra[:1].upper() + palabra[1:]

#Aplicamos a cada nombre de columna la transformación
df_pruebas.columns = df_pruebas.columns.map(convMayus)
df_pruebas

#IMPORTANTE: Estamos modificando el dataframe original

Unnamed: 0,ColumnaA,ColumnaB,ColumnaC
0,1.0,2.0,3.0
1,0.0,4.0,0.0
2,0.0,0.0,0.0
3,5.0,6.0,0.0
4,1.0,2.0,3.0


In [33]:
#Devolvemos un nuevo dataframe con modificaciones en el nombre de una fila y una columna
df_pruebas.rename(
    index={0: 'cero', 1: 'uno'}, 
    columns={'ColumnaA': 'A'}
)

Unnamed: 0,A,ColumnaB,ColumnaC
cero,1.0,2.0,3.0
uno,0.0,4.0,0.0
2,0.0,0.0,0.0
3,5.0,6.0,0.0
4,1.0,2.0,3.0


## Sustitución de valores fuera de rango

In [34]:
#Volvemos a cargar nuestro dataframe de pruebas con los NaN
df_pruebas = pd.DataFrame({
    'columnaA': [1, np.NaN, np.NaN, 5, 1],
    'columnaB': [2, 4, np.NaN, 6, 2], 
    'columnaC': [3, np.NaN, np.NaN, np.NaN, 3]
})
df_pruebas

Unnamed: 0,columnaA,columnaB,columnaC
0,1.0,2.0,3.0
1,,4.0,
2,,,
3,5.0,6.0,
4,1.0,2.0,3.0


In [35]:
#Asegúrate de haber ejecutado la celda inmediatamente superior.
#Para simplificar la legibilidad del código, extraemos a colA el array con los datos de la primera columna
colA = df_pruebas['columnaA']

#Calculamos el P95 de esa columna
p95 = np.nanpercentile(colA, 0.95)
print("El percentil 95 es:", p95)

#Primero vemos si hay algún valor por encima del P95
print("Fila cuyo valor en columnaA es superior al p95: ", colA[colA > p95])

#Lo modificamos, cambiando el valor
colA[colA > p95] = p95

#Resultado
df_pruebas

El percentil 95 es: 1.0
Fila cuyo valor en columnaA es superior al p95:  3    5.0
Name: columnaA, dtype: float64


Unnamed: 0,columnaA,columnaB,columnaC
0,1.0,2.0,3.0
1,,4.0,
2,,,
3,1.0,6.0,
4,1.0,2.0,3.0


## Sampleado

In [42]:
#Devuelve un dataframe con 2 filas del original.
#Ejecútalo varias veces, verás que no devuelve siempre las mismas.
df_pruebas.sample(n=2)

Unnamed: 0,columnaA,columnaB,columnaC
0,1.0,2.0,3.0
3,1.0,6.0,


In [43]:
#Devuelve un dataframe con 2 columnas del original
df_pruebas.sample(n=2, axis = 1)

Unnamed: 0,columnaB,columnaC
0,2.0,3.0
1,4.0,
2,,
3,6.0,
4,2.0,3.0


In [38]:
#Devuelve un dataframe con 20 filas del original.
#Añadimos replace=True para que permita repeticiones
df_pruebas.sample(n=20, replace=True)

Unnamed: 0,columnaA,columnaB,columnaC
4,1.0,2.0,3.0
4,1.0,2.0,3.0
3,1.0,6.0,
3,1.0,6.0,
1,,4.0,
4,1.0,2.0,3.0
1,,4.0,
1,,4.0,
0,1.0,2.0,3.0
4,1.0,2.0,3.0


## Supresión de columnas no representativas

In [50]:

#Creamos el dataframe con el que probaremos los distintos métodos
df_pruebas = pd.DataFrame({
    'Importe': [567.87, 12.0, 29.56, 1001.54, 1],
    'Sexo': ['Hombre', 'Mujer', 'Mujer', 'Mujer', 'Hombre'], 
    'País': ['España', 'Francia' , 'Alemania', 'Alemania', 'España']
})
df_pruebas


Unnamed: 0,Importe,Sexo,País
0,567.87,Hombre,España
1,12.0,Mujer,Francia
2,29.56,Mujer,Alemania
3,1001.54,Mujer,Alemania
4,1.0,Hombre,España


In [51]:

#Agregamos una columna "columnaD", que tiene valores que son el doble de la "columnaA"
df_pruebas['IVA'] = df_pruebas['Importe']*0.21
df_pruebas

Unnamed: 0,Importe,Sexo,País,IVA
0,567.87,Hombre,España,119.2527
1,12.0,Mujer,Francia,2.52
2,29.56,Mujer,Alemania,6.2076
3,1001.54,Mujer,Alemania,210.3234
4,1.0,Hombre,España,0.21


In [52]:
#Estudiamos la correlación
df_pruebas.corr(numeric_only=True)

Unnamed: 0,Importe,IVA
Importe,1.0,1.0
IVA,1.0,1.0


In [53]:
#La columna IVA tiene dependencia total de la columna Importe
# Como no nos da más información, la eliminamos
df_pruebas.drop(['IVA'], axis=1, inplace=True)
df_pruebas

Unnamed: 0,Importe,Sexo,País
0,567.87,Hombre,España
1,12.0,Mujer,Francia
2,29.56,Mujer,Alemania
3,1001.54,Mujer,Alemania
4,1.0,Hombre,España


## Datos categóricos

### Label encoding

In [54]:
#Partimos del dataframe df_pruebas

#La columna Sexo es de tipo Object, debemos modificarla para que sea de tipo Category
df_pruebas['Sexo'] = df_pruebas['Sexo'].astype('category')
print(df_pruebas.info())

print("-------------------------------------")

#Sustituimos el texto por la categoría numérica
df_pruebas['Sexo'] = df_pruebas['Sexo'].cat.codes
df_pruebas


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype   
---  ------   --------------  -----   
 0   Importe  5 non-null      float64 
 1   Sexo     5 non-null      category
 2   País     5 non-null      object  
dtypes: category(1), float64(1), object(1)
memory usage: 341.0+ bytes
None
-------------------------------------


Unnamed: 0,Importe,Sexo,País
0,567.87,0,España
1,12.0,1,Francia
2,29.56,1,Alemania
3,1001.54,1,Alemania
4,1.0,0,España


In [55]:
#Método alternativo con scikit-learn
from sklearn.preprocessing import LabelEncoder


#Volvemos a cargar nuestro dataframe de pruebas con los datos categóricos
df_pruebas = pd.DataFrame({
    'Importe': [567.87, 12.0, 29.56, 1001.54, 1],
    'Sexo': ['Hombre', 'Mujer', 'Mujer', 'Mujer', 'Hombre'], 
    'País': ['España', 'Francia' , 'Alemania', 'Alemania', 'España']
})

#Creamos una instancia de la clase
labelencoder = LabelEncoder()

#Realizamos la codificación
df_pruebas['Sexo'] = labelencoder.fit_transform(df_pruebas['Sexo'])

df_pruebas

Unnamed: 0,Importe,Sexo,País
0,567.87,0,España
1,12.0,1,Francia
2,29.56,1,Alemania
3,1001.54,1,Alemania
4,1.0,0,España


### One hot encoding

In [56]:
#Modificamos el dataframe sustituyendo categórico País por dummies
df_pruebas = pd.get_dummies(df_pruebas, columns=['País'], prefix="País")
df_pruebas

Unnamed: 0,Importe,Sexo,País_Alemania,País_España,País_Francia
0,567.87,0,False,True,False
1,12.0,1,False,False,True
2,29.56,1,True,False,False
3,1001.54,1,True,False,False
4,1.0,0,False,True,False


In [57]:
#Eliminamos la tercera columna generada
df_pruebas.drop(['País_Francia'], axis=1, inplace=True)
df_pruebas

Unnamed: 0,Importe,Sexo,País_Alemania,País_España
0,567.87,0,False,True
1,12.0,1,False,False
2,29.56,1,True,False
3,1001.54,1,True,False
4,1.0,0,False,True


In [58]:
#Método alternativo con scikit-learn
from sklearn.preprocessing import OneHotEncoder

#Cargamos el dataframe de pruebas original y transformamos la columna "Sexo"
df_pruebas = pd.DataFrame({
    'Importe': [567.87, 12.0, 29.56, 1001.54, 1],
    'Sexo': ['Hombre', 'Mujer', 'Mujer', 'Mujer', 'Hombre'], 
    'País': ['España', 'Francia' , 'Alemania', 'Alemania', 'España']
})
df_pruebas['Sexo'] = df_pruebas['Sexo'].astype('category')
df_pruebas['Sexo'] = df_pruebas['Sexo'].cat.codes

#Creamos una instancia de la clase
ohe = OneHotEncoder(handle_unknown='ignore')

#Realizamos la codificación. Crea 3 columnas
categoria_codif = pd.DataFrame(ohe.fit_transform(df_pruebas[['País']]).toarray())

#Unimos las nuevas columnas con el resto del dataframe
df_pruebas = df_pruebas.join(categoria_codif)

#Renombramos las nuevas columnas generadas
df_pruebas.rename(columns = {0: 'País_Alemania',1: 'País_España', 2: 'País_Francia'}, inplace=True)

#ELiminamos las columnas con información redundante
df_pruebas.drop(['País', 'País_Francia'], axis=1, inplace=True)

#Mostramos resultado
df_pruebas

Unnamed: 0,Importe,Sexo,País_Alemania,País_España
0,567.87,0,0.0,1.0
1,12.0,1,0.0,0.0
2,29.56,1,1.0,0.0
3,1001.54,1,1.0,0.0
4,1.0,0,0.0,1.0


## Normalización

In [60]:
#OPCIÓN 1: Primero lo hacemos solo con Pandas
df_normalizado = (df_pruebas-df_pruebas.min())/(df_pruebas.max()-df_pruebas.min())
df_normalizado


Unnamed: 0,Importe,Sexo,País_Alemania,País_España
0,0.566564,0.0,0.0,1.0
1,0.010994,1.0,0.0,0.0
2,0.028545,1.0,1.0,0.0
3,1.0,1.0,1.0,0.0
4,0.0,0.0,0.0,1.0


In [None]:
#OPCIÓN 2: Mediante scikit-learn
from sklearn.preprocessing import MinMaxScaler

#Creamos instancia del normalizador
min_max_scaler = MinMaxScaler()

#Generamos array con valores escalados según el normalizador
arrayEscalado = min_max_scaler.fit_transform(df_pruebas)

#Construimos dataframe en base al array
df_normalizado =  pd.DataFrame(arrayEscalado)

#Mostramos el resultado. Fíjate que no conserva nombre de índices/columnas.
df_normalizado


# Carga de los datos desde la hoja de cálculo

In [None]:
import numpy as np
import pandas as pd
## PUEDE QUE NECESITEMOS INSTALAR ODFPY para archivos odf de Libreoffice
#Abrimos el libro
libro = pd.ExcelFile('RegistroComprasOnline.ods')
#Cargamos las hojas
df_compras = pd.read_excel(libro, 'Compras', engine='odf', index_col='IDCliente')
df_clientes = pd.read_excel(libro, 'Clientes existentes', engine='odf', index_col='IDCliente')

In [None]:
#Verificamos los datos existentes
df_compras.info()

In [None]:
df_clientes.info()

## Comprobación de duplicados

In [None]:
df_compras[df_compras.duplicated()]
#Vemos que sí hay filas duplicadas en el dataframe de compras

In [None]:
df_clientes[df_clientes.duplicated()]
#Vemos que también hay filas duplicadas en el dataframe de clientes

## Eliminación de filas duplicadas

In [None]:
df_compras.drop_duplicates(inplace=True)
df_clientes.drop_duplicates(inplace=True)

In [None]:
#Se puede comprobar que hemos eliminado 8 filas del dataframe de compras y 5 del de clientes
print(df_compras.info())
print(df_clientes.info())

## Comprobación y corrección de campos vacíos

### Importe compra

In [None]:
#Obtenemos registros cuyo importe de compra sea nulo
df_compras[df_compras['Importe compra'].isna()]

In [None]:
#Eliminamos esos 3 registros
df_compras.dropna(subset=['Importe compra'], inplace=True)

### Fecha compra

In [None]:
df_compras[df_compras['Fecha compra'].isna()]

In [None]:
#No hay ninguno

### Categoría

In [None]:
df_compras[df_compras['Categoría'].isna()]

In [None]:
#No hay ninguno

### Número de clicks

In [None]:
df_compras[df_compras['Número de clicks'].isna()]

In [None]:
#Existen 5 registros. Almacenamos la media
df_compras.fillna(
    {'Número de clicks': df_compras['Número de clicks'].mean()}, 
    inplace=True
)

#Verificamos cómo han quedado esos 5 registros
df_compras.loc[[6344, 3358, 9619, 2857, 3850]]
#El cliente 3850 tiene otros dos registros que tenían informado el número de clicks

### Fecha de nacimiento

In [None]:
df_compras[df_compras['Fecha de nacimiento'].isna()]

In [None]:
#Existe un registro sin fecha
#Pero vemos que el cliente 3850 tiene otros dos pedidos, y ahí sí tiene fecha.
#Le ponemos esa fecha de nacimiento
df_compras.fillna(
    {'Fecha de nacimiento': '1996-05-17'}, 
    inplace=True
)

#Verificamos que los 3 registros del cliente han quedado con fecha
df_compras.loc[[3850]]

### Código postal envío

In [None]:
df_compras[df_compras['Código postal envío'].isna()]

In [None]:
#No hay ninguno

### Tiempo realización compra (segs)

In [None]:
df_compras[df_compras['Tiempo realización compra (segs)'].isna()]

In [None]:
#Existen 5 registros. Almacenamos la media
df_compras.fillna(
    {'Tiempo realización compra (segs)': df_compras['Tiempo realización compra (segs)'].mean()}, 
    inplace=True
)

#Verificamos cómo han quedado esos 5 registros
df_compras.loc[[6344, 3358, 9619, 2857, 3850]]
#El cliente 3850 tiene otros dos registros que ya tenían informado el tiempo de realización

### Cliente existente

In [None]:
df_compras[df_compras['Cliente existente (S/N)'].isna()]

In [None]:
#Lista con clientes a corregir
lista_clientes = [6517, 5516, 3358]

#Hacemos un bucle para recorrer los 3 clientes
for cliente in lista_clientes:
    try:
        cliente_existente = df_clientes.loc[cliente]
        #El cliente existe en la hoja de clientes
        df_compras.loc[cliente,'Cliente existente (S/N)'] = 'SI'
    except KeyError:
        #Si no hay sido capaz de recuperar la clave de la hoja
        #de clientes, salta esta excepción.
        #Como no existe en la hoja de clientes, fijamos un valor de NO
        df_compras.loc[cliente, 'Cliente existente (S/N)'] = 'NO'


In [None]:
#Comprobamos que han quedado con valores
#El cliente 6517 ya tenía otro registro con el campo bien informado.
df_compras.loc[[6517, 5516, 3358]]

## Renombrado de índice

In [None]:
#Esto es estático, no afecta al procesado posterior.
df_compras.index.name = 'ID de cliente'
df_clientes.index.name = 'ID de cliente'

In [None]:
df_compras.head()

## Información redundante

In [None]:
#Analizamos la correlación entre columnas
df_compras.corr(numeric_only=True)

In [None]:
#Comprobamos que existe 100% de correlación entre el Número de clicks y el tiempo de realización de compra
#Eliminamos la columna de Tiempo de realización
df_compras.drop(['Tiempo realización compra (segs)'], axis = 1, inplace=True)
df_compras.head()

## Calidad de los datos

In [None]:
#Obtenemos una serie de datos con multiíndice idcliente-fechanacimiento y en valores el número de registros
serie_calidad = df_compras.groupby(['ID de cliente', 'Fecha de nacimiento']).size()
print(serie_calidad)

In [None]:
#Transformamos la serie en un dataframe, incorporando los valores del multiíndice como columnas
df_calidad=pd.DataFrame({
    'IDCliente':serie_calidad.index.get_level_values(0),
    'Fecha de nacimiento' : serie_calidad.index.get_level_values(1),
    'numero': serie_calidad.values
})

#Mostramos las filas para uno de los clientes que tienen distinta fecha de nacimiento
df_calidad[df_calidad['IDCliente']==1654]


In [None]:
#Obtenemos una lista con los valores de los clientes que tienen distintas fechas de nacimiento
# Para ello vemos duplicados utilizando únicamente la columna del ID de Cliente.
# Si un cliente tiene siempre la misma fecha de nacimiento, solo tendrá una fila. 
clientes_incorrectos = df_calidad[df_calidad.duplicated(['IDCliente'])]['IDCliente'].values.tolist()

#Vemos la lista de clientes con varias fechas
print("Clientes con varias fechas:", clientes_incorrectos)

#Eliminamos de las compras los pedidos de los clientes con fecha de nacimiento de mala calidad
df_compras.drop(clientes_incorrectos, inplace=True)

#Veremos que tenemos 4 registros menos
df_compras.info()


In [None]:
df_compras[df_compras['Importe compra'].isna()]

## Transformación de categóricos

In [None]:
#Modificamos el dataframe sustituyendo categórico Categoría por dummies
#Lo almacenamos en un nuevo dataframe
df_comprasML = pd.get_dummies(df_compras, columns=['Categoría'])

#Eliminamos una de las 5 columnas generadas. En este caso, MONITOR
df_comprasML.drop(['Categoría_MONITOR'], axis=1, inplace=True)

#Comprobamos el estado
df_comprasML.head()

In [None]:
#Transformamos "Cliente existente"
#La columna Cliente existente es de tipo Object, debemos modificarla para que sea de tipo Category
df_comprasML['Cliente existente (S/N)'] = df_comprasML['Cliente existente (S/N)'].astype('category')

#Sustituimos el texto por la categoría numérica
df_comprasML['Cliente existente (S/N)'] = df_comprasML['Cliente existente (S/N)'].cat.codes

df_comprasML.head()

## Normalización

In [None]:
#Importamos la clase necesaria
from sklearn.preprocessing import StandardScaler

#Creamos una instancia del StandardScaler
stdEscaler = StandardScaler()

#Eliminamos del dataframe la columna de fecha de compra y fecha de nacimiento, ya que no tiene sentido su normalización.
df_comprasML.drop(['Fecha compra','Fecha de nacimiento'], axis=1, inplace=True)

#Guardamos el nombre de filas y columnas
filas = df_comprasML.index.tolist()
columnas = df_comprasML.columns.tolist()

#Obtenemos un array con los valores escalados
arrayEscalado = stdEscaler.fit_transform(df_comprasML)

#Transformamos el array en un dataframe. En este caso fijamos los índices y columnas guardados antes.
df_comprasML =  pd.DataFrame(arrayEscalado, index=filas, columns=columnas)

#Mostramos el resultado
df_comprasML.head()