In [211]:
import pandas as pd
import numpy as np

# Tipos de datos

## Numéricos

Datos que se expresan en una escala numérica

## Numéricos contínuos

Datos que pueden adoptar cualquier valor a lo largo de un intervalo

In [212]:
# 20 datos numéricos contínuos entre 10 y 100 seleccionados de manera aleatoria.

datos_continuos = np.random.uniform(low=10, high=100, size=20)
print(datos_continuos)

[48.07752698 58.84146928 85.98236178 95.25462411 57.33003391 42.84052913
 79.27566392 79.92315122 32.3190553  85.95794533 11.58739213 24.34527257
 46.1586805  11.34566034 63.1733523  26.27146155 69.88931933 34.49287507
 12.20758497 40.18103995]


## Numéricos discretos

Datos que solo pueden adoptar valores enteros

In [213]:
# 20 datos numéricos discretos entre 1 y 8 seleccionados de manera aleatoria.

datos_discretos = np.random.randint(low=1, high=9, size=20)
print(datos_discretos)

[2 8 2 6 8 2 2 7 2 3 2 8 3 3 6 4 1 2 3 5]


## Escalar datos numéricos y continuos

(Lo pongo como ejemplo, cada uno tendría que estudiar para el tipo de datos que esta usando y los modelos que quiere llevar a cabo como es la mejor manera de operar para un caso específico)

Min-Max Scaling: Transformar los datos a una escala entre 0 y 1, donde 0 es el valor mínimo y 1 es el valor máximo de los datos originales. 

$$ X_{scaled} = \frac{x - x_{min}}{x_{max} - x_{min}} $$

In [214]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
datos_continuos_escalados = scaler.fit_transform(datos_continuos.reshape(-1, 1))
print(datos_continuos_escalados)

[[0.43775855]
 [0.56603975]
 [0.88949616]
 [1.        ]
 [0.54802695]
 [0.3753457 ]
 [0.8095679 ]
 [0.81728444]
 [0.24995416]
 [0.88920518]
 [0.00288088]
 [0.15492519]
 [0.41489036]
 [0.        ]
 [0.61766574]
 [0.17788089]
 [0.69770447]
 [0.27586105]
 [0.01027214]
 [0.34365077]]


Estandarización: Es una técnica que transforma los datos a una escala centrada en 0 con una desviación estándar de 1.


$$ z = \frac{x - \mu}{\sigma} $$

In [215]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
datos_discretos_escalados = scaler.fit_transform(datos_discretos.reshape(-1, 1))
print(datos_discretos_escalados)

[[-0.84325556]
 [ 1.75137694]
 [-0.84325556]
 [ 0.88649944]
 [ 1.75137694]
 [-0.84325556]
 [-0.84325556]
 [ 1.31893819]
 [-0.84325556]
 [-0.41081681]
 [-0.84325556]
 [ 1.75137694]
 [-0.41081681]
 [-0.41081681]
 [ 0.88649944]
 [ 0.02162194]
 [-1.27569431]
 [-0.84325556]
 [-0.41081681]
 [ 0.45406069]]


## Categóricos

Datos que adoptan valores que representan un conjunto de categórias

## Binarios

Datos categóricos, con 2 categorías posibles, generalmente 0 o 1, verdadero o falso.

In [216]:
datos_binarios = np.random.randint(low=0, high=2, size=20)
print(datos_binarios)

[0 0 1 0 0 1 0 0 1 0 1 1 1 0 1 1 1 1 0 0]


## Categóricos nominales

Datos categóricos que tienen un orden específico

Ejemplo de escalados: OneHotEncoder (Colocas 1 en los elementos de la columna 
para una categoria correspondiente y al resto 0).

In [217]:
categorias_nominales = ["Perro", "Gato", "Pajaro", "Zorro"]
datos_categoricos_nominales = np.random.choice(categorias_nominales, size=20)
print(datos_categoricos_nominales)

['Perro' 'Pajaro' 'Zorro' 'Zorro' 'Pajaro' 'Perro' 'Gato' 'Perro' 'Perro'
 'Pajaro' 'Perro' 'Gato' 'Zorro' 'Gato' 'Pajaro' 'Pajaro' 'Zorro' 'Zorro'
 'Perro' 'Perro']


## Categóricos ordinales

Datos categóricos que no tienen un orden específico

Ejemplo de escalados: OrdinalEncoder codifica variables categóricas ordinales en numeros enteros (Ejemplo, Notas: Insuficiente 1, Suficiente 2, Bien 3, Notable 4, Sobresaliente 5.

In [218]:
categorias_ordinales = ["Insuficiente","Suficiente","Bien","Notable","Sobresaliente"]
datos_categoricos_ordinales = np.random.choice(categorias_ordinales, size=20)
print(datos_categoricos_ordinales)

['Sobresaliente' 'Insuficiente' 'Insuficiente' 'Suficiente' 'Suficiente'
 'Suficiente' 'Insuficiente' 'Bien' 'Suficiente' 'Insuficiente'
 'Insuficiente' 'Insuficiente' 'Sobresaliente' 'Sobresaliente' 'Notable'
 'Insuficiente' 'Notable' 'Bien' 'Bien' 'Sobresaliente']


## Otros datos

Fecha y hora (representan momentos específicos), Texto, imágenes, audio y video

# Juntar los datos en un DataFrame

In [219]:
# Aplanamos los arrays en 1 dimension
datos_continuos = datos_continuos.ravel()
datos_discretos = datos_discretos.ravel()
datos_binarios = datos_binarios.ravel()
datos_categoricos_nominales = datos_categoricos_nominales.ravel()
datos_categoricos_ordinales = datos_categoricos_ordinales.ravel()

In [220]:
#Creamos el DataFrame
df = pd.DataFrame({
    'datos_continuos':datos_continuos,
    'datos_discretos':datos_discretos,
    'datos_binarios':datos_binarios,
    'datos_categoricos_nominales':datos_categoricos_nominales,
    'datos_categoricos_ordinales':datos_categoricos_ordinales
})

In [221]:
df_jugar = df.copy()

In [222]:
df

Unnamed: 0,datos_continuos,datos_discretos,datos_binarios,datos_categoricos_nominales,datos_categoricos_ordinales
0,48.077527,2,0,Perro,Sobresaliente
1,58.841469,8,0,Pajaro,Insuficiente
2,85.982362,2,1,Zorro,Insuficiente
3,95.254624,6,0,Zorro,Suficiente
4,57.330034,8,0,Pajaro,Suficiente
5,42.840529,2,1,Perro,Suficiente
6,79.275664,2,0,Gato,Insuficiente
7,79.923151,7,0,Perro,Bien
8,32.319055,2,1,Perro,Suficiente
9,85.957945,3,0,Pajaro,Insuficiente


## Tratamiento posible para las columnas (MinMaxScaling / Estandarizacion a modo de ejemplo)

Vuelvo a llevar a cabo MinMaxScaling / Estandarizacion, podría haber metido directamente el array con el escalado ya realizado, para que se vea que el proceso es similar (cambiando que lo estamos realizando para una columna de un dataframe)

In [223]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
datos_continuos = df[['datos_continuos']].values
df['datos_continuos'] = scaler.fit_transform(datos_continuos)
df

Unnamed: 0,datos_continuos,datos_discretos,datos_binarios,datos_categoricos_nominales,datos_categoricos_ordinales
0,0.437759,2,0,Perro,Sobresaliente
1,0.56604,8,0,Pajaro,Insuficiente
2,0.889496,2,1,Zorro,Insuficiente
3,1.0,6,0,Zorro,Suficiente
4,0.548027,8,0,Pajaro,Suficiente
5,0.375346,2,1,Perro,Suficiente
6,0.809568,2,0,Gato,Insuficiente
7,0.817284,7,0,Perro,Bien
8,0.249954,2,1,Perro,Suficiente
9,0.889205,3,0,Pajaro,Insuficiente


In [224]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
datos_discretos = df[['datos_discretos']].values
df['datos_discretos'] = scaler.fit_transform(datos_discretos)
df

Unnamed: 0,datos_continuos,datos_discretos,datos_binarios,datos_categoricos_nominales,datos_categoricos_ordinales
0,0.437759,-0.843256,0,Perro,Sobresaliente
1,0.56604,1.751377,0,Pajaro,Insuficiente
2,0.889496,-0.843256,1,Zorro,Insuficiente
3,1.0,0.886499,0,Zorro,Suficiente
4,0.548027,1.751377,0,Pajaro,Suficiente
5,0.375346,-0.843256,1,Perro,Suficiente
6,0.809568,-0.843256,0,Gato,Insuficiente
7,0.817284,1.318938,0,Perro,Bien
8,0.249954,-0.843256,1,Perro,Suficiente
9,0.889205,-0.410817,0,Pajaro,Insuficiente


## OrdinalEncoder

In [225]:
from sklearn.preprocessing import OrdinalEncoder
encoder = OrdinalEncoder(categories=[categorias_ordinales])
df['datos_categoricos_ordinales'] = encoder.fit_transform(df[['datos_categoricos_ordinales']])
df

Unnamed: 0,datos_continuos,datos_discretos,datos_binarios,datos_categoricos_nominales,datos_categoricos_ordinales
0,0.437759,-0.843256,0,Perro,4.0
1,0.56604,1.751377,0,Pajaro,0.0
2,0.889496,-0.843256,1,Zorro,0.0
3,1.0,0.886499,0,Zorro,1.0
4,0.548027,1.751377,0,Pajaro,1.0
5,0.375346,-0.843256,1,Perro,1.0
6,0.809568,-0.843256,0,Gato,0.0
7,0.817284,1.318938,0,Perro,2.0
8,0.249954,-0.843256,1,Perro,1.0
9,0.889205,-0.410817,0,Pajaro,0.0


## OneHotEncoder

In [226]:
from sklearn.preprocessing import OneHotEncoder
encoder = OneHotEncoder()
columna_categórica_nominal = df['datos_categoricos_nominales'].values.reshape(-1, 1)
columna_categórica_nominal_encodificada = encoder.fit_transform(columna_categórica_nominal).toarray()

df_encodificado = pd.DataFrame(columna_categórica_nominal_encodificada, columns=encoder.get_feature_names_out(['datos_categoricos_nominales']))
df = pd.concat([df, df_encodificado], axis=1)
df.drop(["datos_categoricos_nominales"],axis=1,inplace=True)
df

Unnamed: 0,datos_continuos,datos_discretos,datos_binarios,datos_categoricos_ordinales,datos_categoricos_nominales_Gato,datos_categoricos_nominales_Pajaro,datos_categoricos_nominales_Perro,datos_categoricos_nominales_Zorro
0,0.437759,-0.843256,0,4.0,0.0,0.0,1.0,0.0
1,0.56604,1.751377,0,0.0,0.0,1.0,0.0,0.0
2,0.889496,-0.843256,1,0.0,0.0,0.0,0.0,1.0
3,1.0,0.886499,0,1.0,0.0,0.0,0.0,1.0
4,0.548027,1.751377,0,1.0,0.0,1.0,0.0,0.0
5,0.375346,-0.843256,1,1.0,0.0,0.0,1.0,0.0
6,0.809568,-0.843256,0,0.0,1.0,0.0,0.0,0.0
7,0.817284,1.318938,0,2.0,0.0,0.0,1.0,0.0
8,0.249954,-0.843256,1,1.0,0.0,0.0,1.0,0.0
9,0.889205,-0.410817,0,0.0,0.0,1.0,0.0,0.0
