In [179]:
import pandas as pd
import numpy as np

# Tipos de datos

## Numéricos

Datos que se expresan en una escala numérica

## Numéricos contínuos

Datos que pueden adoptar cualquier valor a lo largo de un intervalo

In [180]:
# 20 datos numéricos contínuos entre 10 y 100 seleccionados de manera aleatoria.

datos_continuos = np.random.uniform(low=10, high=100, size=20)
print(datos_continuos)

[58.96811671 16.81296532 43.47171868 12.49426374 89.88763016 34.46072118
 71.04296013 54.40673431 25.9236893  71.7268893  51.22251347 98.33112292
 81.73598366 54.65855346 76.27695299 17.70701237 60.09650712 82.91706238
 88.16872412 81.46702677]


## Numéricos discretos

Datos que solo pueden adoptar valores enteros

In [181]:
# 20 datos numéricos discretos entre 1 y 8 seleccionados de manera aleatoria.

datos_discretos = np.random.randint(low=1, high=9, size=20)
print(datos_discretos)

[3 2 2 1 1 2 5 2 6 8 5 8 6 4 3 7 8 4 3 1]


## Escalar datos numéricos y continuos

(Lo pongo como ejemplo, cada uno tendría que estudiar para el tipo de datos que esta usando y los modelos que quiere llevar a cabo como es la mejor manera de operar para un caso específico)

Min-Max Scaling: Transformar los datos a una escala entre 0 y 1, donde 0 es el valor mínimo y 1 es el valor máximo de los datos originales. 

$$ X_{scaled} = \frac{x - x_{min}}{x_{max} - x_{min}} $$

In [182]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
datos_continuos_escalados = scaler.fit_transform(datos_continuos.reshape(-1, 1))
print(datos_continuos_escalados)

[[0.54142071]
 [0.0503129 ]
 [0.36088756]
 [0.        ]
 [0.90163325]
 [0.25590938]
 [0.68209272]
 [0.48828057]
 [0.1564529 ]
 [0.6900605 ]
 [0.45118438]
 [1.        ]
 [0.80666651]
 [0.49121427]
 [0.74306877]
 [0.06072856]
 [0.55456646]
 [0.82042609]
 [0.88160798]
 [0.80353316]]


Estandarización: Es una técnica que transforma los datos a una escala centrada en 0 con una desviación estándar de 1.


$$ z = \frac{x - \mu}{\sigma} $$

In [183]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
datos_discretos_escalados = scaler.fit_transform(datos_discretos.reshape(-1, 1))
print(datos_discretos_escalados)

[[-0.44183608]
 [-0.86263235]
 [-0.86263235]
 [-1.28342862]
 [-1.28342862]
 [-0.86263235]
 [ 0.39975646]
 [-0.86263235]
 [ 0.82055272]
 [ 1.66214526]
 [ 0.39975646]
 [ 1.66214526]
 [ 0.82055272]
 [-0.02103981]
 [-0.44183608]
 [ 1.24134899]
 [ 1.66214526]
 [-0.02103981]
 [-0.44183608]
 [-1.28342862]]


## Categóricos

Datos que adoptan valores que representan un conjunto de categórias

## Binarios

Datos categóricos, con 2 categorías posibles, generalmente 0 o 1, verdadero o falso.

In [184]:
datos_binarios = np.random.randint(low=0, high=2, size=20)
print(datos_binarios)

[0 0 0 1 1 0 1 0 1 0 0 1 1 0 1 0 0 0 1 0]


## Categóricos nominales

Datos categóricos que tienen un orden específico

Ejemplo de escalados: OneHotEncoder (Colocas 1 en los elementos de la columna 
para una categoria correspondiente y al resto 0).

In [185]:
categorias_nominales = ["Perro", "Gato", "Pajaro", "Zorro"]
datos_categoricos_nominales = np.random.choice(categorias_nominales, size=20)
print(datos_categoricos_nominales)

['Pajaro' 'Gato' 'Gato' 'Gato' 'Gato' 'Perro' 'Pajaro' 'Gato' 'Gato'
 'Gato' 'Pajaro' 'Pajaro' 'Zorro' 'Pajaro' 'Perro' 'Zorro' 'Zorro'
 'Pajaro' 'Zorro' 'Pajaro']


## Categóricos ordinales

Datos categóricos que no tienen un orden específico

Ejemplo de escalados: OrdinalEncoder codifica variables categóricas ordinales en numeros enteros (Ejemplo, Notas: Insuficiente 1, Suficiente 2, Bien 3, Notable 4, Sobresaliente 5.

In [186]:
categorias_ordinales = ["Insuficiente","Suficiente","Bien","Notable","Sobresaliente"]
datos_categoricos_ordinales = np.random.choice(categorias_ordinales, size=20)
print(datos_categoricos_ordinales)

['Insuficiente' 'Bien' 'Bien' 'Insuficiente' 'Notable' 'Insuficiente'
 'Insuficiente' 'Bien' 'Insuficiente' 'Sobresaliente' 'Sobresaliente'
 'Bien' 'Sobresaliente' 'Sobresaliente' 'Suficiente' 'Insuficiente'
 'Suficiente' 'Suficiente' 'Bien' 'Insuficiente']


## Otros datos

Fecha y hora (representan momentos específicos), Texto, imágenes, audio y video

# Juntar los datos en un DataFrame

In [187]:
# Aplanamos los arrays en 1 dimension
datos_continuos = datos_continuos.ravel()
datos_discretos = datos_discretos.ravel()
datos_binarios = datos_binarios.ravel()
datos_categoricos_nominales = datos_categoricos_nominales.ravel()
datos_categoricos_ordinales = datos_categoricos_ordinales.ravel()

In [188]:
#Creamos el DataFrame
df = pd.DataFrame({
    'datos_continuos':datos_continuos,
    'datos_discretos':datos_discretos,
    'datos_binarios':datos_binarios,
    'datos_categoricos_nominales':datos_categoricos_nominales,
    'datos_categoricos_ordinales':datos_categoricos_ordinales
})

In [189]:
df_jugar = df.copy()

In [190]:
df

Unnamed: 0,datos_continuos,datos_discretos,datos_binarios,datos_categoricos_nominales,datos_categoricos_ordinales
0,58.968117,3,0,Pajaro,Insuficiente
1,16.812965,2,0,Gato,Bien
2,43.471719,2,0,Gato,Bien
3,12.494264,1,1,Gato,Insuficiente
4,89.88763,1,1,Gato,Notable
5,34.460721,2,0,Perro,Insuficiente
6,71.04296,5,1,Pajaro,Insuficiente
7,54.406734,2,0,Gato,Bien
8,25.923689,6,1,Gato,Insuficiente
9,71.726889,8,0,Gato,Sobresaliente


## Tratamiento posible para las columnas (MinMaxScaling / Estandarizacion a modo de ejemplo)

Vuelvo a llevar a cabo MinMaxScaling / Estandarizacion, podría haber metido directamente el array con el escalado ya realizado, para que se vea que el proceso es similar (cambiando que lo estamos realizando para una columna de un dataframe)

In [191]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
datos_continuos = df[['datos_continuos']].values
df['datos_continuos'] = scaler.fit_transform(datos_continuos)
df

Unnamed: 0,datos_continuos,datos_discretos,datos_binarios,datos_categoricos_nominales,datos_categoricos_ordinales
0,0.541421,3,0,Pajaro,Insuficiente
1,0.050313,2,0,Gato,Bien
2,0.360888,2,0,Gato,Bien
3,0.0,1,1,Gato,Insuficiente
4,0.901633,1,1,Gato,Notable
5,0.255909,2,0,Perro,Insuficiente
6,0.682093,5,1,Pajaro,Insuficiente
7,0.488281,2,0,Gato,Bien
8,0.156453,6,1,Gato,Insuficiente
9,0.69006,8,0,Gato,Sobresaliente


In [192]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
datos_discretos = df[['datos_discretos']].values
df['datos_discretos'] = scaler.fit_transform(datos_discretos)
df

Unnamed: 0,datos_continuos,datos_discretos,datos_binarios,datos_categoricos_nominales,datos_categoricos_ordinales
0,0.541421,-0.441836,0,Pajaro,Insuficiente
1,0.050313,-0.862632,0,Gato,Bien
2,0.360888,-0.862632,0,Gato,Bien
3,0.0,-1.283429,1,Gato,Insuficiente
4,0.901633,-1.283429,1,Gato,Notable
5,0.255909,-0.862632,0,Perro,Insuficiente
6,0.682093,0.399756,1,Pajaro,Insuficiente
7,0.488281,-0.862632,0,Gato,Bien
8,0.156453,0.820553,1,Gato,Insuficiente
9,0.69006,1.662145,0,Gato,Sobresaliente


## OrdinalEncoder

In [193]:
from sklearn.preprocessing import OrdinalEncoder
encoder = OrdinalEncoder(categories=[categorias_ordinales])
df['datos_categoricos_ordinales'] = encoder.fit_transform(df[['datos_categoricos_ordinales']])
df

Unnamed: 0,datos_continuos,datos_discretos,datos_binarios,datos_categoricos_nominales,datos_categoricos_ordinales
0,0.541421,-0.441836,0,Pajaro,0.0
1,0.050313,-0.862632,0,Gato,2.0
2,0.360888,-0.862632,0,Gato,2.0
3,0.0,-1.283429,1,Gato,0.0
4,0.901633,-1.283429,1,Gato,3.0
5,0.255909,-0.862632,0,Perro,0.0
6,0.682093,0.399756,1,Pajaro,0.0
7,0.488281,-0.862632,0,Gato,2.0
8,0.156453,0.820553,1,Gato,0.0
9,0.69006,1.662145,0,Gato,4.0


## OneHotEncoder

In [194]:
from sklearn.preprocessing import OneHotEncoder
encoder = OneHotEncoder()
columna_categórica_nominal = df['datos_categoricos_nominales'].values.reshape(-1, 1)
columna_categórica_nominal_encodificada = encoder.fit_transform(columna_categórica_nominal).toarray()

df_encodificado = pd.DataFrame(columna_categórica_nominal_encodificada, columns=encoder.get_feature_names(['datos_categoricos_nominales']))
df = pd.concat([df, df_encodificado], axis=1)
df.drop(["datos_categoricos_nominales"],axis=1,inplace=True)
df



Unnamed: 0,datos_continuos,datos_discretos,datos_binarios,datos_categoricos_ordinales,datos_categoricos_nominales_Gato,datos_categoricos_nominales_Pajaro,datos_categoricos_nominales_Perro,datos_categoricos_nominales_Zorro
0,0.541421,-0.441836,0,0.0,0.0,1.0,0.0,0.0
1,0.050313,-0.862632,0,2.0,1.0,0.0,0.0,0.0
2,0.360888,-0.862632,0,2.0,1.0,0.0,0.0,0.0
3,0.0,-1.283429,1,0.0,1.0,0.0,0.0,0.0
4,0.901633,-1.283429,1,3.0,1.0,0.0,0.0,0.0
5,0.255909,-0.862632,0,0.0,0.0,0.0,1.0,0.0
6,0.682093,0.399756,1,0.0,0.0,1.0,0.0,0.0
7,0.488281,-0.862632,0,2.0,1.0,0.0,0.0,0.0
8,0.156453,0.820553,1,0.0,1.0,0.0,0.0,0.0
9,0.69006,1.662145,0,4.0,1.0,0.0,0.0,0.0
