# Variables categóricas y numéricas

Como base del análisis de datos trataremos la extracción de características cuantitativas a partir de los datos.

¿Qué es una variable?
Es una característica que puede fluctuar y cuya variación es susceptible de adoptar diferentes valores, los cuales pueden medirse u observarse. Podemos considerar dos tipos de variables: númericas y categóricas:

![](https://reisdigital.es/wp-content/uploads/2022/10/como-diferenciar-variables-categoricas-y-numericas-en-analisis-de-datos.png)



### Variables numéricas
Son aquellas características que describen una cantidad medible como un número. Por ejemplo: edad, ingresos, peso, altura, presión, humedad, temperatura o cantidad de hermanos. Responden a preguntas del tipo «cuánto» o «cuántos», por lo tanto las variables numéricas son variables cuantitativas.

Las variables numéricas pueden ser continuas o discretas:
- **Una variable continua** puede tomar cualquier valor entre un determinado conjunto de números reales. Ejemplos son el peso, talla, ventas mensuales, etc.
- **Una variable discreta** las observaciones pueden tomar un valor basado en un conjunto de valores enteros distintos. Ejemplos son el número de automóviles registrados, el número de ubicaciones comerciales y el número de hijos en una familia, todos ellos medidos como unidades completas (es decir, 1, 2, 3 automóviles).


### Variables categóricas
Una variable categórica es aquella que permite clasificar una serie de datos por medio de valores fijos asociados a una cualidad o categoría concreta.

La variable categórica, a diferencia de las variables cardinales o continuas (que permiten cálculos numéricos), clasifica a los individuos o casos. Normalmente toman valores representados por números enteros, como el uno o el cero, pero estos son solo eso, representaciones.

¿Qué pasa si tenemos una variable categórica?. Por ejemplo, imagina que disponemos del color de cada flor de iris: $color \in \{red, blue, purple\}$

Podrías estar tentado de usar algo así como i.e. *red=1, blue=2, purple=3*, pero, en general, **esto es una mala idea**. Los estimadores tienden a trabajar con la suposición de que las características numéricas se sitúan en una escala continua por lo que, en este ejemplo, 1 y 2 serían más parecidos que 1 y 3 y esto no tiene porque ser generalmente verdad.

De hecho, el ejemplo anterior es una subcategoría de las variables categóricas, en concreto, una variable nominal. Las variables nominales no tienen asociado un orden, mientras que las variables ordinales si que implican un orden. Por ejemplo, las tallas de las camisetas formarían una variable ordinal "XL > L > M > S". 
![](https://www.marketing-analitico.com/wp-content/uploads/2019/09/tipos_de_variables_datasets.png)

In [1]:
import pandas as pd

df = pd.read_csv("titanic.csv")
df.head(3)

# PassengerId -> id del pasajero (CATEGÓRICA)
# Survived -> 0 o 1 (CATEGÓRICA)
# Pclass -> Tipo de clase del pasajero (CATEGÓRICA)
# Name -> nombre del pasajero(CATEGÓRICA)
# Sex -> sexo de cada pasajero(CATEGÓRICA)
# Age -> edad de cada pasajero (NUMÉRICA)
# SibSp -> cantidad de hermanos en la embarcación (NUMÉRICA - DISCRETA)
# Parch -> cantidad de padres (NUMÉRICA)
# Ticket -> Número de ticket (CATEGÓRICA)
# Fare -> Lo que pago por el ticket ( NUMÉRICA - CONTINUA)
# Cabin -> Num de cabina (CATEGÓRICA)
# Embarked -> lugar donde embarcó (CATEGÓRICA)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [2]:
df.Embarked.unique()

array(['S', 'C', 'Q', nan], dtype=object)