# Tipos de datos

Se pueden esbozar dos grandes tipos de datos en el marco de la estadística descriptiva, a saber:

- Datos categóricos.  Pueden ser ordinales o nominales.

- Datos numéricos. Pueden ser discretos o continuos

In [2]:
# Ejercicio de identificación de tipos de datos en Python

import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
import seaborn as sns

In [4]:
# Lectura de los datos

df = pd.read_csv('cars.csv')
df

Unnamed: 0,manufacturer_name,model_name,transmission,color,odometer_value,year_produced,engine_fuel,engine_has_gas,engine_type,engine_capacity,...,feature_1,feature_2,feature_3,feature_4,feature_5,feature_6,feature_7,feature_8,feature_9,duration_listed
0,Subaru,Outback,automatic,silver,190000,2010,gasoline,False,gasoline,2.5,...,True,True,True,False,True,False,True,True,True,16
1,Subaru,Outback,automatic,blue,290000,2002,gasoline,False,gasoline,3.0,...,True,False,False,True,True,False,False,False,True,83
2,Subaru,Forester,automatic,red,402000,2001,gasoline,False,gasoline,2.5,...,True,False,False,False,False,False,False,True,True,151
3,Subaru,Impreza,mechanical,blue,10000,1999,gasoline,False,gasoline,3.0,...,False,False,False,False,False,False,False,False,False,86
4,Subaru,Legacy,automatic,black,280000,2001,gasoline,False,gasoline,2.5,...,True,False,True,True,False,False,False,False,True,7
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
38526,Chrysler,300,automatic,silver,290000,2000,gasoline,False,gasoline,3.5,...,True,False,False,True,True,False,False,True,True,301
38527,Chrysler,PT Cruiser,mechanical,blue,321000,2004,diesel,False,diesel,2.2,...,True,False,False,True,True,False,False,True,True,317
38528,Chrysler,300,automatic,blue,777957,2000,gasoline,False,gasoline,3.5,...,True,False,False,True,True,False,False,True,True,369
38529,Chrysler,PT Cruiser,mechanical,black,20000,2001,gasoline,False,gasoline,2.0,...,True,False,False,False,False,False,False,False,True,490


Revisemos la tipología de datos de cada una de las columnas de nuestro marco de datos:

In [6]:
df.dtypes

manufacturer_name     object
model_name            object
transmission          object
color                 object
odometer_value         int64
year_produced          int64
engine_fuel           object
engine_has_gas          bool
engine_type           object
engine_capacity      float64
body_type             object
has_warranty            bool
state                 object
drivetrain            object
price_usd            float64
is_exchangeable         bool
location_region       object
number_of_photos       int64
up_counter             int64
feature_0               bool
feature_1               bool
feature_2               bool
feature_3               bool
feature_4               bool
feature_5               bool
feature_6               bool
feature_7               bool
feature_8               bool
feature_9               bool
duration_listed        int64
dtype: object

Las variables tipo `object` y `bool` se asocian con datos categóricos. En contraste, los datos tipo `int64` se asocian con variables numéricas discretas, toda vez que `float64` tiene que ver con variables numéricas cuantitativas.

Ahora describamos de forma rápida cada una de las variables cuantitativas:

In [7]:
df.describe()

Unnamed: 0,odometer_value,year_produced,engine_capacity,price_usd,number_of_photos,up_counter,duration_listed
count,38531.0,38531.0,38521.0,38531.0,38531.0,38531.0,38531.0
mean,248864.638447,2002.943734,2.055161,6639.971021,9.649062,16.306091,80.577249
std,136072.37653,8.065731,0.671178,6428.152018,6.093217,43.286933,112.826569
min,0.0,1942.0,0.2,1.0,1.0,1.0,0.0
25%,158000.0,1998.0,1.6,2100.0,5.0,2.0,23.0
50%,250000.0,2003.0,2.0,4800.0,8.0,5.0,59.0
75%,325000.0,2009.0,2.3,8990.0,12.0,16.0,91.0
max,1000000.0,2019.0,8.0,50000.0,86.0,1861.0,2232.0


# Medidas de tendencia central y de dispersión

## Medidas de tendencia central

Una forma de resumir la información es con medidas que den ideas sobre la generalidad de los datos. Es importante tener en cuenta que estas medidas no explican de forma exacta a todos los individuos que hacen parte de la población que es descrita con este tipo de medidas, sino que buscan dar ideas acerca de la generalidad. Hay tres medidas de tendencia central que son las más populares.

- Media. También se conoce popularmente como el promedio.

- Mediana. Es el dato que se encuentra en la mitad.

- Moda. Es el dato que más se repite.

Es importante tener en cuenta que estas tres medidas de tendencia central, en general, no coinciden.

### Tabla de frecuencias

Realiza el conteo con el que se repiten cada uno de los niveles asociados a una variable. Esta tabla habitualmente toma cada uno de los niveles de forma individual para variables categóricas o cuantitativas discretas con pocos niveles, pero apela a valores agrupados por medio de intervalos para variables cuantitativas continuas o discretas con muchos niveles.

### ¿Cuándo usar cada una?

Es importante tener en mente las siguientes consideraciones.

- La media es susceptible a valores atípicos. La mediana es más robusta a este tipo de medidas.

- La moda no aplica para datos numéricos continuos.

### Metáfora de Bill Gates en un bar

Es una metáfora que ayuda a diferenciar cuándo usar la mediana y cuándo la moda.

Sea $x_1, \ x_2, \ \dots, \ x_n$ un conjunto de datos. La **media**, definida como $\bar{x}$, se define como:

$$\bar{x} = \frac{1}{n} \sum_{i = 1}^n x_i$$

Ahora bien, en el caso de la **mediana**, como esta toma el valor de la 'mitad' de un conjunto de datos cuando estos son ordenados de menor a mayor, su valor va a depender de si la cantidad de datos es par o impar; entonces, si definimos $\tilde{x}$ a la mediana y $n$ es la cantidad de datos que se tienen, y $x_{(i)}$ es el $i$-ésimo estadístico de orden, entonces::

$$\tilde{x} = \begin{cases} x_{(\frac{n+1}{2})}, \ n \mod{2} = 1 \\ \frac{1}{2} \left( x_{(\frac{n}{2})} + x_{(\frac{n}{2}) + 1} \right), \ n \mod{2} = 0 \end{cases}$$.

Así pues, la metáforma de Bill Gates discute una situación en la que hay varias personas sentadas disfrutando en un bar.

- Supongamos que todas 9 las personas que están presentes en el bar tienen el mismo cargo en la misma empresa, y que todas ellas tienen un salario de $35K dólares/yr. Así, la media y la mediana del salario de las personas que están en el bar es $35K/yr.

- Supongamos ahora que al bar entra Bill Gates y que en ese año él gaño $1M dólares/yr. Así, tendremos que el salario es, de media, de $131,500 dólares/yr, ¡casi $100,000 dólares más de lo que ganan los nueve trabajadores de nuestra compañía! Evidentemente, esta medida de tendencia central no es la más adecuada para describir el salario de las personas que están en el bar.

- Si tomamos la mediana, esta aún sigue siendo de $35K dólares/yr.

# Cálculo de medidas de tendencia central en Python

Continuemos usando el marco de datos que hemos cargado previamente para poder calcular algunas medidas de tendencia central. ¿Cuál es el precio promedio de los vehículos?

In [5]:
df['price_usd'].mean()

6639.971021255613

In [6]:
df['price_usd'].median()

4800.0

Como se puede observar, los valores de la mediana y la media son diferentes, siendo mayor esta última, lo que nos permite pensar que la distribución del precio de los vehículos está sesgada. Para corroborar esto, vale la pena realizar el siguiente histograma:

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=905695bb-42f6-4af7-8bcf-de7d4a44570f' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>