<center>
<h4>Universidad Nacional de Córdoba - Diplomatura en Ciencia de Datos, Aprendizaje Automático y sus Aplicaciones</h4>
<h3> Análisis y Visualización de Datos </h3>
</center>


# Tipos de datos

En esta notebook vamos a analizar los tipos de datos estadísticos de nuestro dataset, y comparalos con los tipos de datos computacionales de pandas.

In [2]:
import io
import pandas
import seaborn

print(seaborn.__version__)

0.10.1


In [3]:
df = pandas.read_csv('~/Downloads/generated_dataset.csv')
df.columns = ['timestamp', 'gender', 'age', 'zodiac_sign', 'profession',
              'junior_programmer_salary', 'senior_programmer_salary']
df[:3]

Unnamed: 0,timestamp,gender,age,zodiac_sign,profession,junior_programmer_salary,senior_programmer_salary
0,0,Prefiero no decirlo,23,Cáncer,Ingeniero,27000,149000
1,1,Mujer,17,Virgo,Contadora,28000,74000
2,2,Varon,37,Tauro,Físico,22000,75000


## Tipos de variables aleatorias

En base a la definición de variable aleatoria que vimos en el teórico, podemos hablar de que cada columna de nuestro dataset es un **variable aleatoria**, y que su valor en cada respuesta es una **realización** de dicha variable. Pero, ¿qué tipo tienen esas variables?

Tenemos que distinguir dos conceptos con el mismo nombre y significado similar, pero que no son iguales:
 - **tipo de la variable aleatoria** es el tipo teórico que tienen nuestros datos.
 - **tipo de datos** es un concepto de programación que indica en qué formato se representa la información.

Analicemos el tipo de cada variable aleatoria en base a la clasificación que vimos en el teórico:
 
- `gender`: ??
- `age`: ??
- `zodiac_sign`: ??
- `profession`: ??
- `junior_programmer_salary`: ??
- `senior_programmer_salary`: ??

Preguntar para discutir:

1. El tipo de `age`, ¿es discreto o continuo?
2. ¿Qué valores pueden tomar `junior_programmer_salary` y `senior_programmer_salary`? ¿Qué valores toman en la encuenta?
2. Los signos del zodiaco siguen un orden (al igual que los días y los meses del año). ¿Podríamos decir que `zodiac_sign` tiene tipo ordinal?
 


### Rango y valores posibles

Siempre es útil saber qué valores puede tomar una variable para entender qué tipo tiene. Sin embargo, si sospechamos que una variable es continua, no tiene sentido listar todos sus valores posibles. En ese caso, nos conviene mostrar sólo el rango, o tomar una pequeña muestra. Veamos algunos ejemplos:


In [4]:
df.gender.unique()  # Listar todos los valores posibles

array(['Prefiero no decirlo', 'Mujer', 'Varon'], dtype=object)

In [5]:
df.age.max(), df.age.min()  # Variable numérica

(63, -3)

In [6]:
df.junior_programmer_salary.sample(n=10)  # Tomamos una muestra

38    54000
36    40000
11    24000
26    34000
12    29000
62    34000
97    33000
92    41000
54    41000
73    32000
Name: junior_programmer_salary, dtype: int64

In [7]:
df.profession.unique()[:10]

array(['Ingeniero', 'Contadora', 'Físico', 'Contador', 'Profesor',
       'Física', 'Economista', 'Matemático', 'Profesora', 'Maestra'],
      dtype=object)

## Tipos de datos en programación

Ahora pasemos al tipo de datos. Podemos saber con Pandas cómo está guardando la información de cada columna:


In [8]:
df.dtypes

timestamp                    int64
gender                      object
age                          int64
zodiac_sign                 object
profession                  object
junior_programmer_salary     int64
senior_programmer_salary     int64
dtype: object

En este caso, el tipo `object` hace referencia a un string, pero también podría ser una fecha, una lista, o cualquier cosa más compleja que un número. El tipo de datos no siempre se correlaciona con el tipo de la variable. Por ejemplo, si guardamos un puntaje de satisfacción del 1 al 5, aunque usemos números, esa variable es conceptualmente ordinal y no numérica.