# Análisis de datos categóricos con Python

<img alt="Datos categóricos con Python" title="Datos categóricos con Python" src="http://relopezbriega.github.io/images/categorical_data.jpg" high=400px width=600px>

## Introducción

Cuando trabajamos con [estadísticas](http://relopezbriega.github.io/tag/estadistica.html), es importante reconocer los diferentes tipos de [datos](https://es.wikipedia.org/wiki/Dato): numéricos ([discretos y continuos](https://es.wikipedia.org/wiki/Variable_discreta_y_variable_continua)), [categóricos](https://en.wikipedia.org/wiki/Categorical_variable) y ordinales. Los [datos](https://es.wikipedia.org/wiki/Dato) no son más que observaciones del mundo en que vivimos, por tanto, los mismos pueden venir en diferentes formas, no solo numérica. Por ejemplo, si le preguntáramos a nuestros amigos ¿cuántas mascotas tienen? nos podrían responder: `0, 1, 2, 4, 3, 8`; esta información por sí misma puede ser útil, pero para nuestro análisis de mascotas, nos podría servir también otro tipo de información, como por ejemplo el *género* de cada uno de nuestros amigos; de esta forma obtendríamos la siguiente información: `hombre, mujer, mujer, mujer, hombre, mujer`. Como vemos, podemos incluir a los [datos](https://es.wikipedia.org/wiki/Dato) dentro de tres categorías fundamentales: [datos cuantitativos](https://es.wikipedia.org/wiki/Cantidad) o numéricos, [datos cualitativos](https://es.wikipedia.org/wiki/Cualidad) o [categóricos](https://en.wikipedia.org/wiki/Categorical_variable) y datos ordinales.

### Datos cuantitativos

Los [datos cuantitativos](https://es.wikipedia.org/wiki/Cantidad) son representados por números; estos números van a ser significativos si representan la medida o la cantidad observada de cierta característica. Dentro de esta categoría podemos encontrar por ejemplo: cantidades de dólares, cuentas, tamaños, número de empleados, y kilómetros por hora. Con los [datos cuantitativos](https://es.wikipedia.org/wiki/Cantidad), se puede hacer todo tipo de tareas de procesamiento de datos numéricos, tales como sumarlos, calcular promedios, o medir su variabilidad. Asimismo, vamos a poder dividir a los [datos cuantitativos](https://es.wikipedia.org/wiki/Cantidad) en [discretos y continuos](https://es.wikipedia.org/wiki/Variable_discreta_y_variable_continua), dependiendo de los valores potencialmente observables.

* Los datos ***discretos*** solo van a poder asumir un valor de una lista de números específicos. Representan ítems que pueden ser *contados*; todos sus posibles valores pueden ser listados. Suele ser relativamente fácil trabajar con este tipo de [dato](https://es.wikipedia.org/wiki/Dato).

* Los datos ***continuos*** representan *mediciones*; sus posibles valores no pueden ser contados y sólo pueden ser descritos usando intervalos en la recta de los [números reales](https://es.wikipedia.org/wiki/N%C3%BAmero_real). Por ejemplo, la cantidad de kilómetros recorridos no puede ser medida con exactitud, puede ser que hayamos recorrido 1.7 km o 1.6987 km; en cualquier medida que tomemos del mundo real, siempre pueden haber pequeñas o grandes variaciones. Generalmente, los *datos continuos* se suelen redondear a un número fijo de decimales para facilitar su manipulación.


### Datos cualitativos 

Si los [datos](https://es.wikipedia.org/wiki/Dato) nos dicen en cual de determinadas categorías no numéricas nuestros ítems van a caer, entonces estamos hablando de [datos cualitativos](https://es.wikipedia.org/wiki/Cualidad) o [categóricos](https://en.wikipedia.org/wiki/Categorical_variable); ya que los mismos van a representar determinada *cualidad* que los ítems poseen. Dentro de esta categoría vamos a encontrar [datos](https://es.wikipedia.org/wiki/Dato) como: el sexo de una persona, el estado civil, la ciudad natal, o los tipos de películas que le gustan. Los [datos categóricos](https://en.wikipedia.org/wiki/Categorical_variable) pueden tomar valores numéricos (por ejemplo, "1" para indicar "masculino" y "2" para indicar "femenino"), pero esos números no tienen un sentido matemático.

### Datos ordinales

Una categoría intermedia entre los dos tipos de [datos](https://es.wikipedia.org/wiki/Dato) anteriores, son los *datos ordinales*. En este tipo de [datos](https://es.wikipedia.org/wiki/Dato), va a existir un *orden* significativo, vamos a poder clasificar un primero, segundo, tercero, etc. es decir, que podemos establecer un *ranking* para estos [datos](https://es.wikipedia.org/wiki/Dato), el cual posiblemente luego tenga un rol importante en la etapa de análisis. Los [datos](https://es.wikipedia.org/wiki/Dato) se dividen en categorías, pero los números colocados en cada categoría tienen un significado. Por ejemplo, la calificación de un restaurante en una escala de 0 (bajo) a 5 (más alta) estrellas representa *datos ordinales*. Los *datos ordinales* son a menudo tratados como [datos categóricos](https://en.wikipedia.org/wiki/Categorical_variable), en el sentido que se suelen agrupar y ordenar. Sin embargo, a diferencia de los [datos categóricos](https://en.wikipedia.org/wiki/Categorical_variable), los números sí tienen un significado matemático.

En este artículo me voy a centrar en el segundo grupo, los [datos categóricos](https://en.wikipedia.org/wiki/Categorical_variable); veremos como podemos manipular fácilmente con la ayuda de [Python](http://python.org/) estos [datos](https://es.wikipedia.org/wiki/Dato) para poder encontrar *patrones*, *relaciones*, *tendencias* y *excepciones*. 

## Análisis de datos categóricos con Python

Para ejemplificar el análisis, vamos a utilizar nuestras habituales librerías científicas [NumPy](http://www.numpy.org/), [Pandas](http://pandas.pydata.org/),  [Matplotlib](http://matplotlib.org/) y [Seaborn](http://stanford.edu/~mwaskom/software/seaborn/). También vamos a utilizar la librería [pydataset](https://github.com/iamaziz/PyDataset), la cual nos facilita cargar los diferentes [dataset](https://es.wikipedia.org/wiki/Conjunto_de_datos) para analizar. 

La idea es realizar un análisis [estadístico](http://relopezbriega.github.io/tag/estadistica.html) sobre los [datos](https://es.wikipedia.org/wiki/Dato) de los sobrevivientes a la tragedia del [Titanic](https://es.wikipedia.org/wiki/RMS_Titanic).

## Numpy

### Repaso

Importamos la librería

In [1]:
import numpy as np

A partir de una lista podemos crear un arreglo de numpy

In [2]:
lista = [0,1,2,3,4,5]
arreglo = np.array(lista)
print(lista)
print(arreglo)

[0, 1, 2, 3, 4, 5]
[0 1 2 3 4 5]


Pero para algunos casos numpy tiene funciones que crean listas más rápidamente.

In [3]:
arreglo = np.arange(8)
print(arreglo)

[0 1 2 3 4 5 6 7]


Algunas cosas que no se podían hacer con las listas ahora sí se pueden:

1. Sumarle un mismo elemento a toda la lista

In [4]:
lista + 1

TypeError: can only concatenate list (not "int") to list

In [5]:
arreglo = arreglo * 3

In [6]:
arreglo

array([ 0,  3,  6,  9, 12, 15, 18, 21])

2. Elevar al cuadrado todos los elementos de una lista

In [7]:
lista**2

TypeError: unsupported operand type(s) for ** or pow(): 'list' and 'int'

In [8]:
arreglo**2

array([  0,   9,  36,  81, 144, 225, 324, 441], dtype=int32)

**Ejercicio 1**: Responder las siguientes preguntas:
* ¿Qué operaciones se pueden hacer tanto en un arreglo de Numpy como en una lista? Dar un ejemplo en una celda.
* ¿Qué operaciones se pueden hacer en un arreglo de Numpy pero NO en una lista? Explorar algunas opciones y dar un ejemplo en una celda.
* ¿Cuál es la diferencia entre un arreglo de forma -shape- (n,), (n,1) y (1,n)? Pueden crear arreglos para intentar responder esa pregunta.

In [9]:
'''
¿Que operaciones se pueden hacer tanto en un arreglo de Numpy como en una lista? 
Dar un ejemplo en una celda.
'''
lista = [1,2,3,4,5,6]
arreglo = np.array([1,2,3,4,5,6])

print(len(lista))
print(len(arreglo))

6
6


In [10]:
'''
¿Que operaciones se pueden hacer en un arreglo de Numpy pero NO en una lista? 
Explorar algunas opciones y dar un ejemplo en una celda.
'''
lista = [1,2,3,4,5,6]
arreglo = np.array([1,2,3,4,5,6])

print(arreglo.sum())
print(lista.sum())

21


AttributeError: 'list' object has no attribute 'sum'

In [11]:
n = 0
for e in lista:
    n = n + e
print(n)

21


In [12]:
arreglo.shape

(6,)

In [28]:
arreglo = np.array([[1,2,3,4,5,6],[1,2,3,4,5,6],[1,2,3,4,5,6]]) #notar los corchetes extras
print(arreglo,'. Shape =', arreglo.shape, "\n")

[[1 2 3 4 5 6]
 [1 2 3 4 5 6]
 [1 2 3 4 5 6]] . Shape = (3, 6) 



In [30]:
arreglo = np.array([[1,2,3,4,5,6]]) #notar los corchetes extras
print(arreglo,'. Shape =', arreglo.shape, "\n")

[[1 2 3 4 5 6]] . Shape = (1, 6) 



In [31]:
arreglo = np.array([[1,2,3,4,5,6]]).T #notar los corchetes extras
print(arreglo,'. Shape =', arreglo.shape, "\n")

[[1]
 [2]
 [3]
 [4]
 [5]
 [6]] . Shape = (6, 1) 



In [25]:
'''
¿Cuál es la diferencia entre un arreglo de forma -shape- (n,), (n,1) y (1,n)?
'''
print('Arreglo de (n,)')
arreglo = np.array([1,2,3,4,5,6])
print(arreglo,'. Shape =', arreglo.shape, "\n") # "\n" imprime un salto de linea

print('Arreglo de (2,n)')
arreglo = np.array([[1,2,3,4,5,6],[1,2,3,4,5,6]]) #notar los corchetes extras
print(arreglo,'. Shape =', arreglo.shape, "\n")

print('Arreglo de (n,1)')
arreglo = np.array([[1,2,3,4,5,6]]) #notar los corchetes extras
print(arreglo.T,'. Shape =', arreglo.T.shape, "\n")   #notar .T, que significa transpuesto

### EXTRA 1###
'''Trasponer no es la unica forma de crear un arreglo de forma (n,1)'''
arreglo = np.array([[1],[2],[3],[4],[5],[6]]) #notar los corchetes extras
print(arreglo,'. Shape =', arreglo.shape)   #notar .T, que significa transpuesto

Arreglo de (n,)
[1 2 3 4 5 6] . Shape = (6,) 

Arreglo de (2,n)
[[1 2 3 4 5 6]
 [1 2 3 4 5 6]] . Shape = (2, 6) 

Arreglo de (n,1)
[[1]
 [2]
 [3]
 [4]
 [5]
 [6]] . Shape = (6, 1) 

[[1]
 [2]
 [3]
 [4]
 [5]
 [6]] . Shape = (6, 1)


In [43]:
a1 = np.array([[1,2,3,4],[5,6,7,8]])
a1.shape

(2, 4)

In [44]:
a2 = np.array([[1,2,3,4],[5,6,7,8]])
a2.shape

(2, 4)

In [45]:
a3 = a1 * a2
a3.shape

(2, 4)

In [46]:
a3

array([[ 1,  4,  9, 16],
       [25, 36, 49, 64]])

**Ejercicio 2**:
* Escribir un arreglo con números enteros del 0 al 9. Pista: arange
* Escribir un arreglo con 100 números equiespaciados del 0 al 9. Pista: linspace

In [52]:
arreglo_1 = np.arange(0,12)
print(arreglo_1)

[ 0  1  2  3  4  5  6  7  8  9 10 11]


In [57]:
arreglo_2 = np.linspace(0,10,9)
print(arreglo_2)

[ 0.    1.25  2.5   3.75  5.    6.25  7.5   8.75 10.  ]


**Ejercicio 3**:
* Escribir un arreglo con números enteros del 10 al 100 y seleccionar aquellos que son menores que 50.

In [68]:
a = np.arange(10,100)
a

array([10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26,
       27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43,
       44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60,
       61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77,
       78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94,
       95, 96, 97, 98, 99])

In [69]:
a = a.reshape(3,3,10)

In [70]:
'''Pista'''
mask = a%3==0

In [72]:
mask.shape

(3, 3, 10)

In [74]:
a[mask]

array([12, 15, 18, 21, 24, 27, 30, 33, 36, 39, 42, 45, 48, 51, 54, 57, 60,
       63, 66, 69, 72, 75, 78, 81, 84, 87, 90, 93, 96, 99])

In [75]:
mask = [True, False, True, False]
print(a[mask])

IndexError: boolean index did not match indexed array along dimension 0; dimension is 3 but corresponding boolean dimension is 4

In [51]:
mask2 = a < 2
print(mask2)

[0 2 3]
[ True  True False False]


In [53]:
### RESOLUCION
a = np.arange(10,101)
print(a[a<50])

[10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49]


**Ejercicio 4**:
* Crear un arreglo de ceros de `shape` (5,10).
* Reemplazar la segunda y cuarta fila con unos
* Reemplazar la tercera y octava columna con dos (2).

In [85]:
zeros = np.zeros((5,10))
zeros

array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]])

In [80]:
zeros[1,:] = 1
zeros

array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]])

In [86]:
zeros[:,3:5] = 1
zeros

array([[0., 0., 0., 1., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 1., 0., 0., 0., 0., 0.]])

In [66]:
zeros[3,:] = 1
zeros

array([[0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [0., 0., 0., 1., 0., 0., 0., 0., 0., 0.]])

In [67]:
#zeros[:,2] = 2
zeros[:,:] = 5
zeros

array([[5., 5., 5., 5., 5., 5., 5., 5., 5., 5.],
       [5., 5., 5., 5., 5., 5., 5., 5., 5., 5.],
       [5., 5., 5., 5., 5., 5., 5., 5., 5., 5.],
       [5., 5., 5., 5., 5., 5., 5., 5., 5., 5.],
       [5., 5., 5., 5., 5., 5., 5., 5., 5., 5.]])

In [90]:
todos = []
n = 0
lat = -90
long = -180
while lat < 91:
    
    while long < 181:
        todos.append([lat,long])
        n = n + 1
        long = long + 1   
        
    long = -180
    lat = lat + 1
print(n)

65341


In [91]:
todos = np.array(todos)

In [92]:
todos.shape

(65341, 2)

**Ejercicio $\infty$**:
Hacer todos los ejercicios que puedan del siguiente link https://www.machinelearningplus.com/python/101-numpy-exercises-python/

O de https://github.com/rougier/numpy-100

In [109]:
np.ones([3,4])

TypeError: ones() got an unexpected keyword argument 'type'

In [94]:
np.eye(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

Para explorar las funciones de creación de datos aleatorios:
https://numpy.org/doc/stable/reference/random/legacy.html

In [102]:
a = np.random.random((4,2,3)) * 100 + 100
a

array([[[155.01982552, 125.97078688, 191.38559687],
        [116.68767638, 103.36563527, 111.85920009]],

       [[162.36798432, 101.20780213, 171.50064968],
        [146.66891187, 142.1099348 , 176.64709777]],

       [[163.369303  , 174.13535976, 191.47730693],
        [182.62299689, 123.50179798, 175.10144397]],

       [[100.67842681, 145.64144855, 175.35451489],
        [144.38667649, 120.3255981 , 152.8949486 ]]])

In [99]:
a = np.random.random((4,4))

In [81]:
a

array([[0.59291484, 0.24653604, 0.96770533, 0.19412721],
       [0.49269595, 0.94813041, 0.42545526, 0.6729279 ],
       [0.84002224, 0.86934291, 0.74611805, 0.407107  ],
       [0.74821279, 0.28230078, 0.18385823, 0.74186306]])

In [105]:
np.int16

numpy.int16

In [125]:
a = np.array([[10,200,30,45,5,50],[5,20,30,40,50,0],[5,20,30,40,50,0],[5,20,30,40,50,0]], dtype=np.int8)

In [115]:
a

array([[ 10, 200,  30,  45,   5, 100],
       [  5,  20,  30,  40,  50,   0],
       [  5,  20,  30,  40,  50,   0],
       [  5,  20,  30,  40,  50,   0]], dtype=int16)

In [126]:
a.sum()

519

In [127]:
a.std()

23.924904214367643

In [130]:
a.sort(axis=1)

In [131]:
a

array([[-56,   0,   5,   5,  30,  40],
       [  0,   5,  20,  30,  40,  50],
       [  0,   5,  20,  30,  40,  50],
       [ 10,  20,  30,  45,  50,  50]], dtype=int8)

In [132]:
a.sort(axis=0)
a

array([[-56,   0,   5,   5,  30,  40],
       [  0,   5,  20,  30,  40,  50],
       [  0,   5,  20,  30,  40,  50],
       [ 10,  20,  30,  45,  50,  50]], dtype=int8)

In [137]:
a[1:3,0:3]

array([[ 5, 20, 30],
       [ 5, 20, 30]])

In [8]:
l =   [[ 10, 200,  30,  45,   5, 100],
       [  5,  20,  30,  40,  50,   0],
       [  5,  20,  30,  40,  50,   0],
       [  5,  20,  30,  40,  50,   0]]

In [14]:
a = np.array([l])

In [21]:
l = [[ 10, 200,  30,  45,   5, 100],
        [  5,  20,  30,  40,  50,   0],
        [  5,  20,  30,  40,  50,   0],
        [  5,  20,  30,  40,  50,   0]];

In [22]:
a = np.array([l])

In [23]:
a.shape

(1, 4, 6)

In [32]:
a.reshape(24)

array([ 10, 200,  30,  45,   5, 100,   5,  20,  30,  40,  50,   0,   5,
        20,  30,  40,  50,   0,   5,  20,  30,  40,  50,   0])

In [133]:
a = np.matrix([[1,2,3,4,5,6]]) 
print(a) 

[[1 2 3 4 5 6]]


In [134]:
b = np.matrix([[1],[2],[3],[4],[5],[6]]) 
print(b) 

[[1]
 [2]
 [3]
 [4]
 [5]
 [6]]


In [135]:
c = a * b 
print(c) 

[[91]]


In [136]:
d = b * a 
print(d)

[[ 1  2  3  4  5  6]
 [ 2  4  6  8 10 12]
 [ 3  6  9 12 15 18]
 [ 4  8 12 16 20 24]
 [ 5 10 15 20 25 30]
 [ 6 12 18 24 30 36]]
