### ¿Que son los datos cualitativos?

Corresponden a observaciones sobre cualidades de un objeto o individuo.
Suelen codificarse por medio de palabras, pero también se pueden usar en numeros que juegen el papel de etiquetas.

Ejemplo:

Si queremos representar 'No', 'Falso, etc. Podemos usar el numero 0 como etiqueta.
También son aquellos que pueden ser iguales o diferentes, pero que no admiten ningun otro tipo de comparación significativa (Comparar tamaños, hacer operaciones)

* **Variable cualitativa:** Lista de observaciones de un tipo de datos cualitativos sobre un conjunto concreto de objetos. Aquí podemos considerar los niveles, es decir, para la variable sexo tenemos dos etiquetas, M de masculino y F de femenimo

### Estudio de frecuencias

Por cada variable cualitativa, para cada uno de sus niveles podemos contar cuantos datos hay en ese nivel (frecuencia absoluta) y que fracción representan (frecuencia relativa)

![image.png](attachment:image.png)

### Ejemplo final

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px

In [2]:
df_titanic = sns.load_dataset('titanic')
df_titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [3]:
df_titanic['survived'] = pd.Categorical(df_titanic['survived'])
df_titanic['pclass'] = pd.Categorical(df_titanic['pclass'])
df_titanic['sex'] = pd.Categorical(df_titanic['sex'])

#### Tablas de contingenicia 

In [5]:
tab = pd.crosstab(index=df_titanic['survived'], columns='pasajeros')
tab

col_0,pasajeros
survived,Unnamed: 1_level_1
0,549
1,342


In [6]:
pd.crosstab(index=df_titanic['pclass'], columns='pasajeros')

col_0,pasajeros
pclass,Unnamed: 1_level_1
1,216
2,184
3,491


In [8]:
pd.crosstab(index=df_titanic['sex'], columns='pasajeros')

col_0,pasajeros
sex,Unnamed: 1_level_1
female,314
male,577


In [21]:
tab_c = pd.crosstab(index=df_titanic['deck'], columns='pasajeros', dropna=False)
tab_c

col_0,pasajeros
deck,Unnamed: 1_level_1
,688
A,15
B,47
C,59
D,33
E,32
F,13
G,4


In [22]:
(tab_c / tab_c.sum()) * 100

col_0,pasajeros
deck,Unnamed: 1_level_1
,77.216611
A,1.683502
B,5.274972
C,6.621773
D,3.703704
E,3.59147
F,1.459035
G,0.448934


#### Tablas de contingencia de dos variables

In [25]:
df_survived_sex = pd.crosstab(index=df_titanic['survived'], columns=df_titanic['sex'])
df_survived_sex.index = ['died', 'survived']
df_survived_sex

sex,female,male
died,81,468
survived,233,109
