# Datos anteriores

In [59]:
import pandas as pd

datos = pd.read_csv("data/datos.csv")
datos.sample(5)

Unnamed: 0,Ciudad,Sexo,Edad,Color,Años de Estudio,Ingreso,Altura
38407,31,1,43,8,7,788,1.829673
73450,52,0,49,8,8,2500,1.743811
75363,53,1,36,2,16,2000,1.906094
48334,35,0,56,2,2,1800,1.557276
29991,29,0,28,8,13,788,1.714884


# Distribución de frecuencias para variables cualitativas

## ¿Por qué usar distribución de frecuencias?
Para entender el comportamiento de la base de datos. 
Por ejemplo: Para saber como se comportan las personas del género femenino, cuál es el tipo de ingreso, y análisis por el estilo

In [60]:
# Identificar variables cualitativas: Sexo, Ciudad, Color
datos.columns

Index(['Ciudad', 'Sexo', 'Edad', 'Color', 'Años de Estudio', 'Ingreso',
       'Altura'],
      dtype='object')

## Identificando frecuencias:

### Método 1: pandas.Series.value_counts()

#### Cuántos hombres y cuántas mujeres hay

In [61]:
datos.Sexo.value_counts()

Sexo
0    53250
1    23590
Name: count, dtype: int64

#### ¿Y en porcentaje?

#### Cambiando el nombre del índice

In [62]:
Sexo = {
  0: 'Masculino',
  1: 'Femenino'
}

In [63]:
sexos = (datos.Sexo.value_counts(normalize=True) * 100)

In [64]:
sexos_renamed = sexos.rename(index=Sexo)
sexos_renamed

Sexo
Masculino    69.299844
Femenino     30.700156
Name: proportion, dtype: float64

#### Porcentaje obtenido

In [65]:
datos.Sexo.value_counts(normalize=True) * 100

Sexo
0    69.299844
1    30.700156
Name: proportion, dtype: float64

In [66]:
datos.Sexo.value_counts(normalize=True).round(4) * 100

Sexo
0    69.3
1    30.7
Name: proportion, dtype: float64

In [67]:
frecuencia_sexo = datos.Sexo.value_counts()
frecuencia_sexo

Sexo
0    53250
1    23590
Name: count, dtype: int64

In [68]:
porcentaje_sexo = datos.Sexo.value_counts(normalize=True).round(4) * 100

#### Crear nuevo dataframe

In [69]:
dist_frec_cualitativa = pd.DataFrame({'Frecuencia': frecuencia_sexo, 'Porcentaje': porcentaje_sexo})

In [None]:
dist_frec_cualitativa.rename(index=Sexo, inplace=True)

In [71]:
dist_frec_cualitativa

Unnamed: 0_level_0,Frecuencia,Porcentaje
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1
Masculino,53250,69.3
Femenino,23590,30.7


### Método 2: pandas.crosstab()

Se podrá ver dos variables en simultáneo: en este caso color y sexo

In [72]:
sexo = {
  0: 'Masculino',
  1:'Femenino'
}
color = {
  0: 'Indígena',
  2: 'Blanco',
  4: 'Negro',
  6: 'Amarillo',
  8: 'Pardo',
  9: 'Sin declarar'
}

In [84]:
frecuencia = pd.crosstab(datos.Sexo, datos.Color)

In [74]:
frecuencia.rename(index=sexo, columns=color, inplace=True)
frecuencia

Color,Indígena,Blanco,Negro,Amarillo,Pardo
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Masculino,256,22194,5502,235,25063
Femenino,101,9621,2889,117,10862


#### ¿Y el porcentaje?

In [80]:
porcentaje = pd.crosstab(datos.Sexo, datos.Color, normalize=True)
porcentaje.rename(index=sexo, columns=color, inplace=True)
porcentaje

Color,Indígena,Blanco,Negro,Amarillo,Pardo
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Masculino,0.003332,0.288834,0.071603,0.003058,0.326171
Femenino,0.001314,0.125208,0.037598,0.001523,0.141359


In [83]:
porcentaje = porcentaje.map(lambda x: x * 100)
porcentaje

Color,Indígena,Blanco,Negro,Amarillo,Pardo
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Masculino,0.33316,28.883394,7.160333,0.30583,32.617126
Femenino,0.131442,12.520822,3.759761,0.152264,14.135867


### Distribución de ingreso en función de sexo y color

`aggfunc='mean'` -> indica que se quiere calcular la media de datos. Ingreso para cada combinación de sexo y color. Existen otras funciones de agregación como sum, count, etc.

`values=datos.Ingreso` -> especifica la variable numérica cuyos valores se agregarán en cada celda de la tabla

In [85]:
porcentaje = pd.crosstab(datos.Sexo,datos.Color, aggfunc='mean', values=datos.Ingreso)
porcentaje.rename(index = sexo, columns=color, inplace=True)
porcentaje

Color,Indígena,Blanco,Negro,Amarillo,Pardo
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Masculino,1081.710938,2925.744435,1603.861687,4758.251064,1659.577425
Femenino,2464.386139,2109.86675,1134.5964,3027.34188,1176.758516


La tabla mostrada entrega la media de infreso para cada combinación de Sexo y Color. Permite comparar, por ejemplo, si hay diferencias significativas en los ingresos promedio entre hombres y mujeres de diferentes etnias.