In [1]:
import pandas as pd

In [2]:
datos = pd.read_csv('../data/datos_fm.csv')

In [3]:
datos

Unnamed: 0,Ciudad,Sexo,Edad,Color,Años de Estudio,Ingreso,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.739790
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631
...,...,...,...,...,...,...,...
76835,53,1,46,2,11,812,1.687030
76836,53,0,30,4,7,1500,1.792934
76837,53,0,32,8,12,1300,1.830587
76838,53,0,57,8,4,1500,1.726344


In [None]:
sexo = {0: 'Masculino',
        1: 'Femenino'}

color = {0: 'Indigena',
         2: 'Blanco',
         4: 'Negro',
         6: 'Amarillo',
         8: 'Pardo',
         9: 'Sin declarar'}

# **Para saber más: análisis Bivariado con pd.crosstab**

En el mundo del análisis de datos, a menudo es necesario explorar la relación entre dos variables categóricas. El código que hemos visto utiliza la función `pd.crosstab` de *Pandas* para crear una tabla de contingencia, que nos permite examinar cómo se distribuyen los valores de una variable (Ingreso en este caso) en función de las combinaciones de otras dos variables categóricas (Sexo y Color).

Veamos en detalle cómo funciona este código:

In [None]:
porcentaje = pd.crosstab(datos.Sexo,
                         datos.Color,
                         aggfunc = 'mean',
                         values = datos.Ingreso)
porcentaje.rename(index = sexo,inplace = True)
porcentaje.rename(columns = color,inplace = True)
porcentaje

Color,Indigena,Blanco,Negro,Amarillo,Pardo
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Masculino,1081.710938,2925.744435,1603.861687,4758.251064,1659.577425
Femenino,2464.386139,2109.86675,1134.5964,3027.34188,1176.758516


**Explicación paso a paso:**

1. `pd.crosstab(datos.Sexo, datos.Color...)`: Esta es la función principal que crea la tabla de contingencia.
1. Los dos primeros argumentos (`datos.Sexo` y `datos.Color`) especifican las dos variables categóricas que se cruzarán.
1. `aggfunc = 'mean'`: Indica que queremos calcular la media de `datos.Ingreso` para cada combinación de Sexo y Color. Podríamos usar otras funciones de agregación como `sum`, `count`, etc., dependiendo del análisis que queramos realizar.
1. `values = datos.Ingreso`: Especifica la variable numérica cuyos valores se agregarán en cada celda de la tabla.
1. `porcentaje.rename(index = sexo, inplace = True)`: Esta línea renombra las etiquetas del índice (filas) de la tabla de contingencia utilizando los valores del diccionario sexo. El argumento `inplace = True` modifica la tabla directamente en lugar de crear una nueva.
1. `porcentaje.rename(columns = color, inplace = True)`: De manera similar, esta línea renombra las etiquetas de las columnas de la tabla utilizando los valores del diccionario color.
1. `porcentaje`: Finalmente, se muestra la tabla resultante.

**¿Qué nos muestra esta tabla?**

La tabla resultante nos mostrará la media de Ingreso para cada combinación de Sexo y Color. Esto nos permite comparar, por ejemplo, si hay diferencias significativas en los ingresos promedio entre hombres y mujeres de diferentes etnias.

Te animo a experimentar con diferentes funciones de agregación y variables en pd.crosstab para descubrir patrones interesantes en tus datos. ¡El análisis bivariado es una herramienta poderosa para comprender mejor las relaciones entre variables en tus conjuntos de datos! ;))

# **Para saber más: entendiendo mejor la desviación media absoluta**


Hemos visto cómo calcular la desviación estándar, una medida clave de dispersión que nos indica cuánto se alejan, en promedio, los datos de la media. Pero, ¿cómo podemos visualizar estas desviaciones de manera gráfica para entender mejor la distribución de nuestros datos?

![imagen1](https://cdn1.gnarususercontent.com.br/6/103811/14a631c1-96f9-42b6-ad73-486e669e1914.png)

El gráfico muestra las notas de María en 7 materias diferentes: Matemática, Portugués, Inglés, Geografía, Historia, Física y Química. Cada materia está representada en el eje horizontal, y las notas correspondientes se muestran en el eje vertical.

**Elementos Clave**:

Puntos Azules: Representan las notas de María en cada materia. Por ejemplo, en Matemática obtuvo una nota de 8.

Línea Roja Horizontal: Esta línea indica la media (promedio) de todas las notas de María. En este caso, la media parece ser 8.

Líneas Punteadas Verticales: Para cada materia, hay una línea punteada que conecta la nota de María con la línea roja de la media.

La longitud de estas líneas representa visualmente la desviación de cada nota respecto a la media.

Si la línea punteada va hacia arriba, significa que María obtuvo una nota superior a la media en esa materia.

Si la línea punteada va hacia abajo, la nota está por debajo de la media.

**Interpretación**:

Rendimiento General: En general, María parece tener un rendimiento consistente, ya que la mayoría de sus notas están cerca de la media (línea roja).

Materias Destacadas: En Historia y Física, las líneas punteadas son más largas y apuntan hacia arriba, lo que indica que María obtuvo notas significativamente superiores a su media en esas materias.

Materias a Mejorar: En Portugués e Inglés, las líneas punteadas son más largas y apuntan hacia abajo, sugiriendo que María obtuvo notas inferiores a su media en esas materias.

**Conclusión**:

Este gráfico nos permite visualizar rápidamente el rendimiento de María en cada materia en relación con su promedio general. Nos da una idea de en qué materias se destaca y en cuáles podría necesitar mejorar.


# **Ejercicio: Calculando e Interpretando la Desviación Estándar**

Un grupo de 6 amigos registró el número de horas que durmieron la noche anterior. Los datos son los siguientes:

- 7 horas
- 6 horas
- 8 horas
- 7.5 horas
- 6.5 horas
- 8.5 horas

Calcula la desviación estándar de estas horas de sueño.

In [1]:
import numpy as np
import pandas as pd

In [5]:
df = pd.DataFrame({'Horas de sueño': [7, 6, 8, 7.5, 6.5, 8.5]})

In [6]:
df

Unnamed: 0,Horas de sueño
0,7.0
1,6.0
2,8.0
3,7.5
4,6.5
5,8.5


In [9]:
df.std().round(2)

Unnamed: 0,0
Horas de sueño,0.94


**Explicación**:

1. Primero, calculamos la media: `(7 + 6 + 8 + 7.5 + 6.5 + 8.5) / 6 = 7.25`
1. Luego, calculamos las desviaciones de cada valor respecto a la media: `-0.25, -1.25, 0.75, 0.25, -0.75, 1.25`
1. Elevamos al cuadrado cada desviación: `0.0625, 1.5625, 0.5625, 0.0625, 0.5625, 1.5625`
1. Sumamos los cuadrados de las desviaciones: `0.0625 + 1.5625 + 0.5625 + 0.0625 + 0.5625 + 1.5625 = 4.375`
1. Dividimos la suma entre (`n-1`), donde `n` es el tamaño de la muestra (6): `4.375 / 5 = 0.875`
1. Finalmente, calculamos la raíz cuadrada de la varianza para obtener la desviación estándar: `√0.875 ≈ 0.935`
1. Redondeando a dos decimales, la desviación estándar es de aproximadamente `0.94` horas.