¿Cómo visualizar data?
¿Cómo presentar mejor los grágicos?
¿Cómo convencemos al público sobre la data que tenemos?

In [1]:
#instalamos seaborn
!pip install seaborn



1. Q U A N T I T I E S

Este tipo de gráfico muestra los niveles de las variables. Además, estos gráficos muestran
las variables según categorías o clasificaciones. 

In [2]:
#importamos los paquetes
import numpy as np
import pandas as pd
from pandas import Series, DataFrame
import matplotlib.pyplot as plt
import seaborn as sns
import datetime as dt

#Conjuntos de datos transformados en caracteres latinos. Los siguientes comandos deben usarse 
#en STATA:
#cd".....\documents"
#unicode analyze enaho.dta
#unicode encoding set "latin1"
#unicode translate enaho.dta

La siguiente base de datos incluye los módulos de ENAHO (200, 300 y 500) para el periódo 2011-2019

In [7]:
enaho = pd.read_stata(r"../_data/enaho.dta")
enaho 

FileNotFoundError: [Errno 2] No such file or directory: '../_data/enaho.dta'

In [None]:
enaho["empresa"]

Clasificación del número de empresas por número de trabajadores contratados 

Microempresas < 10 trabajadores; pequeñas empresas (10-20 trabajadores), medianas empresas (21-100 trabajadores), grandes negocios (>100 trabajadores).

¿Por qué muchos ejemplos usan "fig, ax = plt.subplots()" en Matplotlib/pyplot/python? (fig = figura, ax = ejes xy)

https://stackoverflow.com/questions/34162443/why-do-many-examples-use-fig-ax-plt-subplots-in-matplots-pyplot-python

a. Gráfico de recuento vertical y un color 

In [None]:
#estilo, fondo blanco
sns.set(style="white") 

#tamaño de la figura
#una figura de 7 pulgadas de ancho y 4, de alto
fig, ax = plt.subplots(figsize=(7,4)) 

#Lo que quieres plotear con su respectiva data
#plot variable/Data???
#queremos plotear la variable "empresa"
#[un booleano, arroja TRUE los casos en los que es 2019]
x = sns.countplot(x="empresa", data=enaho[enaho["year"]=="2019"])

#detalles/etiquetas(label): título, título al eje x y
plt.title("Cantidad de empresas según clasificación en el 2019")
plt.xlabel("Tipo de empresa")
plt.ylabe("Número de empresas")

b. Gráfico de recuento horizontal y un color (rojo)

In [None]:
sns.set(style="darkgrid")
fig, ax = plt.subplots(figsize=(7,4))

#a diferencia del gráfico anterior, las barras están asociadas a y
x = sns.countplot(y="empresa", data=enaho[enaho["year"]=="2019"], color="red")

plt.title("Cantidad de empresa según clasificación en el 2019")
plt.xlabel("Número de empresas")
plt.ylabel("Tipo de empresas")

In [None]:
#EVOLUCIÓN DE LOS NEGOCIOS EN EL PERIODO 2017-2019

base2 = enaho[enaho["year"]>"2016"]
sns.set(style="darkgrid")

fig, ax = plt.subplots(figsize=(10,6))

#hue: descomposición variable
#queremos en el eje x se levante la variable
#hue quiere decir: explica cual es la variable de descomposición que vamos a hacer en este ploteo
#Se quiere contar el númeor de empresas por las cuatro categorías que se tiene, pero por año
#linewidth es el espacio entre barras
#y finalmente se llama a la data
ax = sns.countplot(x="empresa", hue="year", linewidth=1, data=base2)
plt.title("Evolución de las empresas en el periódo 2017-2019")
plt.xlabel(" ")
plt.ylabel(" ")
#nota, pie de página, colocamos la fuente
txt = "Elaboración propia - ENAHO (2011-2019)"
#la ubicación dentro de la figura para colocar la fuente (x=0.01, y=0.01, izquierda, arriba, tamaño)
plt.figtext(0.01, 0.01, txt, wrap=True, horizontalalignment="left", va="top", fontsize=10)
#mover la leyenda, centro derecha
#upper, lower, center
#right, left
sns.move_legend(ax, "center right")

In [None]:
#NÚMERO DE EMPRESAS POR ESTRATO (URBANO O RURAL) Y EVOLUCIÓN POR AÑOS
#hue = dividir en grupos pero en el mismo gráfico
#col = crear dos nuevos grupos basados en el grupo de identificación


#en el eje x vamos a tener hacia arriba el conteo de los números de empresas
#hue, es decir, por años quiero ver la evolución
#col significa quiero que me crees grupos, osea gráficos separados, a partir de la variable "area" (urbano, rural)
#altura = 10, aspecto = 1
ag = sns.catplot(x="empresa", hue="year", col="area", data=base2, kind="count", height=10, aspect=1):

#ylim = el conteo va ir de 0 a 6000
#despine y botton tienen que ver con las líneas que rodea al gráfico
(ag.set_axis_labels("", "Número de empresas")
 .set(ylim=(0, 6000))
 .despine(left=True), botton = True)

c. Gráfico de barras apiladas

In [None]:
#quedate con la data del 2019
#agrupalos por empresa y area
#dame el size, el tamaño
#para pasarlo al DataFrame le hago un reseteo del índice
enaho[enaho["year"] == "2019"].groupby(["empresa", "area"]).size().reset_index(name="num_firms")

In [None]:
#columna con las categorías
#por empresa y por area
base_2 = enaho[enaho["year"] == "2019"].groupby(["empresa", "area"]).size().reset_index(name="num_firms")
base_2

In [None]:
#hay muchas formas de crear la data, dependiendo la figura solicitada
#columnas de las categorias
base_3 = base_2.pivot(index="empresa", columns="area", values="num_firms")
base_3

In [None]:
#kind,tipo de gráfico: barras
#stacked, superpuesta: Si
#colores, dos por que tiene dos categorías
#título
base_3.plot(kind="bar", stacked=True, color=["blue", "lightblue"], title="Empresa por estrato")
#los nombres de la categorías están inclinados 90°
plt.xticks(rotation=90)

In [None]:
axes = base_3.plot(kind="bar", rot=0, subplots=True, color=["blue", "lightblue"], title="Empresa por estrato")
plt.xticks(rotation=90)

2. P R O P O R C I O N E S 

Gráficas comprensibles para mostrar variables categóricas. Se usan para explicar las participaciones de las categorías. 

a. Torta

In [None]:
#En primer lugar, contraigo el marco de datos para contar categorías de una variable.

#agrupado por empresas
base = enaho.groupby(["empresa"]).count()
base

In [None]:
#etiquetas para corregir nombres de categorías
labels = ["Microempresa", "Pequeña empresa", "Mediana empresa", "Gran empresa"]

#tamaño 5x5
plt.figure(figsize=(5, 5))

#base de datos conglomerado
#labels ya se especifico antes
#autopct, los decimales
ax = plt.pie(base["conglome"], labels=labels, autopct="%.2f %%")

#
plt.title("Distribución de las empresas peruanas (2019)")
plt.show()

In [None]:
#crea una base de datos
base = enaho.groupby("labor").size()
base

b. Donas

In [None]:
base2 = enaho.groupby(["sector"]).count()
base2

In [None]:
labels = ["Agricultura y pesca", "Minería", "Manufactura", "Construcción", 
          "Comercio", "Transporte y telecomunicaciones", "Finanzas", "Servicios"]

#tamaño de la figura
plt.figure(figsize=(10,6))

#labels ya se especificó
#1.1 para un decimal
#pdctdistance es la unicación de los porcentajes, que tan lejos del centro
ax = plt.pie(base2["conglome"], labels=labels, autopct="%1.1f%%", pctdistance=0.85)

#para crear la dona plt.Circle y el radio 0.50, y el fondo blanco
center_circle = plt.Circle((0,0), 0.50, fc="white")
fig = plt.gcf()

#se le agrega lo siguiente???
fig.gca().add_artist(center_circle)

plt.title("Distribución de la mano de obra contratada por sector económico")

#agregamos notas
#posición, el texto, pegado, que se encuentre a la derecha, tamaño de la fuente 10
txt = "Elaboración propia - ENAHO(2011-2019)"
plt.figtext(0.2, 0.01, txt, wrap=True, horizontalalignment="right", fontsize=10)

plt.show()

3. D I S T R I B U C I O N E S

Los diagramas de distribución son una forma de evaluar si los datos de una muestra se ajustan a una distribución teórica determinada. 

In [None]:
#una muestra de ENAHO2019
base4 = enaho[enaho["year"] == "2019"]

#de esta base se selecciona la variable salario
#l_salario = logaritmo de salario
#plotea ello
#tipo histograma
#bins, bloques de data de separación
#tamaño 8,6
#título
base4["l_salario"].plot(kind="hist", bins=10, figsize=(8,6))
plt.title("Logaritmo del salario por hora")

txt = "Elaboración propia - ENAHO(2011-2019)"
plt.figtext(0.5, 0.01, txt, wraps=True, horizontalalignment="center", fontsize=12)
plt.show()

a. Reducción de Intervalos

Distribución de frecuencias con un intervalo más pequeño (menor frecuencia relativa). Por lo tanto, la altura de cada barra representa una cantidad menor.

In [None]:
sns.set("paper")
sns.set_style("ticks")

base4["l_salario"].plot(kind="hist", bins=20, figsize=(8,6))
plt.title("Logaritmo del salario por hora")

txt = "Elaboración propia - ENAHO(2011-2019)"
plt.figtext(0.5, 0.01, txt, wrap=True, horizontalalignment="center", fontsize=11)
plt.show()

b. Histogramas Multiples

In [None]:
#utilizamos la base4 como base
#vamos a utilizar como columna "empresa" 
#col nos ayuda a crear bloques de gráficos distintos a partir de esa categoría
#en nuestro caso, empresa representa 4 tipos (microempresa, pequeña empresa, madiana empresa, gran empresa)
figure1 = sns.FacetGrid(base4, col="empresa", margin_titles=True)

#a esta figura has un .map, ploteo
#tipo: histograma
#quiero crear gráficos a partir de la subdivisión de las categorías de las empresas, utilizando la variable salario
#np.linspace???
figure1.map(plt.hist, "l_salario", bin=np.linspace(0, 20, 30))

In [None]:
#LA DENSIDAD DEL SALARIO REAL POR HORA
#la distribución no se asemeja a una normal estánder. La información está concentrada
#en valores más bajos y hay algunas observaciones de valores altos.

plt.figure(figsize=(8, 8))

#te plotea el histograma y te estima la densidad
sns.distplot(base4["salario"], label = "Densidad", color="blue")
plt.title("Salario por hora")
plt.xlabel("")
plt.show()

In [None]:
#LOGARITMO DEL SALARIO REAL POR HORA
#esto permite corregir la asimetría presentada por los datos originales.

plt.figure(figsize=(8, 8))

sns.distplot(base4["l_salario"], label="Densidad", color="black")
plt.title("Logaritmo del salario por hora")
plt.xlabel("")
plt.show()

In [None]:
#SALARIOS RELAES PARA TRES SECTORES (CONSTRUCCIÓN, MINERÍA Y SERVICIOS)

base4.l_salario[base4.sector=="Construcción"]

#tamaño
plt.figure(figsize=(10, 6))

#quiero que se queden los salarios de los trabajadores que están en sector construcción
#label: título, etiqueta
#shade=sombra
sns.kdeplot(base4.l_salario[base4.sector=="Construcción"], label="Construcción", shade=True, color="blue")

#quiero que se queden los salarios de los trabajadores que están en sector servicios
#label: título, etiqueta
#shade=sombra
sns.kdeplot(base4.l_salario[base4.sector=="Comercio, hoteles y restaurantes"], label="Comercio, hoteles y restaurantes", shade=True, color="orange")

#quiero que se queden los salarios de los trabajadores que están en sector minero
#label: título, etiqueta
#shade=sombra
sns.kdeplot(base4.l_salario[base4.sector=="Minería"], label="Minería", shade=True, color="gray")

#título del eje x
plt.xlabel("Logaritmo del salario by Industry")

In [None]:
#OCUPACIONES LABORALES Y DENSIDADES DE SALARIO REAL POR HORA
#se utiliza un bucle para incluir en el mismo gráfico la función de densidad de salarios
#por hora para diferentes ocupaciones.

#plotear la figura y el tamaño de la figura
fig, ax = plt.subplots(figsize=(8, 6))

sector = ["Ocupaciones elementales", "Profesionales y fuerzas armadas", "Operadores de planta y maquinaria", 
          "Trabajo en actividades agrícolas, selvicultura y pesca"]
nombre = ["Ocupaciones elementales", "Profesionales", "Planta y maquinaria", 
          "Actividades extractivas"]

#una especie de tupla (sector y nombre)
for a, b in zip(sector, nombre):
    #nos quedamos con todos los sectores: a
    #label/etiqueta: b
    sns.kdeplot(base4.l_salario[base4.labor==a], label=b, shade=True)

plt.xlabel("Logaritmo del salario por tipo de ocupación")

In [None]:
#BOX PLOT SALARIO REAL Y EDUCACIÓN

fig, ax = plt.subplots(figsize=(10,6))

#a partir de dos variables (educación y logaritmo de salario)
#utilizamos el dato del 2019
#palette: escala de colores
#labels x y
box = sns.boxplot(x="educ", y="l_salario", data=enaho[enaho["year"]=="2019"], palette="rainbow")
plt.xlabel("Nivel educativo alcanzado")
plt.ylabel("Logaritmo del salario por hora")
#para cada categoría pondremos estos nombres
(box.set_xticklabels(["Sec. completa", "No uni. incompleta", "No uni. completa", "Uni. incompleta", 
                       "Uni. completa", "Posgrado"]))

4. R E L A C I O N E S

Los gráficos utilizan tantos datos de series temporales como datos transversales. Estos gráficos permiten establecer ciertas evidencias de correlación o relaciones entre variables.

a. Gráfico de dispersión

Primero, se extrae una muestra aleatoria de la base de datos original. Posteriormente, se presenta un gráfico de dispersión entre el salario por hora (logaritmo) y el ingreso mensual no laboral (logaritmo).

In [None]:
#formato tipo paper, utilizado para publicaciones
sns.set("paper")
#tamaño
plt.figure(figsize=(8, 8))

#la data es base4
#x y: queremos ver un scatterplot entre el logaritmo del salario laboral por hora y de los ingresos mensuales no laborales
#hue=sector, quiero que kla diferencia de colores sea a partir de los sectores
#deep, tipo de color
plot = sns.scatterplot(data=base4, x="l_n_labor", y="l_salario", hue="sector", palette="deep")

#nombramos
plt.xlabel("Logaritmo del salario laboral por hora")
plt.ylabel("Logaritmo de los ingresos mensuales no laborales")

#leyenda
#localizada centrada izquierda
#menos es izquierda
#número de columnas es 3
plot.legend(loc="center left", bbox_to_anchor=(-0.2, -0.2), ncol=3) 

In [None]:
#de la base4 vamos a tomar aleatoriamente 3000 unidades
base5 = base4.sample(n=3000)

#formato tipo paper
sns.set("paper")
#tamaño
plt.figure(figsize=(10,10))

#
plot = sns.scatterplot(data=base5, x="l_n_labor", y="l_salario", hue="sector", palette="flare")

plt.xlabel("Logaritmo del salario laboral por hora")
plt.ylabel("Logaritmo de los ingresos mensuales no laborales")

#leyenda
#centro izquierda
#ubicación de la leyenda en términos de dirección
#una columna
plot.legend(loc="center left", bbox_to_anchor=(1, 0.5), ncol=1)

In [None]:
#REGRESIÓN DEL SALARIO REAL POR HORA E INGRESO NO LABORAL POR ESTRATO
#s = el tamaño del marcador en puntos**2
#linewidths = el ancho de línea de los bordes del marcador

sns.set_style("white")

#sns.lmplot: modelo lineal
#utilizamos dos variables
#con la base de datos dase5
#altura 7
#robust, el modelo lineal puede ser corregido a partir de los errores estandar, tipo robustos
#paleta: Set1
#col: significa separar por grupos, cuando corramos la regresión o este modelo lineal 
gridobj = sns.lmplot(x="l_salario", y="l_n_labor",
                     data=base5, 
                     height=7, 
                     robust=True, 
                     palette="Set1", 
                     col="area", 
                     scatter_kws=dict(s=60, linewidths=0.7, edgecolors="black"))

gridobj.set(xlim=(0.5, 7.5), ylim=(0, 50))
plt.show()


2:11:24