# Análisis de la sección "Teatro" de la Encuesta Nacional de Consumos culturales 2017, realizada por el Sistema de Información Cultural de la Argentina (SINCA)

Analizaremos esta encuesta constituida por 2802 casos utilizando la librería Pandas para la manipulación de los datos y Plotly/Plotly Express para su visualización.

In [6]:
import pandas as pd
import plotly.io as pio
import plotly.express as px

Como primer paso, obtenemos el dataset desde GitHub:

In [71]:
!wget https://github.com/Estanislao-Zubiri/datasets_consumos_culturales/blob/main/encc_2017.csv

--2020-12-02 18:17:26--  https://github.com/Estanislao-Zubiri/datasets_consumos_culturales/blob/main/encc_2017.csv
Resolving github.com (github.com)... 52.192.72.89
Connecting to github.com (github.com)|52.192.72.89|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Saving to: ‘encc_2017.csv’

encc_2017.csv           [ <=>                ]  89.92K  --.-KB/s    in 0.07s   

2020-12-02 18:17:27 (1.19 MB/s) - ‘encc_2017.csv’ saved [92076]



Ahora asignamos el dataset a la variable df.

In [70]:
df = pd.read_csv('/content/encc_2017.csv')


Columns (0,30,106,107,144,145,299,349,350,385) have mixed types.Specify dtype option on import or set low_memory=False.



Chequeamos las dimensiones de nuestro DataFrame:

In [9]:
print('Dimensiones:',df.shape)
print('\nColumnas:',df.columns)
print('\nÍndice:',df.index)

Dimensiones: (2802, 450)

Columnas: Index(['id', 'pondera_dem', 'fecha', 'region', 'sexo', 'edad', 'p1', 'p1otros',
       'p2', 'p2_1',
       ...
       'horas_tv_total', 'minutos_internet_1', 'minutos_internet_total',
       'horas_internet_total', 'minutos_redes_1', 'minutos_redes_total',
       'horas_redes_total', 'minutos_videojuegos_1',
       'minutos_videojuegos_total', 'horas_videojuegos_total'],
      dtype='object', length=450)

Índice: RangeIndex(start=0, stop=2802, step=1)


# Consultamos una muestra de cinco casos al azar del DataFrame y enseguida percibimos que necesitaremos consultar el [cuestionario realizado](https://datos.cultura.gob.ar/dataset/251c2ac2-e670-451c-9dbf-a4212af225b5/resource/18ccc305-eada-44e7-a06a-5877ec83e0b8/download/cuestionario_encc-2017.pdf) para interpretar la mayoría de las columnas.

In [10]:
df.sample(5)

Unnamed: 0,id,pondera_dem,fecha,region,sexo,edad,p1,p1otros,p2,p2_1,p2_1otro,p2_2,p3,p4,p5,p6horas,p6minutos,horas_radio,minutos_radio,p7_1,p7_2,p7_3,p7_4,p7_5,p8a,p8b,p8c,p8d,p8e,p8f,p8g,p8otros,p9,p10,p10_1,p10_1otr,p10_2,p11,p12horas,p12minutos,...,p111,p111b,p112,p113_1,p113_2,p113_3,p113_4,p113_5,p114,p115_1,p115_2,p115_3,p115_4,p115_5,p116,p116b,p117,NSEpuntaje,NSEcat1,minutos_radio_1,minutos_radio_total,horas_radio_total,minutos_musica_1,minutos_musica_total,horas_musica_total,minutos_diario_1,minutos_diario_total,horas_diario_total,minutos_tv_1,minutos_tv_total,horas_tv_total,minutos_internet_1,minutos_internet_total,horas_internet_total,minutos_redes_1,minutos_redes_total,horas_redes_total,minutos_videojuegos_1,minutos_videojuegos_total,horas_videojuegos_total
455,456,6265,12/5/2017,NOA,Mujer,15,"LA TRADICION, LA HISTORIA",,SI,,,,NO,ALGUNOS DIAS POR SEMANA,FM,1.0,0.0,1,0,ALGUNOS DIAS POR SEMANA,NUNCA,NUNCA,NUNCA,NUNCA,INFORMATIVOS / NOTICIEROS,,,,,,,,1,SI,,,,TODOS O CASI TODOS LOS DIAS,4.0,0.0,...,,,SI,NO,NO,NO,SI,SI,PROPIA,NO,NO,NO,NO,NO,BARRIO DE VIVIENDA SOCIAL,BARRIO DE VIVIENDA SOCIAL,CASA,58.0,C3,60.0,60.0,1.0,240.0,240.0,4.0,60.0,60.0,1.0,240.0,240.0,4.0,1440.0,1440.0,24.0,240.0,240.0,4.0,0.0,0.0,0.0
1953,1953,4703,21/5/2017,CABA,Mujer,37,"HABITOS, COSTUMBRES, COMPORTAMIENTOS",,NO,PORQUE NO TIENE EQUIPOS DE RADIO,,NO,,,,,,0,0,,,,,,,,,,,,,,0,SI,,,,ALGUNOS DIAS POR SEMANA,1.0,0.0,...,,,SI,SI,NO,NO,SI,SI,PROPIA,NO,NO,NO,NO,NO,BARRIO CON VIVIENDAS DISTINTAS,BARRIO CON VIVIENDAS DISTINTAS,DEPARTAMENTO,76.0,C2,0.0,0.0,0.0,60.0,60.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,180.0,180.0,3.0,60.0,60.0,1.0,0.0,0.0,0.0
418,419,1515,6/5/2017,NOA,Mujer,52,"LA TRADICION, LA HISTORIA",,SI,,,,NO,TODOS O CASI TODOS LOS DIAS,AMBAS POR IGUAL,1.0,0.0,1,0,TODOS O CASI TODOS LOS DIAS,ALGUNA VEZ CADA 3 MESES,ALGUNAS VECES AL MES,ALGUNAS VECES AL MES,NUNCA,INFORMATIVOS / NOTICIEROS,CULTURALES,,,,,,,1,SI,,,,TODOS O CASI TODOS LOS DIAS,3.0,0.0,...,PROFESORA DE MANUALIDAD,TRABAJADOR/OBRERO CALIFICADO. EMPLEADO ADMINIS...,SI,NO,NO,NO,SI,SI,PROPIA,NO,NO,NO,NO,NO,BARRIO CON VIVIENDAS DISTINTAS,BARRIO CON VIVIENDAS DISTINTAS,CASA,66.0,C3,60.0,60.0,1.0,180.0,180.0,3.0,120.0,150.0,2.5,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
84,85,4341,19/5/2017,NEA,Varón,71,"LA TRADICION, LA HISTORIA",,SI,,,,SI,TODOS O CASI TODOS LOS DIAS,FM,4.0,0.0,4,0,TODOS O CASI TODOS LOS DIAS,NUNCA,TODOS O CASI TODOS LOS DIAS,TODOS O CASI TODOS LOS DIAS,NUNCA,MUSICALES,,,,,,,,6,SI,,,,TODOS O CASI TODOS LOS DIAS,4.0,0.0,...,,,SI,SI,NO,SI,SI,SI,PROPIA,NO,NO,NO,NO,NO,BARRIO CENTRICO CON PREDOMINIO DE CASAS,OTRO,CASA,93.0,AB,240.0,240.0,4.0,240.0,240.0,4.0,0.0,0.0,0.0,120.0,120.0,2.0,60.0,75.0,1.25,60.0,60.0,1.0,0.0,0.0,0.0
508,509,7995,20/5/2017,NOA,Mujer,51,"HABITOS, COSTUMBRES, COMPORTAMIENTOS",,SI,,,,SI,TODOS O CASI TODOS LOS DIAS,FM,4.0,0.0,4,0,TODOS O CASI TODOS LOS DIAS,NUNCA,NUNCA,ALGUNOS DIAS POR SEMANA,NUNCA,MUSICALES,,,,,,,,1,SI,,,,ALGUNOS DIAS POR SEMANA,2.0,0.0,...,,,NO,SI,NO,NO,NO,SI,PROPIA,NO,NO,NO,NO,NO,VILLA DE EMERGENCIA,VILLA DE EMERGENCIA,CASA,48.0,D1,240.0,240.0,4.0,120.0,120.0,2.0,60.0,60.0,1.0,300.0,300.0,5.0,60.0,60.0,1.0,60.0,60.0,1.0,0.0,0.0,0.0


# Según el [Informe del Ministerio de Cultura](https://back.sinca.gob.ar/download.aspx?id=2457), la asistencia al teatro cayó alrededor de un 40% entre 2013 y 2017. Sin embargo, ¿será esto un problema propio del Teatro o un síntoma más de la caída generalizada del consumo? 



Primero consultamos los casos de la pregunta 68 ('¿CONCURRIÓ A ESPECTÁCULOS TEATRALES DURANTE EL ÚLTIMO AÑO?') y asignamos cada grupo a una variable:

In [11]:
conc_teatro = df[df['p68']=='SI']
no_conc_teatro = df[df['p68']=='NO']
print(df['p68'].value_counts())

NO    2458
SI     342
Name: p68, dtype: int64


¿Cuál es el porcentaje de personas que concurrieron al teatro en relación al total?

In [12]:
print(f'El {round(len(conc_teatro)/len(df)*100)}% de las personas concurrió al teatro\
 el último año.') 

El 12% de las personas concurrió al teatro el último año.


In [13]:
fig = px.pie(df,values='id',names='p68',\
             title='¿Asistió al teatro durante el último año?',
             width=370,height=300)
fig.show()

Luego comparamos el promedio de edad de quienes concurrieron al teatro y el de quienes no lo hicieron. Sin embargo, no observamos una diferencia significativa:

In [14]:
print('\033[92m','Concurrieron promedio edad:',round(conc_teatro['edad'].astype(int).mean()))
print('\033[91m','No concurrieron promedio edad:',round(no_conc_teatro['edad'].astype(int).mean()))

[92m Concurrieron promedio edad: 41
[91m No concurrieron promedio edad: 39


¿Cómo se distribuyen por región quienes sí concurrieron al teatro?

In [15]:
print('Concurrieron por regiones:\n','\033[92m',conc_teatro['region'].value_counts())

Concurrieron por regiones:
 [92m CABA         73
PATAGONIA    58
CENTRO       57
NEA          41
CUYO         40
PBA          38
NOA          35
Name: region, dtype: int64


¿Qué porcentaje representa cada región?

In [16]:
conteo_regiones = conc_teatro.groupby('region').count()['id']
porcentaje_regiones_si = conteo_regiones/(conteo_regiones.sum())*100

fig = dict({
    "data": [{"type": "bar",
              "x": porcentaje_regiones_si.index.tolist(),
              "y": porcentaje_regiones_si}],
    "layout": {"title": {"text": "Porcentaje de asistentes al teatro por región"},
               "template":"ggplot2",
               'xaxis':{'title':'Regiones','color':'green'},
               'yaxis':{'title':'Porcentaje','color':'green'}}
})

pio.show(fig)

# Vemos que las regiones que presentan una mayor concurrencia al teatro son CABA (21,35%), Patagonia (16,96%) y Centro (16,67%)

Ahora, ¿Cómo se distribuyen por región quienes no concurrieron al teatro?

In [17]:
print('No concurrieron por regiones:\n','\033[91m',no_conc_teatro['region'].value_counts())

No concurrieron por regiones:
 [91m NOA          365
PBA          362
CUYO         360
NEA          359
CENTRO       343
PATAGONIA    342
CABA         327
Name: region, dtype: int64


¿Qué porcentaje representa cada región?

In [18]:
conteo_regiones_no = no_conc_teatro.groupby('region').count()['id']
porcentaje_regiones_no = conteo_regiones_no/(conteo_regiones_no.sum())*100

fig = dict({
    "data": [{"type": "bar",
              "x": porcentaje_regiones_no.index.tolist(),
              "y": porcentaje_regiones_no}],
    "layout": {"title": {"text": "Porcentaje de no asistentes al teatro por región"},
               "template":"ggplot2",
               'xaxis':{'title':'Regiones','color':'red'},
               'yaxis':{'title':'Porcentaje','color':'red'}}
})

pio.show(fig)

# El porcentaje de no concurrencia parece estar más o menos equilibrado en todas las regiones.

Ahora veamos si hay alguna relación entre la concurrencia y el sexo:

In [19]:
fig = px.pie(conc_teatro,values='id',names='sexo',\
             title='Porcentaje de asistentes al teatro por sexo',
             width=390,height=300)
fig.show()

# Parece que es mayor la concurrencia al teatro entre las mujeres.

#Ahora vemos que los no concurrentes parecen estar equilibrados por sexo.

In [20]:
 fig = px.pie(no_conc_teatro,values='id',names='sexo',\
             title='Porcentaje de no asistentes al teatro por sexo')
fig.show()

Si vemos el nivel educativo de quienes concurrieron al teatro, comprobamos que tiende a ser más alto que el de quienes no lo hicieron.

In [21]:
niv_socioeco = conc_teatro['p106'].value_counts()
fig = dict({
    "data": [{"type": "bar",
              "x": niv_socioeco.index.tolist(),
              "y": [i/len(conc_teatro['p106'])*100 for i in niv_socioeco]}],
    "layout": {"title": {"text": "Nivel educativo de los asistentes al teatro"},
               'xaxis':{'title':'Nivel educativo','color':'green'},
               'yaxis':{'title':'Porcentaje','color':'green'}}
})

pio.show(fig)

In [22]:
niv_socioeco['porc'] = [i/len(conc_teatro['p106'])*100 for i in niv_socioeco]

In [23]:
niv_socioeco_no = no_conc_teatro['p106'].value_counts()
fig = dict({
    "data": [{"type": "bar",
              "x": niv_socioeco_no.index.tolist(),
              "y": [i/len(no_conc_teatro['p106'])*100 for i in niv_socioeco_no]}],
    "layout": {"title": {"text": "Nivel socioeconómico de los no asistentes al teatro"},
               'xaxis':{'title':'Nivel socioeconómico','color':'red'},
               'yaxis':{'title':'Porcentaje','color':'red'}}
})

pio.show(fig)

# Hasta ahora vemos que quienes concurrían al teatro en 2017 constituían una minoría concentrada sobre todo en la capital y el centro del país. La mayoría tenía un nivel educativo igual o mayor a la secundaria completa, y más de la mitad eran mujeres. Podríamos querer concluir con estos datos que el teatro es una actividad de elite. Sin embargo, ¿qué pasa con los demás espectáculos que implican una salida del hogar, tales como el cine y los recitales de música?

¿Qué pasa con la pregunta 63 ("¿CONCURRIÓ AL CINE DURANTE EL ÚLTIMO AÑO?")?

In [24]:
print(df['p63'].value_counts())
conc_cine = df[df['p63']=='SI']
no_conc_cine = df[df['p63']=='NO']
print(f'\033[92m El {round(len(conc_cine)/len(df)*100)}% concurrió al cine\
\033[91m mientras que el {round(len(no_conc_cine)/len(df)*100)}% no lo hizo.')

NO    1692
SI    1108
Name: p63, dtype: int64
[92m El 40% concurrió al cine[91m mientras que el 60% no lo hizo.


Si bien la concurrencia al cine es más frecuente que la concurrencia al teatro, tampoco representa a la mayoría de los encuestados. Veamos el caso de la pregunta 23: "¿CONCURRIÓ A RECITALES O PRESENTACIONES DE MÚSICA EN VIVO DURANTE EL ÚLTIMO AÑO?"

In [25]:
print(df['p23'].value_counts())
conc_reci = df[df['p23']=='SI']
no_conc_reci = df[df['p23']=='NO']
print(f'\033[92m El {round(len(conc_reci)/len(df)*100)}% concurrió a recitales\
\033[91m mientras que el {round(len(no_conc_reci)/len(df)*100)}% no lo hizo.')

NO    2082
SI     718
Name: p23, dtype: int64
[92m El 26% concurrió a recitales[91m mientras que el 74% no lo hizo.


El porcentaje de concurrencia es mayor al del teatro pero sigue siendo bajo y además, según el Informe, ésta y la del cine también disminuyeron entre 2013 y 2017.
 A continuación observamos que el apartado "Teatro" del cuestionario no contiene preguntas acerca del motivo de la no concurrencia. En cambio, para las salas de cine y los recitales de música sí se obtuvieron estos datos (Preguntas '63_1' y '23_1'):

In [26]:
df['p63_1'].value_counts()
fig = dict({
    "data": [{"type": "bar",
              "x": df['p63_1'].value_counts().index.tolist(),
              "y": df['p63_1'].value_counts()}],
    "layout": {"title": {"text": "¿Cuál es el motivo principal por el que no\
 acostumbra ir al cine?"},
               'template': 'ggplot2',
               'xaxis':{'title':'Motivo','color':'black'},
               'yaxis':{'title':'Casos','color':'red'}}
})
pio.show(fig)

In [27]:
df['p23_1'].value_counts()
fig = dict({
    "data": [{"type": "bar",
              "x": df['p23_1'].value_counts().index.tolist(),
              "y": df['p23_1'].value_counts()}],
    "layout": {"title": {"text": "¿Cuál es el motivo principal por el que no\
 concurre a recitales?"},
               'template': 'simple_white',
               'xaxis':{'title':'Motivo','color':'red'},
               'yaxis':{'title':'Casos','color':'red'}}
})
pio.show(fig)

# Parece que la falta de interés, gusto y/o tiempo son los motivos más frecuentes por los cuales la mayoría no consume estas actividades culturales que implican una salida del hogar.

Ahora, quienes sí concurren al cine y a recitales de música, ¿irán al teatro también?

In [54]:
cine_y_musica = df.query('p63 == "SI" & p23 == "SI"')
asist_cinmustea = cine_y_musica.query('p68 == "SI"')
print(f'\033[92mHay {len(cine_y_musica)} casos que van al cine y a recitales.\n De ellos,\
 {len(asist_cinmustea)} van también al teatro.\n Esto supone un {round(len(cin_mus_tea)/\
  len(cine_y_musica)*100)}%.')

[92mHay 429 casos que van al cine y a recitales.
 De ellos, 113 van también al teatro.
 Esto supone un 26%.


In [30]:
#Creamos una nueva serie uniendo las de asistencia al cine y a recitales de música.
df['cine_y_musica'] = df['p63'] + df['p23']

In [36]:
#Modificamos los nombres de los casos con expresiones regulares
import re
patron = re.compile('.{4}')
df['cine_y_musica'] = df['cine_y_musica'].str.replace('SISI', 'SI').replace(patron,'NO')

In [32]:
 fig = px.pie(df, values='id', names=df['cine_y_musica'],\
             title='Asistentes a cines y recitales de música',
              width=450,height=400)
fig.show()

In [58]:
#Hacemos un Datframe con quienes concurren al cine y a recitales de música
df_cine_mus = pd.DataFrame(cine_y_musica)

In [59]:
df_cine_mus.shape

(429, 452)

In [68]:
fig = px.pie(df_cine_mus, values='id', names='p68',\
             title='Concurrentes al teatro entre asistentes a cines y recitales de música',
              width=620,height=400)
fig.show()

# Vemos que entre quienes concurren al cine y a recitales, el porcentaje de asistentes al teatro es casi un 50% mayor que el de la encuesta general. Podríamos concluir entonces que, si bien el Teatro parece ser un consumo cultural de nicho, su caída entre 2013 y 2017 **no es únicamente consecuencia de sus lógicas internas,** sino un síntoma más de la disminución del consumo general y los cambios en las dinámicas culturales, que parecen moverse cada vez más vertiginosamente hacia el soporte digital. 