In [75]:
import datetime, warnings, pickle, gc, os, math, pprint, hashlib, functools, joblib

import numpy  as np
import pandas as pd

%matplotlib inline
import matplotlib.pyplot as plt
import seaborn           as sns

from IPython.display import display, display_html, Markdown

In [62]:
def display_side_by_side(*args):
    """
    https://stackoverflow.com/questions/38783027/jupyter-notebook-display-two-pandas-tables-side-by-side
    """
    html_str='<div style="text-align:center;">'
    for df in args:
        html_str+=df.to_html()
    html_str+="</div>"
    display_html(html_str.replace('table','table style="display:inline; margin-right:23px;"'),raw=True)

# "Quem Lê Quadrinhos?"

O objetivo dessa apresentação é explorar os resultados da ["Pesquisa de Leitores de Quadrinhos"](https://www.raphapinheiro.com/recursos), organizada anualmente pelo quadrinista [Rapha Pinheiro](https://www.youtube.com/channel/UCyRJv_q5RTWF6MT49YG_PhA).

<br/>

<div style="border: 1px solid black"><img src="img/img0.png" /></div>

# Tratamento de Dados

## Unificando Colunas

A primeira coisa que fiz foi tentar compular os resultados de 2018-2020 em uma tabela só. 

A pesquisa evoluiu no tempo, perdendo algumas questões e ganhando outras. Algumas perguntas ficaram mais abrangentes, por exemplo:

In [68]:
q1 = "você costuma comprar os quadrinhos indicados pelos youtubers?"
q2 = "você costuma comprar quadrinhos indicados por youtubers/podcasters ou figuras da mídia especializada?"
display_side_by_side(d2018[[q1]].sample(3), d2019[[q2]].sample(3))

Unnamed: 0,você costuma comprar os quadrinhos indicados pelos youtubers?
237,Sim
1310,Sim
704,Sim

Unnamed: 0,você costuma comprar quadrinhos indicados por youtubers/podcasters ou figuras da mídia especializada?
973,Não
2730,Sim
2728,Sim


Outras são foram feitas de formas ligeiramente diferentes em cada ediçãoSeries(my_dict,index=my_dict.keys()) da pesquisa:

In [69]:
display_side_by_side(d2018[["qual seu estado de origem?"]].sample(3), 
                     d2019[["qual o seu estado de origem?"]].sample(3))

Unnamed: 0,qual seu estado de origem?
443,Minas Gerais (MG)
934,Rio de Janeiro (RJ)
1206,Rio de Janeiro (RJ)

Unnamed: 0,qual o seu estado de origem?
3300,Pará (PA)
2333,Santa Catarina (SC)
2515,São Paulo (SP)


Pra lidar com isso escolhi **renomear todas as colunas** de modo que perguntas parecidas sejam identificadas por um mesmo rótulo.
A princípio essa é uma boa abordagem, mas tem alguns problemas incontornáveis, como quando uma pergunta fica mais abrangente.

Do ponto de vista de _disclaimer_, é isso.

Ao longo da apresentação tento deixar clara a relação entre os nomes antigos e os novos, mas em todo caso, para mais detalhes sobre isso por favor consulte o notebook ["0_tratamento.ipynb"](https://github.com/thiagodsd/science-avec-des/blob/master/_gibi/0_tratamento.ipynb).

In [70]:
d2018_meta = joblib.load("d2018_meta.jl")
d2019_meta = joblib.load("d2019_meta.jl")
d2020_meta = joblib.load("d2020_meta.jl")

In [21]:
d2018 = pd.read_csv("raphapinheiro_quem-le-quadrinhos-em-2018.csv", delimiter=",", encoding="utf-8")
d2019 = pd.read_csv("raphapinheiro_quem-le-quadrinhos-em-2019.csv", delimiter=",", encoding="utf-8")
d2020 = pd.read_csv("raphapinheiro_quem-le-quadrinhos-em-2020.csv", delimiter=",", encoding="utf-8")

for d in [d2018, d2019, d2020]:
    d.columns = map(str.lower, d.columns)

In [12]:
d2018_meta = joblib.load("d2018_meta.jl")
d2019_meta = joblib.load("d2019_meta.jl")
d2020_meta = joblib.load("d2020_meta.jl")

In [16]:
d2018.columns = map(str.lower, d2018.columns)
d2018         = d2018.rename(columns=d2018_meta)
d2019.columns = map(str.lower, d2019.columns)
d2019         = d2019.rename(columns=d2019_meta)
d2020.columns = map(str.lower, d2020.columns)
d2020         = d2020.rename(columns=d2020_meta)