# Treino: exploração de dados

Agora que vimos as partes básicas da API do Altair, vamos praticar usando os quatro conjuntos de dados a seguir.

Ao explorar os dados, lembre-se dos blocos de construção que discutimos:

- várias marcas: ``mark_point()``, ``mark_line()``, ``mark_tick()``, ``mark_bar()``, ``mark_area()``, ``mark_rect()``, etc.
- várias codificações: ``x``, ``y``, ``color``, ``shape``, ``size``, ``row``, ``column``, ``text``, ``tooltip``, etc.
- agregações: uma [Lista de agregações disponíveis](https://altair-viz.github.io/user_guide/encoding.html#binning-and-aggregation) pode ser encontrada na documentação do Altair
- empilhamento e sobreposição (``alt.layer`` <-> ``+``, ``alt.hconcat`` <-> ``|``, ``alt.vconcat`` <-> ``&``)

Comece simples e construa a partir daí. Quais codificações funcionam melhor com dados quantitativos? Com dados categóricos?
O que você pode aprender sobre seu conjunto de dados usando essas ferramentas?


In [None]:
from vega_datasets import data

## Gapminder

Este conjunto de dados consiste em população, fertilidade e expectativa de vida ao longo do tempo em vários países ao redor do mundo.

Observe que, embora você possa ser tentado a usar uma codificação temporal para o ano, aqui o ano é simplesmente um número, não uma data, e, portanto, a codificação temporal não é a melhor escolha.

In [None]:
gapminder = data.gapminder()
gapminder.head()

Unnamed: 0,year,country,cluster,pop,life_expect,fertility
0,1955,Afghanistan,0,8891209,30.332,7.7
1,1960,Afghanistan,0,9829450,31.997,7.7
2,1965,Afghanistan,0,10997885,34.02,7.7
3,1970,Afghanistan,0,12430623,36.088,7.7
4,1975,Afghanistan,0,14132019,38.438,7.7


## Filmes

O conjunto de dados de filmes contém informações sobre 3200 filmes, incluindo data de lançamento, orçamento e classificações no IMDB e Rotten Tomatoes.

In [None]:
movies = data.movies()
movies.head()

Unnamed: 0,Title,US_Gross,Worldwide_Gross,US_DVD_Sales,Production_Budget,Release_Date,MPAA_Rating,Running_Time_min,Distributor,Source,Major_Genre,Creative_Type,Director,Rotten_Tomatoes_Rating,IMDB_Rating,IMDB_Votes
0,The Land Girls,146083.0,146083.0,,8000000.0,Jun 12 1998,R,,Gramercy,,,,,,6.1,1071.0
1,"First Love, Last Rites",10876.0,10876.0,,300000.0,Aug 07 1998,R,,Strand,,Drama,,,,6.9,207.0
2,I Married a Strange Person,203134.0,203134.0,,250000.0,Aug 28 1998,,,Lionsgate,,Comedy,,,,6.8,865.0
3,Let's Talk About Sex,373615.0,373615.0,,300000.0,Sep 11 1998,,,Fine Line,,Comedy,,,13.0,,
4,Slam,1009819.0,1087521.0,,1000000.0,Oct 09 1998,R,,Trimark,Original Screenplay,Drama,Contemporary Fiction,,62.0,3.4,165.0


# Feminicídio em Minas Gerais

Dados disponíveis em: https://dados.gov.br/dados/conjuntos-dados/violencia-contra-mulher

In [None]:
import pandas as pd
fem = pd.read_csv("https://www.facom.ufu.br/~albertini/vis/feminicidio_mg_2023.csv", sep = ';')
fem.head()

Unnamed: 0,municipio_cod,municipio_fato,data_fato,mes,ano,risp,rmbh,tentado_consumado,qtde_vitimas
0,310160,ALFENAS,2023-02-02,2,2023,18º Departamento - Poços de Caldas,3) Interior de MG,TENTADO,1
1,310240,ALVORADA DE MINAS,2023-03-08,3,2023,14º Departamento - Curvelo,3) Interior de MG,TENTADO,1
2,310350,ARAGUARI,2023-04-06,4,2023,9º Departamento - Uberlândia,3) Interior de MG,TENTADO,1
3,310350,ARAGUARI,2023-06-22,6,2023,9º Departamento - Uberlândia,3) Interior de MG,TENTADO,1
4,310350,ARAGUARI,2023-07-06,7,2023,9º Departamento - Uberlândia,3) Interior de MG,TENTADO,1


# Violência contra a mulher em Minas Gerais

In [None]:
violencia = pd.read_csv("https://www.facom.ufu.br/~albertini/vis/violencia_domestica_mg_2023.csv", sep = ';')
violencia

Unnamed: 0,municipio_cod,municipio_fato,data_fato,mes,ano,risp,rmbh,natureza_delito,tentado_consumado,qtde_vitimas
0,310010,ABADIA DOS DOURADOS,2023-01-08 00:00:00,1,2023,10º Departamento - Patos de Minas,3) Interior de MG,AMEACA,CONSUMADO,1
1,310010,ABADIA DOS DOURADOS,2023-01-13 00:00:00,1,2023,10º Departamento - Patos de Minas,3) Interior de MG,DESCUMPRIMENTO DE MEDIDA PROTETIVA DE URGENCIA,CONSUMADO,1
2,310010,ABADIA DOS DOURADOS,2023-01-26 00:00:00,1,2023,10º Departamento - Patos de Minas,3) Interior de MG,PERSEGUICAO,CONSUMADO,1
3,310010,ABADIA DOS DOURADOS,2023-01-27 00:00:00,1,2023,10º Departamento - Patos de Minas,3) Interior de MG,LESAO CORPORAL,CONSUMADO,1
4,310010,ABADIA DOS DOURADOS,2023-02-07 00:00:00,2,2023,10º Departamento - Patos de Minas,3) Interior de MG,ACOES PREVENTIVAS,CONSUMADO,1
...,...,...,...,...,...,...,...,...,...,...
61531,317210,VOLTA GRANDE,45125,7,2023,4º Departamento - Juiz de Fora,3) Interior de MG,OUTROS INFRACOES C/ A PESSOA,CONSUMADO,1
61532,317220,WENCESLAU BRAZ,44936,1,2023,17º Departamento - Pouso Alegre,3) Interior de MG,VIAS DE FATO / AGRESSAO,CONSUMADO,1
61533,317220,WENCESLAU BRAZ,44940,1,2023,17º Departamento - Pouso Alegre,3) Interior de MG,CALUNIA,CONSUMADO,1
61534,317220,WENCESLAU BRAZ,45025,4,2023,17º Departamento - Pouso Alegre,3) Interior de MG,DESCUMPRIMENTO DE MEDIDA PROTETIVA DE URGENCIA,CONSUMADO,1


# Série Histórica de Preços de Combustíveis e de GLP

https://dados.gov.br/dados/conjuntos-dados/serie-historica-de-precos-de-combustiveis-e-de-glp

In [None]:
precos = pd.read_csv("http://www.facom.ufu.br/~albertini/vis/precos_combustiveis_2023_02.zip", sep =';')
precos

Unnamed: 0,Regiao - Sigla,Estado - Sigla,Municipio,Revenda,CNPJ da Revenda,Nome da Rua,Numero Rua,Complemento,Bairro,Cep,Produto,Data da Coleta,Valor de Venda,Valor de Compra,Unidade de Medida,Bandeira
0,SE,SP,SOROCABA,COMPETRO COMERCIO E DISTRIBUICAO DE DERIVADOS ...,00.003.188/0001-21,RUA HUMBERTO DE CAMPOS,306,,JARDIM ZULMIRA,18061-000,GASOLINA,03/07/2023,487,,R$ / litro,BRANCA
1,SE,SP,SOROCABA,COMPETRO COMERCIO E DISTRIBUICAO DE DERIVADOS ...,00.003.188/0001-21,RUA HUMBERTO DE CAMPOS,306,,JARDIM ZULMIRA,18061-000,DIESEL S10,03/07/2023,488,,R$ / litro,BRANCA
2,SE,SP,SOROCABA,COMPETRO COMERCIO E DISTRIBUICAO DE DERIVADOS ...,00.003.188/0001-21,RUA HUMBERTO DE CAMPOS,306,,JARDIM ZULMIRA,18061-000,ETANOL,03/07/2023,327,,R$ / litro,BRANCA
3,N,AC,CRUZEIRO DO SUL,CARDINAL E OLIVEIRA LTDA,03.608.766/0006-56,AVENIDA 25 DE AGOSTO,1350,,25 DE AGOSTO,69980-000,GASOLINA,03/07/2023,695,,R$ / litro,VIBRA ENERGIA
4,N,AC,CRUZEIRO DO SUL,CARDINAL E OLIVEIRA LTDA,03.608.766/0006-56,AVENIDA 25 DE AGOSTO,1350,,25 DE AGOSTO,69980-000,DIESEL S10,03/07/2023,685,,R$ / litro,VIBRA ENERGIA
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
472419,N,AP,SANTANA,POSTO DE COMBUSTIVEIS JARDINS LTDA,10.522.077/0012-38,RODOVIA COMANDANTE PEDRO SALVADOR DINIZ,3005,ANEXO A,VILA AMAZONAS,68926-214,DIESEL,28/12/2023,644,,R$ / litro,IPIRANGA
472420,N,AP,SANTANA,POSTO DE COMBUSTIVEIS JARDINS LTDA,10.522.077/0012-38,RODOVIA COMANDANTE PEDRO SALVADOR DINIZ,3005,ANEXO A,VILA AMAZONAS,68926-214,DIESEL S10,28/12/2023,649,,R$ / litro,IPIRANGA
472421,NE,PI,PARNAIBA,MAXXI DELTA PETROLEO LTDA,47.221.821/0001-11,AVENIDA DEPUTADO PINHEIRO MACHADO,3570,LETRA A,PIAUÍ,64208-335,GASOLINA,27/12/2023,52,,R$ / litro,BRANCA
472422,NE,PI,PARNAIBA,MAXXI DELTA PETROLEO LTDA,47.221.821/0001-11,AVENIDA DEPUTADO PINHEIRO MACHADO,3570,LETRA A,PIAUÍ,64208-335,GASOLINA ADITIVADA,27/12/2023,52,,R$ / litro,BRANCA


# Imposto de renda: Rendimentos Sujeitos à Tributação Exclusiva Definitiva
Total de valores sujeitos a tributação exclusiva ou definitiva declarados pelo contribuinte por faixa de rendimento em salários mínimos.

https://dados.gov.br/dados/conjuntos-dados/grandes-nmeros-do-imposto-de-renda-da-pessoa-fsica

In [None]:
rendimentos = pd.read_csv("http://www.facom.ufu.br/~albertini/vis/Rendimentos_Sujeitos_a_Tributacao_Exclusiva_Definitiva.zip",sep =';')
rendimentos

Unnamed: 0,Ano Calendário,Faixa de Salários-Mínimos,13º salário,Ganho Cap. na alienação de bens ou direitos,Ganho Cap. alien. bens/dir. e aplic. adquir. moeda estrang.,Ganhos Cap. alienação de moeda estrangeira em espécie,Rend. de Aplicações Financeiras,Ganhos líquidos em renda variável,Rendimentos recebidos acumuladamente,13º salário recebido pelos dependentes,Rendimentos recebidos acumuladamente pelos dependentes,Juros sobre capital próprio,Participação nos lucros ou resultados,Outros
0,2020,Até 1/2,4739100487,1988769506,03644623,004482014,1826169965,7752293603,1277375048,7662039828,096060575,9939703891,1404398837,1189661099
1,2020,De 1/2 a 1,2393676884,7321100241,094885542,011860999,2212459138,1298699601,4329179713,3279320537,246822946,1004184,3294466405,1606699506
2,2020,De 1 a 2,1698644618,3094975957,339601677,044424512,3952879457,3140638774,1012785038,2862194041,555344706,1899977184,7519700016,182138638
3,2020,De 2 a 3,5757257639,4721772933,572968453,039741982,3239811178,3228503927,1020243458,1201197706,493945162,1538349352,4576271169,1153480376
4,2020,De 3 a 5,3979591077,113095365,1653583701,148968059,4762396396,5858774123,2002808388,979395049,816643508,2336255801,4010660341,1401660553
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
89,2011,Todas,5494149831,454808008,4422850051,0,5104878456,4728117691,752689288,1388324828,0,0,0,1868595226
90,2010,Todas,4829397577,2395226806,4526514422,0,381597023,6659262628,4777935709,1320009084,0,0,0,1459546367
91,2009,Todas,4384568955,1472202826,2325143072,270233571,3385678227,6329424807,0,1303805008,0,0,0,1198340438
92,2008,Todas,383653242,249198128,4402084225,1218938839,3482627787,4375884511,0,1158490899,0,0,0,1080943115
