# Sobre o projeto

Este projeto oferece a oportunidade de compreender melhor a distribuição de recursos culturais por meio da Lei Rouanet e extrair insights significativos sobre a diversidade e impacto dos projetos financiados. 

**Objetivo do projeto**

Realizar uma análise exploratória de dados (EDA) no conjunto de dados da Lei Rouanet, buscando compreender padrões, tendências e insights relacionados aos projetos culturais financiados por meio dessa lei de incentivo à cultura no Brasil.

## Passos do projeto

**1. Coleta e Carregamento dos Dados**

- Obter o dataset da Lei Rouanet, disponibilizado pelo Ministério da Cultura ou por fontes confiáveis relacionadas.
- Carregar os dados em um DataFrame do pandas.

**2. Exploração Inicial**

- Fazer uma exploração inicial para entender a estrutura do dataset, tipos de variáveis e dados disponíveis.

**3. Limpar e preparar os dados**

- Tratar valores ausentes, inconsistências ou duplicatas.
- Converter datas para o formato adequado.
- Analisar e ajustar categorias relevantes.

**4. Analisar a distribuição de recursos**

- Explorar a distribuição de recursos financeiros ao longo do tempo.
- Identificar os projetos que receberam a maior e menor quantidade de financiamento.

**5. Segmentação por áreas culturais**

- Classificar os projetos por categorias culturais (música, artes cênicas, audiovisual, etc.).
- Analisar a distribuição de recursos por essas diferentes áreas.

**6. Participação geográfica**

- Visualizar a participação geográfica dos projetos. Qual região do Brasil recebeu mais incentivos culturais?

**7. Evolução ao longo dos anos**

- Criar gráficos de linha ou de área para mostrar a evolução do número de projetos financiados e do montante investido ao longo dos anos.

**8. Análise de contrapartidas**

- Explorar as contrapartidas oferecidas pelos proponentes dos projetos. Quais tipos de contrapartidas são mais comuns?

**9. Influência de grandes projetos**

- Identificar e analisar grandes projetos que receberam um montante significativo de financiamento. Como esses projetos influenciam a distribuição geral?

**10. Análise de sucesso**

- Definir critérios para o sucesso de um projeto (por exemplo, avaliação do público, impacto cultural) e explorar quais características estão associadas a projetos bem-sucedidos.

**11. Conclusões e insights**

- Resumir as principais descobertas do projeto.
- Identificar padrões interessantes, tendências ao longo do tempo e qualquer insight que possa ser valioso para as partes interessadas e tomadores de decisão.

## Ferramentas utilizadas

- Python (pandas, numpy, matplotlib)
- Jupyter Notebook para documentação e visualização interativa.

In [1]:
from os import path
import numpy as np
import pandas as pd

In [2]:
fornecedores = pd.read_excel(path.abspath("datasets/fornecedores.xlsx"))
incentivadores = pd.read_excel(path.abspath("datasets/incentivadores.xlsx"))
projetos = pd.read_excel(path.abspath("datasets/projetos.xlsx"))
proponentes = pd.read_excel(path.abspath("datasets/proponentes.xlsx"))
propostas = pd.read_excel(path.abspath("datasets/propostas.xlsx"))

In [6]:
projetos.columns

Index(['etapa', 'providencia', 'area', 'enquadramento', 'objetivos',
       'ficha_tecnica', 'situacao', 'outras_fontes', 'acessibilidade',
       'sinopse', 'nome', 'cgccpf', 'mecanismo', '_links', 'segmento',
       'PRONAC', 'estrategia_execucao', 'valor_aprovado', 'justificativa',
       'resumo', 'valor_solicitado', 'especificacao_tecnica', 'municipio',
       'data_termino', 'UF', 'impacto_ambiental', 'democratizacao',
       'valor_projeto', 'proponente', 'ano_projeto', 'data_inicio',
       'valor_captado', 'valor_proposta'],
      dtype='object')

In [184]:
pd.set_option('display.max_rows', None)

def regiao_do_uf(uf):
    regioes = {
        "centro-oeste": ["GO", "MS", "MT"],
        "nordeste": ["AL", "BA", "CE", "MA", "PB", "PE", "PI", "RN", "SE"],
        "norte": ["AC", "AM", "AP", "PA", "RO", "RR", "TO"],
        "sudeste": ["ES", "MG", "RJ", "SP"],
        "sul": ["PR", "RS", "SC"]
    }
    for regiao, estados in regioes.items():
        if uf in estados:
            return regiao

regioes = pd.Series(projetos["UF"].apply(regiao_do_uf), name="regioes")

if "regioes" not in projetos.columns:
    projetos = pd.concat([projetos, regioes], axis=1)

projetos_por_regiao = (projetos["regioes"].value_counts(normalize=True) * 100).rename("frequencia_relativa")
display(projetos_por_regiao)

regioes
sudeste         62.261816
sul             19.618906
nordeste        12.536993
centro-oeste     2.918780
norte            2.663505
Name: frequencia_relativa, dtype: float64

In [190]:
areas_por_regioes = projetos.groupby("regioes")["area"].value_counts(normalize=True, sort=False) * 100
medias_areas_por_regioes = np.average(np.array(areas_por_regioes).reshape(5, -1), axis=0) # 5 regiões do Brasil
areas_por_projetos = pd.Series(medias_areas_por_regioes, index=areas_por_regioes['sudeste'].index, name="frequencia_relativa").sort_values(ascending=False)
display(areas_por_projetos)

area
Artes Integradas       39.051482
Música                 20.443595
Artes Cênicas          18.431945
Humanidades             8.329808
Audiovisual             5.939898
Artes Visuais           4.873784
Patrimônio Cultural     2.473629
Museus e Memória        0.455860
Name: frequencia_relativa, dtype: float64