# **Projeto de CCF 425 - Introdução à Ciência de Dados**

## Introdução
  <p>Neste projeto, realizaremos um estudo baseado no conjunto de dados BrStats, disponibilizado pelo Prof. Fabrício e pelo monitor João Marcos, além de quatro outros conjuntos de dados selecionados pelo grupo (casos_2020, casos_2021, casos_2022 e casos_2023). O objetivo é analisar os impactos da pandemia de Covid-19 no Brasil e investigar possíveis relações entre as características socioeconômicas das cidades e o nível de impacto da pandemia.
  <p>O primeiro conjunto de dados, "BrStats: A Socioeconomic Statistics Dataset of the Brazilian Cities", contém informações estatísticas sobre cidades brasileiras, compiladas a partir de fontes como IBGE, IPEA e DATASUS. Entre os indicadores disponíveis, destacam-se o PIB, a população, as receitas municipais, além de dados sobre nascimentos e óbitos infantis, entre outros fatores que ajudam a compreender o desenvolvimento dessas localidades.
  <p>Diante da pandemia global da Covid-19, que impactou todas as regiões do mundo, este estudo busca explorar como diferentes cidades brasileiras foram afetadas. Com base nos dados coletados, investigaremos se há correlação entre as características socioeconômicas das cidades e a severidade dos impactos causados pela pandemia, contribuindo para uma melhor compreensão dos fatores que influenciaram a propagação e os efeitos da doença no Brasil.

## Entendimento Inicial dos Dados
<p>Nessa seção iremos importar os dados, buscando realizar uma primeira análise do Dataset.
<p>Para tal, utilizaremos a biblioteca pandas e numpy

In [None]:
import pandas as pd
import numpy as np

<p>Para a realização do próximo passo, importe o arquivo disponibilizado no Capítulo 4 do artigo "BrStats: a socioeconomic statistics dataset of the Brazilian cities" com o nome "BrStats.csv".
<p>Devido suas características, foi preciso passar como parâmetro a separação utilizando ponto e vírgula, bem como a opção 'low_memory=False', para que o GoogleColab consiga lidar com esse grande volume de dados.

In [None]:
df_br = pd.read_csv('BrStats.csv', sep=";", low_memory=False)
print(df_br.dtypes)
print(f"BrStats: {df_br.shape[0]} linhas, {df_br.shape[1]} colunas")

Ano                              int64
CDMunicipio                      int64
Populacao                       object
PessoalOcupado                  object
PessoalAssalariado              object
VrSalarios                      object
PIB                             object
QtEmpresas                     float64
AreaPlantada_h                 float64
AreaColhida_h                  float64
VlProducaoAgricola             float64
VlProducaoPecuaria             float64
Area                            object
Importacoes_US$                 object
Exportacoes_US$                 object
Receitas_R$                     object
Transferencias_correntes_R$     object
Transferencias_capital_R$       object
NrNascimentos                  float64
NrObitosInfantis               float64
povoamento                      object
UF                              object
Municipio                       object
Regiao                          object
dtype: object
BrStats: 33420 linhas, 24 colunas


### Extraindo as colunas com vírgula

A partir dessa extração, saberemos quais colunas tratar para melhorar nossa análise dos dados.

In [None]:
colunas_com_virgula = df_br.columns[df_br.apply(lambda col: col.astype(str).str.contains(',', na=False).any())]

print(colunas_com_virgula)

Index(['Area', 'Importacoes_US$', 'Exportacoes_US$', 'Receitas_R$',
       'Transferencias_correntes_R$', 'Transferencias_capital_R$',
       'povoamento'],
      dtype='object')


## Pré-processamento de Dados

### Conversão de Tipos de Dados

Identificamos colunas numéricas armazenadas como texto devido a:
- Uso de vírgulas como separador decimal
- Pontos como separador de milhares
- Valores ausentes representados como espaços em branco

**Solução implementada:**


In [None]:
colunas_numericas_float = ['Area', 'Importacoes_US$', 'Exportacoes_US$', 'Receitas_R$',
                     'Transferencias_correntes_R$', 'Transferencias_capital_R$', 'povoamento']

colunas_numericas_int = ['Populacao', 'PessoalOcupado', 'PessoalAssalariado', 'VrSalarios',
                     'PIB', 'QtEmpresas','AreaPlantada_h', 'AreaColhida_h', 'VlProducaoAgricola', 'NrNascimentos',
                         'VlProducaoPecuaria', 'NrObitosInfantis']



df_br[colunas_numericas_float] = df_br[colunas_numericas_float].apply(lambda x:
    x.astype(str).str.replace('.', '', regex=False).str.replace(',', '.', regex=False)
    .replace('nan', None).astype(float)
)


df_br[colunas_numericas_int] = df_br[colunas_numericas_int].apply(lambda x:
    x.astype(str).str.replace('.', '', regex=False).replace('nan', '0')
    .fillna(0).astype(int)
)


print(df_br.dtypes)
print(f"BrStats: {df_br.shape[0]} linhas, {df_br.shape[1]} colunas")

Ano                              int64
CDMunicipio                      int64
Populacao                        int64
PessoalOcupado                   int64
PessoalAssalariado               int64
VrSalarios                       int64
PIB                              int64
QtEmpresas                       int64
AreaPlantada_h                   int64
AreaColhida_h                    int64
VlProducaoAgricola               int64
VlProducaoPecuaria               int64
Area                           float64
Importacoes_US$                float64
Exportacoes_US$                float64
Receitas_R$                    float64
Transferencias_correntes_R$    float64
Transferencias_capital_R$      float64
NrNascimentos                    int64
NrObitosInfantis                 int64
povoamento                     float64
UF                              object
Municipio                       object
Regiao                          object
dtype: object
BrStats: 33420 linhas, 24 colunas


**Resultado:**

- Colunas numéricas convertidas para float ou int
- Valores ausentes padronizados como 0
- Dados prontos para análise quantitativa

Com os dados tratados desta forma, a análise dos mesmos e a obtenção de informações a partir deles ocorrerá de forma mais precisa.

### Descrição do Conjunto de Dados - BrStats

Ano (int64): Indica o ano de referência dos dados, armazenado como inteiro.

CDMunicipio (int64): Código do município conforme a base de dados oficial, armazenado como intero.

Populacao (int64): Número total de habitantes do município, armazenado como inteiro.

PessoalOcupado (int64): Número total de pessoas empregadas no município, incluindo empregos formais e informais. Armazenado como inteiro.

PessoalAssalariado (int64): Número total de pessoas empregadas formalmente, com vínculo empregatício e recebendo salário. Armazenado como inteiro.

VrSalarios (int64): Valor total da massa salarial paga no município. Armazenado como inteiro.

PIB(int64): Produto Interno Bruto do município, representando a soma de todos os bens e serviços produzidos no período. Armazenado como inteiro.

QtEmpresas (int64): Quantidade total de empresas registradas no município, registrado como inteiro.

AreaPlantada_h (int64): Área total plantada na agricultura, armazenado como inteiro.

AreaColhida_h (int64): Área total colhida na agricultura, armazenado como inteiro.

VlProducaoAgricola (int64): Valor total da produção agrícola do município, armazenado como inteiro.

VlProducaoPecuaria (int64): Valor total da produção pecuária do município, armazenado como inteiro.

Area (float64): Área total do município. Está armazenada como flutuante.

Importacoes_US$ (float64): Valor total das importações do município em dólares americanos. Armazenado como flutuante.

Exportacoes_US$ (float64): Valor total das exportações do município em dólares americanos. Armazenado como flutuante.

Receitas_R$ (float64): Receita total do município em reais. Armazenado como flutuante.

Transferencias_correntes_R$ (float64): Valor recebido pelo município por meio de transferências correntes. Armazenado como flutuante.

Transferencias_capital_R$ (float64): Valor recebido pelo município por meio de transferências de capital. Armazenado como flutuante.

NrNascimentos (int64): Número total de nascimentos registrados no município, registrado como inteiro.

NrObitosInfantis (int64): Número total de óbitos infantis registrados no município, registrado como inteiro.

povoamento (float64): Número de pessoas por km². Armazenado como flutuante.

UF(object): Estado a que pertence o município. Armazenado como texto (sigla do estado).

Municipio (object): Nome do município correspondente aos dados. Armazenado como texto.

Regiao (object): Região geográfica do município . Armazenado como texto.

## Importação dos Dados sobre a COVID-19

<p>Nessa subseção faremos a importação e também compreenção dos dados que obtivemos sobre a pandemia de COVID 19 que afetou o Brasil e o mundo entre 2020 e 2023.
<p>O primeiro caso da doença no Brasil foi registrada no dia 25 de Fevereiro de 2020, na cidade de São Paulo. Desde então, o Ministério da Saúde realizou o monitoramento diário do avanço da pandemia em terras tupiniquins.
<p>Utilizando por base o Ministério da Saúde, o Brasil.IO e o perfil @coronavirusbra1, este levantamento realizado pelo Departamento de Física da Universidade Federal de Viçosa, liderado pelo Professor Wesley Cota, apresenta dados desde a 9ª até a 311ª semana da pandemia no Brasil.
<p>A seguir faremos a importação desses dados, nomeados como 'casos_2020.csv', 'casos_2021.csv', 'casos_2022.csv' e 'casos_2023.csv'.


In [None]:
df_2020 = pd.read_csv('casos_2020.csv', low_memory=False)
print(df_2020.dtypes)
print(f"Casos 2020: {df_2020.shape[0]} linhas, {df_2020.shape[1]} colunas")

epi_week                             int64
date                                object
state                               object
city                                object
ibgeID                               int64
newDeaths                            int64
deaths                               int64
newCases                             int64
totalCases                           int64
deaths_per_100k_inhabitants        float64
totalCases_per_100k_inhabitants    float64
deaths_by_totalCases               float64
dtype: object
Casos 2020: 1314380 linhas, 12 colunas


In [None]:
df_2021 = pd.read_csv('casos_2021.csv', low_memory=False)
print(df_2021.dtypes)
print(f"Casos 2021: {df_2021.shape[0]} linhas, {df_2021.shape[1]} colunas")

epi_week                             int64
date                                object
state                               object
city                                object
ibgeID                               int64
newDeaths                            int64
deaths                               int64
newCases                             int64
totalCases                           int64
deaths_per_100k_inhabitants        float64
totalCases_per_100k_inhabitants    float64
deaths_by_totalCases               float64
dtype: object
Casos 2021: 2042733 linhas, 12 colunas


In [None]:
df_2022 = pd.read_csv('casos_2022.csv', low_memory=False)
print(df_2022.dtypes)
print(f"Casos 2022: {df_2022.shape[0]} linhas, {df_2022.shape[1]} colunas")

epi_week                             int64
date                                object
state                               object
city                                object
ibgeID                               int64
newDeaths                            int64
deaths                               int64
newCases                             int64
totalCases                           int64
deaths_per_100k_inhabitants        float64
totalCases_per_100k_inhabitants    float64
deaths_by_totalCases               float64
dtype: object
Casos 2022: 2042905 linhas, 12 colunas


In [None]:
df_2023 = pd.read_csv('casos_2023.csv', low_memory=False)
print(df_2023.dtypes)
print(f"Casos 2023: {df_2023.shape[0]} linhas, {df_2023.shape[1]} colunas")

epi_week                             int64
date                                object
state                               object
city                                object
ibgeID                               int64
newDeaths                            int64
deaths                               int64
newCases                             int64
totalCases                           int64
deaths_per_100k_inhabitants        float64
totalCases_per_100k_inhabitants    float64
deaths_by_totalCases               float64
dtype: object
Casos 2023: 430969 linhas, 12 colunas


### Descrição dos Dados - casos_2020 a 2023

Como é possível observar pela execução dos trechos de código que antecedem essa subseção, os códigos foram formatados como esperado, não necessitando uma conversão como para o DataSet anterior.

date: Data do registro, no formato YYYY-MM-DD.

country: País dos dados, que é sempre "Brazil".

state: Sigla da unidade federativa (UF) ou "TOTAL" quando se refere ao país inteiro.

city: Nome completo do município no formato "Cidade/UF". Pode ser "CASO SEM LOCALIZACAO DEFINIDA/UF", indicando casos na unidade federativa sem município definido.

ibgeID: ID único do município fornecido pelo Instituto Brasileiro de Geografia e Estatística (IBGE).

newDeaths: Diferença entre o número de óbitos da data correspondente e o dia anterior.

deaths: Número acumulado de óbitos até aquela data.

newCases: Diferença entre o número de casos da data correspondente e o dia anterior.

totalCases: Número acumulado de casos até aquela data.

deaths_per_100k_inhabitants: Número de óbitos por 100.000 habitantes naquela localidade.

totalCases_per_100k_inhabitants: Número de casos por 100.000 habitantes naquela localidade.

deaths_by_totalCases: Proporção entre o número de óbitos e o número total de casos.

### Verificação de Valores Nulos

<p>Nessa etapa faremos um levantamento da existência ou não de valores nulos nos conjuntos de dados que utilizaremos.
<p>Com base no resultado que obtivermos aqui iremos determinar qual ação deve ser tomada para cada característica que eventualmente possa estar nula, caso seja de interesse do grupo utilizá-la.

In [None]:
print('BrStats:\n', df_br.isnull().sum())
print('Casos 2020:\n', df_2020.isnull().sum())
print('Casos 2021:\n', df_2021.isnull().sum())
print('Casos 2022:\n', df_2022.isnull().sum())
print('Casos 2023:\n', df_2023.isnull().sum())

BrStats:
 Ano                                0
CDMunicipio                        0
Populacao                          0
PessoalOcupado                     0
PessoalAssalariado                 0
VrSalarios                         0
PIB                                0
QtEmpresas                         0
AreaPlantada_h                     0
AreaColhida_h                      0
VlProducaoAgricola                 0
VlProducaoPecuaria                 0
Area                              30
Importacoes_US$                20375
Exportacoes_US$                21392
Receitas_R$                    11173
Transferencias_correntes_R$      243
Transferencias_capital_R$        243
NrNascimentos                      0
NrObitosInfantis                   0
povoamento                        30
UF                                 0
Municipio                          0
Regiao                             0
dtype: int64
Casos 2020:
 epi_week                           0
date                               0
st

### Criação de Novos Conjuntos de Dados

<p>Visando ter apenas os valores totais da pandemia para cada ano, realizamos uma limpeza dos dados, criando novos conjuntos de dados com estes.
<p>Esses novos DataSets serão utilizados nas análises ao longo do projeto.
<p>Como os dados são cumulativos, o código obtém o maior número relacionado a cada cidade e, em sequência, cria o conjunto 'df_ano_max.csv'.

In [None]:
#filtragem das cidades não nulas
df_2020 = df_2020[df_2020['city'].notna()]
df_2021 = df_2021[df_2021['city'].notna()]
df_2022 = df_2022[df_2022['city'].notna()]
df_2023 = df_2023[df_2023['city'].notna()]

df_2020_max = df_2020.groupby('city')[['deaths', 'totalCases', 'deaths_by_totalCases']].max().reset_index()
df_2021_max = df_2021.groupby('city')[['deaths', 'totalCases', 'deaths_by_totalCases']].max().reset_index()
df_2022_max = df_2022.groupby('city')[['deaths', 'totalCases', 'deaths_by_totalCases']].max().reset_index()
df_2023_max = df_2023.groupby('city')[['deaths', 'totalCases', 'deaths_by_totalCases']].max().reset_index()

df_2020_max.to_csv('df_2020_max.csv', index=False)
df_2021_max.to_csv('df_2021_max.csv', index=False)
df_2022_max.to_csv('df_2022_max.csv', index=False)
df_2023_max.to_csv('df_2023_max.csv', index=False)

## Perguntas

<p>Nessa seção apresentaremos algumas perguntas que foram elaboradas pelo grupo e serão analisadas no decorrer do Projeto.
<p>Como explicitado na introdução, muitas dessas perguntas tentarão responder e encontrar uma correlação entre as características das cidades e o impacto que a pandemia de COVID-19 gerou nestas.
<p>Além das perguntas voltadas a esta temática, algumas outras serão apresentadas, que representam mais algumas curiosidades dos integrantes do grupo, como algumas envolvendo as cidades-natal destes (Caratinga, Itaúna, Pará de Minas e Ubá, todas de Minas Gerais).


1.   Qual cidade registrou o maior número absoluto de óbitos infantis e qual apresentou a maior razão óbito/nascimento infantil durante a pandemia (2020-2021)?

2.   Qual foi a variação no número total de empresas entre o período pré-pandemia (2016-2019) e o período pandêmico (2020-2021)? Que conclusões podemos extrair dessa análise?

3.   Qual a soma dos maiores valores de produção agrícola por cidade no período pré-pandêmico (2016-2019) comparado ao período pandêmico (2020-2021)?

4.   Quais cidades apresentaram a menor eficiência agrícola (razão entre área colhida e área plantada) durante a pandemia (2020-2021) e como isso se compara ao período anterior (2016-2019)?

5.   Considerando as 10 cidades com maior produção pecuária no período pré-pandêmico, qual foi a variação na produção dessas cidades durante a pandemia?

6.  Qual foi o impacto da pandemia no PIB dos municípios em 2020? **ELABORAR MELHOR***

7.   Existe correlação entre receitas municipais e indicadores de qualidade de vida, como mortalidade infantil?

8.   Há relação direta entre área plantada/colhida e valor total da produção agrícola?

9.   Municípios com maior volume de exportações apresentam melhores indicadores econômicos?

10.   Qual foi o impacto da pandemia nos fluxos de importação e exportação por região?

11.   Quais foram os valores extremos (máximos e mínimos) de PIB, importações e exportações nas cidades de Caratinga, Itaúna, Pará de Minas e Ubá durante a pandemia (2020-2021)?

12.   Como se comparam as taxas de letalidade (deaths_by_totalCases) nas cidades-natal dos integrantes do grupo em relação aos seus PIBs?

13.   Qual porcentagem da população foi infectada por COVID-19 anualmente nas cidades-natal dos integrantes?

14.   Qual a mortalidade por COVID-19 nas 10 cidades com maior e menor PIB? Existe correlação entre PIB e mortalidade?




## Responsabilidades de Cada Integrante Nessa Etapa



*   Henrique Alves Campos
**  Perguntas e Código das Perguntas

*   Marcos Biscotto de Oliveira
**  Perguntas, Análise Inicial e Código das Perguntas

*   Matheus Nascimento Peixoto
**  Obtenção dos Conjuntos de Dados, Análise Inicial, algumas perguntas e Organização do Documento e GitHub

*   Matheus Nogueira Moreira
**  Perguntas e Código das Perguntas
