## Desafio Data Engineer - Hurb

Desenvolvido por Gabriel Ribeiro Gomes, GitHub: [@gabrivoy](https://github.com/gabrivoy). *ribeiroggabriel@gmail.com* | *ribeirogabriel@poli.ufrj.br*.

---

Este notebook contém uma análise exploratória inicial dos arquivos comma-separated values (CSVs) "EstadosIBGE.csv" e "HIST_PAINEL_COVIDBR_28set2020.csv" disponibilizados para o desafio da posição de Data Scientist / Data Engineer do Hurb.

### Importações



In [2]:
import pandas as pd

### Análise do arquivo "EstadosIBGE.csv"

---

Inicialmente, criaremos uma variável chamada *df_estados* que receberá um pandas DataFrame contendo as informações do arquivo. Utilizaremos o método *read_csv()* juntamente com a informação que o delimitador do arquivo será feito por ponto-e-vírgula (;).

Usaremos o método *head()* para exibir os 5 primeiros valores do nosso dataframe, apresentando assim uma visualização inicial dos nossos dados.


In [13]:
df_estados = pd.read_csv("EstadosIBGE.csv", delimiter=";")
df_estados.head()

Unnamed: 0,UF [-],Código [-],Gentílico [-],Governador [2019],Capital [2010],Área Territorial - km² [2019],População estimada - pessoas [2020],Densidade demográfica - hab/km² [2010],Matrículas no ensino fundamental - matrículas [2018],IDH <span>Índice de desenvolvimento humano</span> [2010],Receitas realizadas - R$ (×1000) [2017],Despesas empenhadas - R$ (×1000) [2017],Rendimento mensal domiciliar per capita - R$ [2019],Total de veículos - veículos [2018]
0,Acre,12,acriano,GLADSON DE LIMA CAMELI,Rio Branco,164123964,894470,447,157646,663,6632883108,6084416806,890,277831
1,Alagoas,27,alagoano,JOSE RENAN VASCONCELOS CALHEIROS FILHO,Maceió,27843295,3351543,11233,490587,631,1195043846,1046063492,731,834827
2,Amapá,16,amapaense,ANTONIO WALDEZ GÓES DA SILVA,Macapá,142470762,861773,469,136185,708,5396417145,4224464088,880,195039
3,Amazonas,13,amazonense,WILSON MIRANDA LIMA,Manaus,1559167889,4207714,223,705007,674,1732845943,1532489656,842,883083
4,Bahia,29,baiano,RUI COSTA DOS SANTOS,Salvador,564760427,14930634,2482,2034711,66,5019100324,45570160,913,4139107


Com o método *info()* conseguimos extrair informações importantes acerca da estruturação dos dados dentro do DataFrame.

Assim, conseguimos as seguintes informações primárias dos dados:

* Número de colunas: 14
* Número de linhas: 27
* Tipos de dados: 'object' e 'int64' (provavelmente strings e inteiros, mas analisaremos melhor posteriormente)
* Não temos valores nulos no dataset

In [15]:
df_estados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27 entries, 0 to 26
Data columns (total 14 columns):
 #   Column                                                     Non-Null Count  Dtype 
---  ------                                                     --------------  ----- 
 0   UF [-]                                                     27 non-null     object
 1   Código [-]                                                 27 non-null     int64 
 2   Gentílico [-]                                              27 non-null     object
 3   Governador [2019]                                          27 non-null     object
 4   Capital [2010]                                             27 non-null     object
 5   Área Territorial - km² [2019]                              27 non-null     object
 6   População estimada - pessoas [2020]                        27 non-null     int64 
 7   Densidade demográfica - hab/km² [2010]                     27 non-null     object
 8   Matrículas no ensino 

Podemos verificar que o dataset possui alguns dados numéricos que podem ser representados pelo tipo 'float', por se tratarem de números com vírgula. As colunas que poderiam ser formatadas com essa relação são:

* Área Territorial - km² [2019]
* Densidade demográfica - hab/km² [2010]
* IDH - Índice de desenvolvimento humano [2010]
* Receitas realizadas - R\$ (×1000) [2017]
* Despesas empenhadas - R\$ (×1000) [2017]

Usamos também o método *describe()* para extrair alguns dados estatísticos do dataset como média, desvio padrão, valor mínimo e máximo, entre outros.

In [21]:
df_estados.describe()

Unnamed: 0,Código [-],População estimada - pessoas [2020],Matrículas no ensino fundamental - matrículas [2018],Rendimento mensal domiciliar per capita - R$ [2019],Total de veículos - veículos [2018]
count,27.0,27.0,27.0,27.0,27.0
mean,29.111111,7842803.0,1006814.0,1238.703704,3731354.0
std,13.024631,9316952.0,1079327.0,476.693968,5729603.0
min,11.0,631181.0,96582.0,636.0,195039.0
25%,19.0,2932272.0,390868.0,901.5,934065.0
50%,27.0,4064052.0,556248.0,1056.0,1812473.0
75%,38.0,9401862.0,1300333.0,1495.5,4024268.0
max,53.0,46289330.0,5367614.0,2686.0,29057750.0


### Análise do arquivo "HIST_PAINEL_COVIDBR_28set2020.csv"

---

Seguiremos o mesmo padrão do arquivo anterior na análise exploratória desse. Criaremos uma variável chamada *df_covidbr* que receberá um pandas DataFrame contendo as informações do arquivo e utilizaremos *read_csv()* e o delimitador (;).

Usaremos o método *head()* para exibir os 5 primeiros valores do nosso dataframe, apresentando assim uma visualização inicial dos nossos dados.

In [20]:
df_covidbr = pd.read_csv("HIST_PAINEL_COVIDBR_28set2020.csv", delimiter=";")
df_covidbr.head()

Unnamed: 0,regiao,estado,municipio,coduf,codmun,codRegiaoSaude,nomeRegiaoSaude,data,semanaEpi,populacaoTCU2019,casosAcumulado,casosNovos,obitosAcumulado,obitosNovos,Recuperadosnovos,emAcompanhamentoNovos,interior/metropolitana
0,Brasil,,,76,,,,25/02/2020,9,210147125.0,0,0,0,0,,,
1,Brasil,,,76,,,,26/02/2020,9,210147125.0,1,1,0,0,,,
2,Brasil,,,76,,,,27/02/2020,9,210147125.0,1,0,0,0,,,
3,Brasil,,,76,,,,28/02/2020,9,210147125.0,1,0,0,0,,,
4,Brasil,,,76,,,,29/02/2020,9,210147125.0,2,1,0,0,,,


Com o método *info()* conseguimos extrair informações importantes acerca da estruturação dos dados dentro do DataFrame.

Assim, conseguimos as seguintes informações primárias dos dados:

* Número de colunas: 17
* Número de linhas: 1.045.816 (um milhão, quarenta e cinco mil e oitocentos e dezesseis)
* Tipos de dados: 'object' e 'int64'
* **Temos** valores nulos no dataset

In [16]:
df_covidbr.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1045816 entries, 0 to 1045815
Data columns (total 17 columns):
 #   Column                  Non-Null Count    Dtype  
---  ------                  --------------    -----  
 0   regiao                  1045816 non-null  object 
 1   estado                  1045599 non-null  object 
 2   municipio               1035834 non-null  object 
 3   coduf                   1045816 non-null  int64  
 4   codmun                  1039740 non-null  float64
 5   codRegiaoSaude          1035834 non-null  float64
 6   nomeRegiaoSaude         1035834 non-null  object 
 7   data                    1045816 non-null  object 
 8   semanaEpi               1045816 non-null  int64  
 9   populacaoTCU2019        1041910 non-null  float64
 10  casosAcumulado          1045816 non-null  int64  
 11  casosNovos              1045816 non-null  int64  
 12  obitosAcumulado         1045816 non-null  int64  
 13  obitosNovos             1045816 non-null  int64  
 14  Re

Além disso, podemos verificar que, por se tratar de um dataset com um grande número de linhas, podemos nos beneficiar do uso da função *tail()* também, para ver os 5 dados finais do nosso arquivo.

In [23]:
df_covidbr.tail()

Unnamed: 0,regiao,estado,municipio,coduf,codmun,codRegiaoSaude,nomeRegiaoSaude,data,semanaEpi,populacaoTCU2019,casosAcumulado,casosNovos,obitosAcumulado,obitosNovos,Recuperadosnovos,emAcompanhamentoNovos,interior/metropolitana
1045811,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,24/09/2020,39,3015268.0,186945,893,3164,16,,,1.0
1045812,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,25/09/2020,39,3015268.0,187895,950,3175,11,,,1.0
1045813,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,26/09/2020,39,3015268.0,188608,713,3183,8,,,1.0
1045814,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,27/09/2020,40,3015268.0,189513,905,3188,5,,,1.0
1045815,Centro-Oeste,DF,Brasília,53,530010.0,53001.0,DISTRITO FEDERAL,28/09/2020,40,3015268.0,190505,992,3203,15,,,1.0


In [22]:
df_covidbr.describe()

Unnamed: 0,coduf,codmun,codRegiaoSaude,semanaEpi,populacaoTCU2019,casosAcumulado,casosNovos,obitosAcumulado,obitosNovos,Recuperadosnovos,emAcompanhamentoNovos,interior/metropolitana
count,1045816.0,1039740.0,1035834.0,1045816.0,1041910.0,1045816.0,1045816.0,1045816.0,1045816.0,163.0,163.0,1035834.0
mean,32.35719,325239.2,32401.22,26.48714,125050.1,932.8984,13.61271,32.59524,0.4075038,1447975.0,475605.263804,0.06931226
std,9.878967,98533.81,9836.198,7.688399,3168012.0,32885.14,434.1171,1096.452,12.3623,1335031.0,251008.063954,0.2539845
min,11.0,110000.0,11001.0,9.0,781.0,0.0,-7926.0,0.0,-292.0,22130.0,14062.0,0.0
25%,25.0,251200.0,25010.0,20.0,5476.0,0.0,0.0,0.0,0.0,195184.0,258263.0,0.0
50%,31.0,314605.0,31059.0,26.0,11710.0,15.0,0.0,0.0,0.0,1054043.0,556507.0,0.0
75%,41.0,411910.0,41015.0,33.0,25877.0,115.0,1.0,3.0,0.0,2584716.0,671253.0,0.0
max,76.0,530010.0,53001.0,40.0,210147100.0,4745464.0,69074.0,142058.0,1595.0,4084182.0,817642.0,1.0


### Analisando o pipeline

O objetivo é gerar um CSV oriundo de informações específicas de cada um dos datasets. As colunas do dataset gerado devem ser:


