# Checkpoint 2
## Alunos: Gabriel Gomes e Wandra Martins
## Setor escolhido: Saúde (Dados do SISAGUA)
### Bases escolhidas:
- **municipios_mg.csv** (Base de dados dos municípios no estado de Minas Gerais, mantido por um usuário do GitHub)
- **trat_mg.csv** (Dados sobre o tratamento de água empregado nos sistemas e soluções alternativas de abastecimento de água para consumo humano, informados pelo prestador de serviço em frequência anual no estado de Minas Gerais)

### Importação de bibliotecas e mudanças nas configurações

In [1]:
import pandas as pd
import dask.dataframe as dd
import numpy as np
pd.set_option('display.max_columns', None)

### Carregamento das bases de dados

In [16]:
# Municípios de Minas Gerais
municipios = pd.read_csv('municipios_mg.csv', encoding='utf-8', dtype={'COD_IBGE': str})
municipios.head()

Unnamed: 0,COD_IBGE,NOME,LATITUDE,LONGITUDE
0,3100104,Abadia dos Dourados,-18.4831,-47.3916
1,3100203,Abaeté,-19.1551,-45.4444
2,3100302,Abre Campo,-20.2996,-42.4743
3,3100401,Acaiaca,-20.359,-43.1439
4,3100500,Açucena,-19.0671,-42.5419


In [17]:
# Informações gerais
municipios.info(verbose=True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 853 entries, 0 to 852
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   COD_IBGE   853 non-null    object 
 1   NOME       853 non-null    object 
 2   LATITUDE   853 non-null    float64
 3   LONGITUDE  853 non-null    float64
dtypes: float64(2), object(2)
memory usage: 26.8+ KB


In [10]:
# Dados do tratamento de água de empresas mineiras
tratamento = pd.read_csv('trat_mg.csv', encoding='utf-8', dtype={'COD_IBGE': str, 'ANO': str, 'CARROPIPA': str, 'CHAFARIZ': str, 'FONTE': str, 'CISTERNA': str, 'CANALIZACAO': str})

# Removendo valores null/NaN restantes
tratamento['CANALIZACAO'] = tratamento.CANALIZACAO.fillna('N')
tratamento['CARROPIPA'] = tratamento.CARROPIPA.fillna('N')
tratamento['FONTE'] = tratamento.FONTE.fillna('N')
tratamento['CHAFARIZ'] = tratamento.CHAFARIZ.fillna('N')
tratamento['CISTERNA'] = tratamento.CISTERNA.fillna('N')
tratamento['VAZAO_AGUA'] = tratamento.VAZAO_AGUA.fillna(0.0)
tratamento['NUM_FILTROS'] = tratamento.NUM_FILTROS.fillna(0.0)
tratamento['OUTRA_ETP'] = tratamento.OUTRA_ETP.fillna('N')
tratamento['OUTRO_DESINF'] = tratamento.OUTRO_DESINF.fillna('N')
tratamento['OUTRO_SUPRIMENTO'] = tratamento.OUTRO_SUPRIMENTO.fillna('N')

tratamento.head()

Unnamed: 0,COD_IBGE,TIPO_INST,SIGLA_INST,NOME_INST,FORMA_ABASTEC,NOME_F_ABASTEC,NOME_ETA,ANO,CAPT_SUPERFICIAL,CAPT_SUBTERRANEA,CAPT_AGUA_CHUVA,TEMPO_MEDIO_FUNC,ETP_PRE_OXIDACAO,ETP_MIST_RAP_C0AG,ETP_FLOCULACAO,ETP_DECANTACAO,ETP_FLOTACAO,TIPO_FILTRACAO,NUM_FILTROS,IMP_MONIT,ETP_DESINFECCAO,DESINF_CLORO_GAS_HIPOC,DESINF_ISOCIANURATOS,DESINF_CLORAMINA,DESINF_DIOXIDO_CLORO,DESINF_OZONIO,DESINF_UV,OUTRO_DESINF,RAD_CLORO_RES_LIVRE,RAD_DIOX_CLORO,RAD_CLORO_RES_COMB,POLIM_COM_EPICOLIDRINA,POLIM_COM_ACRILAMIDA,ETP_FLUORETACAO,ETP_DESFLUORETACAO,OUTRA_ETP,VAZAO_AGUA,CARROPIPA,CHAFARIZ,FONTE,CISTERNA,CANALIZACAO,OUTRO_SUPRIMENTO
0,313005,Regional,COPASA,COMPANHIA DE SANEAMENTO DE MINAS GERAIS ...,SAA,SAA ICARAI DE MINAS ...,ICARAI DE MINAS ...,2014,N,S,N,10:00,N,N,N,N,N,SEM FILTRAÇÃO ...,0.0,N,S,S,N,N,N,N,N,N,S,N,N,N,N,S,N,N,14.0,N,N,N,N,N,N
1,316460,Regional,COPASA,COMPANHIA DE SANEAMENTO DE MINAS GERAIS ...,SAA,SISTEMA SAO SEBASTIAO DO OESTE ...,ETA SAO SEBASTIÃO DO OESTE ...,2014,N,S,N,17:00,N,N,N,N,N,SEM FILTRAÇÃO ...,0.0,N,S,S,N,N,N,N,N,N,S,N,N,N,N,S,N,N,12.28,N,N,N,N,N,N
2,313830,Regional,COPASA,COMPANHIA DE SANEAMENTO DE MINAS GERAIS ...,SAA,SISTEMA LEANDRO FERREIRA ...,ETA LEANDRO FERREIRA ...,2014,N,S,N,11:00,N,N,N,N,N,SEM FILTRAÇÃO ...,0.0,N,S,S,N,N,N,N,N,N,S,N,N,N,N,S,N,N,11.5,N,N,N,N,N,N
3,314970,Regional,COPASA,COMPANHIA DE SANEAMENTO DE MINAS GERAIS ...,SAA,SISTEMA PERDIGAO ...,ETA PERDIGAO ...,2014,S,N,N,21:55,N,S,S,S,N,FILTRAÇÃO RÁPIDA ...,4.0,N,S,S,N,N,N,N,N,N,S,N,N,N,N,N,N,N,23.0,N,N,N,N,N,N
4,313290,Regional,COPASA,COMPANHIA DE SANEAMENTO DE MINAS GERAIS ...,SAA,SISTEMA DE ABASTECIMENTO DE AGUA DE ITAMOGI ...,COPASA MG ...,2014,S,N,N,16:08,N,S,S,S,N,FILTRAÇÃO LENTA ...,5.0,N,S,S,N,N,N,N,N,N,S,N,N,N,N,S,N,N,0.01,N,N,N,N,N,N


In [18]:
# Informações gerais
tratamento.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 54039 entries, 0 to 54038
Data columns (total 43 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   COD_IBGE                54039 non-null  object 
 1   TIPO_INST               54039 non-null  object 
 2   SIGLA_INST              54039 non-null  object 
 3   NOME_INST               54039 non-null  object 
 4   FORMA_ABASTEC           54039 non-null  object 
 5   NOME_F_ABASTEC          54039 non-null  object 
 6   NOME_ETA                54039 non-null  object 
 7   ANO                     54039 non-null  object 
 8   CAPT_SUPERFICIAL        54039 non-null  object 
 9   CAPT_SUBTERRANEA        54039 non-null  object 
 10  CAPT_AGUA_CHUVA         54039 non-null  object 
 11  TEMPO_MEDIO_FUNC        54039 non-null  object 
 12  ETP_PRE_OXIDACAO        54039 non-null  object 
 13  ETP_MIST_RAP_C0AG       54039 non-null  object 
 14  ETP_FLOCULACAO          54039 non-null