<h1 align="center">Fase 1 - Data Analysis and Exploration</h1>

## Módulo 01 - Análise Exploratória de Dados

### Aula 3 - Manipulação de Dados

#### 1. Para realizar a análise dos dados, as seguintes bibliotecas foram utilizadas:

* **os**: para manipulação de arquivos.
* **Pandas**: para manipulação e análise dos dados.
* **Matplotlib**: para visualização dos dados.
* **Seaborn**: para visualização dos dados.


In [45]:
#importando as bibliotecas
import os 
import pandas as pd
import matplotlib.pyplot as plt


#### 2. Aquisição dos dados
Os dados utilizados nesta análise foram obtidos a partir do site [DATASUS](https://datasus.saude.gov.br/acesso-a-informacao/producao-hospitalar-sih-sus/), contendo informações detalhadas sobre os valores registrados no momento do atendimento hospitalar. Este dataset reflete os custos estimados no instante em que o paciente é atendido, fornecendo uma visão inicial e imediata dos gastos associados a cada internação. Estes dados são particularmente valiosos para entender a distribuição e o impacto financeiro dos atendimentos em tempo real, auxiliando no planejamento e alocação imediata de recursos nas unidades de saúde.

##### 2.1 Ajuste da Apresentação dos Dados
Para adequar a apresentação dos dados ao padrão brasileiro, onde a vírgula é usada como separador decimal e o ponto como separador de milhar, foi necessário ajustar a formatação de exibição dos valores numéricos. Em Python, por padrão, os números flutuantes são exibidos com o ponto como separador decimal. Para melhorar a legibilidade dos dados e adequar-se às convenções locais, foi utilizado o seguinte código:

In [46]:
# Corrigir o caminho para subir um nível na estrutura de diretórios antes de acessar 'data/raw'
file_path = os.path.join('..', '..', 'data', 'raw', 'sih_cnv_qiuf201539177_212_141_162.csv')

# Carregar o DataFrame a partir do CSV localizado no diretório 'raw'
df_atendimento = pd.read_csv(file_path, encoding='ISO-8859-1', skiprows=3, sep=';', 
                               thousands='.', decimal=',', skipfooter=12, engine='python')



# Ajuste da apresentação dos dados para exibir vírgula como separador decimal
pd.options.display.float_format = lambda x: f'{x:,.2f}'.replace(',', 'X').replace('.', ',').replace('X', '.')

# Exibir as primeiras linhas
df_atendimento.head()

Unnamed: 0,Unidade da Federação,1992/Mar,1992/Abr,1993/Mai,1993/Dez,1994/Jan,1994/Fev,1994/Mai,1994/Ago,1994/Nov,...,2023/Out,2023/Nov,2023/Dez,2024/Jan,2024/Fev,2024/Mar,2024/Abr,2024/Mai,2024/Jun,Total
0,11 Rondônia,-,-,-,-,-,-,-,-,-,...,"12.517.843,44","12.554.967,21","11.878.718,51","11.395.300,88","9.792.549,16","8.104.206,09","6.275.935,03","4.143.349,11","1.210.876,87","1.446.704.922,33"
1,12 Acre,-,-,-,-,-,-,-,-,-,...,"4.433.998,52","4.436.469,66","4.253.339,65","4.404.809,58","4.478.164,90","4.764.699,46","4.488.757,08","3.406.321,94","1.574.829,36","615.416.604,48"
2,13 Amazonas,-,-,-,-,-,-,-,-,-,...,"17.415.667,58","19.229.221,65","18.603.854,01","21.710.451,55","18.907.790,91","21.767.764,51","19.920.938,48","17.883.906,15","6.915.472,45","2.728.085.655,80"
3,14 Roraima,-,-,-,-,-,-,-,-,-,...,"2.888.659,62","2.930.357,34","3.191.502,58","2.784.557,45","2.113.499,72","1.783.130,45","174.731,35","120.854,25","46.874,26","467.066.312,33"
4,15 Pará,-,-,-,-,-,-,-,-,-,...,"52.858.032,69","58.378.834,51","50.760.448,73","52.655.209,50","51.032.476,18","53.019.044,69","46.891.419,15","34.678.768,60","13.453.260,79","6.589.319.524,97"


#### 3. Análise Exploratória dos Dados

##### 3.1. Entendendo dos Dados
Para iniciar a análise, é importante entender a estrutura dos dados e as informações disponíveis.


In [47]:
df_atendimento.columns

Index(['Unidade da Federação', '1992/Mar', '1992/Abr', '1993/Mai', '1993/Dez',
       '1994/Jan', '1994/Fev', '1994/Mai', '1994/Ago', '1994/Nov',
       ...
       '2023/Out', '2023/Nov', '2023/Dez', '2024/Jan', '2024/Fev', '2024/Mar',
       '2024/Abr', '2024/Mai', '2024/Jun', 'Total'],
      dtype='object', length=326)

##### **Dicionário de Dados**
Um dicionário de dados foi criado para facilitar a compreensão das informações contidas no dataset. As colunas presentes no dataset são:

* **Unidade da Federação**: unidade federativa onde o registro foi lançado.
* **Ano/Mês do Lançamento**: ano e mês em que o registro foi lançado.
* **Total**: O total dos valores de atendimentos iniciais hospitalares (AIH) realizados na unidade federativa.

##### 3.2. Verificação dos Dados
Nesta etapa, foi realizada uma inspeção minuciosa do dataset para assegurar sua integridade e qualidade antes de prosseguir com a análise. A verificação dos dados inclui:

- **Exploração Inicial:** Leitura do dataset para entender a estrutura dos dados, as variáveis disponíveis e o volume de registros.
- **Validação de Consistência:** Verificação de inconsistências, como valores ausentes, duplicações e anomalias que possam impactar a análise.
- **Sumarização Estatística:** Geração de estatísticas descritivas das variáveis para obter uma visão geral das distribuições e identificar possíveis outliers.

In [48]:
# Exibir dados do DataFrame
df_atendimento

Unnamed: 0,Unidade da Federação,1992/Mar,1992/Abr,1993/Mai,1993/Dez,1994/Jan,1994/Fev,1994/Mai,1994/Ago,1994/Nov,...,2023/Out,2023/Nov,2023/Dez,2024/Jan,2024/Fev,2024/Mar,2024/Abr,2024/Mai,2024/Jun,Total
0,11 Rondônia,-,-,-,-,-,-,-,-,-,...,"12.517.843,44","12.554.967,21","11.878.718,51","11.395.300,88","9.792.549,16","8.104.206,09","6.275.935,03","4.143.349,11","1.210.876,87","1.446.704.922,33"
1,12 Acre,-,-,-,-,-,-,-,-,-,...,"4.433.998,52","4.436.469,66","4.253.339,65","4.404.809,58","4.478.164,90","4.764.699,46","4.488.757,08","3.406.321,94","1.574.829,36","615.416.604,48"
2,13 Amazonas,-,-,-,-,-,-,-,-,-,...,"17.415.667,58","19.229.221,65","18.603.854,01","21.710.451,55","18.907.790,91","21.767.764,51","19.920.938,48","17.883.906,15","6.915.472,45","2.728.085.655,80"
3,14 Roraima,-,-,-,-,-,-,-,-,-,...,"2.888.659,62","2.930.357,34","3.191.502,58","2.784.557,45","2.113.499,72","1.783.130,45","174.731,35","120.854,25","46.874,26","467.066.312,33"
4,15 Pará,-,-,-,-,-,-,-,-,-,...,"52.858.032,69","58.378.834,51","50.760.448,73","52.655.209,50","51.032.476,18","53.019.044,69","46.891.419,15","34.678.768,60","13.453.260,79","6.589.319.524,97"
5,16 Amapá,-,-,-,-,-,-,-,-,-,...,"3.621.900,80","3.263.823,25","3.347.139,90","4.009.875,37","3.499.564,15","4.059.123,00","3.731.018,03","3.793.604,82","2.026.080,76","454.244.659,82"
6,17 Tocantins,-,-,-,-,-,-,-,-,-,...,"10.135.542,98","9.701.812,67","9.632.124,69","9.237.273,45","9.572.666,16","9.753.104,56","8.138.826,15","4.985.743,47","2.319.561,63","1.423.360.586,79"
7,21 Maranhão,-,-,-,-,-,-,-,-,-,...,"41.972.300,25","40.501.098,01","38.004.052,79","41.497.369,48","38.607.311,23","41.885.979,98","37.522.351,20","30.708.318,49","13.741.492,12","5.464.095.395,44"
8,22 Piauí,-,-,-,-,-,-,-,-,-,...,"23.444.748,65","22.259.207,28","21.009.128,47","22.059.611,11","20.423.284,54","22.397.541,19","20.498.973,49","16.867.157,79","9.652.382,49","3.168.311.617,59"
9,23 Ceará,-,-,-,-,-,-,-,-,-,...,"66.820.475,94","63.968.404,99","62.941.872,38","68.104.664,24","63.811.880,19","65.031.493,74","64.193.695,76","47.716.409,58","22.694.949,43","9.201.831.945,25"


##### **Observação:**
Há uma ausência de dados nos anos iniciais, que começa em 1992 e depois aumenta a quantidade dos dados gradativamente. Foi registrado nos campos de valores que possam ser ausentes, uma caracter especial `-` para indicar a ausência. Já no coluna de Unidade da Federação, existe dígitos númericos que se referem regiões do Brasil, mas que tonam-se redundantes, visto que a informação já está contida no nome da Unidade da Federação.

In [49]:
# Exibir informações do DataFrame
df_atendimento.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27 entries, 0 to 26
Columns: 326 entries, Unidade da Federação to Total
dtypes: float64(204), object(122)
memory usage: 68.9+ KB


##### **Observação:** 
existe uma discrepância como os tipos de dados estão distribuídos no DataFrame. É possível perceber um desbalanceamento de tipos de dados, pois existe uma única coluna categórica "Unidade da Federação", que deveria ser do tipo `object` (string), enquanto as demais colunas deveriam ser do tipo `float64`, representando dados quantitativos. No entanto, temos 121 colunas que estão erroneamente classificadas como `object`. Essa discrepância pode impactar a precisão e eficácia da análise de dados, pois colunas que deveriam ser processadas como numéricas não estão sendo tratadas corretamente. Para garantir a integridade da análise, é essencial realizar uma limpeza dessas colunas, identificar os valores problemáticos e converter as colunas para o tipo `float64`. 

In [50]:
# Exibir os tipos de dados do DataFrame
df_atendimento.dtypes.to_frame('Tipos de Dados')

Unnamed: 0,Tipos de Dados
Unidade da Federação,object
1992/Mar,object
1992/Abr,object
1993/Mai,object
1993/Dez,object
...,...
2024/Mar,float64
2024/Abr,float64
2024/Mai,float64
2024/Jun,float64


Empty DataFrame
Columns: []
Index: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26]


In [58]:
# Verificar se há valores nulos
df_atendimento.isnull().sum()

Unidade da Federação    0
1992/Mar                0
1992/Abr                0
1993/Mai                0
1993/Dez                0
                       ..
2024/Mar                0
2024/Abr                0
2024/Mai                0
2024/Jun                0
Total                   0
Length: 326, dtype: int64

In [60]:
# Verificar valores duplicados
df_atendimento.duplicated().sum()

np.int64(0)