## Tratamento do arquivo 'pacientes.csv'
Neste caderno será apresentada a exploração inicial e tratamento dos dos dados do arquivo 'pacientes.csv'

### Importação das bibliotecas
 
A seguir uma breve apresentação de cada biblioteca que será utilizada:

- A biblioteca [NumPy](https://numpy.org/) é fundamental para qualquer tipo de computação científica em Python
- A biblioteca [pandas](https://pandas.pydata.org/) é a nossa ferramenta pricipal para análise e manipulação de dados

In [1]:
import numpy as np
import pandas as pd

### Leitura e tratamento inicial dos dados de entrada

Através da biblioteca `pandas` é realizada a leitura do arquivo '.csv' utilizando a função `read_csv()`, onde cada parâmetro tem o seguinte significado:

- `parse_dates=['DataNasc']`: Fazer a importação da coluna `'DataNasc'` como tipo `data hora`
- `encoding='iso-8859-1'`: Tipo de `encoding` do arquivo sendo lido
- `quotechar='"'`: O caracter usado para denotar o inicio e fim de um item entre aspas
- `delimiter='|'`: delimitador utilizado na escrita do arquivo

In [2]:
df = pd.read_csv('desafio-base1/pacientes.csv', parse_dates=['DataNasc'], encoding='iso-8859-1', quotechar='"', delimiter='|')

### Visualização dos dados

Nas próximas duas células é realizada a visualização inicial dos dados.

Usando o método `head()` do `pandas` com um argumento `5` nele é possível visualizar os primeiros `5` registros do Dataframe.
    
O `.T` significa `Transposição`, desta forma as linhas serão visualizadas como colunas e vice-versa.


In [3]:
df.head(5).T

Unnamed: 0,0,1,2,3,4
Código,0,1,2,3,4
Nome,Pedro Henrique Porto,João Vitor da Paz,Theo Nunes,Isis da Rosa,Srta. Beatriz Santos
DataNasc,NaT,1996-01-01 00:00:00,1959-01-01 00:00:00,1983-01-01 00:00:00,NaT
Sexo,M,M,,,F
Estado,RJ,AP,,,MA
Endereco,"Quadra Caroline Dias, 482, Salgado Filho","Setor Nunes, Santa Lúcia",,,"Favela de Peixoto, 43, Pantanal"
Cidade,Ramos,Nogueira,,,Barros de Moreira
CEP,31924-681,28517-970,,,59801-069
Naturalidade,Campos do Amparo,Araújo,Lopes,,Peixoto
Telefone,(021) 9313-9128,(021) 5202 2566,,,


O método `info()` do `pandas` apresenta um resumo dos dados no Dataframe, uma informação interessante é o tipo de dado de cada recurso.

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 783 entries, 0 to 782
Data columns (total 18 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   Código            783 non-null    int64         
 1   Nome              783 non-null    object        
 2   DataNasc          635 non-null    datetime64[ns]
 3   Sexo              632 non-null    object        
 4   Estado            632 non-null    object        
 5   Endereco          632 non-null    object        
 6   Cidade            632 non-null    object        
 7   CEP               632 non-null    object        
 8   Naturalidade      643 non-null    object        
 9   Telefone          615 non-null    object        
 10  TipoTelefone      615 non-null    object        
 11  Profissao         629 non-null    object        
 12  Pai               622 non-null    object        
 13  Mae               633 non-null    object        
 14  Conjuge           639 non-

## Limpeza e tratamento dos dados

A seguir será realizada a limpeza e tratamento dos dados.

### Valores ausentes, valores equivalentes e tratamento inicial

Quando utilizado o método `info()` para ver o resumo dos dados, foi possível ver que muitas colunas tinham muitos dados ausentes, entrentanto, na documentação da iClinic é possível ver que os campos `Nome` e `birth_date` são obrigatórios e no Dataset anterior as colunas `Nome` e `DataNasc` são seus equivalentes, ainda, a coluna `DataNasc` tem valores nulos nos seus registros, logo, será necessário um tratamento para cumprir as condições obrigatórias.
Este será um dos últimos passos no tratamento dos dados.

O tratamento de algumas colunas será realizado em seguida, mas quando o tratamento necessário for apenas na mudança nos nomes entre os recursos equivalentes, este será realizada no final, já que não é relevante para o tratamento inicial.

Alguns dos recursos precisarão de uma atenção ou tratamento mais detalhada, são estes: "Telefone", "TipoTelefone" e "Endereco".

Além desses recursos, no arquivo lido tem informação adicional que pode ser colocado na coluna "observation", mas devido ao tempo não foi possível de ser concluído, são estas "Conjuge", "ProfissaoConjuge"

### Trantamento do recurso 'Sexo'

Para tratar esta coluna é necessário saber quais as categorias utilizadas para classificar o genero do paciente no Dataset anterior, assim, utilizaremos a seguinte linha de código:

In [5]:
df['Sexo'].value_counts()

M    329
F    303
Name: Sexo, dtype: int64

É possível observar os valores equivalentes no padrão iClinic:

- F : femino : f
- M : masculino : m

Inicialmente foram testadas algumas ideias mais simples, mas não resultaram sendo corretas.

A primeira consistiu em transformar as strings dentro da coluna 'Sexo' em minúscula:
```python
df['Sexo'] = df['Sexo'].astype(str).str.lower()
```
Porém, os valores 'NaN' eram modificados para 'nan', perdendo o seu significado original.

Outra alternativa foi utilizar list comprehension do próprio python, conseguindo contornar o problema de modificar o valor 'NaN':
```python
df['Sexo'] = ['m' if x == 'M' else 'f' if x == 'F' else np.nan for x in df['Sexo']]
#%timeit 594 µs ± 23.4 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
```

Finalmente, a seguinte alternativa foi a utilizada pois apresentava uma maior velocidade de processamento quando comparada a anterior.
```python
df['Sexo'] = df['Sexo'].replace(sexo)
#%timeit 694 µs ± 14.4 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
```
sendo o dictionary `sexo` definido como a seguir:

In [6]:
sexo = {
    'M': 'm', 
    'F': 'f'
}

In [7]:
df['Sexo'] = df['Sexo'].replace(sexo)

### Trantamento do recurso 'Estado'

A fim de verificar se a coluna continha apenas os valores das siglas de cada estado, assim, foi criado uma lista contendo os valores possíveis:

In [8]:
uf = [np.nan,'RO', 'AC', 'AM', 'RR', 'PA', 'AP', 'TO', 'MA', 'PI', 'CE', 'RN', 'PB', 'PE', 'AL', 'SE', 'BA', 'MG', 'ES', 'RJ', 'SP', 'PR', 'SC', 'RS', 'MS', 'MT', 'GO', 'DF']

Em seguida, foi necessário realizar um pré processamento da coluna `df['Estado']`, retirando os espaços a mais nas strings armazenadas:

In [9]:
df['Estado'] = [x.strip() if type(x) == str else np.nan for x in df['Estado']]

Finalmente, é realizada a validação através do comando `isin()` e `value_counts()`, como a seguir:

In [10]:
df['Estado'].isin(uf).value_counts()

True    783
Name: Estado, dtype: int64

Caso existisse algum valor que não se encontrasse na lista `uf` apareceria como `False`, como não é o caso, não será necessário realizar algum pós-processamento.

### Trantamento do recurso 'CEP'

Foi percebido que nem todos os valores armazenado se encontram na formatação desejada, a principal diferença notada foi a falta do hífen dividindo os números, sendo assim será realizado o mapemento dos valores que contém ele a fim de modificar os valores que não o possuem: 

In [11]:
rows_with_dashes = df['CEP'].str.contains('-')
df['CEP'] = [df['CEP'][i] if x == True else df['CEP'][i][:5]+'-'+df['CEP'][i][5:] if x == False else np.nan for i, x in enumerate(rows_with_dashes)]

### Trantamento do recurso 'EstadoCivil'

Para tratar esta coluna é necessário saber quais as categorias utilizadas para classificar o estado civil do paciente no Dataset anterior, assim, utilizaremos a seguinte linha de código:

In [12]:
df['EstadoCivil'].value_counts()

CA    187
ES    170
VI    145
SE    132
Name: EstadoCivil, dtype: int64

É possível observar os valores equivalentes no padrão iClinic:

- CA : casado : ma
- ES : união estável : st
- VI : Viúvo : wi
- SE : Separado : se

Em seguida é aplicado o seguinte comando para fazer a substituição das categorias:

In [13]:
estadocivil = {
    'CA': 'ma',
    'ES': 'st',
    'VI': 'wi',
    'SE': 'se'
}

In [14]:
df['EstadoCivil'] = df['EstadoCivil'].replace(estadocivil)

### Trantamento do recurso 'Cor'

Para tratar esta coluna também será necessário saber quais as categorias utilizadas para classificar a cor do paciente no Dataset anterior, assim, analogamente ao realizado no caso anterior:

In [15]:
df['Cor'].value_counts()

B    132
A    131
P    127
N    127
I    114
Name: Cor, dtype: int64

Como realizado anteriormente, serão substituidas as categorias pelas suas equivalentes no padrão iClinic, como a seguir:

- B : Branca : wh
- A : Amarela :	ye
- P : Parda : br
- N : Negra : bl
- I : Indigena : br

Neste caso, foi decidido colocar a raça indigena como parda já que ela não possui uma categoria específica no padrão iClinic, e, no entender do autor, esta foi a mais proxima.

Em seguida é aplicado o seguinte comando para fazer a substituição das categorias:

In [16]:
cor = {
    'B': 'wh',
    'A': 'ye',
    'P': 'br',
    'N': 'bl',
    'I': 'br'
}

In [17]:
df['Cor'] = df['Cor'].replace(cor)

### Trantamento do recurso 'Endereco'

Nesta coluna estão incluidas as informações de outras colunas solicitadas no padrão iClinic.
Assim, será preciso dividir esta informação em novas colunas que serão criadas a seguir:

In [18]:
df['address'] = np.nan
df['number'] = np.nan
df['complement'] = np.nan
df['neighborhood'] = np.nan
df['country'] = "BR"

Dessa forma, o valor padrão delas será `NaN` com excepção da coluna 'country'.

Em seguida, a informação contida no recurso 'Endereco' é dividida com o método `str.split(',')` e será armazenada numa coluna temporária de nome `row_with_adress`:

In [19]:
row_with_adress = df['Endereco'].str.split(',')

E finalmente, será feita a distribuição da informação de acordo ao seu tipo, como a seguir:

In [20]:

df['number'] = [np.nan if str(x) == 'nan' else x[1].strip() if len(x) == 3 else np.nan for x in row_with_adress]
df['neighborhood'] = [np.nan if str(x) == 'nan' else x[1].strip() if len(x) == 2 else x[2].strip() for x in row_with_adress]
df['address'] = [np.nan if str(x) == 'nan' else x[0] for x in row_with_adress]

### Trantamento dos recursos 'TipoTelefone' e 'Telefone'

De modo semelhante ao realizado nos recursos 'EstadoCivil' e 'Cor', é necessário saber quais as categorias utilizadas para classificar o Tipo de telefone do paciente, assim, será aplicada a segiunte linha de código:

In [21]:
df['TipoTelefone'].value_counts()

C    225
T    195
R    195
Name: TipoTelefone, dtype: int64

Como realizado anteriormente, serão subsituidas essas categorias pelas equivalentes no padrão iClinic, como a seguir:

- C : Celular : "mobile_phone"
- T : Trabalho : "office_phone"
- R : Residencial: "home_phone"

Porém, diferentemente do realizado anteriormente, será necessário distribuir as categorias de uma coluna em outras de acordo a sua categoria, assim serão criadas novas colunas vazias:

In [22]:
df['mobile_phone'] = np.nan
df['home_phone'] = np.nan
df['office_phone'] = np.nan

Em seguida, serão extraídos somente os valores numéricos do recurso 'Telefone' e serão armazenados de volta como `string`:

In [23]:
df['Telefone'] = df['Telefone'].astype('str').str.extractall('(\d+)').unstack().fillna('').sum(axis=1).astype(int).astype('str')

Finalmente, serão armazenados os numeros de telefone no formato desejado e na sua respectiva coluna:

In [24]:
rows_t = df['TipoTelefone'].str.contains('T', na=False)
df['office_phone'] = '(' + df['Telefone'][rows_t].str[-10:-8] + ')' + df['Telefone'][rows_t].str[-8:-4] + '-' + df['Telefone'][rows_t].str[-4:]

rows_t = df['TipoTelefone'].str.contains('C', na=False)
df['mobile_phone'] = '(' + df['Telefone'][rows_t].str[:2] + ')9' + df['Telefone'][rows_t].str[-8:-4] + '-' + df['Telefone'][rows_t].str[-4:]

rows_t = df['TipoTelefone'].str.contains('R', na=False)
df['home_phone'] = '(' + df['Telefone'][rows_t].str[-10:-8] + ')' + df['Telefone'][rows_t].str[-8:-4] + '-' + df['Telefone'][rows_t].str[-4:]

### Mudança de nome das colunas para o padrão iClinic

Em seguida será realizada a mudança no nome dos recursos no Dataset anterior para os nomes equivalente ao padrão iClinic:

In [25]:
# Colocando o nome das colunas do arquivo de acordo a documentação da iClinic
df = df.rename(
    columns = {
        "Código":"patient_code",
        "Nome": "name",
        "DataNasc":"birth_date",
        "Sexo": "gender",
        "Estado": "state",
        "Cidade": "city",
        "CEP": "zip_code",
        "Naturalidade": "birth_place",
        "Profissao": "occupation",
        "Pai": "patientrelatedness_father_names",
        "Mae": "patientrelatedness_mother_names",
        "Cor": "ethnicity",
        "EstadoCivil": "marital_status",
    }
)

### Adição de recursos ausentes

In [26]:
df['social_gender'] = np.nan
df['civil_name'] = np.nan
df['cpf'] = np.nan
df['rg'] = np.nan
df['rg_issuer'] = np.nan #segundo o modelo encontrado na documentação da iClinic, aqui está repetido 'rg' ao invés de 'rg_issuer', então colocaremos como achamos certo
df['email'] = np.nan
df['email_secondary'] = np.nan
df['birth_state'] = np.nan
df['picture_filename'] = np.nan
df['religion'] = np.nan
df['education'] = np.nan
df['responsible'] = np.nan
df['cns'] = np.nan #na documentação da iClini não existe 'sms' mas aparece segundo o modelo, pelo que não foi adicionado aqui
df['died'] = np.nan
df['death_info'] = np.nan
df['nationality'] = "BR" 
df['indication'] = np.nan
df['indication_observation'] = np.nan
df['active'] = np.nan 
df['receive_email'] = np.nan
df['observation'] = np.nan
df['healthinsurance_pack'] = np.nan 
df['tag_names'] = np.nan
df['tag_physician_id'] = np.nan
df['picture_filename'] = np.nan

### Remoção de linhas não contendo as informações necessárias

A seguir, serão removidas as linhas contendo valores nulos na coluna 'birth_date':

In [27]:
df = df.dropna(subset = ['birth_date'])

### Remoção de recursos repetidos ou não necessários

A seguir, serão removidos os recursos repetidos ou que não são mais necessários:

In [28]:
df =  df.loc[:, ["patient_code","name","civil_name","birth_date","gender","social_gender","cpf","rg","rg_issuer","mobile_phone","home_phone","office_phone","email","email_secondary","birth_place","birth_state","zip_code","address","number","complement","neighborhood","city","state","country","ethnicity","marital_status","religion","occupation","education","responsible","cns","observation","died","death_info","nationality","indication","indication_observation","active","receive_email","healthinsurance_pack","patientrelatedness_mother_names","patientrelatedness_father_names","tag_names","tag_physician_id","picture_filename"]]

## Exportação do arquivo de saída

Como solicitado no desafio, o arquivo de saída será gerado com o conjunto de caracteres `UTF-8`:

In [29]:
df.to_csv('desafio-base1-output/patient.csv',index=False, encoding='utf-8')
