# USP - EACH - Reconhecimento de Padrões - Abril de 2020

## Tratamento de Arquivo
### Arquivo de Entrada: PacientesGeneroIdade.csv

#### Tratamentos:
- A primeira linha é o cabeçalho e nomes das colunas no DataFrame
- Somente até a linha 401 (cabeçalho mais 400 amostras)
- Ajuste do identificador do paciente - será idxxx
- Alteração da informação genêro para 0(M) e 1(F)
- Colunas: ID, IDADE, SEXO

### Arquivo de Saída: Pacientes_20200414.csv

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

df = pd.read_csv('PacientesGeneroIdade.csv')

print('*** Dados do DataFrame ***')
print('**************************')
print(f'Linhas e Colunas: {df.shape}')
print()
print(df.info())
print()
df.head()

*** Dados do DataFrame ***
**************************
Linhas e Colunas: (1263, 3)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1263 entries, 0 to 1262
Data columns (total 3 columns):
Idade           398 non-null object
Gênero          400 non-null object
Nome_Arquivo    400 non-null object
dtypes: object(3)
memory usage: 29.7+ KB
None



Unnamed: 0,Idade,Gênero,Nome_Arquivo
0,29,M,P1
1,31,M,P2
2,27,M,P3
3,52,M,P4
4,56,M,P5


In [2]:
# Exclusão de linhas - A partir da 401 (inclusive)
df = df.iloc[0:400, :]

print('*** Dados do DataFrame ***')
print('**************************')
print(f'Linhas e Colunas: {df.shape}')
print()
print(df.info())
print()
print(df.head())
print()
print(df.tail())

*** Dados do DataFrame ***
**************************
Linhas e Colunas: (400, 3)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400 entries, 0 to 399
Data columns (total 3 columns):
Idade           398 non-null object
Gênero          400 non-null object
Nome_Arquivo    400 non-null object
dtypes: object(3)
memory usage: 9.5+ KB
None

  Idade Gênero Nome_Arquivo
0    29      M           P1
1    31      M           P2
2    27      M           P3
3    52      M           P4
4    56      M           P5

    Idade Gênero Nome_Arquivo
395    31      F         P396
396    70      M         P397
397    48      F         P398
398    --      M         P399
399    46      F         P400


In [3]:
# Ajustando o padrão do id do paciente - tirando o P do ID e transformando em numérico - coluna 2
for l in range(len(df)):
    dx = df.iloc[l, 2]
    if (len(dx) == 2):
        df.iloc[l, 2] = 'id00' + dx[1:]
    elif (len(dx) == 3):
        df.iloc[l, 2] = 'id0' + dx[1:]
    else:
        df.iloc[l, 2] = 'id' + dx[1:]
        
print('*** Dados do DataFrame ***')
print('**************************')
print(f'Linhas e Colunas: {df.shape}')
print()
print(df.info())
print()
print(df.head())
print()
print(df.tail())

*** Dados do DataFrame ***
**************************
Linhas e Colunas: (400, 3)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400 entries, 0 to 399
Data columns (total 3 columns):
Idade           398 non-null object
Gênero          400 non-null object
Nome_Arquivo    400 non-null object
dtypes: object(3)
memory usage: 9.5+ KB
None

  Idade Gênero Nome_Arquivo
0    29      M        id001
1    31      M        id002
2    27      M        id003
3    52      M        id004
4    56      M        id005

    Idade Gênero Nome_Arquivo
395    31      F        id396
396    70      M        id397
397    48      F        id398
398    --      M        id399
399    46      F        id400


In [4]:
# Tratando os dados faltantes de Idade - Existem dois dados errados ou NaN
print('**** Nulos ou NaN ****')
dfm = df['Idade'].isnull()
print(df[dfm])
print()
df.loc[dfm, 'Idade'] = 0.00
print(df[dfm])

# Tratando dos dados de Idade que não são numéricos
print('**** Não numéricos ****')
dfm = df['Idade'].str.isnumeric()
dfm = dfm == False
print(df[dfm])
print()
df.loc[dfm, 'Idade'] = 0.00
print(df[dfm])
print()

print('**** Colocando a média onde houver 0 ****')
df[["Idade"]] = df[["Idade"]].apply(pd.to_numeric)
media = df['Idade'].mean()

dfm = df['Idade'] == 0.00
print(df[dfm])
print()

df.loc[dfm, 'Idade'] = media
print(df[dfm])
print()
      
# Convertendo Idade para numérico
print('**** Convertendo para inteiro ****')
df = df.astype({"Idade": int})

print('*** Dados do DataFrame ***')
print('**************************')
print(f'Linhas e Colunas: {df.shape}')
print()
print(df.info())
print()
print(df.head())
print()
print(df.tail())
print()

**** Nulos ou NaN ****
    Idade Gênero Nome_Arquivo
309   NaN      M        id310
318   NaN      F        id319

    Idade Gênero Nome_Arquivo
309     0      M        id310
318     0      F        id319
**** Não numéricos ****
    Idade Gênero Nome_Arquivo
324    --      M        id325
390     N      M        id391
398    --      M        id399

    Idade Gênero Nome_Arquivo
324     0      M        id325
390     0      M        id391
398     0      M        id399

**** Colocando a média onde houver 0 ****
     Idade Gênero Nome_Arquivo
309    0.0      M        id310
318    0.0      F        id319
324    0.0      M        id325
390    0.0      M        id391
398    0.0      M        id399

       Idade Gênero Nome_Arquivo
309  46.5025      M        id310
318  46.5025      F        id319
324  46.5025      M        id325
390  46.5025      M        id391
398  46.5025      M        id399

**** Convertendo para inteiro ****
*** Dados do DataFrame ***
**************************
Linhas e Colu

In [5]:
# Vamos transformar a coluna Gênero de M/F para 0/1
print('**** Gêneros ****')
print(df['Gênero'].unique())
print()

gene = pd.get_dummies(df['Gênero'])

# Reconstruindo o DataFrame
daux = pd.DataFrame()
daux['ID'] = df['Nome_Arquivo']
daux['IDADE'] = df['Idade']
daux['GENERO'] = gene['M']

df = daux

print(df['GENERO'].unique())
print()

print('*** Dados do DataFrame ***')
print('**************************')
print(f'Linhas e Colunas: {df.shape}')
print()
print(df.info())
print()
print(df.head())
print()
print(df.tail())
print()

**** Gêneros ****
['M' 'F']

[1 0]

*** Dados do DataFrame ***
**************************
Linhas e Colunas: (400, 3)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400 entries, 0 to 399
Data columns (total 3 columns):
ID        400 non-null object
IDADE     400 non-null int32
GENERO    400 non-null uint8
dtypes: int32(1), object(1), uint8(1)
memory usage: 5.2+ KB
None

      ID  IDADE  GENERO
0  id001     29       1
1  id002     31       1
2  id003     27       1
3  id004     52       1
4  id005     56       1

        ID  IDADE  GENERO
395  id396     31       0
396  id397     70       1
397  id398     48       0
398  id399     46       1
399  id400     46       0



In [6]:
#Gravando o arquivo de Saída
df.to_csv (r'Pacientes_20200414.csv', index = False, header = False)

In [7]:
#Verificando se a gravação foi ok
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
ds = pd.read_csv('Pacientes_20200414.csv', header=None)

print('*** Dados do DataFrame ***')
print('**************************')
print(f'Linhas e Colunas: {ds.shape}')
print()
print(ds.info())
print()
print(ds.head())
print()
print(ds.tail())
print()

*** Dados do DataFrame ***
**************************
Linhas e Colunas: (400, 3)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400 entries, 0 to 399
Data columns (total 3 columns):
0    400 non-null object
1    400 non-null int64
2    400 non-null int64
dtypes: int64(2), object(1)
memory usage: 9.5+ KB
None

       0   1  2
0  id001  29  1
1  id002  31  1
2  id003  27  1
3  id004  52  1
4  id005  56  1

         0   1  2
395  id396  31  0
396  id397  70  1
397  id398  48  0
398  id399  46  1
399  id400  46  0

