# Analíse inicial dos dados
 - Vizualização da Base de Dados
 - Vizualizações Gráficas

## Visualizando a base de dados

In [10]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt


In [11]:
data = r"C:\Users\user\OneDrive\Área de Trabalho\projetos\projeto-mineracao-de-dados\Data\Base Original\pns2019.csv"
df_original = pd.read_csv(data)
df_original.head()

Unnamed: 0,V0001,V0024,UPA_PNS,V0006_PNS,V0015,V0020,V0022,V0026,V0031,V0025A,...,VDE002,VDE014,VDF002,VDF003,VDF004,VDL001,VDM001,VDP001,VDR001,VDDATA
0,11,1110011,110000016,1,1,2019,6.0,1,1,1.0,...,1.0,6.0,2098.0,350.0,2.0,,,,,20210825
1,11,1110011,110000016,1,1,2019,6.0,1,1,0.0,...,,,2098.0,350.0,2.0,,,,,20210825
2,11,1110011,110000016,1,1,2019,6.0,1,1,0.0,...,1.0,4.0,2098.0,350.0,2.0,,,,,20210825
3,11,1110011,110000016,1,1,2019,6.0,1,1,9.0,...,,,2098.0,350.0,2.0,,,,,20210825
4,11,1110011,110000016,1,1,2019,6.0,1,1,9.0,...,,,2098.0,350.0,2.0,,,,,20210825


In [13]:
df_original.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 293726 entries, 0 to 293725
Columns: 1087 entries, V0001 to VDDATA
dtypes: float64(1078), int64(9)
memory usage: 2.4 GB


In [14]:
print("Temos", df_original.shape[0], "linhas e", df_original.shape[1], "colunas.")

Temos 293726 linhas e 1087 colunas.


> **Selecionando colunas a serem utilizadas.**

In [97]:
df = df_original[['V0001',
                  'C008',
                  'Q092',
                  'E001',
                  'C006']].copy()

> **Renomeando colunas para facilitar a análise**

In [98]:
mapeamento = {
    'V0001' : 'Estado',
    'C008' : 'idade',
    'Q092': 'Tem depressão?',
    'E001' : 'Trabalha?',
    'C006' : 'Sexo'
}

df.rename(columns=mapeamento, inplace=True)

In [99]:
df[['idade', 'Estado', 'Tem depressão?', 'Sexo', 'Trabalha?']]

Unnamed: 0,idade,Estado,Tem depressão?,Sexo,Trabalha?
0,55.0,11,1.0,2.0,1.0
1,69.0,11,,1.0,2.0
2,31.0,11,,1.0,1.0
3,9.0,11,,1.0,
4,6.0,11,,2.0,
...,...,...,...,...,...
293721,49.0,53,,2.0,1.0
293722,84.0,53,,1.0,2.0
293723,21.0,53,,1.0,1.0
293724,13.0,53,,2.0,


> **Verificando valores únicos nas colunas utilizadas**

In [100]:
for column in df[['idade', 'Tem depressão?', 'Estado', 'Trabalha?', 'Sexo']]:
    unique_values = df[column].unique()
    print(f'Valores únicos em {column}: {unique_values}')
    print()


Valores únicos em idade: [ 55.  69.  31.   9.   6.   4.  33.  17.  15.  19.  45.  78.  28.  25.
  26.   7.   3.  58.   1.  81.  41.  54.  22.  37.  38.  14.  27.  52.
  36.  56.  nan  72.  53.  50.  60.  35.  30.  21.  23.  42.   0.  49.
  18.  24.  32.  66.  47.  20.  29.  40.  10.   8.  13.  63.  77.  65.
  68.  61.  59.  39.  12.  11.  48.  73.  64.  44.  57.  34.  67.  16.
  51.  46.  62.   5.  85.  74.   2.  76.  75.  43.  94.  80.  71.  70.
  84.  79.  88.  92.  83.  90. 102.  86.  87.  89.  82.  91.  97.  93.
  95.  99. 101. 100.  98. 103. 104. 107.  96. 106. 105. 112.]

Valores únicos em Tem depressão?: [ 1. nan  2.]

Valores únicos em Estado: [11 12 13 14 15 16 17 21 22 23 24 25 26 27 28 29 31 32 33 35 41 42 43 50
 51 52 53]

Valores únicos em Trabalha?: [ 1.  2. nan]

Valores únicos em Sexo: [ 2.  1. nan]



In [101]:
df[['idade', 'Estado', 'Tem depressão?', 'Trabalha?', 'Sexo']].info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 293726 entries, 0 to 293725
Data columns (total 5 columns):
 #   Column          Non-Null Count   Dtype  
---  ------          --------------   -----  
 0   idade           279382 non-null  float64
 1   Estado          293726 non-null  int64  
 2   Tem depressão?  90846 non-null   float64
 3   Trabalha?       225563 non-null  float64
 4   Sexo            279382 non-null  float64
dtypes: float64(4), int64(1)
memory usage: 11.2 MB


## Tratando Atributos



> **Coneventendo Colunas para inteiro**

In [102]:
numeric_columns = df.select_dtypes(include='number').columns
df[numeric_columns] = df[numeric_columns].apply(pd.to_numeric, errors='coerce').astype('Int64')

> **Transformando atributos numericos**


In [103]:
df['Trabalha?'] = df['Trabalha?'].map({1: 'Trabalha', 2: 'Não Trabalha'})
df['Tem depressão?'] = df['Tem depressão?'].map({1: 'Sim', 2: 'Não'})
df['Sexo'] = df['Sexo'].map({1: 'Homem', 2: 'Mulher'})

> **Preenchendo valores vazios com "Não informado".**

In [104]:
df[['idade', 'Estado', 'Tem depressão?', 'Trabalha?', 'Sexo']] = df[['idade', 'Estado', 'Tem depressão?', 'Trabalha?', 'Sexo']].applymap(lambda x: 'Não informado' if pd.isna(x) else x)
df[['idade', 'Estado', 'Tem depressão?', 'Trabalha?', 'Sexo']]

Unnamed: 0,idade,Estado,Tem depressão?,Trabalha?,Sexo
0,55,11,Sim,Trabalha,Mulher
1,69,11,Não informado,Não Trabalha,Homem
2,31,11,Não informado,Trabalha,Homem
3,9,11,Não informado,Não informado,Homem
4,6,11,Não informado,Não informado,Mulher
...,...,...,...,...,...
293721,49,53,Não informado,Trabalha,Mulher
293722,84,53,Não informado,Não Trabalha,Homem
293723,21,53,Não informado,Trabalha,Homem
293724,13,53,Não informado,Não informado,Mulher


In [105]:
df[['idade', 'Estado', 'Tem depressão?', 'Trabalha?', 'Sexo']].info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 293726 entries, 0 to 293725
Data columns (total 5 columns):
 #   Column          Non-Null Count   Dtype 
---  ------          --------------   ----- 
 0   idade           293726 non-null  object
 1   Estado          293726 non-null  int64 
 2   Tem depressão?  293726 non-null  object
 3   Trabalha?       293726 non-null  object
 4   Sexo            293726 non-null  object
dtypes: int64(1), object(4)
memory usage: 11.2+ MB


In [106]:
df.head()

Unnamed: 0,Estado,idade,Tem depressão?,Trabalha?,Sexo
0,11,55,Sim,Trabalha,Mulher
1,11,69,Não informado,Não Trabalha,Homem
2,11,31,Não informado,Trabalha,Homem
3,11,9,Não informado,Não informado,Homem
4,11,6,Não informado,Não informado,Mulher


In [107]:
for column in df[['idade', 'Tem depressão?', 'Estado', 'Trabalha?', 'Sexo']]:
    unique_values = df[column].unique()
    print(f'Valores únicos em {column}: {unique_values}')
    print()

Valores únicos em idade: [55 69 31 9 6 4 33 17 15 19 45 78 28 25 26 7 3 58 1 81 41 54 22 37 38 14
 27 52 36 56 'Não informado' 72 53 50 60 35 30 21 23 42 0 49 18 24 32 66
 47 20 29 40 10 8 13 63 77 65 68 61 59 39 12 11 48 73 64 44 57 34 67 16 51
 46 62 5 85 74 2 76 75 43 94 80 71 70 84 79 88 92 83 90 102 86 87 89 82 91
 97 93 95 99 101 100 98 103 104 107 96 106 105 112]

Valores únicos em Tem depressão?: ['Sim' 'Não informado' 'Não']

Valores únicos em Estado: [11 12 13 14 15 16 17 21 22 23 24 25 26 27 28 29 31 32 33 35 41 42 43 50
 51 52 53]

Valores únicos em Trabalha?: ['Trabalha' 'Não Trabalha' 'Não informado']

Valores únicos em Sexo: ['Mulher' 'Homem' 'Não informado']



> **Renomeando atributos de Estado**

In [108]:
mapeamento_estado = {
    11: 'Rondônia',
    12: 'Acre',
    13: 'Amazonas',
    14: 'Roraima',
    15: 'Pará',
    16: 'Amapá',
    17: 'Tocantins',
    21: 'Maranhão',
    22: 'Piauí',
    23: 'Ceará',
    24: 'Rio Grande do Norte',
    25: 'Paraíba',
    26: 'Pernambuco',
    27: 'Alagoas',
    28: 'Sergipe',
    29: 'Bahia',
    31: 'Minas Gerais',
    32: 'Espírito Santo',
    33: 'Rio de Janeiro',
    35: 'São Paulo',
    41: 'Paraná',
    42: 'Santa Catarina',
    43: 'Rio Grande do Sul',
    50: 'Mato Grosso do Sul',
    51: 'Mato Grosso',
    52: 'Goiás',
    53: 'Distrito Federal'
}

df['Estado'] = df['Estado'].map(mapeamento_estado)

> **Adicionando coluna de regiões** 

In [109]:

regioes_por_estado = {
    'Acre': 'Norte',
    'Alagoas': 'Nordeste',
    'Amapá': 'Norte',
    'Amazonas': 'Norte',
    'Bahia': 'Nordeste',
    'Ceará': 'Nordeste',
    'Distrito Federal': 'Centro-Oeste',
    'Espírito Santo': 'Sudeste',
    'Goiás': 'Centro-Oeste',
    'Maranhão': 'Nordeste',
    'Mato Grosso': 'Centro-Oeste',
    'Mato Grosso do Sul': 'Centro-Oeste',
    'Minas Gerais': 'Sudeste',
    'Pará': 'Norte',
    'Paraíba': 'Nordeste',
    'Paraná': 'Sul',
    'Pernambuco': 'Nordeste',
    'Piauí': 'Nordeste',
    'Rio de Janeiro': 'Sudeste',
    'Rio Grande do Norte': 'Nordeste',
    'Rio Grande do Sul': 'Sul',
    'Rondônia': 'Norte',
    'Roraima': 'Norte',
    'Santa Catarina': 'Sul',
    'São Paulo': 'Sudeste',
    'Sergipe': 'Nordeste',
    'Tocantins': 'Norte'
}

df['Região'] = df['Estado'].map(regioes_por_estado)



In [110]:
df.head()

Unnamed: 0,Estado,idade,Tem depressão?,Trabalha?,Sexo,Região
0,Rondônia,55,Sim,Trabalha,Mulher,Norte
1,Rondônia,69,Não informado,Não Trabalha,Homem,Norte
2,Rondônia,31,Não informado,Trabalha,Homem,Norte
3,Rondônia,9,Não informado,Não informado,Homem,Norte
4,Rondônia,6,Não informado,Não informado,Mulher,Norte


In [111]:

df = df[['idade', 'Estado', 'Tem depressão?', 'Trabalha?', 'Região', 'Sexo']]
df.to_csv("base_filtrada.csv")