#**CERTIFICAÇÕES ISO PELO MUNDO - TRATANDO DADOS**


---

---

A ISO é a Organização Internacional para Normatização, instituição que compila padrões de padronização para diversas áreas e setores. É responsável pela publicação de diversas normas que auxiliam na padronização da produção de materiais, assim como da prestação de serviços, incluindo as abordadas no estudo que faremos a seguir (ISO 9001, ISO 14001 e ISO 45001).

<p align=center>
  <img src="https://cflog.com.br/wp-content/uploads/2015/10/maio-amarelo.jpg" height="100px">
</p>

A fim de estudar metologias para tratamento de dados, foi utilizado o dataset disponibilizado pela ISO no endereço https://bit.ly/3pR7NAG.


O dataset objeto do estudo traz dados referentes a quantidade de certificados no ano de 2019 em todo o mundo, classificados por países.

Devemos ressaltar que o tratamento dos dados é uma fase importatíssima em projetos de Data Science, visto que a utilização de dados "Sujos" geram análises não confiáveis e podem levar a decisões estratégicas que não refletem a realizadade.

In [105]:
# Importando o pacote necessário
import pandas as pd

In [None]:
# Importando o arquivo excel para um DataFrame pandas
xls = pd.ExcelFile('iso_survey.xlsx')

In [None]:
# Separando as abas do arquivo excel em variáveis diferentes a fim de facilitar o tratamento dos dados
overview = xls.parse(0)
iso_9001 = xls.parse(1)
iso_9001_sectors = xls.parse(2)
iso_14001 = xls.parse(3)
iso_14001_sectors = xls.parse(4)
iso_45001 = xls.parse(5)
iso_45001_sectors = xls.parse(6)

In [None]:
#Visualizando o DataFrame relativo a ISO 45001
iso_45001

Unnamed: 0,ISO 45001:2018 Occupational health and safety management systems -- Requirements with guidance for use,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4
0,Country,certificates,sites,,
1,Afghanistan,,7,,
2,Albania,43,46,,
3,Algeria,34,64,,
4,Andorra,1,7,,
...,...,...,...,...,...
192,Venezuela (Bolivarian Republic of),1,,,
193,Viet Nam,304,404,,
194,Yemen,,,,
195,Zambia,4,9,,


A visualização do DataFrame é um passo muito importante em qualquer projeto de DataScience, pois é através da visualização que conseguimos entender melhor os dados que estamos trabalhando e verificar o rumo a ser seguido no tratamento.

In [None]:
# Exclusão da primeira linha do DataFrame, que não será utilizada
iso_45001.drop(0, inplace=True)
iso_45001

Unnamed: 0,ISO 45001:2018 Occupational health and safety management systems -- Requirements with guidance for use,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4
1,Afghanistan,,7,,
2,Albania,43,46,,
3,Algeria,34,64,,
4,Andorra,1,7,,
5,Angola,3,6,,
...,...,...,...,...,...
192,Venezuela (Bolivarian Republic of),1,,,
193,Viet Nam,304,404,,
194,Yemen,,,,
195,Zambia,4,9,,


O argumento inplace=True é o que determina que a alteração realizada no DataFrame será salva no arquivo original e não apenas criada uma cópia com a alteração.

Se utilizado inplace=False (padrão) é criada uma cópia do DataFrame com a alteração realizada, porém o DataFrame original não é alterado, ou seja, se logo após a alteração chamarmos o DataFrame original ele será mostrado sem a alteração.

In [None]:
# Visualização das variáveis (colunas) presentes no DataFrame
iso_45001.columns

Index(['ISO 45001:2018 Occupational health and safety management systems -- Requirements with guidance for use',
       'Unnamed: 1', 'Unnamed: 2', 'Unnamed: 3', 'Unnamed: 4'],
      dtype='object')

In [None]:
# Excluindo as colunas que não serão utilizadas
iso_45001.drop(columns=['Unnamed: 3', 'Unnamed: 4'], inplace=True)
iso_45001

Unnamed: 0,ISO 45001:2018 Occupational health and safety management systems -- Requirements with guidance for use,Unnamed: 1,Unnamed: 2
1,Afghanistan,,7
2,Albania,43,46
3,Algeria,34,64
4,Andorra,1,7
5,Angola,3,6
...,...,...,...
192,Venezuela (Bolivarian Republic of),1,
193,Viet Nam,304,404
194,Yemen,,
195,Zambia,4,9


A exclusão de dados desnecessários do DataFrame que iremos utilizar garante que nosso código rode com mais agilidade, pois ao excluir dados desnecessários reduzimos o tamanho do DataFrame.

In [None]:
# Renomeando as colunas do DataFrame
iso_45001.columns = ['Países', 'Certificados ISO 45001', 'Sites']
iso_45001

Unnamed: 0,Países,Certificados ISO 45001,Sites
1,Afghanistan,,7
2,Albania,43,46
3,Algeria,34,64
4,Andorra,1,7
5,Angola,3,6
...,...,...,...
192,Venezuela (Bolivarian Republic of),1,
193,Viet Nam,304,404
194,Yemen,,
195,Zambia,4,9


In [None]:
# Verificando quantos valores nulos existem em cada coluna
iso_45001.isnull().sum()

Países                     0
Certificados ISO 45001    41
Sites                     34
dtype: int64

In [None]:
# Substituindo os valores nulos por '0'
iso_45001.fillna(0, inplace=True)
iso_45001

Unnamed: 0,Países,Certificados ISO 45001,Sites
1,Afghanistan,0,7
2,Albania,43,46
3,Algeria,34,64
4,Andorra,1,7
5,Angola,3,6
...,...,...,...
192,Venezuela (Bolivarian Republic of),1,0
193,Viet Nam,304,404
194,Yemen,0,0
195,Zambia,4,9


Existe a opção de excluir as linhas onde estão os valores nulos, porém como para a análise aqui realizada mesmo que um valor seja nulo, o outro valor da linha é relevante, por isso foi decidido manter a linha apenas substituindo o nulo pelo valor 0.

In [None]:
# Verificando o tamanho do DataFrame (linhas e colunas - Variáveis)
iso_45001.shape

(196, 3)

A função shape retorna o tamanho do DataFrame, sempre seguindo o mesmo padrão.


(Quantidade de linhas, Quantidade de colunas (Variáveis))

In [None]:
# Estabelecendo a coluna 'Países' como index do DataFrame
iso_45001.set_index('Países', inplace=True)
iso_45001

Unnamed: 0_level_0,Certificados ISO 45001,Sites
Países,Unnamed: 1_level_1,Unnamed: 2_level_1
Afghanistan,0,7
Albania,43,46
Algeria,34,64
Andorra,1,7
Angola,3,6
...,...,...
Venezuela (Bolivarian Republic of),1,0
Viet Nam,304,404
Yemen,0,0
Zambia,4,9


In [None]:
# Realizando uma consulta na coluna 'Países' a fim de verificar somente as certificações do Brasil 
iso_45001.query('Países == "Brazil"')

Unnamed: 0_level_0,Certificados ISO 45001,Sites
Países,Unnamed: 1_level_1,Unnamed: 2_level_1
Brazil,216,668


In [None]:
#Visualizando o DataFrame relativo a ISO 9001
iso_9001

Unnamed: 0,ISO 9001:2015 Quality management systems,Unnamed: 1,Unnamed: 2,Unnamed: 3
0,Country,certificates,sites,
1,Afghanistan,5,7,
2,Albania,363,405,
3,Algeria,499,1082,
4,Andorra,27,37,
...,...,...,...,...
193,Venezuela (Bolivarian Republic of),106,143,
194,Viet Nam,3441,4261,
195,Yemen,10,11,
196,Zambia,33,60,


In [None]:
# Excluindo a primeira linha do DataFrame, pois não será utilizada
iso_9001.drop(0, inplace=True)

In [None]:
iso_9001

Unnamed: 0,ISO 9001:2015 Quality management systems,Unnamed: 1,Unnamed: 2,Unnamed: 3
1,Afghanistan,5,7,
2,Albania,363,405,
3,Algeria,499,1082,
4,Andorra,27,37,
5,Angola,78,172,
...,...,...,...,...
193,Venezuela (Bolivarian Republic of),106,143,
194,Viet Nam,3441,4261,
195,Yemen,10,11,
196,Zambia,33,60,


In [None]:
# Excluindo as colunas que não serão utilizadas no DataFrame
iso_9001.drop(columns='Unnamed: 3', inplace=True)
iso_9001

Unnamed: 0,ISO 9001:2015 Quality management systems,Unnamed: 1,Unnamed: 2
1,Afghanistan,5,7
2,Albania,363,405
3,Algeria,499,1082
4,Andorra,27,37
5,Angola,78,172
...,...,...,...
193,Venezuela (Bolivarian Republic of),106,143
194,Viet Nam,3441,4261
195,Yemen,10,11
196,Zambia,33,60


In [None]:
# Renomeando as colunas do DataFrame
iso_9001.columns = ['Países', 'Certificados ISO 9001', 'Sites']
iso_9001

Unnamed: 0,Países,Certificados ISO 9001,Sites
1,Afghanistan,5,7
2,Albania,363,405
3,Algeria,499,1082
4,Andorra,27,37
5,Angola,78,172
...,...,...,...
193,Venezuela (Bolivarian Republic of),106,143
194,Viet Nam,3441,4261
195,Yemen,10,11
196,Zambia,33,60


In [None]:
# Verificando a quantidade de valores nulos que existem em cada coluna do DataFrame
iso_9001.isnull().sum()

Países                   0
Certificados ISO 9001    5
Sites                    6
dtype: int64

In [None]:
# Substituindo os valores nulos por '0'.
iso_9001.fillna(0, inplace=True)
iso_9001

Unnamed: 0,Países,Certificados ISO 9001,Sites
1,Afghanistan,5,7
2,Albania,363,405
3,Algeria,499,1082
4,Andorra,27,37
5,Angola,78,172
...,...,...,...
193,Venezuela (Bolivarian Republic of),106,143
194,Viet Nam,3441,4261
195,Yemen,10,11
196,Zambia,33,60


In [None]:
# Estabelecendo a coluna 'Países' como index do DataFrame
iso_9001.set_index('Países', inplace=True)
iso_9001

Unnamed: 0_level_0,Certificados ISO 9001,Sites
Países,Unnamed: 1_level_1,Unnamed: 2_level_1
Afghanistan,5,7
Albania,363,405
Algeria,499,1082
Andorra,27,37
Angola,78,172
...,...,...
Venezuela (Bolivarian Republic of),106,143
Viet Nam,3441,4261
Yemen,10,11
Zambia,33,60


In [None]:
# Realizando uma consulta no DataFrame utilizando a coluna 'Países', a fim de verificar apenas os dados do Brasil
iso_9001.query('Países == "Brazil"')

Unnamed: 0_level_0,Certificados ISO 9001,Sites
Países,Unnamed: 1_level_1,Unnamed: 2_level_1
Brazil,17952,27262


In [None]:
# Verificando o tamanho do DataFrame (Linhas e colunas - Variáveis)
iso_9001.shape

(197, 2)

In [None]:
# Visualizando o DataFrame correspondente a ISO 14001
iso_14001

Unnamed: 0,ISO 14001:2015 Environmental management systems -- Requirements with guidance for use,Unnamed: 1,Unnamed: 2,Unnamed: 3
0,Country,certificates,sites,
1,Afghanistan,1,1,
2,Albania,151,157,
3,Algeria,124,213,
4,Andorra,11,21,
...,...,...,...,...
193,Venezuela (Bolivarian Republic of),12,24,
194,Viet Nam,1487,1764,
195,Yemen,9,9,
196,Zambia,13,30,


In [None]:
# Excluindo a primeira linha do DataFrame, que não será utilizada
iso_14001.drop(0, inplace=True)
iso_14001

Unnamed: 0,ISO 14001:2015 Environmental management systems -- Requirements with guidance for use,Unnamed: 1,Unnamed: 2,Unnamed: 3
1,Afghanistan,1,1,
2,Albania,151,157,
3,Algeria,124,213,
4,Andorra,11,21,
5,Angola,11,31,
...,...,...,...,...
193,Venezuela (Bolivarian Republic of),12,24,
194,Viet Nam,1487,1764,
195,Yemen,9,9,
196,Zambia,13,30,


Em Python a contagem sempre se inicia em 0, devido a isso a primeira linha é referenciada como índice '0' para exclusão.

In [None]:
# Visualizando as colunas (Variáveis) presentes no DataFrame
iso_14001.columns

Index(['ISO 14001:2015 Environmental management systems -- Requirements with guidance for use',
       'Unnamed: 1', 'Unnamed: 2', 'Unnamed: 3'],
      dtype='object')

In [None]:
# Excluindo as colunas que não serão utilizadas
iso_14001.drop(columns=['Unnamed: 3'], inplace=True)
iso_14001

Unnamed: 0,ISO 14001:2015 Environmental management systems -- Requirements with guidance for use,Unnamed: 1,Unnamed: 2
1,Afghanistan,1,1
2,Albania,151,157
3,Algeria,124,213
4,Andorra,11,21
5,Angola,11,31
...,...,...,...
193,Venezuela (Bolivarian Republic of),12,24
194,Viet Nam,1487,1764
195,Yemen,9,9
196,Zambia,13,30


In [None]:
# Renomeando as colunas do DataFrame
iso_14001.columns = ['Países', 'Certificados ISO 14001', 'Sites']
iso_14001

Unnamed: 0,Países,Certificados ISO 14001,Sites
1,Afghanistan,1,1
2,Albania,151,157
3,Algeria,124,213
4,Andorra,11,21
5,Angola,11,31
...,...,...,...
193,Venezuela (Bolivarian Republic of),12,24
194,Viet Nam,1487,1764
195,Yemen,9,9
196,Zambia,13,30


In [None]:
# Verificando as quantidade de valores nulos em cada coluna
iso_14001.isnull().sum()

Países                     0
Certificados ISO 14001    20
Sites                     18
dtype: int64

In [None]:
# Substituindo os valores nulos por '0'
iso_14001.fillna(0, inplace=True)
iso_14001

Unnamed: 0,Países,Certificados ISO 14001,Sites
1,Afghanistan,1,1
2,Albania,151,157
3,Algeria,124,213
4,Andorra,11,21
5,Angola,11,31
...,...,...,...
193,Venezuela (Bolivarian Republic of),12,24
194,Viet Nam,1487,1764
195,Yemen,9,9
196,Zambia,13,30


In [None]:
# Estabelecendo a coluna 'Países' como index do DataFrame
iso_14001.set_index('Países', inplace=True)
iso_14001

Unnamed: 0_level_0,Certificados ISO 14001,Sites
Países,Unnamed: 1_level_1,Unnamed: 2_level_1
Afghanistan,1,1
Albania,151,157
Algeria,124,213
Andorra,11,21
Angola,11,31
...,...,...
Venezuela (Bolivarian Republic of),12,24
Viet Nam,1487,1764
Yemen,9,9
Zambia,13,30


In [None]:
# Realizando uma consulta no DataFrame utilizando a coluna 'Países', a fim de verificar apenas os dados do Brasil
iso_14001.query('Países == "Brazil"')

Unnamed: 0_level_0,Certificados ISO 14001,Sites
Países,Unnamed: 1_level_1,Unnamed: 2_level_1
Brazil,2969,6807


Podemos perceber que o processo de tratamento dos dados, além de ser de extrema importância para a futura análise, deve ser realizado totalmente focado no objetivo de utilização dos dados, ou seja, dependendo do objetivo para qual os dados serão utilizados, por exemplo, colunas que serão utilizadas visando um objetivo podem não ter relevância quando o objetivo for outro.


Existem diversas metodologias, ferramentas e tecnologias que podem ser utilizadas para realizar não só o tratamento, mas desde a coleta até a análise dos dados. O objetivo deste projeto foi apenas demonstrar um processo de tratamento de dados, a fim de exemplificar e ajudar a quem possa ter dificuldades na hora do tratamento dos dados. 

