# **Tipos de dados**

O machine learning utiliza de algoritmos para entender o padrão, a lógica por trás dos dados, o que dá origem a um conjunto de resultados que são utilizados para prever ou classificar novos valores.

Sabe-se que os dados são as principais ferramentas nesses algoritmos e que existe uma diversidade de dados diferentes, os quais cada um desses receberá um pré-processamento diferente.

O pré-processamento é a parte a qual mais demanda tempo em todo o projeto no geral. É um processo com um conjunto de etapas, sendo fundamental para uma boa análise e um bom resultado final

De modo geral, existem 3 grandes classificações de estruturas de dados que precisamos saber, sendo elas:

## Dados estruturados



São os dados organizados e provavelmente tabelados, costuma-se ser bem organizados e planejados. Normalmente são etiquetados em linhas e colunas, um exemplo deste são os: Bancos de dados relacionais, planilhas excel, arquivos CSV.

A seguir, veremos como é organizado um arquivo CSV e como ler em um código

![image.png](attachment:83254981-f2d9-4bee-89f8-6c7b619263ec.png)

In [None]:
## Para se ler esse tipo de dados, normalmente utiliza-se a biblioteca Pandas ##

import pandas as pd

## Por exemplo, importaremos a seguir um arquivo CSV, que são dados tabelados separados por vírgula ##

data = pd.read_csv('../input/titanic/test.csv')

## A seguir, vemos como os dados são apresentados a nós ##

data.head()


Dessa forma, é muito mais simples de trabalhar e visualizar os dados em si.

## Dados semiestruturados

Esses são dados parecidos com os estruturados pois também possuem uma estrutura, porém, não esta de acordo com as estruturas formais dos modelos associados a bancos de dados relacionais ou outras formas de tabelas de dados. Estes possuem marcadores para separar os elementos entre si. Exemplos deste são: Arquivos XML, JSON, HTML

A seguir, veremos como funciona a organização de um JSON e como ler este tipo em um código

![image.png](attachment:ba0011f8-1c1a-4dd5-8079-9a4c93f5c81f.png)

In [None]:
## Novamente, é necessário importar a biblioteca Pandas para ler os arquivos em .JSON ##

import pandas as pd

## Para carregar os dados, utilizamos o comando a seguir ##

data = pd.read_json('../input/iris-dataset-json-version/iris.json') 

## Por último, vamos vizualizar a tabela gerada ##

data.head()

## Dados não estruturados

Por último, temos os dados que não possuem uma estrutura. Para gerar um insight sobre esses dados acaba sendo mais complexo o pré-processamento. São exemplos deste: documentos de texto, audio, imagens

Para processar esse tipo de dados existe um trabalho maior pois nem tudo será intuitivo. Por exemplo o pré-processamento de arquivos de texto; Normalmente é requerido processos de vetorização, já que nos algoritmos de IA são permitidos apenas a entrada de números, então neste pré-processamento haveria a necessidade de transformar o texto para vetores o que nem sempre é uma tarefa fácil.

A seguir, mostraremos o pré-processamento de alguns dados os quais serão introduzidos em um algoritmo de classificação. Os dados em questão, são fotos de folhas com um fundo atrás, nosso objetivo é recortar da melhor forma possível as folhas para utiliza-las no algoritmo.

In [27]:
import cv2 as cv
import numpy as np
import matplotlib.pyplot as plt
from PIL import Image

## Inicialmente, importamos a imagem ##
img1 = cv.imread("../input/leafspicsfor/011221009R33B.tiff")
img2 = cv.imread('../input/leafspicsfor/011221010R33C.tiff')
img3 = cv.imread('../input/leafspicsfor/01R33.tiff')

f, ax = plt.subplots(2,3)
i = 0

for img in [img1, img2, img3]:
    ax[0,i].imshow(cv.cvtColor(img, cv.COLOR_BGR2RGB))
    hsv = cv.cvtColor(img, cv.COLOR_BGR2HSV)# converte as cores das imagens para HSV
    # Limites inferiores e superiores para a cor verde
    lower_bound_green = np.array([30, 0, 0])
    upper_bound_green = np.array([70, 180, 180])
    plt.axis('off')
    # Limites inferiores e superiores para a cor laranja
    lower_bound_orange = np.array([6, 100, 20])
    upper_bound_orange = np.array([27, 255, 255])

    # Aplica as máscaras 
    mask_green = cv.inRange(hsv, lower_bound_green, upper_bound_green)
    #mask_orange = cv.inRange(hsv, lower_bound_orange, upper_bound_orange)
    #mask = cv.bitwise_or(mask_green, mask_orange)

    image = cv.bitwise_and(img,img,mask=mask_green)

    ax[1,i].imshow(cv.cvtColor(image, cv.COLOR_BGR2RGB))
    i += 1

## Pré-processamento de Dados

Por último, temos que entender o qual importante é o pré-processamento, e como fazer isto. Abaixo temos um diagrama explicando resumidamente o processo da construção de uma AI, onde lemos os dados, organizamos, pré-processamos e por fim testamos o algortimo.

Essas etapas serão vistas com mais detalhes e importância mais a frente na apostila.

![image.png](attachment:06f3ad0c-512c-4356-b29c-41722a7bc390.png)