# Trabalhando com dados

A ideia desse tutorial é dar uma visão geral das ferramentas e técnicas mais populares para o trabalho com dados. Por isso, abordaremos alguns dos passos da análise de dados como: preparação; visualização; consumo e armazenamento. 

## 1) Consumo

Podemos consumir muitos tipos diferentes de dados como *.csv, *.txt, *.xlsx, etc. e também API's. 

### Google 
Se você estiver usando o Google Colab e a sua massa de dados estiver no seu Google Drive ou no seu computador, primeiro é preciso dispobilizar o dado pra depois consumir.

In [0]:
### só se for importar o arquivo do drive
from google.colab import drive
root = "/content/drive/" ### seu caminho
drive.mount(root)

Go to this URL in a browser: https://accounts.google.com/o/oauth2/auth?client_id=947318989803-6bn6qk8qdgf4n4g3pfee6491hc0brc4i.apps.googleusercontent.com&redirect_uri=urn%3aietf%3awg%3aoauth%3a2.0%3aoob&response_type=code&scope=email%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdocs.test%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdrive%20https%3a%2f%2fwww.googleapis.com%2fauth%2fdrive.photos.readonly%20https%3a%2f%2fwww.googleapis.com%2fauth%2fpeopleapi.readonly

Enter your authorization code:
··········
Mounted at /content/drive/


In [0]:
### só se seu arquivo estiver no seu computador
from google.colab import files
files.upload()

In [0]:
import pandas as pd
df_teste=pd.read_excel('Comments.xlsx')
print(df_teste.head())

### Pandas
Utilizando a biblioteca pandas você pode importar muitos tipos diferentes de arquivos, como *.csv, *txt, etc. Cada um tem sua função, contudo, tem-se muitas opções.

In [0]:
### importando arquivos do tipo *.csv
### Perfil dos educandos da Cidade de São Paulo - Dez/2019 
import pandas as pd
df = pd.read_csv('/content/drive/My Drive/Colab Notebooks/idadeserieneeracadez19.csv', sep=';')

### API's
Atualmente existem muitas API's disponíveis. Estas facilitam a vida dos desenvolvedores, pois muitas vezes trazem o resultado pronto pra consumo. Neste contexto existe a API do Twitter que é bem conhecida e utilizada, logo, a usaremos pra demonstrar como se trabalhar com esse tipo de tecnologia.

In [0]:
import json
import requests

In [0]:
api_token = '753cc0dc1c767edf29187491caf01e94' ### não esqueça que expira
api_url_base = 'https://gatewayapi.prodam.sp.gov.br:443/saude/ubs/v1.0'
headers = {'Content-Type': 'application/json',
           'Authorization': 'Bearer {0}'.format(api_token)}

In [0]:
r= requests.get(api_url_base, headers=headers)
print(r)

<Response [200]>


In [0]:
print(r.content)

b'[{"codigoNacionalSaude":2026961,"codigoUBS":928,"enderecoUBS":"R. AIRES QUARESMA","numeroEnderecoUBS":"11","cepUBS":"03286-095","bairroEnderecoUBS":"VILA HELOISA","horarioFuncionamentoUBS":"","geoLocalizacaoUSB":[{"latitude":-23.58975,"longitude":-46.534832}],"tipoPrimeiroNivelUBS":5,"tipoSengundoNivelUBS":"28|110","nomeTipoPrimeiroNivelUBS":"UBS/ Posto de Sa\xc3\xbade/ Centro de Sa\xc3\xbade|Vacina\xc3\xa7\xc3\xa3o","nomeTipoSengundoNivelUBS":"UBS/ Posto de Sa\xc3\xbade/ Centro de Sa\xc3\xbade|Vacina BCG em hor\xc3\xa1rio especial. Consulte a UBS ! #<span style=\\"cursor: pointer; color:rgb(47,144,147); font-weight:bold;\\" onclick=\\"javascript:window.open(\'http://www.prefeitura.sp.gov.br/cidade/secretarias/upload/Vacinacao%20BCG.pdf\');\\">Clique aqui</span>","telefone1UBS":"2302-2347","telefone2UBS":"2910-4068","exibirReferenciaUBS":false,"informacoesIdentificacaoUBS":"UBS VILA HELOISA 2026961 UBS VILA HELOISA R. AIRES QUARESMA 11 VILA HELOISA UBS/ Posto de Sa\xc3\xbade/ Centro 

In [0]:
json_str = json.dumps(r.json())
df_api= pd.read_json(json_str)
print(df_api)

     codigoNacionalSaude  ...                        informacoesIdentificacaoUBS
0                2026961  ...  UBS VILA HELOISA 2026961 UBS VILA HELOISA R. A...
1                2026988  ...  AMA/UBS INTEGRADA VILA CALIFORNIA - ZEILIVAL B...
2                2026996  ...  AMA/UBS INTEGRADA JOSE BONIFACIO I 2026996 AMA...
3                2027003  ...  CAPS INFANTOJUVENIL II LAPA 2027003 CAPS INFAN...
4                2027011  ...  UBS JARDIM CARRÃOZINHO 2027011 UBS JARDIM CARR...
..                   ...  ...                                                ...
977              9831061  ...  CER JARDIM SOARES 9831061 CER JARDIM SOARES R....
978              9844570  ...  CER II JD CLIPER 9844570 CER II JD CLIPER R. D...
979              9844589  ...  CER II MILTON ALDRED 9844589 CER II MILTON ALD...
980              9844597  ...  CER PARQUE ARTHUR ALVIM 9844597 CER PARQUE ART...
981              9882170  ...  AMA ESPEC. PEDIATRICAS CAMPO LIMPO 9882170 AMA...

[982 rows x 16 columns]


### Imagens
Existem algumas bilbiotecas que fazem a importação de arquivos *.jpeg, contudo, uma das mais famosas e fáceis de usar é a Pillow.

In [0]:
## quando você precisa usar uma nova biblioteca que não está instalada, esse é o código para instalar: ! pip install <sua_biblioteca>
! pip install pillow



In [0]:
from PIL import Image
try:
    im = Image.open( '/content/drive/My Drive/Colab Notebooks/imagem.jpeg' )
except:
    print ("Unable to load image")
im.show()

In [0]:
print(im.format, im.size, im.mode)

PNG (430, 323) RGBA


## 2) Exploração


In [0]:
## para visualizar os 5 primeiros itens do seu dataset.
df.head()

In [0]:
#mostra as 5 ultimas linhas do seu dataframe
df.tail() 

In [0]:
#escolhe uma linha aleatoria do seu dataframe
df.sample() 

In [0]:
### para conhecer as características do df
df.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 534975 entries, 0 to 534974
Data columns (total 19 columns):
dre          534975 non-null object
codes        534975 non-null int64
tipoesc      534975 non-null object
nomesc       534975 non-null object
distrito     534975 non-null object
setor        534975 non-null int64
ano          534975 non-null int64
rede         526530 non-null object
modal        534975 non-null object
descserie    534975 non-null object
periodo      534975 non-null object
turno        534975 non-null int64
descturno    534975 non-null object
sexo         534975 non-null object
idade        534975 non-null float64
nee          534975 non-null object
raca         534901 non-null object
qtd          534975 non-null int64
database     534975 non-null object
dtypes: float64(1), int64(5), object(13)
memory usage: 77.5+ MB


In [0]:
#mostra algumas estatísticas das colunas do seu dataframe
df.describe() 

In [0]:
### para saber o número de linhas e colunas
df.shape

(526456, 19)

In [0]:
#mostra determinada coluna do seu dataframe como series
df['distrito'] 

In [0]:
#mostra determinada coluna do seu dataframe como dataframe
df[['distrito']] 

In [0]:
### para saber quantos valores únicos temos em cada coluna
df.nunique()

In [0]:
### para saber quais são os itens únicos de uma determinada coluna
df['raca'].unique()

In [0]:
### para saber quantas vezes cada valor único apareceu em determinada coluna
df['raca'].value_counts()

In [0]:
### média de todas as idades
df['idade'].mean()

## 3) Transformação

In [0]:
#remoção dos valores nulos de um dataframe
df.dropna() 

Unnamed: 0,dre,codes,tipoesc,nomesc,distrito,setor,ano,rede,modal,descserie,periodo,turno,descturno,sexo,idade,nee,raca,qtd,database
0,BT,191,EMEF,"ALIPIO CORREA NETO, PROF",VILA SONIA,9404,2019,DIR,ATCOMP,ESPORTE - TABULEIRO - XADREZ,DIURNO,3,Tarde,F,13.0,NAO POSSUI,BRANCA,1,27/12/2019
1,BT,191,EMEF,"ALIPIO CORREA NETO, PROF",VILA SONIA,9404,2019,DIR,ATCOMP,ESPORTE - TABULEIRO - XADREZ,DIURNO,3,Tarde,M,12.0,NAO POSSUI,BRANCA,2,27/12/2019
2,BT,191,EMEF,"ALIPIO CORREA NETO, PROF",VILA SONIA,9404,2019,DIR,ATCOMP,ESPORTE - TABULEIRO - XADREZ,DIURNO,3,Tarde,M,12.0,NAO POSSUI,PARDA,1,27/12/2019
3,BT,191,EMEF,"ALIPIO CORREA NETO, PROF",VILA SONIA,9404,2019,DIR,ATCOMP,ESPORTE - TABULEIRO - XADREZ,DIURNO,3,Tarde,M,12.0,NAO POSSUI,RECUSOU INFORMAR,1,27/12/2019
4,BT,191,EMEF,"ALIPIO CORREA NETO, PROF",VILA SONIA,9404,2019,DIR,ATCOMP,ESPORTE - TABULEIRO - XADREZ,DIURNO,3,Tarde,M,13.0,NAO POSSUI,BRANCA,1,27/12/2019
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
534970,SM,700044,CEU AT COMPL,ALTO ALEGRE,IGUATEMI,3304,2019,DIR,ATCOMP,ESPORTE - TEC COMB - GINASTICA ARTISTICA,DIURNO,3,Tarde,M,8.0,NAO POSSUI,BRANCA,1,27/12/2019
534971,SM,700044,CEU AT COMPL,ALTO ALEGRE,IGUATEMI,3304,2019,DIR,ATCOMP,ESPORTE - TEC COMB - GINASTICA ARTISTICA,DIURNO,3,Tarde,M,13.0,NAO POSSUI,NAO INFORMADA,1,27/12/2019
534972,SM,700044,CEU AT COMPL,ALTO ALEGRE,IGUATEMI,3304,2019,DIR,ATCOMP,ESPORTE - TEC COMB - GINASTICA ARTISTICA,DIURNO,3,Tarde,M,14.0,NAO POSSUI,BRANCA,2,27/12/2019
534973,SM,700044,CEU AT COMPL,ALTO ALEGRE,IGUATEMI,3304,2019,DIR,ATCOMP,ESPORTE - TEC COMB - GINASTICA ARTISTICA,DIURNO,3,Tarde,M,15.0,NAO POSSUI,BRANCA,1,27/12/2019


In [0]:
df.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 534975 entries, 0 to 534974
Data columns (total 19 columns):
dre          534975 non-null object
codes        534975 non-null int64
tipoesc      534975 non-null object
nomesc       534975 non-null object
distrito     534975 non-null object
setor        534975 non-null int64
ano          534975 non-null int64
rede         526530 non-null object
modal        534975 non-null object
descserie    534975 non-null object
periodo      534975 non-null object
turno        534975 non-null int64
descturno    534975 non-null object
sexo         534975 non-null object
idade        534975 non-null float64
nee          534975 non-null object
raca         534901 non-null object
qtd          534975 non-null int64
database     534975 non-null object
dtypes: float64(1), int64(5), object(13)
memory usage: 77.5+ MB


IMPORTANTE! No pandas, as operações não são feitas no dataframe original, ele sempre cria uma cópia do dataframe. Então, se você for ver o seu dataframe agora, ele ainda vai ter a coluna que foi apagada na linha anterior.

In [0]:
### significa que iremos sobrescrever o dataframe
df=df.dropna()
df.info() 

In [0]:
### criar uma nova coluna
df['concatenacao']= df['sexo'] + df['raca']
print(df.head)

<bound method NDFrame.head of         dre   codes       tipoesc  ... qtd    database       concatenacao
0        BT     191  EMEF          ...   1  27/12/2019            FBRANCA
1        BT     191  EMEF          ...   2  27/12/2019            MBRANCA
2        BT     191  EMEF          ...   1  27/12/2019             MPARDA
3        BT     191  EMEF          ...   1  27/12/2019  MRECUSOU INFORMAR
4        BT     191  EMEF          ...   1  27/12/2019            MBRANCA
...     ...     ...           ...  ...  ..         ...                ...
534970   SM  700044  CEU AT COMPL  ...   1  27/12/2019            MBRANCA
534971   SM  700044  CEU AT COMPL  ...   1  27/12/2019     MNAO INFORMADA
534972   SM  700044  CEU AT COMPL  ...   2  27/12/2019            MBRANCA
534973   SM  700044  CEU AT COMPL  ...   1  27/12/2019            MBRANCA
534974   SM  700044  CEU AT COMPL  ...   1  27/12/2019            MBRANCA

[526456 rows x 20 columns]>


In [0]:
### criando dois novos dataframes a partir do sexo
varF = df[df['sexo']=='F']
varM = df[df['sexo']=='M']
print(varF.shape)
print(varM.shape)

(269706, 19)
(256750, 19)


In [0]:
# mostra quais valores da coluna do dataframe sao maiores ou iguais a 10
df['idade'] >= 10 

0          True
1          True
2          True
3          True
4          True
          ...  
534970    False
534971     True
534972     True
534973     True
534974     True
Name: idade, Length: 526456, dtype: bool

In [0]:
#usando esse filtro é possível ver um dataframe apenas com os valores que são True
df[df['idade'] >= 115]

Unnamed: 0,dre,codes,tipoesc,nomesc,distrito,setor,ano,rede,modal,descserie,periodo,turno,descturno,sexo,idade,nee,raca,qtd,database,concatenacao
84623,CL,501377,MOVA,ASS - CEDESC CENTRO DE DES ED SOC E CUL DO PQ ...,CAPAO REDONDO,1906,2019,CON,ATCOMP,MOVIMENTO DE ALFABETIZACAO,NOTURNO,5,Noite,F,119.0,NAO POSSUI,NAO INFORMADA,1,27/12/2019,FNAO INFORMADA
176007,G,13528,EMEF,"ANNA LAMBERGA ZEGLIO, VER",CIDADE TIRADENTES,2506,2019,DIR,ENSINO FUNDAMENTAL DE 9 ANOS,CII 6 ANO FND 9A,DIURNO,3,Tarde,F,119.0,NAO POSSUI,PARDA,1,27/12/2019,FPARDA
219216,IP,91898,EMEI,"ALCEU MAYNARD DE ARAUJO, PROF",BOM RETIRO,901,2019,DIR,EDUCACAO INFANTIL,INFANTIL I 6 H,DIURNO,1,Manhã,F,119.0,NAO POSSUI,PARDA,1,27/12/2019,FPARDA
272452,IQ,307050,CR.P.CONV,SAO JOSE OPERARIO II,ITAQUERA,3706,2019,CON,EDUCACAO INFANTIL,MINI - GRUPO I,DIURNO,6,Integral,F,119.0,NAO POSSUI,NAO INFORMADA,1,27/12/2019,FNAO INFORMADA
359601,MP,400807,CEI INDIR,VENTURA BRANCO,VILA JACUI,8701,2019,CON,EDUCACAO INFANTIL,BERCARIO II-10H,DIURNO,6,Integral,M,119.0,NAO POSSUI,NAO INFORMADA,1,27/12/2019,MNAO INFORMADA
369006,PE,18520,EMEI,JOAO MENDONCA FALCAO,BRAS,1004,2019,DIR,EDUCACAO INFANTIL,INFANTIL II 6 H,DIURNO,1,Manhã,M,119.0,NAO POSSUI,BRANCA,1,27/12/2019,MBRANCA
369566,PE,19357,CEU EMEI,QUINTA DO SOL,CANGAIBA,1802,2019,DIR,EDUCACAO INFANTIL,INFANTIL I 6 H,DIURNO,3,Tarde,F,119.0,NAO POSSUI,NAO INFORMADA,2,27/12/2019,FNAO INFORMADA
369591,PE,19357,CEU EMEI,QUINTA DO SOL,CANGAIBA,1802,2019,DIR,EDUCACAO INFANTIL,INFANTIL II 6 H,DIURNO,1,Manhã,F,119.0,NAO POSSUI,RECUSOU INFORMAR,1,27/12/2019,FRECUSOU INFORMAR
373853,PE,91405,EMEI,MARIA LACERDA DE MOURA,VILA MATILDE,9102,2019,DIR,EDUCACAO INFANTIL,INFANTIL I 6 H,DIURNO,1,Manhã,M,118.0,NAO POSSUI,BRANCA,1,27/12/2019,MBRANCA
378903,PE,94005,EMEF,HUMBERTO DE CAMPOS,VILA MATILDE,9105,2019,DIR,ENSINO FUNDAMENTAL DE 9 ANOS,CI 2ANO FND 9A,DIURNO,3,Tarde,F,119.0,NAO POSSUI,BRANCA,1,27/12/2019,FBRANCA


In [0]:
### excluindo as linhas nas quais a idade é menor ou igual a 100 
df= df[df['idade'] <= 100]

In [0]:
### excluindo a coluna ano #axis = 1 remove coluna e axis = 0 remove linha
df=df.drop(labels = ['ano'], axis = 1) 
print(df.head)

<bound method NDFrame.head of         dre   codes       tipoesc  ... qtd    database       concatenacao
0        BT     191  EMEF          ...   1  27/12/2019            FBRANCA
1        BT     191  EMEF          ...   2  27/12/2019            MBRANCA
2        BT     191  EMEF          ...   1  27/12/2019             MPARDA
3        BT     191  EMEF          ...   1  27/12/2019  MRECUSOU INFORMAR
4        BT     191  EMEF          ...   1  27/12/2019            MBRANCA
...     ...     ...           ...  ...  ..         ...                ...
534970   SM  700044  CEU AT COMPL  ...   1  27/12/2019            MBRANCA
534971   SM  700044  CEU AT COMPL  ...   1  27/12/2019     MNAO INFORMADA
534972   SM  700044  CEU AT COMPL  ...   2  27/12/2019            MBRANCA
534973   SM  700044  CEU AT COMPL  ...   1  27/12/2019            MBRANCA
534974   SM  700044  CEU AT COMPL  ...   1  27/12/2019            MBRANCA

[526456 rows x 19 columns]>


## 4) Armazenamento

In [0]:
### salvando um dataframe em um arquivo do tipo csv
df_api.to_csv(r'/content/drive/My Drive/Colab Notebooks/teste.csv')

## 5) Referências



### API's: 
https://www.dataquest.io/blog/python-api-tutorial/

https://requests.readthedocs.io/pt_BR/latest/user/quickstart.html

https://api.prodam.sp.gov.br/index.html

https://pythonhelp.wordpress.com/tag/requests/

https://api.prodam.sp.gov.br/store/#


### Boxplot: 
http://www.portalaction.com.br/estatistica-basica/31-boxplot

https://matplotlib.org/3.1.1/api/_as_gen/matplotlib.pyplot.boxplot.html


### Dados Abertos:
http://dados.prefeitura.sp.gov.br/

http://dados.gov.br/

http://dados.prefeitura.sp.gov.br/pt_PT/dataset/perfil-dos-educandos-cor-raca-idade-sexo-necessidades-educacionais-especiais/resource/4e8c0438-ecd2-4cc5-9dfc-a507877f8792

### Dropna:
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html

### Loc e Iloc
https://medium.com/horadecodar/data-science-tips-02-como-usar-loc-e-iloc-no-pandas-fab58e214d87

### Matplotlib:
https://matplotlib.org/users/index.html

### Pandas:
https://medium.com/data-hackers/uma-introdu%C3%A7%C3%A3o-simples-ao-pandas-1e15eea37fa1

https://pandas.pydata.org/pandas-docs/stable/

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_json.html

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html


### Pillow:
https://python-pillow.org/

https://www.pythonforbeginners.com/gui/how-to-use-pillow