# Module 4 - Introdução ao Pandas e carga de dados

## 1\. Pacote pandas e os tipos de estruturas

### Series e Index

In [1]:
import numpy as np
import pandas as pd
import requests

In [4]:
dados = [20900, 10450, 4180, 2090, 0]

In [5]:
indice = ['A', 'B', 'C', 'D', 'E']

In [6]:
s = pd.Series(data=dados, index=indice)
s

A    20900
B    10450
C     4180
D     2090
E        0
dtype: int64

In [7]:
print(s['A'])
print(s['D'])

20900
2090


In [8]:
s.index

Index(['A', 'B', 'C', 'D', 'E'], dtype='object')

In [9]:
s['A': 'C']

A    20900
B    10450
C     4180
dtype: int64

### Serie de um Dicionario

In [10]:
# serie a partir de um dicionário
class_dict = {
    'classe_A': 20900,
    'classe_B': 10450,
    'classe_C': 4180,
    'classe_D': 2090,
    'classe_E': 0,
}

serie_dict = pd.Series(class_dict)
serie_dict

classe_A    20900
classe_B    10450
classe_C     4180
classe_D     2090
classe_E        0
dtype: int64

In [11]:
serie_dict.index

Index(['classe_A', 'classe_B', 'classe_C', 'classe_D', 'classe_E'], dtype='object')

In [12]:
# serie a partir de um nd array
pd.Series(np.random.randn(5))

0   -0.032691
1    0.960660
2   -0.300080
3    1.569072
4   -0.493707
dtype: float64

In [13]:
# serie a partir de um escalar
indice = [0, 1, 2, 3, 4]
pd.Series(5, index=indice)

0    5
1    5
2    5
3    5
4    5
dtype: int64

## 2\. Dataframes

### Dataframes de listas

In [14]:
# dataframe a partir de listas
pd.DataFrame([2,4,6,8,10], columns=['par'])

Unnamed: 0,par
0,2
1,4
2,6
3,8
4,10


### Dataframes de dicionarios

In [15]:
# dataframe a partir de dicionario
pd.DataFrame({'impar': [1,3,5,7,9]})

Unnamed: 0,impar
0,1
1,3
2,5
3,7
4,9


In [16]:
df_dict = {
    'impar': [1,3,5,7,9],
    'par': [2,4,6,8,10]
}
pd.DataFrame(df_dict)

Unnamed: 0,impar,par
0,1,2
1,3,4
2,5,6
3,7,8
4,9,10


In [17]:
pop = {
    'São Paulo': 46649132,
    'Minas Gerais': 21411923,
    'Rio de Janeiro': 17463349,
    'Bahia': 14985284,
    'Paraná': 11597484,
    'Rio Grande do Sul': 11466630,
    'Pernambuco': 9674793,
}
pop_s = pd.Series(pop)
pop_s

São Paulo            46649132
Minas Gerais         21411923
Rio de Janeiro       17463349
Bahia                14985284
Paraná               11597484
Rio Grande do Sul    11466630
Pernambuco            9674793
dtype: int64

In [18]:
area = {
    'São Paulo': 248219481,
    'Minas Gerais': 586521123,
    'Rio de Janeiro': 43750427,
    'Bahia': 564760427,
    'Paraná': 199298979,
    'Rio Grande do Sul': 281707156,
    'Pernambuco': 98067881,
}
area_s = pd.Series(area)
area_s

São Paulo            248219481
Minas Gerais         586521123
Rio de Janeiro        43750427
Bahia                564760427
Paraná               199298979
Rio Grande do Sul    281707156
Pernambuco            98067881
dtype: int64

In [19]:
# dataframe a partir de duas series
df_brasil = pd.DataFrame({
    'População': pop_s,
    'Área': area_s
})
df_brasil

Unnamed: 0,População,Área
São Paulo,46649132,248219481
Minas Gerais,21411923,586521123
Rio de Janeiro,17463349,43750427
Bahia,14985284,564760427
Paraná,11597484,199298979
Rio Grande do Sul,11466630,281707156
Pernambuco,9674793,98067881


In [20]:
df_brasil['Área'].sum()

2022325474

In [21]:
# criando uma nova coluna a partir de duas existentes
df_brasil['Densidade'] = df_brasil['População'] / df_brasil['Área']
df_brasil

Unnamed: 0,População,Área,Densidade
São Paulo,46649132,248219481,0.187935
Minas Gerais,21411923,586521123,0.036507
Rio de Janeiro,17463349,43750427,0.399158
Bahia,14985284,564760427,0.026534
Paraná,11597484,199298979,0.058191
Rio Grande do Sul,11466630,281707156,0.040704
Pernambuco,9674793,98067881,0.098654


In [22]:
df_brasil['Densidade']

São Paulo            0.187935
Minas Gerais         0.036507
Rio de Janeiro       0.399158
Bahia                0.026534
Paraná               0.058191
Rio Grande do Sul    0.040704
Pernambuco           0.098654
Name: Densidade, dtype: float64

In [23]:
df_brasil.columns

Index(['População', 'Área', 'Densidade'], dtype='object')

In [24]:
df_brasil.dtypes

População      int64
Área           int64
Densidade    float64
dtype: object

In [25]:
df_brasil.describe()

Unnamed: 0,População,Área,Densidade
count,7.0,7.0,7.0
mean,19035510.0,288903600.0,0.121098
std,12827510.0,212496100.0,0.134664
min,9674793.0,43750430.0,0.026534
25%,11532060.0,148683400.0,0.038605
50%,14985280.0,248219500.0,0.058191
75%,19437640.0,423233800.0,0.143295
max,46649130.0,586521100.0,0.399158


## 3\. Objetos Index

### Indexação Seleção e Filtragem

```
df[col] # resultado Series (seleciona uma coluna)
df[[col1, col2]] # resultado Dataframe (seleciona duas colunas)
df.loc[rotulo] # resultado Series (seleciona uma linha usando rótulo)
df.iloc[i] # resultado Series (seleciona uma linha usando inteiro)
df[2:5] # resultado Dataframe (recorta dataframe da linha 2 a 5)
df[vetor_bool] # resultado Dataframe (seleciona uma linhas usando vetor boleano)
```

In [26]:
df_brasil['Área']
df_brasil.Área

São Paulo            248219481
Minas Gerais         586521123
Rio de Janeiro        43750427
Bahia                564760427
Paraná               199298979
Rio Grande do Sul    281707156
Pernambuco            98067881
Name: Área, dtype: int64

In [27]:
# selecionando duas colunas no dataframe
df_brasil[['Área', 'População']]

Unnamed: 0,Área,População
São Paulo,248219481,46649132
Minas Gerais,586521123,21411923
Rio de Janeiro,43750427,17463349
Bahia,564760427,14985284
Paraná,199298979,11597484
Rio Grande do Sul,281707156,11466630
Pernambuco,98067881,9674793


In [28]:
# selecionando uma linha usando o nome
df_brasil.loc['Rio de Janeiro']

População    1.746335e+07
Área         4.375043e+07
Densidade    3.991584e-01
Name: Rio de Janeiro, dtype: float64

In [29]:
# selecionando a linha pelo indice
df_brasil.iloc[3]

População    1.498528e+07
Área         5.647604e+08
Densidade    2.653388e-02
Name: Bahia, dtype: float64

In [30]:
# recortando dataframe
df_brasil['Bahia': 'Rio Grande do Sul']

Unnamed: 0,População,Área,Densidade
Bahia,14985284,564760427,0.026534
Paraná,11597484,199298979,0.058191
Rio Grande do Sul,11466630,281707156,0.040704


In [31]:
bool_vector = df_brasil['Área'] > 290000000
bool_vector

São Paulo            False
Minas Gerais          True
Rio de Janeiro       False
Bahia                 True
Paraná               False
Rio Grande do Sul    False
Pernambuco           False
Name: Área, dtype: bool

In [32]:
df_brasil[bool_vector]
# ou
df_brasil[df_brasil['Área'] > 290000000]

Unnamed: 0,População,Área,Densidade
Minas Gerais,21411923,586521123,0.036507
Bahia,14985284,564760427,0.026534


In [33]:
# traspondo o dataframe
df_brasil.T

Unnamed: 0,São Paulo,Minas Gerais,Rio de Janeiro,Bahia,Paraná,Rio Grande do Sul,Pernambuco
População,46649130.0,21411920.0,17463350.0,14985280.0,11597480.0,11466630.0,9674793.0
Área,248219500.0,586521100.0,43750430.0,564760400.0,199299000.0,281707200.0,98067880.0
Densidade,0.187935,0.03650665,0.3991584,0.02653388,0.05819139,0.04070408,0.09865404


In [34]:
# formatando para trazer no formato float com duas casas decimais
pd.options.display.float_format = '{:.2f}'.format

In [35]:
df_brasil

Unnamed: 0,População,Área,Densidade
São Paulo,46649132,248219481,0.19
Minas Gerais,21411923,586521123,0.04
Rio de Janeiro,17463349,43750427,0.4
Bahia,14985284,564760427,0.03
Paraná,11597484,199298979,0.06
Rio Grande do Sul,11466630,281707156,0.04
Pernambuco,9674793,98067881,0.1


In [36]:
# transforma o dataframe em um array
df_brasil.values

array([[4.66491320e+07, 2.48219481e+08, 1.87935015e-01],
       [2.14119230e+07, 5.86521123e+08, 3.65066528e-02],
       [1.74633490e+07, 4.37504270e+07, 3.99158367e-01],
       [1.49852840e+07, 5.64760427e+08, 2.65338775e-02],
       [1.15974840e+07, 1.99298979e+08, 5.81913869e-02],
       [1.14666300e+07, 2.81707156e+08, 4.07040778e-02],
       [9.67479300e+06, 9.80678810e+07, 9.86540435e-02]])

In [37]:
df_brasil.values[0]

array([4.66491320e+07, 2.48219481e+08, 1.87935015e-01])

In [38]:
# filtrando e trazendo apenas a coluna Densidade
df_brasil.loc[df_brasil['Densidade'] < 0.05, 'Densidade']

Minas Gerais        0.04
Bahia               0.03
Rio Grande do Sul   0.04
Name: Densidade, dtype: float64

In [39]:
# alterando os valores retornados
df_test = df_brasil
df_test.loc[df_brasil['Densidade'] < 0.05, 'Densidade'] = 5000
df_test

Unnamed: 0,População,Área,Densidade
São Paulo,46649132,248219481,0.19
Minas Gerais,21411923,586521123,5000.0
Rio de Janeiro,17463349,43750427,0.4
Bahia,14985284,564760427,5000.0
Paraná,11597484,199298979,0.06
Rio Grande do Sul,11466630,281707156,5000.0
Pernambuco,9674793,98067881,0.1


In [40]:
# acessando via index
df_test.iloc[2 ,2] = 1000
df_test

Unnamed: 0,População,Área,Densidade
São Paulo,46649132,248219481,0.19
Minas Gerais,21411923,586521123,5000.0
Rio de Janeiro,17463349,43750427,1000.0
Bahia,14985284,564760427,5000.0
Paraná,11597484,199298979,0.06
Rio Grande do Sul,11466630,281707156,5000.0
Pernambuco,9674793,98067881,0.1


## 4\. Operações entre DataFrames e Series

In [41]:
# gerando uma array randomica
r_array = np.random.randint(10, size=(3, 5))
r_array

array([[1, 0, 1, 1, 7],
       [7, 7, 4, 6, 9],
       [8, 7, 9, 3, 3]])

In [42]:
# gerando um dataframe a partir da array e renomeando colunas
r_array = np.random.randint(10, size=(3, 5))
df1 = pd.DataFrame(r_array, columns=['A','B','C','D','E'])
df1

Unnamed: 0,A,B,C,D,E
0,5,2,2,8,5
1,7,1,7,0,0
2,1,6,2,3,8


In [43]:
r_array = np.random.randint(10, size=(3, 5))
df2 = pd.DataFrame(r_array, columns=['A','B','C','D','E'])
df2

Unnamed: 0,A,B,C,D,E
0,7,8,6,1,9
1,0,6,7,4,8
2,1,9,3,9,0


In [44]:
# somando cada celula de cada dataframe
df1 + df2

Unnamed: 0,A,B,C,D,E
0,12,10,8,9,14
1,7,7,14,4,8
2,2,15,5,12,8


In [45]:
r_array = np.random.randint(10, size=(1, 5))
df3 = pd.DataFrame(r_array, columns=['A','B','C','D','E'])
df3

Unnamed: 0,A,B,C,D,E
0,2,6,7,6,2


In [46]:
df1 + df3

Unnamed: 0,A,B,C,D,E
0,7.0,8.0,9.0,14.0,7.0
1,,,,,
2,,,,,


In [47]:
df1.iloc[0]

A    5
B    2
C    2
D    8
E    5
Name: 0, dtype: int64

In [48]:
df1 - df1.iloc[0]

Unnamed: 0,A,B,C,D,E
0,0,0,0,0,0
1,2,-1,5,-8,-5
2,-4,4,0,-5,3


In [49]:
df1.iloc[2] = 0
df1

Unnamed: 0,A,B,C,D,E
0,5,2,2,8,5
1,7,1,7,0,0
2,0,0,0,0,0


In [50]:
df1 * 100 + 200

Unnamed: 0,A,B,C,D,E
0,700,400,400,1000,700
1,900,300,900,200,200
2,200,200,200,200,200


In [51]:
df1.T

Unnamed: 0,0,1,2
A,5,7,0
B,2,1,0
C,2,7,0
D,8,0,0
E,5,0,0


In [52]:
np.exp(df1)

Unnamed: 0,A,B,C,D,E
0,148.41,7.39,7.39,2980.96,148.41
1,1096.63,2.72,1096.63,1.0,1.0
2,1.0,1.0,1.0,1.0,1.0


### Análise sobre dados de vacinação da Covid no Rio de Janeiro

In [53]:
# dados de vacinação RJ Parte 1
url = 'https://s3.sa-east-1.amazonaws.com/ckan.saude.gov.br/SIPNI/COVID/uf/uf%3DRJ/part-00000-5d24afa3-5470-48ec-adea-cb8dbb7e9da9.c000.csv'
csv = '/content/drive/MyDrive/Colab Notebooks/EBAC Curso Ciência de Dados/Cientista de Dados/part-00000-5d24afa3-5470-48ec-adea-cb8dbb7e9da9.c000.csv'

In [54]:
df_covid = pd.read_csv(csv, sep=';')

ParserError: ignored

In [None]:
df_covid.head(5)
# df_covid.info()

In [None]:
df_covid_copy = df_covid[:20000].copy()

> Percentual de pessoas vacinadas na capital

In [None]:
df_covid_copy['paciente_endereco_nmMunicipio'] == 'RIO DE JANEIRO'

In [None]:
df_covid_copy['flag_capital'] = 0

In [None]:
df_covid_copy.head(1)

In [None]:
df_covid_copy.loc[df_covid_copy['paciente_endereco_nmMunicipio'] == 'RIO DE JANEIRO', 'flag_capital'] = 1

In [None]:
df_covid_copy[['paciente_endereco_nmMunicipio', 'flag_capital']]

In [None]:
df_covid_copy['flag_capital'].sum()

In [None]:
# porcentagem dos pacientes vacinados
percent = df_covid_copy['flag_capital'].sum() / len(df_covid_copy.index)
percent *= 100

print(f'Foram vacinadas {round(percent, 2)} % pessoas no Rio de Janeiro (referente a parte 1 do arquivo)')

In [None]:
# media da idade dos pacientes vacinados
df_covid_copy['paciente_idade'].mean()

In [None]:
df_covid_copy['paciente_idade'].describe()

## 5\. Valores únicos, contadores e pertinência

### Dados BNDS

In [None]:
csv_bnds = '/content/drive/MyDrive/Colab Notebooks/EBAC Curso Ciência de Dados/Cientista de Dados/aprovacoes-por-uf-aprovacoes.csv'

In [None]:
df_bnds = pd.read_csv(csv_bnds, sep=';', decimal=',')

In [None]:
df_bnds.head(5)

In [None]:
# valores unicos de uma coluna
df_bnds['ano'].unique()

In [None]:
# quantidade de valores distintos de uma coluna
df_bnds['ano'].nunique()

In [None]:
df_bnds['mes'].unique()

In [None]:
df_bnds['mes'].nunique()

In [None]:
# colunas unicas do arquivo
df_bnds.columns.unique()

In [None]:
#  colunas distintas a partir da coluna acre ou seja removendo ano e mes
df_bnds.loc[:,'acre':].columns.unique()

In [None]:
df_bnds.loc[:,'acre':].columns.nunique()

## 6\. Arquivos texto e JSON

### Datasets BNDESP

In [None]:
import pandas as pd

In [None]:
csv_file = 'https://dadosabertos.bndes.gov.br/dataset/68a85772-df73-4c8b-8b8c-398f494fcca8/resource/10ff2d60-02d1-4619-8e42-24fc2a5927dd/download/renda-variavel-participacoes-acionarias-historico-da-carteira.csv'

In [None]:
df_pa = pd.read_csv(csv_file, sep=';', encoding='utf8', decimal=',')

In [None]:
df_pa.head(3)

In [None]:
df_pa.info()
print('\n')
df_pa.dtypes

In [None]:
# quantidade de empresas por ano que o BNDESP teve participação
df_pa['ano'].value_counts()

In [None]:
# Quais empresas o BNDESP já teve participação
df_pa['sigla'].unique()

In [None]:
# Quais empresas o BNDESP tem participação em 2021
df_pa_2021 = df_pa[df_pa['ano'] == 2021]
df_pa_2021['sigla'].unique()

### Lendo arquivo JSON

In [None]:
json_file = 'https://raw.githubusercontent.com/prust/wikipedia-movie-data/master/movies.json'

In [None]:
movies = pd.read_json(json_file)

In [None]:
movies.head(5)

In [None]:
movies.dtypes

In [None]:
movies.columns

In [None]:
# expandindo listas movies['genres'] é uma lista de generos
movies['genres'].explode()

In [None]:
# valores unicos da lista
movies['genres'].explode().unique()

In [None]:
# quantidade de filmes de cada genero
movies['genres'].explode().value_counts()

## 7\. Interagindo com APIs da Web e Bancos de dados

### Consumindo dados de uma API

In [10]:
import pandas as pd
import requests

url_pvl_rj = 'https://apidatalake.tesouro.gov.br/ords/sadipem/tt/pvl?uf=RJ&tipo_interessado=Estado'

url_pvl_sp = 'https://apidatalake.tesouro.gov.br/ords/sadipem/tt/pvl?uf=SP&tipo_interessado=Estado'

In [11]:
result = requests.get(url_pvl_rj)

In [12]:
result.status_code

200

### Transformando a resposta em um DataFrame

In [13]:
data_json = result.json()

In [16]:
df = pd.DataFrame(data_json['items'])
df.head(5)

Unnamed: 0,id_pleito,tipo_interessado,interessado,cod_ibge,uf,num_pvl,status,num_processo,data_protocolo,tipo_operacao,finalidade,tipo_credor,credor,moeda,valor,pvl_assoc_divida,pvl_contradado_credor,data_status
0,4997,Estado,Rio de Janeiro,33,RJ,,Deferido,17944.000020/2010-11,2010-04-19T03:00:00Z,Operação contratual interna,PMAE,Instituição Financeira Nacional,Banco Nacional de Desenvolvimento Econômico e ...,Real,9982000.0,1,0,20/04/2010
1,10890,Estado,Rio de Janeiro,33,RJ,,Encaminhado à PGFN com manifestação técnica fa...,17944.001308/2012-67,2012-10-17T03:00:00Z,Operação contratual interna (com garantia da U...,Proinveste,Instituição Financeira Nacional,Banco do Brasil S/A,Real,940956800.0,1,0,20/11/2012
2,5918,Estado,Rio de Janeiro,33,RJ,,Encaminhado à PGFN com manifestação técnica fa...,17944.000233/2012-05,2012-04-16T03:00:00Z,Operação contratual externa (com garantia da U...,Infraestrutura,Instituição Financeira Internacional,Corporação Andina de Fomento,Dólar dos EUA,319675000.0,1,0,11/03/2016
3,6833,Estado,Rio de Janeiro,33,RJ,,Deferido,17944.000440/2008-75,2008-04-11T03:00:00Z,Operação contratual interna,Multissetorial,Instituição Financeira Nacional,Banco Nacional de Desenvolvimento Econômico e ...,Real,15000000.0,1,0,18/04/2008
4,10002,Estado,Rio de Janeiro,33,RJ,,Encaminhado à PGFN com manifestação técnica fa...,17944.001097/2009-67,2009-09-09T03:00:00Z,Operação contratual externa (com garantia da U...,Profisco,Instituição Financeira Internacional,Banco Interamericano de Desenvolvimento,Dólar dos EUA,19759050.0,1,0,28/09/2009
