# Pandas

### Importação de Bibliotecas

In [1]:
import pandas as pd
import numpy as np
import pandera as pa
import matplotlib.pyplot as plt

### Configuração do ambiente

#### Configurar o formato de valores com casas decimais

In [2]:
pd.options.display.float_format  = '{:20,.2f}'.format 
pd.option_context('display.precision', 2)

<pandas._config.config.option_context at 0x239afc4b1c0>

#### Configurar o formato de valores com casas decimais no NumPy

In [3]:
np.set_printoptions(precision=2)

#### Ou crie uma função e chame ela para exibir o valor

In [4]:
float_formatter = "{:,.2f}".format 
float_formatter(1500000.043)

'1,500,000.04'

#### Configurando a quantidade de linhas retornadas

In [5]:
pd.set_option('display.max_rows', 5) # default é 10
# para versões antigas de pandas há a necessidade de alterar o 
# pd.set_option('display.height', 500)
pd.get_option('display.max_rows')

5

#### Configurando o tamanho do retorno da string no Pandas

In [6]:
pd.set_option('display.max_colwidth',40)
pd.get_option('display.max_colwidth')

40

#### Configurando a folha de estilos dos gráficos - Matplotlib

In [7]:
plt.style.use("seaborn")

#### Configurando o tamanho do gráfico - Matplotlib

In [8]:
plt.figure(figsize=(15,5))

<Figure size 1080x360 with 0 Axes>

<Figure size 1080x360 with 0 Axes>

## Criação de Dataframes e Cargas de Arquivos

### Criação de um Dataframe do zero

In [9]:
# Criando o numpy.array (data) bidimensional
data = np.array([['Analista de Contabilidade', 'Contabilidade', 10000.00],
                ['Analista de Contabilidade', 'Contabilidade', 10000.00],
                ['Engenheiro Civil', 'Engenharia', 15000.00],
                ['Desenvolvedor', 'TI', 11000.00],
                ['Gerente de TI', 'TI',  15000.0],
                ['Analista de BI', 'TI', 13000.0],
                ['DBA', 'TI', 10500.00],
                ['Analista Financeiro', 'Finanças', 10500.00]])

#Criando o DataFrame com o np.array (data) com as colunas ('Cargo', 'Area', 'Salario'), indexado de 100 até 108
dfc = pd.DataFrame(data, index=range(100,108),columns=['Cargo', 'Area', 'Salario'])
dfc

Unnamed: 0,Cargo,Area,Salario
100,Analista de Contabilidade,Contabilidade,10000.0
101,Analista de Contabilidade,Contabilidade,10000.0
...,...,...,...
106,DBA,TI,10500.0
107,Analista Financeiro,Finanças,10500.0


### Outra maneira

In [10]:
data = {'Cargo':  ['Analista de Contabilidade','Analista de Contabilidade','Engenheiro Civil','Desenvolvedor','Gerente de TI', 'Analista de BI','DBA','Analista Financeiro'],
        'Area': ['Contabilidade','Contabilidade','Engenharia','TI','TI','TI','TI','Finanças'],
        'Salario': [10000.00,10000.00,15000.00,11000.00, np.nan, np.nan, 10500.00, 10500.00]
       }
dfcz = pd.DataFrame(data,index=range(100,108), columns=['Cargo','Area','Salario'])

dfcz

Unnamed: 0,Cargo,Area,Salario
100,Analista de Contabilidade,Contabilidade,10000.00
101,Analista de Contabilidade,Contabilidade,10000.00
...,...,...,...
106,DBA,TI,10500.00
107,Analista Financeiro,Finanças,10500.00


### Carga de arquivo Excel

In [11]:
dfa = pd.read_excel('Datasets/AdventureWorks.xlsx')
dfa

Unnamed: 0,Data Venda,Data Envio,ID Loja,ID Produto,ID Cliente,No. Venda,Custo Unitário,Preço Unitário,Quantidade,Valor Desconto,Valor Venda,Produto,Fabricante,Marca,Classe,Cor
0,2008-05-09,2008-05-29,199,384,18839,200805093CS607,348.58,758.00,6,0.00,4548.00,Adventure Works Laptop15.4W M1548 Red,Adventure Works,Adventure Works,Regular,Red
1,2008-05-12,2008-05-17,306,384,19051,200805123CS567,348.58,758.00,6,0.00,4548.00,Adventure Works Laptop15.4W M1548 Red,Adventure Works,Adventure Works,Regular,Red
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
902,2008-12-17,2008-12-21,306,1226,19060,200812174CS676,330.99,999.00,6,1198.80,4795.20,Fabrikam Trendsetter 1/3'' 8.5mm X20...,"Fabrikam, Inc.",Fabrikam,Regular,Black
903,2008-12-21,2008-12-25,306,1155,19060,200812214CS676,324.69,980.00,6,1176.00,4704.00,Fabrikam Trendsetter 2/3'' 17mm X100...,"Fabrikam, Inc.",Fabrikam,Regular,Black


### Carga oriunda de base de dados MySQL

In [12]:
# pip install sqlalchemy
# pip install pymysql
from sqlalchemy import create_engine  
import pymysql

sqlHost = '127.0.0.1' 
sqlUser = 'root' 
sqlPwd = 'example' 
sqlBD = 'db_teste' 
db_connection_str = 'mysql+pymysql://{}:{}@{}/{}'.format(sqlUser,sqlPwd,sqlHost,sqlBD) 
db_connection = create_engine(db_connection_str) 
df = pd.read_sql('SELECT id, name, birthday, salary, obs FROM myTable' 
                 , con=db_connection)
df

Unnamed: 0,id,name,birthday,salary,obs
0,1,Luis,1970-04-19,100.0,
1,2,Jack,1968-09-25,120.5,
2,3,Anne,1982-10-02,180.35,CEO


### Carga de Arquivos JSON

In [13]:
# primeiro carrega o arquivo
dscia = pd.read_json('Datasets/companies.json') 
dscia.head()

Unnamed: 0,companies
0,"{'id': 1, 'company_status_id': None,..."
1,"{'id': 2, 'company_status_id': None,..."


### Depois normaliza a em dataframe

In [14]:
df = pd.json_normalize(dscia.companies)
df.head()

Unnamed: 0,id,company_status_id,name,king_person,document,contact,phone,cell_phone,email,zipcode,address,number,district,city,state,created_at,updated_at,deleted_at
0,1,,My Company,,,,,,,0,,,,,,,,
1,2,,Your Company,,,,,,,0,,,,,,,,


### Também pode ser necessário ler o json por linhas, neste caso utilize o parâmetro lines

In [15]:
dfbfro = pd.read_json('Datasets/bfro_reports.json', lines=True) 
dfbfro.head()

Unnamed: 0,YEAR,SEASON,STATE,COUNTY,LOCATION_DETAILS,OBSERVED,OTHER_WITNESSES,TIME_AND_CONDITIONS,REPORT_NUMBER,REPORT_CLASS,MONTH,DATE,NEAREST_TOWN,NEAREST_ROAD,ALSO_NOTICED,OTHER_STORIES,ENVIRONMENT,A_&_G_References
0,Early 1990's,Fall,Alaska,Valdez-Chitina-Whittier County,East side of Prince William Sound,Ed L. was salmon fishing with a comp...,On a commercial fishing boat at anch...,"Early Fall, in the early 1990's.",1261.0,Class A,,,,,,,,
1,,,,,,,,,,,,,,,,,,
2,2000,Fall,New Jersey,Warren County,"the road is off us rt 80, i dont kno...",heh i kinda feel a little dumb that ...,"my friend was asleep, and i was lyin...",lighting was from a camp fire that w...,438.0,Class B,September,2nd or 3rd,Allumuchy,not sure of the road,nothing,no but after the events stated i loo...,"good size river, steep hills, very r...",
3,2016,Summer,New Hampshire,Sullivan County,Close to Claremont down 120 not far ...,I was on my way to Claremont from Le...,Just myself,5am. Dawn. Clear weather,55269.0,Class A,June,7,Claremont,Rte 120,,,swamp with forest behind it. There w...,
4,2018,Spring,Nebraska,Thurston County,Latitude & Longitude : 42.158230 -...,I was northeast of Macy Nebraska alo...,2 witnesses saw the creature. 3 peop...,1:35 pm on a clear and very hot sunn...,59757.0,Class B,May,25,Macy,Highway 201,I had audio recorders set up in the ...,There are MANY encounters in this ge...,This is a heavily forested area bord...,


### Carga de Arquivo CSV - Com validações
 - sep = Separador
 - parse_dates = Avalia e transforma em um campo data
 - dayfirst = Informa que os campos datas tem na primeira parte o valor do dia
 - na_values = Trasforma os valores identificados nesta lista em valores nulos
 - decimal = Caracter para reconhecer o ponto decimal 
 
 e validação do schema com a biblioteca **Pandera**

In [16]:
valores_ausentes = ['**','***','###!','####','****','*****','NULL'] 
dfo = pd.read_csv("Datasets\ocorrencia_2010_2020.csv", sep=";", parse_dates=['ocorrencia_dia'], dayfirst=True, na_values=valores_ausentes) 
schema = pa.DataFrameSchema( 
    columns = { 
        "codigo_ocorrencia": pa.Column(pa.Int), 
        "codigo_ocorrencia2": pa.Column(pa.Int), 
        "ocorrencia_classificacao": pa.Column(pa.String), 
        "ocorrencia_cidade": pa.Column(pa.String), 
        "ocorrencia_uf": pa.Column(pa.String, pa.Check.str_length(2,2), nullable=True), 
        "ocorrencia_aerodromo": pa.Column(pa.String, nullable=True), 
        "ocorrencia_dia": pa.Column(pa.DateTime), 
        "ocorrencia_hora": pa.Column(pa.String, pa.Check.str_matches( 
               r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9])(:[0-5][0-9])?$'), nullable=True), 
        "total_recomendacoes": pa.Column(pa.Int), 
        "obs": pa.Column(pa.String, required=False) 
    }    
)

schema.validate(dfo)


Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
0,40211,40211,40211,40211,40211,INCIDENTE,,,RIO DE JANEIRO,RJ,...,2010-01-03,12:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
1,40349,40349,40349,40349,40349,INCIDENTE,,,BELÉM,PA,...,2010-01-03,11:05:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5750,79756,79756,79756,79756,79756,INCIDENTE GRAVE,-22.507222,-54.364167,VICENTINA,MS,...,2020-12-31,09:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
5751,79844,79844,79844,79844,79844,INCIDENTE,-229875,-4337,RIO DE JANEIRO,RJ,...,2020-12-31,13:24:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO


### Mesmo Dataframe, porém com os valores inconsistentes

In [17]:
dfoz = pd.read_csv("Datasets\ocorrencia_2010_2020.csv", sep=";", parse_dates=['ocorrencia_dia'], dayfirst=True) 
dfoz

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
0,40211,40211,40211,40211,40211,INCIDENTE,***,***,RIO DE JANEIRO,RJ,...,2010-01-03,12:00:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO
1,40349,40349,40349,40349,40349,INCIDENTE,,,BELÉM,PA,...,2010-01-03,11:05:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5750,79756,79756,79756,79756,79756,INCIDENTE GRAVE,-22.507222,-54.364167,VICENTINA,MS,...,2020-12-31,09:00:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO
5751,79844,79844,79844,79844,79844,INCIDENTE,-229875,-4337,RIO DE JANEIRO,RJ,...,2020-12-31,13:24:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO


### Carga de Arquivo CSV

#### Com data e hora

In [18]:
dfr = pd.read_csv('Datasets/reviews.csv',parse_dates=['review_creation_date','review_answer_timestamp'])
dfr

Unnamed: 0,review_id,order_id,review_score,review_comment_title,review_comment_message,review_creation_date,review_answer_timestamp
0,7bc2406110b926393aa56f80a40eba40,73fc7af87114b39712e6da79b0a377eb,4,,,2018-01-18,2018-01-18 21:46:59
1,80e641a11e56f04c1ad469d5645fdfde,a548910a1c6147796b98fdf73dbeba33,5,,,2018-03-10,2018-03-11 03:05:13
...,...,...,...,...,...,...,...
99998,be360f18f5df1e0541061c87021e6d93,f8bd3f2000c28c5342fedeb5e50f2e75,1,,Solicitei a compra de uma capa de re...,2017-12-15,2017-12-16 01:29:43
99999,efe49f1d6f951dd88b51e6ccd4cc548f,90531360ecb1eec2a1fbb265a0db0508,1,,meu produto chegou e ja tenho que de...,2017-07-03,2017-07-03 21:01:49


#### Com casas decimais

In [19]:
df = pd.read_csv('Datasets\Arquivo_Salarios_Colaboradores_2020.csv',sep=';', decimal=',')
df.head()

Unnamed: 0,Ordem,salario,idade,tempocasa,escolar,qproj_estra,proj_sustent,proj_6sigma,proj_social,notaavalia
0,1,8000.8,25,4,11,1,1,1,0,79.38
1,2,8500.17,24,5,11,0,0,1,0,84.13
2,3,3350.59,22,1,12,0,0,0,0,46.15
3,4,9500.24,28,4,14,1,0,0,1,83.85
4,5,1500.63,12,2,12,0,0,0,1,73.64


### Concatenando Dataframes

In [20]:
dfoss = pd.concat([dfo,dfoz])
dfoss

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
0,40211,40211,40211,40211,40211,INCIDENTE,,,RIO DE JANEIRO,RJ,...,2010-01-03,12:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
1,40349,40349,40349,40349,40349,INCIDENTE,,,BELÉM,PA,...,2010-01-03,11:05:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5750,79756,79756,79756,79756,79756,INCIDENTE GRAVE,-22.507222,-54.364167,VICENTINA,MS,...,2020-12-31,09:00:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO
5751,79844,79844,79844,79844,79844,INCIDENTE,-229875,-4337,RIO DE JANEIRO,RJ,...,2020-12-31,13:24:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO
