### Pandas - Dataframe

In [66]:
from pandas import DataFrame
import pandas as pd
import numpy as np

In [16]:
data = {'Estados': ['Santa Catarina', 'Paraná', 'Goiás', 'Bahia', 'Minas Gerais'],
        'Ano': [2002, 2003, 2004, 2005, 2006],
        'População': [1.5, 1.7, 3.6, 2.4, 2.9]}

In [17]:
frame = DataFrame(data)

In [18]:
frame

Unnamed: 0,Estados,Ano,População
0,Santa Catarina,2002,1.5
1,Paraná,2003,1.7
2,Goiás,2004,3.6
3,Bahia,2005,2.4
4,Minas Gerais,2006,2.9


In [19]:
# Definindo o nome das colunas
DataFrame(data, columns=['Estados', 'Ano', 'População'])


Unnamed: 0,Estados,Ano,População
0,Santa Catarina,2002,1.5
1,Paraná,2003,1.7
2,Goiás,2004,3.6
3,Bahia,2005,2.4
4,Minas Gerais,2006,2.9


In [35]:
# especificando o index do dataframe

frame2 = DataFrame(data, columns=['Estados', 'Ano', 'População'], 
                   index=list(range(1,6)))

frame2

Unnamed: 0,Estados,Ano,População
1,Santa Catarina,2002,1.5
2,Paraná,2003,1.7
3,Goiás,2004,3.6
4,Bahia,2005,2.4
5,Minas Gerais,2006,2.9


In [21]:
frame2['Estados']

um        Santa Catarina
dois              Paraná
tres               Goiás
quatro             Bahia
cinco       Minas Gerais
Name: Estados, dtype: object

In [37]:
# Criando um novo dataframe através do dicionário de dados e incluindo uma nova coluna

frame3 = DataFrame(data, columns=['Estados', 'Ano', 'População', 'Débito'])

In [38]:
frame3

Unnamed: 0,Estados,Ano,População,Débito
0,Santa Catarina,2002,1.5,
1,Paraná,2003,1.7,
2,Goiás,2004,3.6,
3,Bahia,2005,2.4,
4,Minas Gerais,2006,2.9,


In [39]:
frame3.Estados

0    Santa Catarina
1            Paraná
2             Goiás
3             Bahia
4      Minas Gerais
Name: Estados, dtype: object

In [40]:
#fazendo slicing no dataframe
frame3[:2]

Unnamed: 0,Estados,Ano,População,Débito
0,Santa Catarina,2002,1.5,
1,Paraná,2003,1.7,


In [56]:
# Preenchendo a coluna débito com valores reais

frame3['Débito'] = np.arange(1., 6., 1)
frame3

Unnamed: 0,Estados,Ano,População,Débito
0,Santa Catarina,2002,1.5,1.0
1,Paraná,2003,1.7,2.0
2,Goiás,2004,3.6,3.0
3,Bahia,2005,2.4,4.0
4,Minas Gerais,2006,2.9,5.0


In [63]:
frame3['Débito'] = range(5)

frame3

Unnamed: 0,Estados,Ano,População,Débito
0,Santa Catarina,2002,1.5,0
1,Paraná,2003,1.7,1
2,Goiás,2004,3.6,2
3,Bahia,2005,2.4,3
4,Minas Gerais,2006,2.9,4


### Localizando dados dentro do dataframe

In [65]:
# O comando iloc = Index Location. Caso o index tenha sido customizado com palavras, usase o loc['nome']
frame3.iloc[3]

Estados      Bahia
Ano           2005
População      2.4
Débito           3
Name: 3, dtype: object

### Trabalhando com arquivos CSV

In [69]:
#Caso o separador do csv não seja vírgula como padrão, deve-se especificar com o parametro sep=''

df = pd.read_csv('salarios.csv', sep=',')

df

Unnamed: 0,Name,Position Title,Department,Employee Annual Salary
0,"AARON, ELVIA J",WATER RATE TAKER,WATER MGMNT,$88968.00
1,"AARON, JEFFERY M",POLICE OFFICER,POLICE,$80778.00
2,"AARON, KARINA",POLICE OFFICER,POLICE,$80778.00
3,"AARON, KIMBERLEI R",CHIEF CONTRACT EXPEDITER,GENERAL SERVICES,$84780.00
4,"ABAD JR, VICENTE M",CIVIL ENGINEER IV,WATER MGMNT,$104736.00
...,...,...,...,...
32177,"ZYGOWICZ, PETER J",POLICE OFFICER,POLICE,$86520.00
32178,"ZYMANTAS, MARK E",POLICE OFFICER,POLICE,$83616.00
32179,"ZYRKOWSKI, CARLO E",POLICE OFFICER,POLICE,$86520.00
32180,"ZYSKOWSKI, DARIUSZ",CHIEF DATA BASE ANALYST,DoIT,$110352.00


In [68]:
# Caso eu queira redefinir o nome das colunas. 
# Ao fazer isso o pandas nao entende e inclui a primeira coluna do CSV como dado
df = pd.read_csv('salarios.csv', names=['Nome', 'Titulo Profissional', 'Departamento', 'Salario Anual'])

df

Unnamed: 0,Nome,Titulo Profissional,Departamento,Salario Anual
0,Name,Position Title,Department,Employee Annual Salary
1,"AARON, ELVIA J",WATER RATE TAKER,WATER MGMNT,$88968.00
2,"AARON, JEFFERY M",POLICE OFFICER,POLICE,$80778.00
3,"AARON, KARINA",POLICE OFFICER,POLICE,$80778.00
4,"AARON, KIMBERLEI R",CHIEF CONTRACT EXPEDITER,GENERAL SERVICES,$84780.00
...,...,...,...,...
32178,"ZYGOWICZ, PETER J",POLICE OFFICER,POLICE,$86520.00
32179,"ZYMANTAS, MARK E",POLICE OFFICER,POLICE,$83616.00
32180,"ZYRKOWSKI, CARLO E",POLICE OFFICER,POLICE,$86520.00
32181,"ZYSKOWSKI, DARIUSZ",CHIEF DATA BASE ANALYST,DoIT,$110352.00


In [74]:
# Criando um dataframe de outra forma. Onde vou criar um range de datas que será meu indice

dates = pd.date_range('20200101', periods=10)
df = pd.DataFrame(np.random.randn(10, 4), index=dates, columns=['A','B', 'C','D'])

df

Unnamed: 0,A,B,C,D
2020-01-01,0.083608,1.073419,1.14939,0.184826
2020-01-02,1.483904,-1.001188,0.137473,-0.371028
2020-01-03,-0.281761,-1.205684,1.027979,0.777176
2020-01-04,-1.216158,1.333759,1.303881,-0.425957
2020-01-05,-2.618677,-0.13342,0.656317,-0.784189
2020-01-06,-0.245296,0.649665,0.296116,-1.747253
2020-01-07,2.437534,0.159655,-1.430692,0.332981
2020-01-08,0.526186,-0.965735,0.04219,0.662523
2020-01-09,-0.022184,0.603431,-1.942911,0.256325
2020-01-10,1.089866,-0.847703,-2.089082,-0.051067


In [79]:
teste = np.random.randn(10, 4)
teste

array([[ 1.07836226, -0.42968989,  0.20948997,  0.61331635],
       [ 0.48880429,  0.03500386, -0.77674337, -1.17138392],
       [ 0.01006181, -0.67244428,  0.97778321,  1.32652847],
       [ 0.72050726,  0.43605289, -0.24340194,  1.25674269],
       [-0.98529111, -0.03363874,  0.49075053, -1.17710998],
       [-0.06668913,  0.44058401, -0.58030197, -0.8580426 ],
       [ 0.02759143, -0.24483006, -0.46364833, -0.14560702],
       [ 1.0263219 , -0.6435553 , -0.23965996, -0.22614938],
       [ 1.41841212, -0.38795994, -0.36443927, -0.04157662],
       [-1.18386297, -0.27877191,  2.03129621, -0.11033677]])

In [77]:
teste.shape

(10, 4)

In [78]:
teste.ndim

2