# Python para economistas

### Estrutura de dados

In [3]:
import numpy as np
import pandas as pd

Estrutura de dados são formas utilizadas para armazenar dados de forma organizada, com o objetivo de tornar a manipulação e outras operações mais eficientes. Por isso, existem diversos tipos de estruturas de dados no Python. Além disso, é possível criar outras formas e customizar as que existem. 

Assim, nesta aula iremos mostrar apenas alguns dos tipos mais utilizados por economistas e cientistas de dados.

### Listas

As listas contêm elementos de diferentes tipos, como - números, strings, vetores, matrizes, funções e outra lista dentro deles. É uma coleção ordenada e mutável e pode ser alterada. É um dos formatos mais versáteis e utilizados do python.

In [4]:
# lista vazia
lista1 = []
print(lista1)

# lista de inteiros
lista2 = [1, 2, 3]
print(lista2)

# lista com tipos de dados diferentes
lista3 = [1, "João", 3.4]
print(lista3)

# lista aninhada
lista4 = ["cachorro", [1, 2, 3], ['a']]
print(lista4)

[]
[1, 2, 3]
[1, 'João', 3.4]
['cachorro', [1, 2, 3], ['a']]


In [5]:
#Acessando elementos da lista

#Segundo elemento da lista 3
print(lista3[1])

#Primeiro elemento da lista 4
print(lista4[0])

#Segundo elemento da segunda lista
print(lista4[1][1])

João
cachorro
2


### Vetores

É uma das estruturas mais básicas possíveis. É homogênea, portanto todos os elementos são do mesmo tipo (numérico, integral, texto...). Como o nome diz, é uni-dimensional, ou seja, podemos pensar nele como uma linha ou coluna de uma tabela. 

Perceba que para criarmos, precisamos transformar uma lista em array (vetor) pelo numpy.

In [6]:
#Linha
vet_linha = np.array([1, 2, 3])
print("Vetor linha:", vet_linha)

#Coluna
vet_coluna = np.array([[1],
                       [2],
                       [3]])
print("Vetor coluna:", vet_coluna)

Vetor linha: [1 2 3]
Vetor coluna: [[1]
 [2]
 [3]]


### Matrizes

Matriz é uma estrutura de dados homogêneos bidimensional. Ou seja, são dados do mesmo tipo arranjados em linhas e colunas, da mesma maneira que o conceito matemático de matriz.

In [7]:
matrix = np.mat([[1, 2,3],
                [1, 2,3],
                [1, 2,3]])
matrix

matrix([[1, 2, 3],
        [1, 2, 3],
        [1, 2, 3]])

### Dicionários

Dicionários são utilizados para armazenar dados no formato "chave : valor". Ou seja, cada chave está associada a um valor. 

In [9]:
# Times do brasileirão

brasileirão = {
    'América-MG' : 'Belo Horizonte',
    'Athletico-PR' : 'Curitiba',
    'Atlético-GO': 'Goiânia',
    'Atlético-MG': 'Belo Horizonte',
    'Bahia' : 'Salvador',
    'Ceará' : 'Fortaleza',
    'Chapecoense' : 'Chapecó',
    'Corinthians' : 'São Paulo',
    'Cuiabá' : 'Cuiabá',
    'Flamengo' : 'Rio de Janeiro',
    'Fluminense' : 'Rio de Janeiro',
    'Fortaleza' : 'Fortaleza',
    'Grêmio' : "Porto Alegre",
    'Internacional': 'Porto Alegre',
    'Juventude': 'Caxias',
    'Palmeiras': 'São Paulo',
    'Red Bull Bragantino' : 'Bragança Paulista',
    'Santos':'Santos',
    'São Paulo':'São Paulo',
    'Sport' : 'Recife'
}


print('A cidade do Juventude é', brasileirão["Juventude"])

A cidade do Juventude é Caxias


### Pandas - Dataframe

O dataframe do Pandas é uma estrutura de dados bidimensional, potencialmente heterogenea, com eixos rotulados (linhas e colunas). Os dados são alinhados de forma tabular em linhas e colunas. É o padrão para análise de dados e se assemelha com a estrutura de planilhas de Excel. Cada dataframe tem o nome das linhas, denominado índice e os nomes das colunas.

Na prática, nós normalmente utilizaremos o dataframe importanto dados já estruturados, online, em csv ou em formato excel.

In [10]:
d = {'coluna1': [1, 2,3,4,5], 
     'coluna2': [3, 4,5,6,7],  
     'coluna3': [7, 8,9,10,11], 
     'coluna4': ["joão", "maria", "josé", "luis", "paulo"]}
df = pd.DataFrame(data=d)

df

Unnamed: 0,coluna1,coluna2,coluna3,coluna4
0,1,3,7,joão
1,2,4,8,maria
2,3,5,9,josé
3,4,6,10,luis
4,5,7,11,paulo


Para acessar uma coluna:

In [11]:
df["coluna4"]

0     joão
1    maria
2     josé
3     luis
4    paulo
Name: coluna4, dtype: object

Podemos adicionar colunas facilmente:

In [18]:
df["nova coluna"] = np.random.random(5)

df

Unnamed: 0,coluna1,coluna2,coluna3,coluna4,nova coluna
0,1,3,7,joão,0.618537
1,2,4,8,maria,0.853755
2,3,5,9,josé,0.084728
3,4,6,10,luis,0.161597
4,5,7,11,paulo,0.983417


Também podemos remover

In [19]:
df = df.drop('coluna2', axis=1)

df

Unnamed: 0,coluna1,coluna3,coluna4,nova coluna
0,1,7,joão,0.618537
1,2,8,maria,0.853755
2,3,9,josé,0.084728
3,4,10,luis,0.161597
4,5,11,paulo,0.983417


Assim como podemos adicionar e remover linhas:

In [20]:
df.loc[5,:] = [6,7,12,"carlos"]

df

Unnamed: 0,coluna1,coluna3,coluna4,nova coluna
0,1.0,7.0,joão,0.618537
1,2.0,8.0,maria,0.853755
2,3.0,9.0,josé,0.084728
3,4.0,10.0,luis,0.161597
4,5.0,11.0,paulo,0.983417
5,6.0,7.0,12,carlos


In [21]:
df = df.drop(4, axis=0)

df

Unnamed: 0,coluna1,coluna3,coluna4,nova coluna
0,1.0,7.0,joão,0.618537
1,2.0,8.0,maria,0.853755
2,3.0,9.0,josé,0.084728
3,4.0,10.0,luis,0.161597
5,6.0,7.0,12,carlos


É possível transformar o dataframe, condensando várias colunas em uma só

In [27]:
df_melted = pd.melt(df, id_vars='coluna4')
df_melted

Unnamed: 0,coluna4,variable,value
0,joão,coluna1,1.0
1,maria,coluna1,2.0
2,josé,coluna1,3.0
3,luis,coluna1,4.0
4,12,coluna1,6.0
5,joão,coluna3,7.0
6,maria,coluna3,8.0
7,josé,coluna3,9.0
8,luis,coluna3,10.0
9,12,coluna3,7.0


Digamos que estamos interessados em unir dois dataframes com as mesmas colunas

In [30]:
d = {'coluna1': [1, 4,9,11,3], 
     'coluna2': [2, 5,8,2,1],  
     'coluna3': [3, 6,7,3,4], 
     'coluna4': ["laura", "douglas", "yuri", "mariana", "paulo"]}
df2 = pd.DataFrame(data=d)
df2

Unnamed: 0,coluna1,coluna2,coluna3,coluna4
0,1,2,3,laura
1,4,5,6,douglas
2,9,8,7,yuri
3,11,2,3,mariana
4,3,1,4,paulo


In [29]:
df_concatenado = pd.concat([df, df2], axis=0, ignore_index=True)

df_concatenado

Unnamed: 0,coluna1,coluna3,coluna4,nova coluna,coluna2
0,1.0,7.0,joão,0.618537,
1,2.0,8.0,maria,0.853755,
2,3.0,9.0,josé,0.084728,
3,4.0,10.0,luis,0.161597,
4,6.0,7.0,12,carlos,
5,1.0,3.0,laura,,2.0
6,4.0,6.0,douglas,,5.0
7,9.0,7.0,yuri,,8.0
8,11.0,3.0,mariana,,2.0
9,3.0,4.0,paulo,,1.0


E se desejamos filtrar o dataframe pelos valores de alguma linha?

In [31]:
df_concatenado[df_concatenado["coluna1"] > 4]

Unnamed: 0,coluna1,coluna3,coluna4,nova coluna,coluna2
4,6.0,7.0,12,carlos,
7,9.0,7.0,yuri,,8.0
8,11.0,3.0,mariana,,2.0


Por último, digamos que precisamos juntar dois dataframes com informações diferentes sobre pessoas em comum. Para isso:

In [34]:
d = {'coluna5': [1,0,1,0,1,1,1], 
     'coluna6': ["sim", "não", "não","não", "sim", "não", "não"], 
     'coluna4': ["laura",  "yuri", "mariana", "joão", "maria", "josé", "luis"]}
df3 = pd.DataFrame(data=d)

df3

Unnamed: 0,coluna5,coluna6,coluna4
0,1,sim,laura
1,0,não,yuri
2,1,não,mariana
3,0,não,joão
4,1,sim,maria
5,1,não,josé
6,1,não,luis


In [35]:
df_concatenado.merge(df3, on = "coluna4", how = "inner")

Unnamed: 0,coluna1,coluna3,coluna4,nova coluna,coluna2,coluna5,coluna6
0,1.0,7.0,joão,0.618537,,0,não
1,2.0,8.0,maria,0.853755,,1,sim
2,3.0,9.0,josé,0.084728,,1,não
3,4.0,10.0,luis,0.161597,,1,não
4,1.0,3.0,laura,,2.0,1,sim
5,9.0,7.0,yuri,,8.0,0,não
6,11.0,3.0,mariana,,2.0,1,não


O parâmetro "how" determina os dados que ficarão no dataframe final. A opção padrão é o
"inner", ou seja, aqueles nomes que não estiverem em ambas as tabelas, serão excluídos. Outras
formas são possíveis, como "left", em que todas as linhas da primeira tabela se mantém,
independente de haver correspondência na outra tabela. Ou "outer", em que todos os dados de
ambas as tabelas irão para a tabela final.

In [36]:
df_concatenado.merge(df3, on = "coluna4", how = "left")

Unnamed: 0,coluna1,coluna3,coluna4,nova coluna,coluna2,coluna5,coluna6
0,1.0,7.0,joão,0.618537,,0.0,não
1,2.0,8.0,maria,0.853755,,1.0,sim
2,3.0,9.0,josé,0.084728,,1.0,não
3,4.0,10.0,luis,0.161597,,1.0,não
4,6.0,7.0,12,carlos,,,
5,1.0,3.0,laura,,2.0,1.0,sim
6,4.0,6.0,douglas,,5.0,,
7,9.0,7.0,yuri,,8.0,0.0,não
8,11.0,3.0,mariana,,2.0,1.0,não
9,3.0,4.0,paulo,,1.0,,


In [39]:
df_concatenado.merge(df3, on = "coluna4", how = "outer")

In [38]:
df_concatenado["coluna1"]*999

0      999.0
1     1998.0
2     2997.0
3     3996.0
4     5994.0
5      999.0
6     3996.0
7     8991.0
8    10989.0
9     2997.0
Name: coluna1, dtype: float64