# Pandas

### DataFrame

Agora que conhecemos as séries, vamos partir pro objeto do Pandas que mais utilizaremos: o **DataFrame**

Como veremos a seguir, o DataFrame é uma estrutura que se assemalha a uma **tabela**.

Estruturalmente, o DataFrame nada mais é que um **conjunto de Series**, uma para cada coluna (e, claro, com mesmo índice, que irão indexar as linhas).
  
Veremos depois como **ler um dataframe a partir de um arquivo** (que é provavelmente a forma mais comum)

Há muitas formas de construir um DataFrame do zero. Todas elas fazem uso da função **pd.DataFrame()**, como veremos a seguir.

Se quisermos especificar os índices de linha, o nome das colunas, e os dados, podemos passá-los separadamente: 

In [235]:
import pandas as pd
df3 = pd.read_csv (r"C:\Users\EstudioFace Ipanema\dados_religiao_income.txt", sep =' ')
value_cols = [col for col in df3.columns if col != 'religion']
df3.head()

Unnamed: 0,religion,<$10k,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k
0,Agnostic,27,34,60,81,76,137
1,Atheist,12,27,37,52,35,70
2,Buddhist,27,21,30,34,33,58
3,Catholic,418,617,732,670,638,1116
4,Don’t know/refused,15,14,15,11,10,35


In [234]:
import pandas as pd
df3 = pd.read_csv (r"C:\Users\EstudioFace Ipanema\dados_religiao_income.txt", sep =' ')
value_cols = [col for col in df3.columns if col != 'religion']
df3.groupby(['religion','$50-75k' ]).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,<$10k,$10-20k,$20-30k,$30-40k,$40-50k
religion,$50-75k,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Agnostic,137,27.0,34.0,60.0,81.0,76.0
Atheist,70,12.0,27.0,37.0,52.0,35.0
Buddhist,58,27.0,21.0,30.0,34.0,33.0
Catholic,1116,418.0,617.0,732.0,670.0,638.0
Don’t know/refused,35,15.0,14.0,15.0,11.0,10.0
Evangelical Prot,1486,575.0,869.0,1064.0,982.0,881.0
Hindu,34,1.0,9.0,7.0,9.0,11.0
Historically Black Prot,223,228.0,244.0,236.0,238.0,197.0
Jehovah’s Witness,30,20.0,27.0,24.0,24.0,21.0
Jewish,95,19.0,19.0,25.0,25.0,30.0


In [156]:
newdf = pd.melt (df3, 
                 id_vars = ['religion'] ,
                 value_vars = value_cols,
                 var_name = 'income',
                 value_name = 'freq')
newdf

Unnamed: 0,religion,income,freq
0,Agnostic,<$10k,27
1,Atheist,<$10k,12
2,Buddhist,<$10k,27
3,Catholic,<$10k,418
4,Don’t know/refused,<$10k,15
5,Evangelical Prot,<$10k,575
6,Hindu,<$10k,1
7,Historically Black Prot,<$10k,228
8,Jehovah’s Witness,<$10k,20
9,Jewish,<$10k,19


In [171]:
newdf.pivot(index ='religion',
                columns = 'income',
                values = 'freq'
                )

income,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k,<$10k
religion,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Agnostic,34,60,81,76,137,27
Atheist,27,37,52,35,70,12
Buddhist,21,30,34,33,58,27
Catholic,617,732,670,638,1116,418
Don’t know/refused,14,15,11,10,35,15
Evangelical Prot,869,1064,982,881,1486,575
Hindu,9,7,9,11,34,1
Historically Black Prot,244,236,238,197,223,228
Jehovah’s Witness,27,24,24,21,30,20
Jewish,19,25,25,30,95,19


In [170]:
newdf.pivot_table(index ='religion',
                columns = 'income',
                values = 'freq',
                aggfunc = 'mean')

income,$10-20k,$20-30k,$30-40k,$40-50k,$50-75k,<$10k
religion,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Agnostic,34.0,60.0,81.0,76.0,137.0,27.0
Atheist,27.0,37.0,52.0,35.0,70.0,12.0
Buddhist,21.0,30.0,34.0,33.0,58.0,27.0
Catholic,617.0,732.0,670.0,638.0,1116.0,418.0
Don’t know/refused,14.0,15.0,11.0,10.0,35.0,15.0
Evangelical Prot,869.0,1064.0,982.0,881.0,1486.0,575.0
Hindu,9.0,7.0,9.0,11.0,34.0,1.0
Historically Black Prot,244.0,236.0,238.0,197.0,223.0,228.0
Jehovah’s Witness,27.0,24.0,24.0,21.0,30.0,20.0
Jewish,19.0,25.0,25.0,30.0,95.0,19.0


In [4]:
import pandas as pd
import numpy as np

np.random.seed(42)
m = np.random.ran

a     1
b     2
c     3
d     4
e    -4
f   -56
g    -7
h    35
i    34
j     5
dtype: int64

In [222]:
# gerando uma matriz (5, 3) de numeros inteiros aleatórios entre -100 e 100
# use a seed 42

import pandas as pd
import numpy as np

np.random.seed(42)
m1 = np.random.randint(-100,100,(5,3))
m2 = np.random.randint(-100,100,(5,3))
df1 = pd.DataFrame(m1, columns = ['a','b','c'])
df2 = pd.DataFrame(m2, columns = ['d','e','f'])
df3 = pd.concat([df1,df2], ignore_index = True)
#df3.rename(columns = {'a' : 'Jovem',
                     #'b' : 'velho'}, index = {0:'primeiro',
                                            # 1: 'segundo',
                                            # 2: 'terceiro',
                                            # 3: 'quarto',
                                          #   4: 'quinto'})
df3.columns = ['amor', 'jurado','maconha','estrip','jhg',2]
df3
stats = df3.describe()
stats ['maconha']

                   


count     5.000000
mean     -9.000000
std      13.057565
min     -29.000000
25%     -13.000000
50%      -8.000000
75%       2.000000
max       3.000000
Name: maconha, dtype: float64

In [8]:
df_nome_linhas = pd.DataFrame(m,index = ['peso','obs2','obs3','obs4','obs5'],
                             columns = ['variavel 1', 'variavel 2', 'variavel 3'])
df_nome_linhas

Unnamed: 0,variavel 1,variavel 2,variavel 3
peso,2,79,-8
obs2,-86,6,-29
obs3,88,-80,2
obs4,21,-26,-13
obs5,16,-1,3


In [22]:
df =pd.read_csv (r'C:\Users\EstudioFace Ipanema\investimento_parte1.csv')
df.head()

Unnamed: 0,id,Salario,Perfil,Ativo01,Ativo02,Ativo03,Ativo04,Ativo05,Ativo06,Ativo07,Nota1,Nota2
0,id0011529,$2.25,Agressivo,1311.38,,,29267.48,4993.3,,506.4,73.007216,30.025005
1,id0030644,$24.57,Agressivo,1007.38,4846.66,2717.82,12532.15,4282.98,,499.93,20.000123,29.477728
2,id0019311,$367.53,Moderado,1128.99,4668.94,3092.6,9777.77,4246.3,2007.83,509.5,24.90145,49.659852
3,id0036705,$23.26,Moderado,1185.26,4782.17,2669.05,14047.87,6026.84,2064.09,489.82,14.246718,29.271206
4,id0001368,$6.31,Conservador,957.64,5585.52,,5067.08,4030.51,2022.61,507.39,5.922253,11.840601


In [26]:
new_df = pd.melt(df, id_vars = ['Perfil'], value_vars = ['Ativo01', 'Ativo02'], var_name = 'Salario', value_name ='freq')
new_df

Unnamed: 0,Perfil,Salario,freq
0,Agressivo,Ativo01,1311.38
1,Agressivo,Ativo01,1007.38
2,Moderado,Ativo01,1128.99
3,Moderado,Ativo01,1185.26
4,Conservador,Ativo01,957.64
...,...,...,...
39995,Conservador,Ativo02,5314.55
39996,Agressivo,Ativo02,6045.98
39997,Agressivo,Ativo02,
39998,Conservador,Ativo02,4772.79


In [28]:
df.pivot(index = 'id', columns = 'Perfil', values = ['Salario','Nota1'])

Unnamed: 0_level_0,Salario,Salario,Salario,Nota1,Nota1,Nota1
Perfil,Agressivo,Conservador,Moderado,Agressivo,Conservador,Moderado
id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
id0000005,,$188.01,,,14.463307,
id0000007,,,$9.26,,,11.933962
id0000008,$1.13,,,76.898096,,
id0000011,,,$6409.88,,,68.001128
id0000012,$444.62,,,19.409556,,
...,...,...,...,...,...,...
id0038748,,,$161.00,,,71.297295
id0038751,,,$41218.63,,,96.987294
id0038752,$32.41,,,32.13961,,
id0038753,,$914.52,,,98.38508,


In [25]:
x = pd.DataFrame({
    'PESO' : [100,120,103,94,105],
    'NOME' : ['CARLOS LUIZ','FERNANDO MIGUEL','LUIZ DANIEL','JUSSARA MARTINS','PEDRO GUILHERME'],
    'FAIXA': ['PRETO', 'LARANJA', 'AMARELO', 'LILÁS','BRANCO']}, index = ['primeiro','segundo','terceiro','quarto','quinto'])
x

Unnamed: 0,PESO,NOME,FAIXA
primeiro,100,CARLOS LUIZ,PRETO
segundo,120,FERNANDO MIGUEL,LARANJA
terceiro,103,LUIZ DANIEL,AMARELO
quarto,94,JUSSARA MARTINS,LILÁS
quinto,105,PEDRO GUILHERME,BRANCO


A partir de um arquivo

O potencial do pandas é melhor aproveitado quando usamos o conceito de "tidy data" para organizarmos nossos dados.

Nos dados acima, eles estão pivoteados por segmentos de rendimento.

Vamos então tentar ajustar isso.

Para listarmos as colunas o DataFrame possui um atributo .columns que imprime esta informação em formato de lista.

In [None]:
# Veja que podemos trabalhar como listas normalmente


## Funções Pandas
  
### melt  
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.melt.html

In [None]:
# Podemos utilizar a função do Pandas .melt para alterar a visão do dataframe


### pivot_table

In [None]:
# Podemos voltar para o formato anterior, que facilita apresentações para o negócio.
# Usamos o método pivot.


### Concat  
  
É possível realizar a concatenação de dois ou mais dataframes por meio do método "concat".

In [None]:
# Criação de DataFrames por meio de dicionários

# Criação de DataFrames por meio de listas


In [None]:
# Repare que por padrão o pandas já realiza o empilhamento dos dois dataframes, mas os índices estão confusos


In [None]:
# Utilizamos o método .copy() para fazermos uma cópia do dataframe

# O atributo .index do dataframe chama os índices


Caso se queira colocar um do lado do outro, invés de em cima, usamos o parâmetro "axis".

In [None]:
# Agora ao passarmos o axis=1 ele entende que desejamos realizar uma concatenação "lateral" - também conhecido como merge


### Rename
  
O rename é utilizado para renomear labels do dataframe

In [None]:
# Para renomearmos as colunas de um dataframe utilizamos um dicionário tendo como chave 
# o valor antigo e valor o novo


## Exploração de dados: Estatísticas

In [53]:
df = pd.read_table (r"C:\Users\EstudioFace Ipanema\dados_parciais.txt", sep =';', decimal = ',')
df.head(10)
df.tail()
status = df.describe()
status['pop_urbana']
df.mean('pop_urbana')

ValueError: No axis named pop_urbana for object type DataFrame

### Head

In [None]:
# O head é utilizado para observarmos o início de um dataframe


### Tail

In [None]:
# O tail é utilizado para observarmos o final de um dataframe


### Describe

In [None]:
# Podemos sumarizar algumas estatísticas de várias colunas de uma única vez.


In [70]:
'''#exercicio'''
'''Resete o INDEX do dataframe transformando ele em coluna.
2- crie uim filtro para antonino e laura
3- crie um filtro para todos que tiveram numero de tantativas maior que 2
4- preencha o np.nan com zero
'''

exam_data = pd.DataFrame ({'nome': ['antonino', 'laura', 'nuno', 'victor', 'lucas', 'pedro'], 'score' : [12.5,14,57,np.nan,13,np.nan],
              'tentativas': [1,3,5,7,9,1], 'qualificado' : ['sim','sim','nao','sim','nao','nao']})
#1 
exam_data.reset_index()
#2
exam_data[exam_data['nome'].isin(['antonino','laura'])]
#3
exam_data[exam_data['tentativas'] > 2]
#4
exam_data.fillna(0)

Unnamed: 0,nome,score,tentativas,qualificado
0,antonino,12.5,1,sim
1,laura,14.0,3,sim
2,nuno,57.0,5,nao
3,victor,0.0,7,sim
4,lucas,13.0,9,nao
5,pedro,0.0,1,nao


In [112]:
df = pd.read_table(r"C:\Users\EstudioFace Ipanema\dados_artificiais.txt", sep ='  ', engine = 'python')
df['IMC'] = df['peso'] / (df['altura']**2)
sobrepeso = df[df['IMC']>=30]
baixopeso = df[df['IMC']<18]
print (f'baixo peso\n {baixopeso},\n sobrepeso \n {sobrepeso}')

baixo peso
       altura       peso  sexo        IMC
2   2.092193  55.468185     1  12.671863
8   1.595891  45.410648     1  17.829996
11  1.707590  45.609333     0  15.641792
13  1.672055  39.705952     1  14.202163
14  1.723377  50.058880     1  16.854681
16  1.733259  37.512188     0  12.486636,
 sobrepeso 
       altura       peso  sexo        IMC
1   1.566784  76.642768     0  31.221440
7   1.187349  48.164764     0  34.164310
9   1.396282  67.930113     0  34.843042
19  1.456048  69.342337     0  32.707480


In [None]:
# calculando uma estatística por vez


In [130]:

import pandas as pd
df3 = pd.read_table (r"C:\Users\EstudioFace Ipanema\dados_religiao_income.txt", sep = ' ')
df3

TypeError: 'str' object is not callable

In [None]:
# se quisermos estatísticas separadas por região


### Importando novo Dataframe

In [246]:
# importando o dataframe de municípios
dfmuni =pd.read_csv(r"C:\Users\EstudioFace Ipanema\populacao_brasileira_por_municipio.txt", sep =';', thousands = '.')
# dfmuni['UF'] ou dfmuni.UF
dfmuni.head()

Unnamed: 0,UF,COD. UF,COD. MUNIC,NOME DO MUNICÍPIO,POPULAÇÃO ESTIMADA
0,RO,11,15,Alta Floresta D'Oeste,22516
1,RO,11,23,Ariquemes,111148
2,RO,11,31,Cabixi,5067
3,RO,11,49,Cacoal,86416
4,RO,11,56,Cerejeiras,16088


In [310]:
# importando o dataframe de municípios
dfmuni =pd.read_csv(r"C:\Users\EstudioFace Ipanema\populacao_brasileira_por_municipio.txt", sep =';', thousands = '.')
# dfmuni['UF'] ou dfmuni.UF
#limite = 10000
#dfmuni.query('`POPULAÇÃO ESTIMADA` < @limite')
dfmuni.loc[dfmuni ['UF'] =='BA' = 'FLAMENGO']


SyntaxError: invalid syntax (1114062961.py, line 6)

In [290]:
# importando o dataframe de municípios
dfmuni =pd.read_csv(r"C:\Users\EstudioFace Ipanema\populacao_brasileira_por_municipio.txt", sep =';', thousands = '.')
# dfmuni['UF'] ou dfmuni.UF
dfmuni.head()

Unnamed: 0,UF,COD. UF,COD. MUNIC,NOME DO MUNICÍPIO,POPULAÇÃO ESTIMADA
0,RO,11,15,Alta Floresta D'Oeste,22516
1,RO,11,23,Ariquemes,111148
2,RO,11,31,Cabixi,5067
3,RO,11,49,Cacoal,86416
4,RO,11,56,Cerejeiras,16088


### Colunas
  
Podemos acessar os dados de uma colunas de três métodos

### Query
  
O método query permite realizar filtros dentro do nosso dataframe semelhante ao utilizado na linguagem SQL na clausula where

In [None]:
# quero saber quais cidades tem população urbana > 500000


In [None]:
# podemos usar uma variável


### .loc e .iloc

In [None]:
# .loc usado para pesquisar índices e colunas explicitamente

# quero a população urbana da segunda linha do dataset


In [None]:
# qual estado corresponde à segunda linha do dataset


In [None]:
# posso usar lógicas para filtrar o dataset

# quais estados pertencem à região NE?


In [None]:
# quais estados pertencem à região NE e N?


In [None]:
# iloc faz a referência aos índices e colunas de forma implícita


In [None]:
# definir a coluna uf como a coluna de índice


In [None]:
# desejo obter a população rural do AC

# loc (explícito)

# iloc (implícito)


In [None]:
# queremos as cidades que têm menos de 500000 habitantes (total)


### Operações matemáticas

In [None]:
# quero saber a razão entre as população urbana e a população rural


In [None]:
# se eu chamar uma coluna inexiste em modo de leitura
# df['frac_urbana']

In [None]:
# calcular a fração da população urbana sobre a geral


In [None]:
# iterar por cada linha e atribuir 1 se frac_urbana > 0.7 e 0 caso contrário


In [None]:


# podemos fazer transformações com dicionários


In [None]:
# usando o apply em múltiplas colunas


### Merge (join)

Outra tarefa muito comum quando estamos trabalhando com bases de dados é o **cruzamento**

Para fazer isso, utilizamos o método **.merge()**, cujos modos de cruzamento são:

<img src="https://community.qlik.com/legacyfs/online/87693_all-joins.png" width=450 style="background-color:white">

In [None]:
# retirar o uf dos índices


In [None]:
# quero a média e o desvio padrão da população estimada por região


**Bora praticar!**
  
1) Utilizando o DataFrame importado anteriormente (alunos3.csv) calcule a média das provas em uma nova coluna chamada (Media_provas)

2) Quem foram os alunos que obtiveram a maior e a menor média

3) Agora una este dataframe com o cadastro_alunos.xlsx

4) Qual a média entre as Media_provas dentro do público feminino? e masculino?

In [None]:
# Exercício:


5) Qual a média de idade das pessoas que obtiveram Media_provas maior ou igual a 7?

In [None]:
''' EXERCICIO
1 -seleção de municipios por tamanho de população usando o loc - 500k
2 - seleção de linhas especificas usando o iloc (10,20)
3 - utilizar query para filtrar municipios com pop entre 10.000 e 50.000 habitantes
4- calcular a população total do estado de rondonia usando operações matematicas do pandas
5- criação de uma nova coluna usando operações matematicas  e loc - população média 
''''

In [344]:
# importando o dataframe de municípios
dfmuni =pd.read_csv(r"C:\Users\EstudioFace Ipanema\populacao_brasileira_por_municipio.txt", sep =';', thousands = '.')
#1
dfmuni.loc [dfmuni['POPULAÇÃO ESTIMADA'] < 500000] 

#2
dfmuni.iloc[[10,20]]
#3
dfmuni.query ('`POPULAÇÃO ESTIMADA` >= 10000 and `POPULAÇÃO ESTIMADA` < 50000')
#4 
rondonia = dfmuni[dfmuni['UF'] == 'RO']
rondonia['POPULAÇÃO ESTIMADA'].sum()
#5
popmediaestado = dfmuni.groupby('UF')['POPULAÇÃO ESTIMADA'].mean()
dfmuni ['POPULAÇÃO MEDIA ESTADO'] = dfmuni['UF'].map(popmediaestado)
dfmuni

Unnamed: 0,UF,COD. UF,COD. MUNIC,NOME DO MUNICÍPIO,POPULAÇÃO ESTIMADA,POPULAÇÃO MEDIA ESTADO
0,RO,11,15,Alta Floresta D'Oeste,22516,3.490919e+04
1,RO,11,23,Ariquemes,111148,3.490919e+04
2,RO,11,31,Cabixi,5067,3.490919e+04
3,RO,11,49,Cacoal,86416,3.490919e+04
4,RO,11,56,Cerejeiras,16088,3.490919e+04
...,...,...,...,...,...,...
5565,GO,52,22005,Vianópolis,14088,2.929508e+04
5566,GO,52,22054,Vicentinópolis,9002,2.929508e+04
5567,GO,52,22203,Vila Boa,6451,2.929508e+04
5568,GO,52,22302,Vila Propício,5941,2.929508e+04


In [8]:
## EXERCÍCIO
'''
 1. Utilizando o conjunto de dados 'dados_artificiais.txt':
    1. Leia o dataset
    2. Adicione a coluna de IMC > IMC = peso / altura**2
    3. Filtre e reserve uma nova variável para todos os IMC's que são considerados:
       1. Sobrepeso >
       2. < Baixo peso

| IMC             | Categoria           |   |
|-----------------|---------------------|---|
| abaixo de 16,00 | Baixo peso Grau III |   |
| 16,00 a 16,99   | Baixo peso Grau II  |   |
'''


IndentationError: unexpected indent (405406361.py, line 3)

In [27]:
import pandas as pd
import numpy as np
#1
dados = pd.read_csv (r"C:\Users\EstudioFace Ipanema\dados_artificiais.txt", sep ='  ', engine='python')
dados.head()
2#
dados['IMC'] = dados ['peso'] /(dados['altura']**2)
dados
3#
dados ['status'] = np.where (dados['IMC'] >30 , 'SOBREPESO',
                   np.where (dados['IMC'] <17, 'BAIXO PESO', 'PESO NORMAL'))
dados.head()

Unnamed: 0,altura,peso,sexo,IMC,status
0,1.788811,65.648102,0,20.516027,PESO NORMAL
1,1.566784,76.642768,0,31.22144,SOBREPESO
2,2.092193,55.468185,1,12.671863,BAIXO PESO
3,1.782471,67.281997,1,21.176488,PESO NORMAL
4,1.735767,69.289008,0,22.997546,PESO NORMAL



6) Qual das cidades possui o maior média de Media_provas? E qual é este valor?