# Estudo de Pandas

# 1. Funções do Pandas

# 1.1 Pivotamento de Tabelas (Pivot Tables)

In [30]:
import pandas as pd
import numpy as np

# Caminho do arquivo CSV
caminho_arquivo = r'C:\Users\casa\Downloads\Cursos\Projeto Pandas\predict+students+dropout+and+academic+success\data.csv'

# Lê o arquivo CSV usando o Pandas
dados = pd.read_csv(caminho_arquivo, sep= ';') #indica o ponto e virgula como separador

dados.head()


Unnamed: 0,Marital status,Application mode,Application order,Course,Daytime/evening attendance\t,Previous qualification,Previous qualification (grade),Nacionality,Mother's qualification,Father's qualification,...,Curricular units 2nd sem (credited),Curricular units 2nd sem (enrolled),Curricular units 2nd sem (evaluations),Curricular units 2nd sem (approved),Curricular units 2nd sem (grade),Curricular units 2nd sem (without evaluations),Unemployment rate,Inflation rate,GDP,Target
0,1,17,5,171,1,1,122.0,1,19,12,...,0,0,0,0,0.0,0,10.8,1.4,1.74,Dropout
1,1,15,1,9254,1,1,160.0,1,1,3,...,0,6,6,6,13.666667,0,13.9,-0.3,0.79,Graduate
2,1,1,5,9070,1,1,122.0,1,37,37,...,0,6,0,0,0.0,0,10.8,1.4,1.74,Dropout
3,1,17,2,9773,1,1,122.0,1,38,37,...,0,6,10,5,12.4,0,9.4,-0.8,-3.12,Graduate
4,2,39,1,8014,0,1,100.0,1,37,38,...,0,6,6,6,13.0,0,13.9,-0.3,0.79,Graduate


In [31]:
#Qual a proporção de dropout (taxa de evasão)

dados["Target"].value_counts(1) #obtém uma série que mostra a proporção (porcentagem) em relação ao total de observações


Target
Graduate    0.499322
Dropout     0.321203
Enrolled    0.179476
Name: proportion, dtype: float64

In [32]:
#Qual a média de Inflação para cada tipo de target
dados.groupby("Target")["Inflation rate"].mean()

Target
Dropout     1.283955
Enrolled    1.211713
Graduate    1.197918
Name: Inflation rate, dtype: float64

In [20]:
# Relação com Tabela dinâmica
# 1. Aplicando a função pivot_table é uma forma de reorganizar e agrupar os dados selecionados de um DataFrame.
# 2. A coluna 'Target' é utilizada como a chave para agrupar os dados.
# 3. Columns a gente define quais colunas serão usadas como colunas na tabela pivor.
# 4. Values especifica os valores usados para preencher as células da tabela pivot.
# 5. Aggfunc= np.mean definimos a função de agragação como média.

# Este código, portanto, cria uma tabela pivot que fornece a média da coluna 'Inflation rate' para cada combinação única de 'Target' e 'Marital status'.

dados.pivot_table(index='Target', columns=['Marital status'], values='Inflation rate', aggfunc=np.mean)


Marital status,1,2,3,4,5,6
Target,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Dropout,1.282601,1.300559,1.4,1.269048,1.354545,0.875
Enrolled,1.220694,1.003846,2.55,1.59375,-0.333333,1.4
Graduate,1.193499,1.216216,-0.8,1.163636,2.181818,-0.3


In [33]:
# Cruzando com mais variáveis.
dados.pivot_table(index='Target',
                  columns=['Daytime/evening attendance\t', 'Marital status'],
                  values='Previous qualification (grade)',
                  aggfunc=np.mean)


Daytime/evening attendance,0,0,0,0,0,0,1,1,1,1,1,1
Marital status,1,2,3,4,5,6,1,2,3,4,5,6
Target,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
Dropout,128.471774,130.476471,,127.733333,120.0,122.5,131.537736,129.937838,135.0,130.753333,143.55,133.1
Enrolled,128.863415,133.296,,135.4,,133.1,131.172607,129.177778,154.0,137.4125,128.7,
Graduate,132.313333,131.133784,120.0,138.388235,120.0,133.1,134.495393,130.505405,,126.59375,132.1375,


# 1.2 Formatação Condicional

In [22]:
# Pintar as células de uma tabela de determinadas cores de acordo com alguma condição sendo imposta.
# DataFrame. style

In [23]:
# Criando um DataFrame Simples
df= pd.DataFrame({
    'A': [9, -7, 5],
    'B': [-1, 3, -4]
    
    
})

df

# Definindo uma função para aplicar a coloração

def color_positive_negative (val): # Definimos uma função a qual recebe um valor 'val' como parâmetro.
    color = 'green' if val > 0 else 'red'
    return 'color: %s' % color # Propriedade de estilo CSS

# Aplicando a coloração ao DataFrame

styled_df = df.style.applymap (color_positive_negative) # Aplica a função a cada célula usando o applymap
display(styled_df) # Exibe o DataFrame estilizado na saída

Unnamed: 0,A,B
0,9,-1
1,-7,3
2,5,-4


In [24]:
# Definindo a fução que destaca máximo e mínimo.

def highlight_max_min(s):
    is_max = s == s.max() #verificando se cada valor em s (que pode ser uma coluna de números) é igual ao valor máximo de s
    is_min = s == s.min() #verificando se cada valor em s (que pode ser uma coluna de números) é igual ao valor mínimimo de s
    return ['color: green' if v_max else 'color: red' if v_min else '' for v_max, v_min in zip (is_max, is_min)] # A função zip é usada para combinar is_max e is_min para que possamos verificar ambos ao mesmo tempo para cada valor.

# Aplica formatação condicional
styked_df= df.style.apply (highlight_max_min) # Aplica a função a cada coluna usando o apply
display(styled_df) # Visualização do DataFrame estilizado

Unnamed: 0,A,B
0,9,-1
1,-7,3
2,5,-4


In [25]:
# Styler.applymap: elemento a elemento
# Styler.apply: por coluna/linha/tabela

In [26]:
pivot_df= dados.pivot_table (index='Marital status',
        columns=['Target'],
        values= 'Previous qualification (grade)',
        aggfunc=np.mean)
pivot_df

Target,Dropout,Enrolled,Graduate
Marital status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,131.216639,131.041111,134.381687
2,130.142458,131.157692,130.819595
3,135.0,154.0,120.0
4,129.890476,136.40625,132.669697
5,141.409091,128.7,128.827273
6,127.8,133.1,133.1


In [27]:
# Definindo a função que destaca máximo e mínimo.
def highlight_max_min(data):
    styles = data.copy() # Criando uma cópia do DataFrame para evitar alterações no original.
    for col in data.columns: #Loop que percorre 
        max_val = data[col].max()
        min_val = data[col].min()
        styles[col] = [
            'background-color: lightgreen' if v == max_val else 'background-color: yellow'
            if v == min_val else '' for v in data[col]
        ]
    return styles

# Aplica formatação condicional
styled_df = pivot_df.style.apply(highlight_max_min, axis= None)  # Aplica a função a cada coluna usando o apply
display(styled_df)


Target,Dropout,Enrolled,Graduate
Marital status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,131.216639,131.041111,134.381687
2,130.142458,131.157692,130.819595
3,135.0,154.0,120.0
4,129.890476,136.40625,132.669697
5,141.409091,128.7,128.827273
6,127.8,133.1,133.1


# 1.3 Formatação Condicional

In [37]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4424 entries, 0 to 4423
Data columns (total 37 columns):
 #   Column                                          Non-Null Count  Dtype  
---  ------                                          --------------  -----  
 0   Marital status                                  4424 non-null   int64  
 1   Application mode                                4424 non-null   int64  
 2   Application order                               4424 non-null   int64  
 3   Course                                          4424 non-null   int64  
 4   Daytime/evening attendance	                     4424 non-null   int64  
 5   Previous qualification                          4424 non-null   int64  
 6   Previous qualification (grade)                  4424 non-null   float64
 7   Nacionality                                     4424 non-null   int64  
 8   Mother's qualification                          4424 non-null   int64  
 9   Father's qualification                   

In [38]:
# dados.agg("mean", axis=0) -- agregação, média
# Pode utilizar outras funções como dados.agg(['sum', 'mean', 'min'])
# axis=0: Refere-se ao eixo das linhas. 
# axis=1: Refere-se ao eixo das colunas.

In [42]:
## Criando Própria Tabela Descritiva: ao invés do describe (), podemos criar algo com o agg e as estátiscas que mais atendem a necessidade.

##def amplitude (series):
  ##  return series.max()- serie.min()

#dados.agg(['sum', 'mean' 'min','max', amplitude])

# 1.4 Unindo Diferentes Datasets

In [45]:
import pandas as pd

# Criando o dataframe "compras"
compras = pd.DataFrame({
'id_cliente': ['AA00', 'AA00', 'BB01', 'BB01', 'BB01', 'CC02', 'CC02', 'CC02', 'CC02', 'CC02'],
'data_compra': ['2023-01-01', '2023-01-05', '2023-01-10', '2023-01-15', '2023-01-20',
'2023-01-25', '2023-01-30', '2023-02-01', '2023-02-05', '2023-02-10'],
'valor_compra': [100, 150, 200, 250, 300, 350, 400, 450, 500, 550]
})

# Criando o dataframe "geolocalizacao"
geolocalizacao = pd.DataFrame({
'id_cliente': ['AA00', 'BB01', 'CC02', 'DD03', 'EE04'],
'estado': ['São Paulo', 'São Paulo', 'Minas Gerais', 'Bahia', 'Pernambuco']
})

In [52]:
compras


Unnamed: 0,id_cliente,data_compra,valor_compra
0,AA00,2023-01-01,100
1,AA00,2023-01-05,150
2,BB01,2023-01-10,200
3,BB01,2023-01-15,250
4,BB01,2023-01-20,300
5,CC02,2023-01-25,350
6,CC02,2023-01-30,400
7,CC02,2023-02-01,450
8,CC02,2023-02-05,500
9,CC02,2023-02-10,550


In [51]:
geolocalizacao

Unnamed: 0,id_cliente,estado
0,AA00,São Paulo
1,BB01,São Paulo
2,CC02,Minas Gerais
3,DD03,Bahia
4,EE04,Pernambuco


In [61]:
# Sumarizar a tabela Compras
compras_group = compras.groupby ('id_cliente') ['valor_compra'].sum().reset_index()


#Reset_index "achatrar" a estrutura do DataFrame com o indice, tornando-o mais fácil de manipular ou mesclar com outros DataFrames.


In [67]:
compras_group_geo= compras_group.merge(geolocalizacao, how='left', on= 'id_cliente')

compras_group_geo

# Merge funciona como interface para combinar DataFrames 
# Sintaxe utilizada: pd.merge(df1, df2, how='inner', on='coluna_chave')
# Todos os valores do DataFrame à esquerda  serão mantidos, e os valores correspondentes do DataFrame à direita serão anexados


Unnamed: 0,id_cliente,valor_compra,estado
0,AA00,250,São Paulo
1,BB01,750,São Paulo
2,CC02,2250,Minas Gerais


In [69]:
compras_group_geo = compras_group_geo.groupby ('estado')['valor_compra'].sum().reset_index()
compras_group_geo

Unnamed: 0,estado,valor_compra
0,Minas Gerais,2250
1,São Paulo,1000


In [70]:
#1. Left (Junção à Esquerda):
# - A junção à esquerda usa apenas as chaves do DataFrame à esquerda.
#- O resultado conterá todas as linhas do DataFrame à esquerda e as linhas correspondentes do DataFrame à direita. Se não houver correspondência para uma linha do DataFrame à esquerda, os valores nas colunas do DataFrame à direita serão 'NaN'.

#2. Right (Junção à Direita):
#- A junção à direita usa apenas as chaves do DataFrame à direita.
#- O resultado conterá todas as linhas do DataFrame à direita e as linhas correspondentes do DataFrame à esquerda. Se não houver correspondência para uma linha do DataFrame à direita, os valores nas colunas do DataFrame à esquerda serão 'NaN'.

#3. Inner (Junção Interna):
#- A junção interna usa apenas as chaves comuns aos dois DataFrames.
#- O resultado conterá apenas as linhas para as quais há chaves correspondentes em ambos os DataFrames. Linhas em ambos os DataFrames que não têm correspondências serão excluídas.

#4. Outer (Junção Externa ou Full Outer Join):
#- A junção externa usa todas as chaves presentes em ambos os DataFrames.
#- O resultado conterá todas as linhas de ambos os DataFrames. Para as linhas que não têm correspondências no outro DataFrame, os valores nas colunas desse DataFrame serão 'NaN'


# Sintaxe: df1.join(df2, on='coluna_chave')
# É mais conveniente de usar quando você deseja combinar DataFrames com base em seus índices.

In [77]:
import pandas as pd

# Criando o dataframe "df_A"
df_A = pd.DataFrame({
'Key': ['1', '2', '3'],
'Value_A': ['A1', 'A2', 'A3'],
})

# Criando o dataframe "df_B"
df_B = pd.DataFrame({
'Key': ['1', '3', '4'],
'Value_B': ['B1', 'B2', 'B3'],
})

In [78]:
left_join= df_A.merge(df_B, on='Key', how = 'left')
print("Left Join: ")

left_join

Left Join: 


Unnamed: 0,Key,Value_A,Value_B
0,1,A1,B1
1,2,A2,
2,3,A3,B2


In [79]:
right_join= df_A.merge(df_B, on='Key', how = 'right')
print("Right Join: ")

right_join

Right Join: 


Unnamed: 0,Key,Value_A,Value_B
0,1,A1,B1
1,3,A3,B2
2,4,,B3


In [80]:
inner_join= df_A.merge(df_B, on='Key', how = 'inner')
print("Inner Join: ")

inner_join

Inner Join: 


Unnamed: 0,Key,Value_A,Value_B
0,1,A1,B1
1,3,A3,B2


In [81]:
outer_join= df_A.merge(df_B, on='Key', how = 'outer')
print("Outer Join: ")

outer_join

Outer Join: 


Unnamed: 0,Key,Value_A,Value_B
0,1,A1,B1
1,2,A2,
2,3,A3,B2
3,4,,B3


In [83]:
# Criando o DataFrame de compras de junho e julho
jun_jul = pd.DataFrame({
'id_cliente': ['AA01', 'BB02', 'AA01', 'CC03', 'BB02', 'DD04'],
'dt_compra': ['2023-06-05', '2023-06-15', '2023-06-25', '2023-07-05', '2023-07-15', '2023-07-25'],
'vl_compra': [200.50, 155.75, 333.60, 450.00, 300.10, 250.00]
})


# Criando o DataFrame de compras de agosto e setembro
ago_set = pd.DataFrame({
'id_cliente': ['EE05', 'EE05', 'FF06', 'GG07'],
'dt_compra': ['2023-08-05', '2023-08-15', '2023-08-25', '2023-09-05'],
'vl_compra': [205.55, 233.75, 550.65, 320.82]
})


In [84]:
# União dos dois DataFrames
df_concat = pd.concat([jun_jul, ago_set])
df_concat


Unnamed: 0,id_cliente,dt_compra,vl_compra
0,AA01,2023-06-05,200.5
1,BB02,2023-06-15,155.75
2,AA01,2023-06-25,333.6
3,CC03,2023-07-05,450.0
4,BB02,2023-07-15,300.1
5,DD04,2023-07-25,250.0
0,EE05,2023-08-05,205.55
1,EE05,2023-08-15,233.75
2,FF06,2023-08-25,550.65
3,GG07,2023-09-05,320.82


# 2. Outros Métodos e Funções

# 2.1 Criando intervalos discretos com cut e qcut

In [90]:
#Método cut permite segmentar e classifcar os valores em compartimentos discretos.

df= pd.DataFrame ({'value': [1,2,3,4,5]})
df['bin']=pd.cut(df['value'], bins=[0,3,5], labels=['Low', 'High'])
df

# Bin: determina os limites dos intervalos que criamos (o primeiro sendo de 0 a 3 e o segundo para valores acima de 3 até 5)
# Labels: define os rótulos

Unnamed: 0,value,bin
0,1,Low
1,2,Low
2,3,Low
3,4,High
4,5,High


In [91]:
df= pd.DataFrame ({'value': [1,2,3,4,5]})
df['bin']=pd.cut(df['value'], bins=[1,4,5], labels=['Low', 'High'])
df

#Se você tivesse números fora deste intervalo, o campo bin ficaria sem receber nenhum valor e acabaria tendo missing

Unnamed: 0,value,bin
0,1,
1,2,Low
2,3,Low
3,4,Low
4,5,High


In [92]:
# Sem passar valor, apenas dizer em quantas partes o campo deve ser quebrado
df= pd.DataFrame ({'value': [1,2,3,4,5]})
df['equal_bins']=pd.cut(df['value'], bins= 3)
df


Unnamed: 0,value,equal_bins
0,1,"(0.996, 2.333]"
1,2,"(0.996, 2.333]"
2,3,"(2.333, 3.667]"
3,4,"(3.667, 5.0]"
4,5,"(3.667, 5.0]"


In [93]:
# A função qcut discreta em compartimentos de tamanho igual com base no rank ou quantis da amostra,

In [94]:
# Criando campo novo sem rótulo para intervalos
df= pd.DataFrame({'value' : [1,2,3,4,5]})
df ['quantile_bin'] = pd.qcut(df['value'], q=2)
df

Unnamed: 0,value,quantile_bin
0,1,"(0.999, 3.0]"
1,2,"(0.999, 3.0]"
2,3,"(0.999, 3.0]"
3,4,"(3.0, 5.0]"
4,5,"(3.0, 5.0]"


In [96]:
# Especificando os quantis.

df= pd.DataFrame({'value': [1,2,3,4,5,6,7,8,9,10]})
df['customer_quantile_bin'] = pd.qcut(df['value'], q=[0, 0.1, 0.5, 1])
df

Unnamed: 0,value,customer_quantile_bin
0,1,"(0.999, 1.9]"
1,2,"(1.9, 5.5]"
2,3,"(1.9, 5.5]"
3,4,"(1.9, 5.5]"
4,5,"(1.9, 5.5]"
5,6,"(5.5, 10.0]"
6,7,"(5.5, 10.0]"
7,8,"(5.5, 10.0]"
8,9,"(5.5, 10.0]"
9,10,"(5.5, 10.0]"


# 2.2 Método Sample

In [99]:
# Amostra de 10 estudantes

caminho_arquivo = r'C:\Users\casa\Downloads\Cursos\Projeto Pandas\predict+students+dropout+and+academic+success\data.csv'

dados = pd.read_csv(caminho_arquivo, sep= ';') #indica o ponto e virgula como separador

amostra= dados.sample (n=10)
amostra


Unnamed: 0,Marital status,Application mode,Application order,Course,Daytime/evening attendance\t,Previous qualification,Previous qualification (grade),Nacionality,Mother's qualification,Father's qualification,...,Curricular units 2nd sem (credited),Curricular units 2nd sem (enrolled),Curricular units 2nd sem (evaluations),Curricular units 2nd sem (approved),Curricular units 2nd sem (grade),Curricular units 2nd sem (without evaluations),Unemployment rate,Inflation rate,GDP,Target
3031,1,43,1,9500,1,1,157.0,1,38,3,...,2,8,8,8,15.9,0,13.9,-0.3,0.79,Graduate
2327,2,39,1,9991,0,1,110.0,1,37,37,...,0,5,5,3,10.666667,0,9.4,-0.8,-3.12,Dropout
1015,1,17,1,9254,1,1,116.0,1,19,19,...,0,6,6,6,12.333333,0,12.4,0.5,1.79,Graduate
1836,2,43,1,8014,0,1,110.0,1,37,19,...,3,7,12,7,12.142857,0,9.4,-0.8,-3.12,Graduate
2076,1,1,4,9238,1,1,123.0,1,38,1,...,0,6,6,6,12.333333,0,10.8,1.4,1.74,Graduate
1434,1,1,2,9500,1,1,130.0,1,1,38,...,0,8,11,6,12.875,0,11.1,0.6,2.02,Enrolled
4013,1,51,1,9500,1,1,129.0,1,37,38,...,0,8,9,8,15.522222,0,11.1,0.6,2.02,Graduate
1774,1,17,6,9254,1,1,108.0,1,1,19,...,0,6,12,3,10.0,0,9.4,-0.8,-3.12,Enrolled
2926,1,44,1,8014,0,39,140.0,1,1,3,...,2,6,7,6,14.571429,0,12.4,0.5,1.79,Graduate
1745,1,44,1,9085,1,39,130.0,1,1,1,...,1,6,16,3,10.0,0,15.5,2.8,-4.06,Dropout


In [100]:

# Amostra do percentual de 10 % do DataFrame

amostra_10_perc = dados.sample(frac=0.1)
amostra_10_perc

Unnamed: 0,Marital status,Application mode,Application order,Course,Daytime/evening attendance\t,Previous qualification,Previous qualification (grade),Nacionality,Mother's qualification,Father's qualification,...,Curricular units 2nd sem (credited),Curricular units 2nd sem (enrolled),Curricular units 2nd sem (evaluations),Curricular units 2nd sem (approved),Curricular units 2nd sem (grade),Curricular units 2nd sem (without evaluations),Unemployment rate,Inflation rate,GDP,Target
2456,1,39,1,9070,1,1,110.0,1,37,37,...,0,6,6,6,13.500000,0,11.1,0.6,2.02,Graduate
1203,1,1,6,9238,1,1,113.0,1,1,38,...,0,6,8,4,11.750000,0,8.9,1.4,3.51,Graduate
1822,1,17,1,9147,1,1,162.0,1,1,38,...,0,5,13,0,0.000000,0,12.7,3.7,-1.70,Enrolled
2820,1,18,6,9500,1,1,144.0,1,1,1,...,0,8,11,7,12.771429,0,12.7,3.7,-1.70,Graduate
1788,1,1,1,9070,1,1,116.0,1,3,3,...,0,6,10,0,0.000000,4,7.6,2.6,0.32,Dropout
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2849,1,44,1,9085,1,39,140.0,1,3,3,...,0,6,6,5,13.000000,0,13.9,-0.3,0.79,Graduate
2254,1,39,1,9991,0,1,120.0,1,19,37,...,0,5,0,0,0.000000,0,12.7,3.7,-1.70,Dropout
3596,1,44,1,9003,1,39,150.0,1,19,1,...,0,6,12,3,12.750000,0,15.5,2.8,-4.06,Enrolled
691,2,43,1,9003,1,1,133.1,1,37,37,...,12,13,13,13,12.384615,0,15.5,2.8,-4.06,Graduate


# 2.3 Método nunique e unique

In [102]:
# Nunique retorna o número de elementos únicos no objeto.
dados.Target.nunique()


3

In [101]:
# Unique retorna os elementos únicos em si
dados.Target.unique()

array(['Dropout', 'Graduate', 'Enrolled'], dtype=object)

In [106]:
 ## Colocar tudo que é texto como feature categórica e o restante como numérica;
    # Lista de colunas com tipo de dado 'object' (geralmente texto ou string)
categorial_features= df.select_dtypes( include = ['object']).columns.tolist()
    # Lista de colunas com tipos de dados númericos (int e float)
numerical_features= df.select_dtypes( exclude = ['object']).columns.tolist()

In [None]:
## Olhar quantos valores únicos cada coluna possui e definir um valor como o limite que separa as features numéricas de categóricas (ex.: abaixo de 10 valores únicos são categóricas e o restante são numéricas)
    # Suponha que df é o seu DataFrame e que seu limite é 10 valores únicos
    unique_counts = dados.nunique()
    
    categorial_features= unique_counts[unique_counts <= 10].index.tolist()
    numerical_features = unique_counts [unique_counts>10]index.tolist()

# 2.4 Como usar funções com apply

In [110]:
df = pd.DataFrame({'A' : [1, 2, 3, 4, 5]})
df['quadrado'] = df['A'].apply(lambda x: x**2) # criar funções anônimas ou funções de uma única linha

df

Unnamed: 0,A,quadrado
0,1,1
1,2,4
2,3,9
3,4,16
4,5,25


In [111]:
dados['new_GDP'] = dados.GDP.apply (lambda x: x*100)
dados[['GDP' , 'new_GDP']].head()

Unnamed: 0,GDP,new_GDP
0,1.74,174.0
1,0.79,79.0
2,1.74,174.0
3,-3.12,-312.0
4,0.79,79.0


In [113]:
# Construindo DataFrame para exemplos
df = pd.DataFrame({
    'A': [1,2,3],    
    'B': [4,5,6],
    'C': [7,8,9]
    
})
df

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


In [114]:
# Média das colunas
df.apply(lambda col: col.mean(), axis=1)

0    4.0
1    5.0
2    6.0
dtype: float64

In [115]:
# Soma das linhas
df.apply(lambda row: row.sum(), axis=0)

A     6
B    15
C    24
dtype: int64

# 2.5 Tabelas de Frequência Cruzada

In [117]:
caminho_arquivo = r'C:\Users\casa\Downloads\Cursos\Projeto Pandas\Bike Store Relational Database\products.csv'

prod = pd.read_csv(caminho_arquivo) 

prod.head()

Unnamed: 0,product_id,product_name,brand_id,category_id,model_year,list_price
0,1,Trek 820 - 2016,9,6,2016,379.99
1,2,Ritchey Timberwolf Frameset - 2016,5,6,2016,749.99
2,3,Surly Wednesday Frameset - 2016,8,6,2016,999.99
3,4,Trek Fuel EX 8 29 - 2016,9,6,2016,2899.99
4,5,Heller Shagamaw Frame - 2016,3,6,2016,1320.99


In [118]:
pd.crosstab(prod['model_year'], prod['brand_id']) # Criar tabelas de contigência para entender a relação entre 2 variaveis  

brand_id,1,2,3,4,5,6,7,8,9
model_year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2016,12,0,1,3,1,0,0,4,5
2017,16,10,0,0,0,0,23,8,28
2018,90,0,2,0,0,3,0,13,96
2019,0,0,0,0,0,0,0,0,6


In [119]:
pd.crosstab(prod['model_year'], prod['brand_id'], margins= True) # Ver o total de linhas e colunas

brand_id,1,2,3,4,5,6,7,8,9,All
model_year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
2016,12,0,1,3,1,0,0,4,5,26
2017,16,10,0,0,0,0,23,8,28,85
2018,90,0,2,0,0,3,0,13,96,204
2019,0,0,0,0,0,0,0,0,6,6
All,118,10,3,3,1,3,23,25,135,321


In [121]:
# Quanto cada célula representa em percentual da linha
pd.crosstab(prod['model_year'], prod['brand_id']).apply(lambda r: r/r.sum(), axis=1)

brand_id,1,2,3,4,5,6,7,8,9
model_year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2016,0.461538,0.0,0.038462,0.115385,0.038462,0.0,0.0,0.153846,0.192308
2017,0.188235,0.117647,0.0,0.0,0.0,0.0,0.270588,0.094118,0.329412
2018,0.441176,0.0,0.009804,0.0,0.0,0.014706,0.0,0.063725,0.470588
2019,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0


In [123]:
# Quanto cada célula representa em percentual da coluna
pd.crosstab(prod['model_year'], prod['brand_id']).apply(lambda r: r/r.sum(), axis=0)

brand_id,1,2,3,4,5,6,7,8,9
model_year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2016,0.101695,0.0,0.333333,1.0,1.0,0.0,0.0,0.16,0.037037
2017,0.135593,1.0,0.0,0.0,0.0,0.0,1.0,0.32,0.207407
2018,0.762712,0.0,0.666667,0.0,0.0,1.0,0.0,0.52,0.711111
2019,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.044444


# 2.6 Identificando Valores Ausentes com isna ()

In [None]:
# A função isna () é é usada para identificar valores ausentes em um DataFrame ou Series. Ele retorna uma máscara booleana (Verdadeiro ou Falso) do mesmo tamanho que os dados, onde True indica um valor ausente.

In [124]:
df = pd.DataFrame ({
'A' : [1,2, None, 4, 5],
'B' : ['A', None, 'C', None, 'E']
})

df

Unnamed: 0,A,B
0,1.0,A
1,2.0,
2,,C
3,4.0,
4,5.0,E


In [126]:
df.isna()

Unnamed: 0,A,B
0,False,False
1,False,True
2,True,False
3,False,True
4,False,False


In [127]:
# Ausentes por coluna (soma)
df.isna().sum()

A    1
B    2
dtype: int64

In [128]:
# Ausentes por coluna (percentual)
df.isna().mean()

A    0.2
B    0.4
dtype: float64

In [129]:
# Filtra missing na coluna A
df[df['A'].isna()]

Unnamed: 0,A,B
2,,C


In [130]:
# Filtra missing na coluna B
df[df['B'].isna()]

Unnamed: 0,A,B
1,2.0,
3,4.0,


# 2.7 Filtra Dados com query

In [131]:
# Método query() permite filtrar dados usando uma string de consulta.

In [132]:
prod.query ('list_price > 5500')

Unnamed: 0,product_id,product_name,brand_id,category_id,model_year,list_price
49,50,Trek Silque SLR 7 Women's - 2017,9,7,2017,5999.99
50,51,Trek Silque SLR 8 Women's - 2017,9,7,2017,6499.99
148,149,Trek Domane SLR 8 Disc - 2018,9,7,2018,7499.99
154,155,Trek Domane SLR 9 Disc - 2018,9,7,2018,11999.99
155,156,Trek Domane SL Frameset - 2018,9,7,2018,6499.99
156,157,Trek Domane SL Frameset Women's - 2018,9,7,2018,6499.99
168,169,Trek Emonda SLR 8 - 2018,9,7,2018,6499.99


In [133]:
prod.query ('list_price > 5500 & model_year == 2018')

Unnamed: 0,product_id,product_name,brand_id,category_id,model_year,list_price
148,149,Trek Domane SLR 8 Disc - 2018,9,7,2018,7499.99
154,155,Trek Domane SLR 9 Disc - 2018,9,7,2018,11999.99
155,156,Trek Domane SL Frameset - 2018,9,7,2018,6499.99
156,157,Trek Domane SL Frameset Women's - 2018,9,7,2018,6499.99
168,169,Trek Emonda SLR 8 - 2018,9,7,2018,6499.99
