# Análise Exploratória dos Dados

Importando a biblioteca Pandas

In [2]:
import pandas as pd

Serão analisadas as bases de dados de treino e validação

In [2]:
df_train = pd.read_csv('../data/raw/fairface_label_train.csv')
df_val = pd.read_csv('../data/raw/fairface_label_val.csv')

Visualização do conjunto de dados de treino

In [None]:
df_train.head()

Visualização do conjunto de dados de validação

In [None]:
df_val.head()

Avaliando o balanceamento da base de dados de treino em relação as raças

In [None]:
df_train.race.value_counts()

Avaliando o balanceamento da base de dados de validação em relação as raças

In [None]:
df_val.race.value_counts()

Avaliando os rótulos de idade:

In [5]:
df_train['age'].value_counts()

age
20-29           25598
30-39           19250
40-49           10744
3-9             10408
10-19            9103
50-59            6228
60-69            2779
0-2              1792
more than 70      842
Name: count, dtype: int64

In [11]:
df_val['age'].value_counts()

age
20-29           3300
30-39           2330
3-9             1356
40-49           1353
10-19           1181
50-59            796
60-69            321
0-2              199
more than 70     118
Name: count, dtype: int64

Avaliando os rótulos de gênero:

In [15]:
df_train['gender'].value_counts()

gender
Male      45986
Female    40758
Name: count, dtype: int64

In [14]:
df_val['gender'].value_counts()

gender
Male      5792
Female    5162
Name: count, dtype: int64

Avaliando os rótulos de raça:

In [16]:
df_train['race'].value_counts()

race
White              16527
Latino_Hispanic    13367
Indian             12319
East Asian         12287
Black              12233
Southeast Asian    10795
Middle Eastern      9216
Name: count, dtype: int64

In [17]:
df_val['race'].value_counts()

race
White              2085
Latino_Hispanic    1623
Black              1556
East Asian         1550
Indian             1516
Southeast Asian    1415
Middle Eastern     1209
Name: count, dtype: int64

Existem dados faltantes no conjunto de treino?

In [6]:
df_train[df_train.isnull().any(axis=1)]

Unnamed: 0,file,age,gender,race,service_test


In [8]:
df_val[df_val.isnull().any(axis=1)]

Unnamed: 0,file,age,gender,race,service_test


Qual o tamanho do conjunto de dados de treino e teste?

In [9]:
df_train.shape

(86744, 5)

In [10]:
df_val.shape

(10954, 5)

## Avaliando a aplicação do MTCNN por etnia

In [4]:
# Etnia negra:
df_black=pd.read_csv('../data/interim/df_black_to_2000.csv')
df_black_segundo_conjunto=pd.read_csv('../data/interim/df_black_2000_to_4000.csv')
df_black_terceiro_conjunto=pd.read_csv('../data/interim/df_black_4000_to_6000.csv')
df_black_quarto_conjunto=pd.read_csv('../data/interim/df_black_6000_to_8000.csv')
df_black_quinto_conjunto=pd.read_csv('../data/interim/df_black_8000_to_10000.csv')
df_black_sexto_conjunto=pd.read_csv('../data/interim/df_black_10000_to_end.csv')

In [6]:
# Etnia branca:
df_white=pd.read_csv('../data/interim/df_white_to_2000.csv')
df_white_segundo_conjunto=pd.read_csv('../data/interim/df_white_2000_to_4000.csv')
df_white_terceiro_conjunto=pd.read_csv('../data/interim/df_white_4000_to_6000.csv')
df_white_quarto_conjunto=pd.read_csv('../data/interim/df_white_6000_to_8000.csv')
df_white_quinto_conjunto=pd.read_csv('../data/interim/df_white_8000_to_10000.csv')
df_white_sexto_conjunto=pd.read_csv('../data/interim/df_white_10000_to_12000.csv')
df_white_setimo_conjunto=pd.read_csv('../data/interim/df_white_12000_to_14000.csv')
df_white_oitavo_conjunto=pd.read_csv('../data/interim/df_white_14000_to_end.csv')


In [45]:
# Demais etnias:
df_east_asian=pd.read_csv('../data/interim/df_east_asian_to_2000.csv')
df_indian=pd.read_csv('../data/interim/df_indian_to_2000.csv')
df_latino_hispanic=pd.read_csv('../data/interim/df_latino_hispanic_to_2000.csv')
df_middle_eastern=pd.read_csv('../data/interim/df_middle_eastern_to_2000.csv')
df_southeast_asian=pd.read_csv('../data/interim/df_southeast_asian_to_2000.csv')

Definindo as funções que serão utilizadas

Função para calcular a média das confianças:

In [11]:
def calcula_media(df):
    # Converte a coluna para numérico, forçando erros a NaN
    df['confidence_only_numeric'] = pd.to_numeric(df['confidence'], errors='coerce')
    # Remove os valores NaN
    df_cleaned = df.dropna(subset=['confidence_only_numeric'])
    # Calcula a média dos valores restantes
    mean_value = df_cleaned['confidence_only_numeric'].mean()
    return mean_value

Função para realizar o print da quantidade de imagens que não foi possível detectar rostos:

In [13]:
def print_nao_detectado(df):
    cont_nao_detec=df[df['confidence']=='nenhum rosto detectado (=0)']['file'].count()
    print('Não foram detectados rostos em ', cont_nao_detec, 'imagens')

Função para realizar o print da quantidade de imagens que foram detectados mais de um rosto:

In [14]:
def print_mais_rostos(df):
    cont_rostos=df[df['confidence']=='mais de um rosto detectado']['file'].count()
    print('Foram detectados mais de um rosto em', cont_rostos, 'imagens')

Função para realizar o print da quantidade de imagens que houve problema na aplicação do modelo MTCNN:

In [15]:
def print_erro_modelo(df):
    cont_problema_mod=df[df['confidence']=='não foi detectado nenhum rosto']['file'].count()
    print('Houve problema na detecção em', cont_problema_mod, 'imagens')

### Investigação dos erros por etnias

Inicialmente serão analisadas apenas 2000 imagens por etnia.

Para a etnia negra:

In [21]:
print('A média de confiança na detecção foi de: ', round(calcula_media(df_black),4))
print_nao_detectado(df_black)
print_erro_modelo(df_black)
print_mais_rostos(df_black)

A média de confiança na detecção foi de:  0.9916
Não foram detectados rostos em  129 imagens
Houve problema na detecção em 0 imagens
Foram detectados mais de um rosto em 17 imagens


Para a etnia do leste asiático:

In [23]:
print('A média de confiança na detecção foi de: ', round(calcula_media(df_east_asian),4))
print_nao_detectado(df_east_asian)
print_erro_modelo(df_east_asian)
print_mais_rostos(df_east_asian)

A média de confiança na detecção foi de:  0.993
Não foram detectados rostos em  125 imagens
Houve problema na detecção em 0 imagens
Foram detectados mais de um rosto em 12 imagens


Para a etnia indiana:

In [24]:
print('A média de confiança na detecção foi de: ', round(calcula_media(df_indian),4))
print_nao_detectado(df_indian)
print_erro_modelo(df_indian)
print_mais_rostos(df_indian)

A média de confiança na detecção foi de:  0.9961
Não foram detectados rostos em  73 imagens
Houve problema na detecção em 0 imagens
Foram detectados mais de um rosto em 12 imagens


Para a etnia latino hispânico:

In [25]:
print('A média de confiança na detecção foi de: ', round(calcula_media(df_latino_hispanic),4))
print_nao_detectado(df_latino_hispanic)
print_erro_modelo(df_latino_hispanic)
print_mais_rostos(df_latino_hispanic)

A média de confiança na detecção foi de:  0.9948
Não foram detectados rostos em  83 imagens
Houve problema na detecção em 0 imagens
Foram detectados mais de um rosto em 10 imagens


Para a etnia do oriente médio:

In [26]:
print('A média de confiança na detecção foi de: ', round(calcula_media(df_middle_eastern),4))
print_nao_detectado(df_middle_eastern)
print_erro_modelo(df_middle_eastern)
print_mais_rostos(df_middle_eastern)

A média de confiança na detecção foi de:  0.9905
Não foram detectados rostos em  105 imagens
Houve problema na detecção em 0 imagens
Foram detectados mais de um rosto em 10 imagens


Para a etnia do sudeste asiático:

In [30]:
print('A média de confiança na detecção foi de: ', round(calcula_media(df_southeast_asian),4))
print_nao_detectado(df_southeast_asian)
print_erro_modelo(df_southeast_asian)
print_mais_rostos(df_southeast_asian)

A média de confiança na detecção foi de:  0.9945
Não foram detectados rostos em  95 imagens
Houve problema na detecção em 0 imagens
Foram detectados mais de um rosto em 18 imagens


Para a etnia branca:

In [31]:
print('A média de confiança na detecção foi de: ', round(calcula_media(df_white),4))
print_nao_detectado(df_white)
print_erro_modelo(df_white)
print_mais_rostos(df_white)

A média de confiança na detecção foi de:  0.9907
Não foram detectados rostos em  158 imagens
Houve problema na detecção em 0 imagens
Foram detectados mais de um rosto em 11 imagens


#### Análise de dois conjuntos de dados completos

Combinando as colunas dos dataframes da etnia negra:

In [36]:
col_completa_confidence_black = df_black['confidence'].combine_first(df_black_segundo_conjunto['confidence']) \
                                        .combine_first(df_black_terceiro_conjunto['confidence']) \
                                        .combine_first(df_black_quarto_conjunto['confidence']) \
                                        .combine_first(df_black_quinto_conjunto['confidence']) \
                                        .combine_first(df_black_sexto_conjunto['confidence'])

In [38]:
df_black['confidence']=col_completa_confidence_black

Análise da base de dados completa da etnia negra:

In [40]:
print('A média de confiança na detecção foi de: ', round(calcula_media(df_black),4))
print_nao_detectado(df_black)
print_erro_modelo(df_black)
print_mais_rostos(df_black)

A média de confiança na detecção foi de:  0.9924
Não foram detectados rostos em  637 imagens
Houve problema na detecção em 0 imagens
Foram detectados mais de um rosto em 84 imagens


Combinando as colunas dos dataframes da etnia branca:

In [7]:
col_completa_confidence_white = df_white['confidence'].combine_first(df_white_segundo_conjunto['confidence']) \
                                        .combine_first(df_white_terceiro_conjunto['confidence']) \
                                        .combine_first(df_white_quarto_conjunto['confidence']) \
                                        .combine_first(df_white_quinto_conjunto['confidence']) \
                                        .combine_first(df_white_sexto_conjunto['confidence']) \
                                        .combine_first(df_white_setimo_conjunto['confidence']) \
                                        .combine_first(df_white_oitavo_conjunto['confidence'])

In [9]:
df_white['confidence']=col_completa_confidence_white

In [16]:
print('A média de confiança na detecção foi de: ', round(calcula_media(df_white),4))
print_nao_detectado(df_white)
print_erro_modelo(df_white)
print_mais_rostos(df_white)

A média de confiança na detecção foi de:  0.9908
Não foram detectados rostos em  1250 imagens
Houve problema na detecção em 0 imagens
Foram detectados mais de um rosto em 74 imagens


Como é possível observar, apesar do conjunto de dados da etnia branca ser maior, a quantidade de erros na detecção de rostos foi maior para esta etnia.