# Análise Exploratória de Dados (EDA: _Exploratory Data Analysis_)

* Variáveis qualitativas (`categóricas`): Descreve os dados por categorias ou características sem uma ordem natural
   
    - Dicotômico: Dois valores possíveis: (sim | não), (verdadeiro | falso)
   
    - Politômica: Permite vários valores, de modo que ao selecionar um dos valores, automaticamente os demais são omitidos: Níveis, Ordem, etc

*  Variáveis quantitativas (`não-categóricas`):Descreve os dados numéricos, representando uma quantidade mensurável

    - Discreta: Não permitem o uso de valores intermediários ou decimais: Idade, Hora, Minutos, Mês (número), Dia do mês, etc

    - Contínua: Existem valores intermediários: Salário, Peso (depende da precisão), Preços, Área, Volume, etc 



    Bibliotecas

Utilize `!pip` caso execute o código no Colab, ou `%pip` caso execute o código VSCode ou Jupyter

In [None]:
%pip install pandas
%pip install numpy
%pip install seaborn
%pip install matplotlib
%pip install missingno
%pip install sklearn

In [None]:
# Importar bibliotecas relevantes

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g., pd.read_csv)
import matplotlib.pyplot as plt # data visualization
import seaborn as sns # statistical data visualization

from sklearn.preprocessing import MinMaxScaler # Padronização dos dados
from sklearn.preprocessing import LabelEncoder # Codificação das variáveis categóricas

%matplotlib inline

#import warnings
#warnings.filterwarnings('ignore')

    Sobre a base de dados

    Descrição das variáveis:

![Titanic Ticket](https://www.encyclopedia-titanica.org/images/ticket_example.jpg?ezimgfmt=ng%3Awebp%2Fngcb35%2Frs%3Adevice%2Frscb35-1)

    - pclass    Classe dos passageiros (1 = 1st; 2 = 2nd; 3 = 3rd)
    - survival  Sobrevivente (0 = No; 1 = Yes)
    - name      Nome
    - sex       Sexo
    - age       Idade
    - sibsp     Número de Irmãos/cônjuges a bordo
    - parch     Número de pais/filhos a bordo
    - ticket    Número do Ticket
    - fare      Tarifa (British pound)
    - cabin     Cabine
    - embarked  Porto de embarque (C = Cherbourg; Q = Queenstown; S = Southampton)
    - boat      Bote salva-vidas
    - body      Número de identificação do corpo
    - home.dest Destino

Fonte: Hind, Philip. Encyclopedia Titanica. Online-only resource. Retrieved 01Feb2012 from http://www.encyclopedia-titanica.org/


    Abrindo a base de dados (dataset)

In [None]:
# Caminho do arquivo
path = './BasedeDadosPNS-2019/PNS2019-violencia.parquet'
violencia = pd.read_parquet(path)
df=violencia

In [None]:
violencia.head()

In [None]:
# Tipos de cada variável

violencia.info()

In [None]:
# Verificar a descrição dos dados

violencia.describe()

## EDA ou Análise de Dados Exploratória

    Correlação entre as variáveis/características/atributos (Correlation Data)

In [None]:
violencia.corr()

In [None]:
sns.heatmap(violencia.corr(), vmin=-1, vmax=+1, annot=True, cmap='YlGnBu')
#sns.heatmap(df.corr(), vmin=-1, vmax=+1, annot=True, cmap='YlGnBu', mask=np.triu(np.ones_like(df.corr()))) # Triangular inferior apenas

In [None]:
# Correlação da variável 'survived' em relação as demais

df.corrwith(df["UF"])

In [None]:
plt.bar(dict(df.corrwith(df["UF"])).keys(), dict(df.corrwith(df["UF"])).values())

In [None]:
# Correlação entre duas variáveis

df[['Cor_Raca','UF']].corr()

    Dados Ausentes (Missing Data)

In [None]:
# Verifica se existe valor ausente em apenas uma variável

any(df['Cor_Raca'].isna())

In [None]:
# Verificando valores ausentes (NaN) nas variáveis, com exceção dos atributos: 'PassengerId' e 'Name'

print('Valores ausentes (NaN) em:')
for col in [df.columns[i] for i in range(0, len(df.columns))]:
    print(col,':', any(df[col].isna()))

In [None]:
# Quantos dados ausentes tem a variável 'age'?

df['F_Agressor'].isnull().sum()

In [None]:
# Quantos dados ausentes tem a variável 'embark_town'?

df['V_N_Ocorrencia'].isnull().sum()

    Dados Desbanlanceados (Imbalanced Dataset)

In [None]:
df['V_Ameaca'].value_counts()

In [None]:
df1 = df
# Substiui os codigos dos estados por suas respectivas siglas
estado = {11:'RO', 12:'AC', 13:'AM', 14:'RR', 15:'PA', 16:'AP', 17:'TO', 21:'MA', 22:'PI', 23:'CE', 24:'RN', 25:'PB', 26:'PE', 27:'AL', 28:'SE', 29:'BA', 31:'MG', 32:'ES', 33:'RJ', 35:'SP', 41:'PR', 42:'SC', 43:'RS', 50:'MS', 51:'MT', 52:'GO', 53:'DF'}
for key, value in estado.items():
    df1['UF'].replace(key, value, inplace=True)
sns.set()
sns.set(rc = {'figure.figsize':(30,5)})
sns.countplot(x="UF",data=df1)

    Medidas de tendência central

* Lembrando:
    - Média: Soma de todos os valores dividido pela quantidade de observações
    - Mediana: Valor central em sequência ordenada
    - Moda: Valor mais frequente em uma sequência

In [None]:
# Média de agressão verbal por estado
df1.groupby('UF')['V_Ameaca'].mean()

In [None]:
# Valor do ticket em 95% dos tickets vendidos

print('Max:', df['fare'].max(), '-> IQR:', df['fare'].quantile(0.95))

In [None]:
# Idade da maior parte dos passageiros
 
df['age'].mode()

In [None]:
# A mediana de idade em cada classe

df.groupby('pclass')['age'].median()

In [None]:
# Porcentagem de passageiros em cada classe
 
(df['pclass'].value_counts()/len(df))*100

    Medidas de Dispersão

In [None]:
# Variabilidade de cada variável

df.std()

In [None]:
# Porcentagem da variação de idade por classe

(df.groupby('pclass')['age'].std() / df.groupby('pclass')['age'].mean()) * 100

In [None]:
# As classes que tiveram mais variabilidade de sobreviventes

df.groupby('pclass')['survived'].std().sort_values(ascending= False)

    Distribuição dos Dados

In [None]:
def dist_Attribute(data, columns):
    sns.countplot(data=data, x=columns)
    plt.xticks(rotation=90)
    plt.show()
    print('Frequente:',data[columns].mode()[0])

In [None]:
dist_Attribute(df, 'sex')

In [None]:
dist_Attribute(df, 'pclass')

In [None]:
df

In [None]:
# Verificar as distribuições normais entre as variáveis contínuas

plt.figure(figsize=(20,15))
j=1
for i in df.columns:
    if df[i].dtypes == 'float64' or df[i].dtypes == 'int64':
        sns.displot(df[i])
        #plt.subplot(2,3,j)
        j+=1
        print(df[i].name, ':', df[i].skew())
#plt.tight_layout()
plt.show()

In [None]:
# Número de passageiros embarcados em cada porto

print(df['embarked'].value_counts())
df['embarked'].value_counts().plot(kind='bar',color='blue')

In [None]:
sns.set(rc = {'figure.figsize':(16,6)})
plt.plot(figure_size = (1,2))

# Boxplots
plt.subplot(1,2,1)
bp_ax = sns.boxplot(x="survived", y="age", data=df)
bp_ax.set_title('Box plot', fontsize = 20)

# Função Densidade de Probabilidade
plt.subplot(1,2,2)
dp_ax = sns.kdeplot(x='age', hue='survived', data=df)
dp_ax.set_title('Density plot', fontsize = 20)

# Boxplots: Distribuição do atributo (age) para cada classe de saída (survived), além de fornecer informações sobre os outliers
# Gráficos de densidade : Distribuição e a forma da distribuição (semelhante a normal ou qualquer outra distribuição) do atributo
# Gráficos de contagem empilhados: Informa sobre a contagem de cada categoria do atributo, e com informações sobre a porcentagem de cada categoria

In [None]:
def plot_stacked_plot_percentages(class_list, df_p, add_x_val):
    
    '''This function adds the percentage in each stacked plot
    class_list : contains three params, count of each rect/class, total for that rect/class, ax object of that rect/class
    df_p : df.axes.patches object for each rectange
    add_x_val : x axis value to center the text
    '''
    
    for class_val in class_list:
        
        percentage = (class_val[0]/class_val[1])*100
        height = class_val[2].get_height() 
        df_p.axes.text(class_val[2].get_x()+add_x_val, height,"{:1.1f}%".format(percentage))

In [None]:
def calculate_stacked_plot_percentages(df_plot, df_p):
    df_plot_sum = df_plot.sum(axis=1)
    class_sum = np.array([df_plot_sum.iloc[int(i/2)] if i%2==0 else df_plot_sum.iloc[int((i-1)/2)] for i in range(2*len(df_plot_sum)) ]).reshape((len(df_plot_sum),2)).T.flatten()
    class_list = zip(np.roll(df_plot.to_numpy().T.flatten(), len(df_plot)), class_sum, list(df_p.axes.patches))

    return class_list

In [None]:
sns.set(rc = {'figure.figsize':(15,8)})

# Encontrando as faixas
df['age_bin'] = pd.cut(df['age'], 3, precision=0)

# Cálculo a contagem de variável categórica 'survived' para diferentes faixas etárias
df_plot = df.groupby([ 'survived', 'age_bin']).size().reset_index().pivot(columns='survived', index='age_bin', values=0)
print(df_plot)

# Gráfico de barra empilhada
df_p = df_plot.plot(kind='bar', stacked=True)

# Defina os rótulos
df_p.set_xlabel("Grupos de idade", fontsize = 20)
df_p.set_ylabel("Qtde", fontsize = 20)

class_list = calculate_stacked_plot_percentages(df_plot, df_p)

plot_stacked_plot_percentages(class_list, df_p, 0.12)

    Padronização dos dados

In [None]:
# Boxplot de todos os atributos contínuos antes da padronização

df.boxplot()

In [None]:
categorical_features = ['sex', 'pclass', 'embarked' ]
numerical_features = ['age', 'sibsp', 'parch', 'fare', 'family','name_length']

for col in categorical_features:
    if col in df.columns:
        try:
            le = LabelEncoder()
            df[col]= le.fit_transform(X[col])
        except:
            pass

for col in numerical_features:
    le = MinMaxScaler()
    if col in df.columns:
        df[col]= le.fit_transform(np.array(df[col]).reshape(-1,1))

df

    Detecção de Outliers

In [None]:
# Boxplot de todos os atributos contínuos

df.boxplot()

In [None]:
# Boxplot de todos os atributos contínuos usando a biblioteca seaborn

sns.boxplot(data=df)

In [None]:
df1 = df[['age','fare']]
sns.boxplot(data=df1)

In [None]:
# Eliminar outliers dos dados depois de analisar com boxplot

def drop_outliers(data , col):
    Q1 = data['age'].quantile(0.25)
    Q3 = data['age'].quantile(0.75)
    IQR = Q3 - Q1 # IQR significa Interquartile Range 

    filter = (data['age'] >= Q1 - 1.5 * IQR) & (data['age'] <= Q3 + 1.5 *IQR) # Filtro  dentro de Q1 - 1.5*IQR até Q3 + 1.5*IQR
    data = data.loc[filter]
    return data

drop_outliers(df, 'fare')

    Eliminar colunas no dataset

In [None]:
drop_list = ['sibsp', 'parch', 'age_bin']

X = df.drop(columns=drop_list)

print(X.columns)

    Separando as classes de um atributo em colunas distintas

In [None]:
cols_dummies = ['embarked','survived']
X = pd.get_dummies(X, columns=cols_dummies)
X

---

In [None]:
# Importar bibliotecas relevantes

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g., pd.read_csv)
import matplotlib.pyplot as plt # data visualization
import seaborn as sns # statistical data visualization

In [None]:
print("Lista de datasets da biblioteca 'seaborn':", sns.get_dataset_names())

In [None]:
df1 = sns.load_dataset('titanic')
df1.head(3)

In [None]:
df2 = sns.load_dataset('iris')
df2.head(3)

---

    Copiar atributos de um dataframe para outro

In [None]:
# Criando um novo dataframe a partir dos dados de outros dataframes

df3 = pd.DataFrame(df1, columns=['pclass', 'age', 'fare', 'alive'])
df3.head(3) 

In [None]:
# Criando um dataframe a partir de um dicionário do python

dic = {
    'Nome': ['Tom', 'nick', 'krish', 'jack'],
    'Idade': [20, 21, 19, 18]
}
df3 = pd.DataFrame(dic)
df3.head(3) 

In [None]:
# Concatenando dois dataframes

df3 = pd.concat([df1, df2])
df3.head(3)

In [None]:
print("DF1:", df1.shape)
print("DF2:", df2.shape)
print("DF3:", df3.shape)