# Pandas 2 - Trabalhando com modelagem de dados

<br>
<img src="img/modelagem_pandas.png">
<br>

Python é a linguagem preferida para *data scientists*, pois fornece o maior ecossistema entre as linguagens de programação e a profundidade de suas bibliotecas de computação científica é muito boa.

Entre suas bibliotecas de computação científica, o **Pandas** está entre as mais úteis para operações de *Data Science*. Juntamente com o Scikit-learn (que vamos aprender mais adiante), o **Pandas** fornece quase tudo o que é necessário para um trabalho de qualidade na modelagem estatística de um *DataSet*. Esta aula se concentra em fornecer maneiras de manipulação de dados em Python, com a finalidade de dar fluência ao aprendizado desta linguagem, e aumentar a familiaridade com os recursos do **Pandas**. 

Dentro desta proposta de modelagem estatística de dados, passaremos por técnicas básicas de manipulação de dados, como segue.

- Leitura do DataSet e reconhecimento dos dados
- Tratamento de variável quantitativa contínua (salário) com preenchiemnto de NaNs e aplicação de LOG (para correção de assimetria da distribuição)
- Tratamento e análise de variável quantitativa discreta (idade, anos de estudo, região, cor/raça, estado civil, sexo)
- **Desafio: os homens ganham mais que as mulheres?**

In [None]:
import pandas as pd
import numpy as np
%matplotlib inline
%config InlineBackend.figure_formats=['svg']

import warnings
warnings.filterwarnings("ignore")

# Leitura do DataSet e reconhecimento das variáveis

In [None]:
%time df = pd.read_csv(r'../../99 Datasets/demografia.csv')

In [None]:
df.head()

In [None]:
df.tail()

In [None]:
df.shape

In [None]:
df.dtypes

In [None]:
df.info()

In [None]:
df.describe()

## Explorando a variável 'salario'

O Salário é a variável quantitativa contínua que desperta grande interesse denro do banco de dados, tanto para análise quanto para predição (como veremos mais adiante em *Machine Learning*). Por isso, o seu tratamento deve contar com a maior atenção pelo cientista de dados, no sentido de obter a modelagem mais favorável dentro do estudo.

In [None]:
df['salario'].value_counts(dropna=False).nlargest(7)

In [None]:
df['salario'].plot.hist(bins=500, xlim=(-10000, 100000))

In [None]:
df['salario'].isnull().sum()

In [None]:
len(df['salario'])

In [None]:
# Porcentagem de valores nulos para a variável salário

round(df['salario'].isnull().sum() / len(df['salario']) * 100, 3)

Podemos perceber que a quantidade de valores nulos é grande (18592 em 66470 -> 28%). Como boas práticas, vamos preencher os nulos com a média, o que deve centralizar a amostra, e observar a evolução da sua distribuição no histograma.

In [None]:
df.mean()

In [None]:
df['salario'].sum()/len(df['salario'])

In [None]:
df['salario'].mean()

In [None]:
df['salario'].fillna(df['salario'].mean(),inplace=True)

In [None]:
df['salario'].value_counts(dropna=False).nlargest(7)

In [None]:
367+1101

In [None]:
df['salario'].plot.hist(bins=500, xlim=(-10000, 100000))

Percebemos que existe uma tendência atrificial de conversão dos dados para a mediana - mais adiante vamos poder entender melhor como lidar com esta situação.

Para continuar tratando dos dados da variável salário, precisamos eliminar os valores extremos (outliers), que estão enviesando a amostra. Vamos utilizar uma máscara para tentar preservar a aleatoriedade.

In [None]:
df.salario.value_counts()

In [None]:
mascara_valores_extremos = (df['salario']>=0) & (df['salario']< 999999)

In [None]:
pd.DataFrame(mascara_valores_extremos)

In [None]:
# Calculando a porcentagem dos dados que foi preservada

(mascara_valores_extremos.sum()/df.shape[0])*100

In [None]:
df['salario'][mascara_valores_extremos].plot.hist(bins=50, range=(0,100000))

### Sobrescrevendo os dados da variável salário

In [None]:
df['salario'][mascara_valores_extremos].value_counts().nlargest(7)

In [None]:
df['salario'].value_counts().nlargest(7)

In [None]:
df = df[mascara_valores_extremos]

In [None]:
df['salario'].value_counts().head()

In [None]:
df.info()

In [None]:
df.shape

In [None]:
65002 - 66470 

In [None]:
65002 -1468

In [None]:
df['salario'].isnull().sum()

In [None]:
df['salario'].fillna(df['salario'].mean(),inplace=True)

In [None]:
df.info()

## Explorando a variável 'idade'

A idade é uma variável quantitativa discreta que não apresenta valores faltantes (*missind values*). Vamos explorar os valores e a distribuição dos dados.

In [None]:
df.idade.value_counts(dropna=False).nlargest(7)

In [None]:
df.idade.plot.hist(bins=20)

In [None]:
# Verificando o perfil da deistribuição por um gráfico KDE (Kernel Density Estimate)

df['idade'].sample(1000).plot.kde()

## Explorando a variável 'anos_estudo'

Também trata-se de uma variável quantitativa discreta, com valores faltantes (*missing values*) ou NaNs estatísticamente insignificante (434 em 66470 -> 0.65%)

In [None]:
df.anos_estudo.value_counts(dropna=False)

In [None]:
df.anos_estudo.isnull().sum()

In [None]:
len(df.anos_estudo)

In [None]:
perc_null = (df.anos_estudo.isnull().sum()/len(df.anos_estudo)) *100
perc_null

In [None]:
df.anos_estudo.dropna(0,inplace=True)

df.anos_estudo.value_counts(dropna=True)

In [None]:
df.info()

In [None]:
df.anos_estudo.plot.hist(bins=10)

Observamos picos de dados nos anos de conclusão das etapas do processo formal de educação em 5 anos (ensino primário), 9 anos (ensino fundamental), 11 anos (ensino médio) e 15 anos (ensino superior).

## Explorando da variável região

A variável da região pode ser classificada como qualitativa nominal com 5 categorias. Observamos que a opção do **nosdeste** está muito reduzida, o que indica possivelmente a presença de um viés.

### Viés

*fonte: Wikipedia*

**Viés** ou tendência é um peso desproporcional a favor ou contra uma coisa, pessoa ou grupo comparado a outro, geralmente de uma maneira considerada injusta.

Os vieses podem ser aprendidos ao observar contextos culturais. As pessoas podem desenvolver vieses a favor ou contra um indivíduo, um grupo étnico, uma identidade sexual ou de gênero, uma nação, uma religião, uma classe social, um partido político, paradigmas teóricos e ideologias dentro de domínios académicos ou uma espécie. Enviesado ou tendencioso significa unilateral, sem um ponto de vista neutro ou sem mente aberta. O viés pode vir de várias formas e está relacionado a preconceito e intuição.

Em ciência e engenharia, um viés é um erro sistemático. Viés estatístico resulta duma amostragem injusta duma população ou dum processo de estimativa que não fornece resultados precisos em média. 

In [None]:
df.regiao.value_counts(dropna=False)

In [None]:
df.regiao.value_counts().plot(kind='bar')

## Explorando a variável cor/raca

Também trata-se de uma variável qualitativa nominal com 5 categorias, com número de valores faltantes ou *missing values* insignificante. Como boas práticas, vamos eliminar o caracter de barra ( / ) do título para evitar erros de processamento computacional.

In [None]:
df.rename(columns={'cor/raca':'cor_raca'},inplace=True)

In [None]:
df.columns

In [None]:
df.cor_raca.value_counts(dropna=False)

In [None]:
df.cor_raca.dropna(0,inplace=True)

df.cor_raca.value_counts(dropna=False)

In [None]:
df.cor_raca.value_counts().plot(kind='bar')

In [None]:
# somente demonstração do .groupby

df.groupby(['cor_raca'])['salario'].mean()


## Explorando a variável 'estado_civil'

Trata-se de uma variável binária (duas categorias), sem *missing values*. O fato mais curioso é que não está explicito qual a representação dos valores encontrados, ou seja, quais opções correspondem aos números 0.0 e 1.0. Geralmente os bancos de dados tem uma dicionário ou memorial descritivo com informações complementares, como por exemplo quais valores equivalem a solteiros e casados, ou alguma outra opção.

In [None]:
df['estado_civil'].value_counts(dropna=False)

In [None]:
df.estado_civil.value_counts().plot(kind='bar')

## Explorando a variável 'sexo'

Também trata-se de uma variável binária (duas categorias), e sem *mising values*. Além disso, também apresenta um fato curioso de 72 observações dentro de uma terceira categoria denominada 'gestante'. Trataremos destes valores com a substituição por 'mulher'.

In [None]:
df['sexo'].value_counts(dropna=False)

In [None]:
df = df.replace('gestante', 'mulher')

In [None]:
df.sexo.value_counts().plot(kind='bar')

# Desafio: os homens ganham mais do que as mulheres?



O objetivo deste desafio é trabalhar com os conceitos de **Medidas de Centralidade** (média, moda, mediana), e a partir dos resultados, fazer uma análise do comportamento da variável salário.

Como na nossa modelagem fizemos muitas alterações nos dados, vamos começar do zero lendo novamente o arquivo original.

In [None]:
%time df = pd.read_csv(r'../../99 Datasets/demografia.csv')

In [None]:
df.info()

In [None]:
df['sexo'].value_counts(dropna=False)

In [None]:
df = df.replace('gestante', 'mulher')

In [None]:
df['sexo'].value_counts(dropna=False)

## Separando os dados em dois DataFrames distintos (homem e mulher)

In [None]:
df_homem = df[df['sexo'] == 'homem']
df_mulher = df[df['sexo'] == 'mulher']

## Testando as hipóteses de salário maior para os homens para média, mediana e moda

In [None]:
df_homem['salario'].mean()

In [None]:
media_salario_homem = df_homem['salario'].mean()
mediana_salario_homem = df_homem['salario'].median()
moda_salario_homem = df_homem['salario'].idxmax()

media_salario_mulher = df_mulher['salario'].mean()
mediana_salario_mulher = df_mulher['salario'].median()
moda_salario_mulher = df_mulher['salario'].idxmax()

In [None]:
media_salario_homem > media_salario_mulher

In [None]:
mediana_salario_homem > mediana_salario_mulher

In [None]:
moda_salario_homem > moda_salario_mulher

In [None]:
print('Salário médio homens =',"%.2f"% media_salario_homem,'Salário médio mulheres =',"%.2f"% media_salario_mulher)
print('Salário mediano homens =',"%.2f"% mediana_salario_homem,'Salário mediano mulheres =',"%.2f"% mediana_salario_mulher)
print('Salário mais frequente homens =',"%.2f"% moda_salario_homem,'Salário mais frequente mulheres =',"%.2f"% moda_salario_mulher)

## Plotando um histograma

In [None]:
df_homem.dropna(inplace=True)
df_mulher.dropna(inplace=True)

In [None]:
from matplotlib import pyplot

bins = 45

ax = pyplot.hist(df_homem['salario'], bins, alpha=0.5, label='Salário Homens',color='blue', range=(0,100000))
ax = pyplot.hist(df_mulher['salario'], bins, alpha=0.5, label='Salário Mulheres',color='red', range=(0,100000))

pyplot.legend(loc='upper right')
pyplot.show()

# Avançado

In [None]:
%time df = pd.read_csv(r'../../99 Datasets/demografia.csv')


In [None]:
df.info()

In [None]:
df['salario'].value_counts(dropna=False).head()

In [None]:
df['salario'].plot.hist(bins=500, xlim=(-10000, 100000))

In [None]:
import matplotlib.pyplot as plt
 
sample = df.sample(2000)
# Plot
plt.scatter(y=sample.salario,x=sample.salario.index, alpha=0.5)
plt.title('distribuição de salario')
plt.xlabel('indice')
plt.ylabel('salario')
plt.show()

In [None]:
df['salario'] = df['salario'][(df['salario']>0) & (df['salario']< 999999)]

In [None]:
df['salario'].value_counts().head()

In [None]:
df['log_salario'] = np.log1p(df['salario'])
df['log_salario'].plot.hist(bins=50, xlim=(0, 20))

In [None]:
df['log_salario'].value_counts(dropna=False).head()

In [None]:
df['log_salario'].fillna(df['log_salario'].mean(),inplace=True)

In [None]:
df['log_salario'].plot.hist(bins=50, xlim=(0, 20))

## Teste de normalidade

In [None]:
df['salario'].fillna(0,inplace=True)

In [None]:
import seaborn as sns
from scipy import stats

sns.distplot(df['salario'] , fit=stats.norm);

(mu, sigma) = stats.norm.fit(df['salario'])
print( '\n mu = {:.2f} and sigma = {:.2f}\n'.format(mu, sigma))
plt.legend(['Normal dist. ($\mu=$ {:.2f} and $\sigma=$ {:.2f} )'.format(mu, sigma)],
            loc='best')
plt.ylabel('Frequency')
plt.title('Salary distribution')

fig = plt.figure()
res = stats.probplot(df['salario'], plot=plt)
plt.show()

In [None]:
import seaborn as sns
from scipy import stats

sns.distplot(df['log_salario'] , fit=stats.norm);

(mu, sigma) = stats.norm.fit(df['log_salario'])
print( '\n mu = {:.2f} and sigma = {:.2f}\n'.format(mu, sigma))
plt.legend(['Normal dist. ($\mu=$ {:.2f} and $\sigma=$ {:.2f} )'.format(mu, sigma)],
            loc='best')
plt.ylabel('Frequency')
plt.title('Log_salary distribution')

fig = plt.figure()
res = stats.probplot(df['log_salario'], plot=plt)
plt.show()