# Análise da Distribuicao dos Dados

Histogramas, Scatterplots, etc

Análise Univariada e Bivariada

## Imports

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

## Carregando o Dataset

Leitura do CSV

In [None]:
# toy dataset
df = pd.read_csv('https://docs.google.com/uc?export=download&id=1ArGT0_cisUUh3QXW9tYM39azFQZDUnow')
df

Algumas modificações no Dataset para torná-lo mais interessante nos exemplos

In [None]:
df['Income'].mask((df['Gender'] == 'Male')&(~df['City'].isin(['Dallas','Austin'])), df['Income']*0.8, inplace=True)
df['Income'].mask(df['Gender'] == 'Male', df['Income']*(df['Age']*1.5/100), inplace=True)
df['Income'].mask(df['Gender'] == 'Female', df['Income']*((df['Age']-4)*1.5/100), inplace=True)
df['Income'].mask((df['Gender'] == 'Female')&(df['Income']>=60000)&(df['Income']<=110000), df['Income']*0.95, inplace=True)

O código abaixo adiciona / remove um outlier. Não executar isso na primeira análise.

In [None]:
# Adiciona
# df['Income'].mask(df['Number'] == 112681, df['Income']*10, inplace=True)

# Remove (se já tiver adicionado)
# df['Income'].mask(df['Number'] == 112681, df['Income']/10, inplace=True)

## Histogramas

Frequência

In [None]:
df.Age.value_counts(sort=False)

Frequência normalizada

In [None]:
df.Age.value_counts(normalize=True, sort=False)

Bar plot a partir da frequência

In [None]:
plt.figure(figsize=(10,10))
df.Age.value_counts(normalize=True, sort=False).plot.bar()
plt.show()

Histograma a partir do dataframe pandas

In [None]:
nbins=len(df['Age'].unique())
df.hist('Age', bins=nbins, rwidth=0.8, figsize=[15,10])

Histograma com mapplotlib.pyplot ([documentação](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.hist.html))

In [None]:
nbins=len(df['Age'].unique())

plt.figure(figsize=(15,10))

plt.hist(x=df.Age, color='green', bins=nbins, alpha=0.5, rwidth=0.9)

plt.grid(axis='y', alpha=0.7)
plt.xlabel('Idade')
plt.ylabel('Frequência')
plt.title('Frequência das idades')


Múltiplos histogramas

In [None]:
# tamanho do gráfico
plt.figure(figsize=(20,8))

# Lista de Gêneros
genders = ['Male', 'Female']

# Itera nos gêneros
i = 1
for gender in genders:

    # Sub dataframe para cada gênero 
    subdf = df[df['Gender'] == gender]

    # Define o plot
    ax = plt.subplot(1, 2, i)

    # Desenha o plot
    ax.hist(x=subdf.Income, bins = 30,
              color = 'blue', edgecolor = 'black')

    # Título, rótulos
    ax.set_title('Histograma das Rendas de %s'%gender, size = 20)
    ax.set_xlabel('Renda', size = 15)
    ax.set_ylabel('Frequência', size= 15)

    i=i+1

Histograma com Seaborn hisplot() [(documentação](https://seaborn.pydata.org/generated/seaborn.histplot.html#seaborn.histplot))

In [None]:
# seaborn
nbins=len(df['City'].unique())

plt.figure(figsize=(15,10))

sns.histplot(x=df.City, 
             bins=nbins, color = 'red')

plt.grid(axis='y', alpha=0.7)
plt.xlabel('Cidade')
plt.ylabel('Frequência')
plt.title('Histogramas das cidades')

## KDE (Kernel Density Estimation)

Plotando KDE e histograma com Seaborn displot() ([documentação](https://seaborn.pydata.org/generated/seaborn.displot.html#seaborn.displot))

In [None]:
sns.displot(data=df, x='Income', kde=True, bins=50, color = 'red', height=7, aspect=1.5) 

Somente o KDE (sem histograma). Plotagem de múltiplos KDEs.

In [None]:
g = sns.displot(data=df, x='Income', hue="Gender", kind='kde')

Múltiplos histogramas com Seaborn

In [None]:
g = sns.displot(data=df, x='Income', hue="Gender", col='Gender', height=5, aspect=1.5)
g.set_titles('Histograma de Renda para Homens e Mulheres')
g.set_axis_labels("Renda", "Frequência")
g.set_titles("{col_name}")

Múltiplos histogramas sobrepostos

Quantidade de bins `auto`

In [None]:
g = sns.displot(data=df, x='Income', hue="Gender", height=8, aspect=2.0, bins='auto')
g.set_axis_labels("Renda", "Frequência")

Usando o [Método de Sturges](https://en.wikipedia.org/wiki/Histogram#Sturges.27_formula) para definir o número de bins

In [None]:
g = sns.displot(data=df, x='Income', hue="Gender", height=8, aspect=2.0, bins='sturges')
g.set_axis_labels("Renda", "Frequência")

## Scatter Plot (gráfico de dispersão)

In [None]:
df['y'] = 'Dist'

plt.figure(figsize=(20,10))

plt.scatter(df.Income, y=df.y)

df.drop('y', axis=1, inplace=True)

plt.xlabel('Renda')
plt.title('Dist. da Renda')

In [None]:
df['y'] = 'Dist'

plt.figure(figsize=(20,10))

dfm = df[df['Gender']=='Male']

plt.scatter(dfm.Income, y=dfm.y)

df.drop('y', axis=1, inplace=True)

plt.xlabel('Renda')
plt.title('Dist. da Renda')

In [None]:
plt.figure(figsize=(20,10))

dfm = df[df['Gender']=='Female']

# dfm = df[(df['Gender']=='Male')&(df['City']=='Dallas')]

plt.scatter(dfm.Income, y=dfm.index)

plt.show()


## Análise Biavariada

(as análises anteriores são Univariadas)

In [None]:
sns.displot(data=df, x='Income', y="City", height=8, aspect=2.0)

In [None]:
sns.displot(data=df, x='Income', y="Age", height=8, aspect=2.0)

In [None]:
df[df['Income']<5000]

In [None]:
g = sns.displot(data=df, x='Income', y='Age', hue="Gender", col='Gender', height=5, aspect=1.5)
g.set_titles('Histograma de Renda para Homens e Mulheres')
g.set_axis_labels("Renda", "Frequência")
g.set_titles("{col_name}")

Calculando o KDE 

(muito custoso)

In [None]:
#sns.displot(data=df, x='Income', y="Age", kind="kde", height=8, aspect=2.0)

Calculando em uma amostra aleatória de 1% (pandas sample() [link text](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sample.html))

In [None]:
sns.displot(data=df.sample(frac=0.01), x='Income', y="Age", kind="kde", height=8, aspect=2.0)

In [None]:
plt.figure(figsize=(20,10))

plt.scatter(df.Income, y=df.City)

plt.show()

In [None]:

plt.figure(figsize=(20,10))

plt.scatter(df.Income, y=df.Age)

plt.show()

In [None]:
plt.figure(figsize=(15,10))

df_temp = df[df['Income'] < 20000]
plt.hexbin(y=df_temp.Income, x=df_temp.Age)

plt.show()