In [None]:
# Exploração de Dados treino - Manipulação com Pandas, Numpy, Scipy, MatplotLib
# Autor: Ygor Trócoli  
# Data: 13/08/2021

In [None]:
import numpy as np
import scipy as sp
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
df = pd.read_csv("Salaries.csv")

In [None]:
df.head()

Unnamed: 0,rank,discipline,phd,service,sex,salary
0,Prof,B,56,49,Male,186960
1,Prof,A,12,6,Male,93000
2,Prof,A,23,20,Male,110515
3,Prof,A,40,31,Male,131205
4,Prof,B,20,18,Male,104800


In [None]:
df.head(10)

In [None]:
df.head(20)

In [None]:
df.tail(15)

In [None]:
type(df)

In [None]:
df['salary'].dtype

In [None]:
# Listandos os tipos de dados de todas as colunas do DataFrame
df.dtypes

In [None]:
# Listando os nomes das colunas
df.columns

In [None]:
# Listando os rótulos das linhas e colunas
df.axes

In [None]:
# Número de dimensões
df.ndim

In [None]:
# Total de elementos no Data Frame
df.size

In [None]:
# Número de Linhas e Colunas
df.shape

In [None]:
# Saída básica estatística para o número de colunas
df.describe()

In [None]:
# Calcular a média para todas as colunas numericas
df.mean()

In [None]:
# Exercícios Práticas

In [None]:
# Calcular o Desvio Padrão para todas as colunas numericas
df.std()

In [None]:
# Calcular a média das colunas para os 50 primeiras linhas
df.head(10).mean()

In [None]:
# Calcular o desvio padrão das colunas para os 10 últimas linhas
df.tail(10).std()

## Data slicing and grouping

In [None]:
df_sex = df.groupby('sex')

In [None]:
df_sex['sex'].head(30)

In [None]:
df.sex.head()

In [None]:
df['salary'].describe()

In [None]:
df['salary'].count()

In [None]:
df['salary'].mean()

## Utilizando o GrouBy

In [None]:
df_rank = df.groupby('rank')

In [None]:
df_rank.mean()

In [None]:
df.groupby('sex')['salary'].mean()

In [None]:
df.groupby('sex')[['salary']].mean()

In [None]:
df.groupby(['sex','rank'], sort=True)[['salary']].mean()

In [None]:
df.groupby('discipline')['salary'].mean()

## Filtrando Dados

In [None]:
# Seleção e observação com valores de salário > 120000
df_sub = df[ df['salary'] > 120000]
df_sub.head()

In [None]:
# Seleção dos dados para professores do sexo feminino
df_w = df[ df['sex'] == 'Female']
df_w.head(20)

In [None]:
# Exercícios

In [None]:
# Usando Filtros, localizando a média dos valores do salário por disciplina.
df[df['discipline'] == 'A']['salary'].mean()

In [None]:
# Mudança
# Extração (Filtro) somente para observações com salários acima de 100K e localização com sexo feminino e masculino para professor de forma agrupada
df[df['salary'] > 120000].groupby('sex')['salary'].count()

## Mais Slicing de Dados com DataSet

In [None]:
# Seleção da coluna Salário..
df1 = df['salary']

In [None]:
# Checando o tipo de dados do resultado
type(df1)

In [None]:
# Verificando os primeiros elementos de saída
df1.head()

In [None]:
# Seleção da Coluna Salário e saída para o objeto Data Frame
df2 = df[['salary']]

In [None]:
# Checando o tipo de dados do resultado
type(df2)

In [None]:
#Select a subset of rows (based on their position):
# Note 1: The location of the first row is 0
# Note 2: The last value in the range is not included
df[0:10]

In [None]:
# Aplicando os valores das linhas e colunas, usando o método .loc
df.loc[10:20,['rank', 'sex','salary']]

In [None]:
# Verificando o que foi obtida para o DataFrame df_sub 
# Método .loc subconjunto do data frame baseado nos rótulos de dados:
df_sub.loc[10:20,['rank','sex','salary']]

In [None]:
#  Ao contrário do método .loc, o método .iloc seleciona linhas e colunas por posição:
df_sub.iloc[10:20, [0,3,4,5]]

## Ordenação dos Dados

In [None]:
# Ordenar o quadro de dados por yrs.service e depois criar um novo quadro de dados
df_sorted = df.sort_values(by = 'service')
df_sorted.head()

In [None]:
# Ordenar o Data Frame por by yrs.service and subscrever o original dataset
df.sort_values(by = 'service', ascending = False, inplace = True)
df.head()

In [None]:
# Restaurar a ordenação original (by sorting using index)
df.sort_index(axis=0, ascending = True, inplace = True)
df.head()

In [None]:
# Exercícios Práticos..

In [None]:
# Classificar o data frame pelo salário (em ordem decrescente) and exibir os primeiros registros de saída
df.sort_values(by='salary', ascending=False).head()

In [None]:
# Classificar o data frame usando 2 ou mais colunas:
df_sorted = df.sort_values(by = ['service', 'salary'], ascending = [True,False])
df_sorted.head(10)

## Valores Nulos ou Não válidos

In [None]:
# Lendo o Dataset com valores nulos ou inválidos
flights = pd.read_csv("flights.csv")
flights.head()

In [None]:
# Selecionar linhas que tenham pelo menos um valor ausente ou nulo
flights[flights.isnull().any(axis=1)].head()

In [None]:
# Filtar todas as linhas onde o valor arr_delay estão faltando ou nulos:
flights1 = flights[ flights['arr_delay'].notnull( )]
flights1.head()

In [None]:
# Remover todas as observações com valores nulos
flights2 = flights.dropna()

In [None]:
# Preenchendo os valores ausentes com zeros
nomiss =flights['dep_delay'].fillna(0)
nomiss.isnull().any()

In [None]:
flights.count()

In [None]:
# Exercícios


In [None]:
# Contar quantos dados ausentes estão nas colunas dep_dalay e arr_delay
flights[['dep_delay','arr_delay']].isnull().sum()

## Funções comuns de Agregação

In [None]:
#Function 	Description
#min 	minimum
#max 	maximum
#count 	number of non-null observations
#sum 	sum of values
#mean 	arithmetic mean of values
#median 	median
#mad 	mean absolute deviation
#mode 	mode
#prod 	product of values
#std 	standard deviation
#var 	unbiased variance

In [None]:
# Localizar o número de valores não nulos para cada coluna
flights.count()

In [None]:
# Localizando os valores mínimos para todas as colunas do dataset
flights.min()

In [None]:
# Calculando a Estatística de resumo por grupo (média):
flights.groupby('carrier')['dep_delay'].mean()

In [None]:
# É possível usar o método agg() para agregação..
flights[['dep_delay','arr_delay']].agg(['min','mean','max'])

In [None]:
# Um exemplo de computação de estatísticas diferentes para diferentes colunas
flights.agg({'dep_delay':['min','mean',max], 'carrier':['nunique']})

## Estatística Descritiva Básica

In [None]:
#Function 	Description
#min 	minimum
#max 	maximum
#mean 	arithmetic mean of values
#median 	median
#mad 	mean absolute deviation
#mode 	mode
#std 	standard deviation
#var 	unbiased variance
#sem 	standard error of the mean
#skew 	sample skewness
#kurt 	kurtosis
#quantile 	value at %

In [None]:
# A função conveniente describe() calcula uma variedade de estatísticas
flights.dep_delay.describe()

In [None]:
# Localizar e indexar o máximo e mínimo dos valores
# if there are multiple values matching idxmin() and idxmax() will return the first match
flights['dep_delay'].idxmin()  #minimum value

In [None]:
# Contar o número de registro para cada valor diferente em um vetor
flights['carrier'].value_counts()

## Explorando Dados e Usando Gráficos


In [None]:
# Mostrando Gráficos com Python no Notebook
%matplotlib inline

In [None]:
# Usando Matplotlib para desenhar um histogram para a coluna salário
plt.hist(df['salary'],bins=8)

In [None]:
# Usando o seaborn package para desenhar o histograma
sns.distplot(df['salary']);

In [None]:
# O uso regular do matplotlib para mostrar o "Gráfico de Barras" barplot
df.groupby(['rank'])['salary'].count().plot(kind='bar')

In [None]:
# O uso do seaborn para mostrar o Gráfico de Barras
sns.set_style("whitegrid")
ax = sns.barplot(x='rank',y ='salary', data=df, estimator=len)

In [None]:
# Dividindo o gráfico em 02 grupos:
ax = sns.barplot(x='rank',y ='salary', hue='sex', data=df, estimator=len)

In [None]:
#Violinplot
sns.violinplot(x = "salary", data=df)

In [None]:
#Scatterplot in seaborn
sns.jointplot(x='service', y='salary', data=df)


In [None]:
#Se estivermos em gráficos para representar a regressão linear para 2 variáveis numéricas - regplot
sns.regplot(x='service', y='salary', data=df)

In [None]:
# box plot - é um tipo de Gráfico muito utilizado para detectar Out-lier
sns.boxplot(x='rank',y='salary', data=df)

In [None]:
# side-by-side box plot - com parâmetros de Rank com Salario aplicados ao Sexo
sns.boxplot(x='rank',y='salary', data=df, hue='sex')

In [None]:
# swarm plot
sns.swarmplot(x='rank',y='salary', data=df)

In [None]:
#factorplot - Gráficos de Barras do tipo: FactorPlot
sns.catplot(x='carrier',y='dep_delay', data=flights, kind='bar')

In [None]:
# Pairplot 
sns.pairplot(df)

In [None]:
#Exercício Prático

In [None]:
#Using seaborn package explore the dependency of arr_delay on dep_delay (scatterplot or regplot) for flights dataset
sns.jointplot(x='dep_delay', y='arr_delay', data=flights)

## Analise Estatística Básica


In [None]:
# Import Statsmodel functions:
import statsmodels.formula.api as smf

In [None]:
# Criando o Modelo Fitted
lm = smf.ols(formula='salary ~ service', data=df).fit()

# Exibindo o modelo do sumário.
print(lm.summary())


In [None]:
# Exibindo o Coeficiente.
lm.params

In [None]:
#using scikit-learn:
from sklearn import linear_model
est = linear_model.LinearRegression(fit_intercept = True)   # create estimator object
est.fit(df[['service']], df[['salary']])

#print result
print("Coef:", est.coef_, "\nIntercept:", est.intercept_)

In [None]:
# Exercício

In [None]:
# Build a linear model for arr_delay ~ dep_delay
lm = smf.ols(formula='arr_delay ~ dep_delay', data=flights).fit()

#print model summary
print(lm.summary())

In [None]:
# Test - para Estudantes

In [None]:
# Using scipy package:

from scipy import stats
df_w = df[ df['sex'] == 'Female']['salary']
df_m = df[ df['sex'] == 'Male']['salary']
stats.ttest_ind(df_w, df_m)