## Capacitação - SIGHT 
### Tema: Análise Exploratória com Python
#### Bibliotecas necessárias: Pandas, MatPlotLib, Seaborn


### Link's úteis para o momento:
[Link do Github da capacitação](URL_do_link)


### O que é análise exploratória?
A análise exploratória é uma abordagem utilizada para examinar e compreender conjuntos de dados. Ela envolve a exploração inicial dos dados por meio de técnicas estatísticas e visualizações para identificar padrões, tendências e insights preliminares. Essa análise busca resumir características importantes dos dados, como sua distribuição, correlações e possíveis valores atípicos, a fim de orientar análises mais aprofundadas e tomadas de decisão informadas.
- Temas abordados: 
    - Estatística
    - Construção de hipotéses
    - Programação
    - Insights
    
### Revisão de Estatística
Não existe dados sem estatística.
1. Medidas de centralidade
2. Medidas de dispersão
3. Gráficos
4. Distribuição

### Manipulação de dados com Pandas
O que é o pandas?

Existem outras opções?

1. Criando datasets do zero
   - Entendendo a estrutura de datasets
2. Construindo um pensamento analítico
   - Preço de casas
   - Tempo em rede social

In [None]:
#pip intall pandas
#pip install matplotlib
#pip install seaborn

In [None]:
# Importando a principal biblioteca
import pandas as pd

import warnings
warnings.filterwarnings('ignore')

In [None]:
# Como criar datasets
'''
Método 1 -> Lista de listas
Criando um dataset sobre os membros do sight
'''

sight = [['Livia Belo', 23, 'Fortaleza', 'Diretoria'],
        ['Bruno Faustino', 23, 'Fortaleza', 'Gestão de Projetos'],
        ['Victor Silvestre', 20, 'Fortaleza', 'Diretoria'],
        ['Gabriel Fontenele', 21, 'Fortaleza', 'Tesouraria'],
        ['Lucas Carneiro', 18, 'Fortaleza', 'Gestão de Pessoas'], 
        ['Marcos Pena', 22, 'Rio Branco', 'Gestão de Pessoas'],
        ['Ingrid Maria', 19, 'Fortaleza', 'Gestão de Projetos'],
        ['Diogo de Oliveira', 20, 'Fortaleza', 'Marketing']]

df_sight = pd.DataFrame(sight, columns = ['Nome', 'Idade', 'Cidade_n', 'Comitê'])

In [None]:
'''
Método 2 -> Dicionário
'''

dados = {'Nome' : ['Livia Belo', 'Bruno Faustino', 'Victor Silvestre', 'Gabriel Fontenele', 'Lucas Carneiro', 
                  'Marcos Pena', 'Ingrid Maria', 'Diogo de Oliveira'], 
        'Idade' : [23, 23,  20, 21, 18, 22, 19, 20],
        'Cidade_n' : ['Fortaleza', 'Fortaleza', 'Fortaleza', 'Fortaleza', 'Fortaleza', 'Fortaleza', 'Rio Branco',
                     'Fortaleza'], 
        'Comitê' : ['Diretoria', 'Gestão de Projetos', 'Diretoria', 'Tesouraria', 'Gestão de Pessoas', 'Gestão de Pessoas',
                   'Gestão de Projetos', 'Marketing']}

df_sight_dict = pd.DataFrame(dados)

In [None]:
# Eis aqui o resultado
df_sight_dict

In [None]:
df_sight

In [None]:
# Visualização simples da tebela -> .head(n_exibidos) e .tail(n_exibidos)
df_sight.head(2)

######

#### Aprendendo a filtrar valores
- Em que situações isso é útil?

In [None]:
# Filtragem Booleana
df_sight[df_sight['Cidade_n'] != 'Fortaleza']

In [None]:
# Filtragem com método interno
df_filtrado = df_sight.query("Comitê == 'Gestão de Pessoas'")

# Podemos atribuir nossos filtros a variáveis, assim teremos a criação de outro dataset
print(df_filtrado)

In [None]:
# Filtragem com string
df_sight_dict.loc[df_sight_dict['Nome'].str.contains("l")]

In [None]:
# Filtragem por condições numéricas
df_sight_dict[df_sight_dict['Idade'] >= 21]

In [None]:
df_sight_dict.query('Idade >= 18 and Idade <= 21')

### Muitas vezes é útil ter as informações de formas ordenadas
O pandas permite isso?

Sim, ele permite através do método .sort_values('coluna')

In [None]:
df_ordenado = df_sight_dict.sort_values(by='Idade', ascending = False)
df_ordenado

In [None]:
# Criando + colunas 
# colune ->Tipo sanguíneo
import random 

tipos_sanguineos = ['A+', 'A-', 'B+', 'B-', 'AB+', 'AB-', 'O+', 'O-']

df_sight['Tipo_Sanguineo'] = random.choices(tipos_sanguineos, k=len(df_sight))

df_sight

In [None]:
# Excluindo uma coluna 
df_sight.drop('Tipo_Sanguineo', axis=1, inplace=False)

### Podemos também criar colunas com funções matemáticas
Vou dar um exemplo abaixo com + dados artificiais

In [None]:
# Criando o dataset 'art'
art = pd.DataFrame({'A': [1, 2, 3, 4, 5]})

# Criar uma nova coluna 'B' com o quadrado dos valores da coluna 'A'
art['B'] = art['A'] ** 2

# Criar uma nova coluna 'C' com uma função
def minha_funcao(x):
    return x * 3 + 2

art['C'] = art['A'].apply(minha_funcao)

# Criar uma nova coluna 'D' de classificação par ou ímpar
art['D'] = ['par' if x % 2 == 0 else 'ímpar' for x in art['A']]
art

### Exercício: Com base no dataset anterior, você consegue filtrar apenas os números ímpares?
Usa a célula abaixo para resolver esse problema :)

### Construindo um pensamento analítico
Duas situações:

1. Você trabalha no AirBnb como analista de dados. Certo dia, seu gestor chega para você e lhe dá a notícia que estarão expandindo as atividades da empresa para uma cidade litorânea localizada no Ceará, o Icaraí. Como você bem sabe, o AirBnb é uma empresa responsável por conectar viajantes aos propietários de imóveis, por um ótimo preço e com o maior conforto possível. Dito isso, seu gestor necessita dos dados existentes nessa localidade para estimar o preço mais justo para as moradias. Liste os dados que você acredita que possui maior influência no preço da diária de uma casa. 
####
2. Você é um analista de dados que trabalha prestando serviços a Rede Social da UFC, ela é usada por estudantes e professores, o conteúdo postado varia entre fotos no RU, reclamações sobre professores e provas, rotina e atividades desenvolvidas em projeto de extensão. A sua missão é entender que dados são mais úteis dentro da lista abaixo para fazer com que os usuários usem o aplicativo por mais tempo. Selecione os 3 que você julga mais importante.

In [None]:
data = [['Tempo de atividade por sessão'], ['Frequência de login por dia'], ['Tempo gasto por recurso'], ['Tempo médio por sessão'],
       ['Tempo de intividade'], ['Número de seguidores'], ['Número de amigos'], ['Fotos postadas'], ['Gênero'], ['Idade'],
       ['Número de projetos de extensão que participa']]
pd.DataFrame(data, columns = ['Dados'])

### Revisão rápida de estatística
Medidas de tendência central 
1. Média 
      ## $\sum^{n}_{i=1}$$\frac{m^{}_{i}}{n}$
2. Mediana 
    - Mostra o valor central em uma lista de dados. Usada quando há presença de outliers
        ## $\frac{n+1}{2}$
    
3. Moda
    - Valor que mais se repete no conjunto de dados
    
4. Quantil
    - O quantil é uma medida estatística que divide uma distribuição de dados em partes iguais ou em proporções específicas. Em outras palavras, é um valor que separa os dados em grupos de tamanhos iguais ou em uma determinada proporção.
    
5. Percentil
    - O percentil é uma medida estatística que indica o valor abaixo do qual uma determinada porcentagem dos dados se encontra. É uma forma de quantil onde a proporção é expressa em termos de porcentagem. Por exemplo, o percentil 25 indica o valor abaixo do qual 25% dos dados se encontram.
    
### Como calcular usando python?
- A biblioteca pandas já lhe oferece um conjunto de métodos para calcular as medidas de tendência centrais, estes métodos são: .mean(), .median(), .describe()

Abaixo estará a desmonstração  usando o dataset art

In [None]:
media = art['B'].mean() 
mediana = art['B'].median()
moda = art['B'].mode()
soma = art['B'].sum()
unicos = art['B'].nunique()

#### Medidas de dispersão
1. Amplitude
2. Variancia 
![image-3.png](attachment:image-3.png)
3. Covariância
![image.png](attachment:image.png)
4. Desvio padrão
![image-4.png](attachment:image-4.png)

In [None]:
# Amplitude
menor_valor = art['B'].min()
maior_valor = art['B'].max()
amplitude = maior_valor - menor_valor

In [None]:
# Variância
var = art['B'].var()

# Desvio padrão 
std = art['B'].std()

# Covariância
covar = art['A'].cov(art['B']) #Entre dois conjuntos de dados

covar_matriz = art.cov()

In [None]:
art.describe()

### Análise exploratória propriamente dita

[Link do dataset](https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques/data?select=train.csv)

In [None]:
# Importando biblioteca para gráficos
import matplotlib.pyplot as plt
import seaborn as sns
# Lendo os dados
''' Usaremos o dataset presente no link no início desse documento '''
caminho = r'C:\Users\pjroc\Projetos\Capacitação - SIGHT\Dataset\train.csv'
casa = pd.read_csv(caminho)

#### Conhecendo os seus dados mais a fundo

In [None]:
# Verificando a dimensão dos seus dados
print(f'O dataset possui {casa.shape[0]} linhas e {casa.shape[1]} colunas')

In [None]:
colunas_numericas = casa.select_dtypes(include='number')
colunas_categoricas = casa.select_dtypes(include='object')

In [None]:
colunas_numericas.columns

In [None]:
colunas_categoricas.columns

In [None]:
# Verificando a presença de dados nulos
colunas_com_nulos = casa.columns[casa.isnull().any()]
quantidade_nulos = casa[colunas_com_nulos].isnull().sum()

In [None]:
quantidade_nulos

### O que fazer com esses dados nulos?
Existem diversos métodos para lidar com esses dados. Irei explicar agora alguns deles:
1. Preenchimento por média
2. Preenchimento por mediana
3. Utilizando machine learning (KNN)
4. Usando interpolação
5. Exclusão 

Síntaxe do código: df['coluna'].fillna(df[coluna].mean())

In [None]:
# media = df[coluna].mean      é salvo um valor escalar 
# df[coluna].fillna(media)

## Explorando

In [None]:
# Gráfico de contagem 
# sns.countplot
#plt.figure(figsize = (10, 10))
sns.countplot(data = casa, y = 'Neighborhood') #'''width = 0.95'''

In [None]:
# Gráfico de barras - Explora uma variável em função de uma outra
sns.barplot(data = casa, x = 'Neighborhood', y = 'SalePrice')

In [None]:
sns.boxplot(data = casa, x = 'Neighborhood', y = 'SalePrice')
plt.tick_params(axis= 'x', rotation= 45)

In [None]:
sns.boxplot(data=casa, y='SalePrice', x='OverallQual')

In [None]:
sns.scatterplot(data = casa, x = '1stFlrSF', y = 'SalePrice', hue = 'OverallQual')
plt.title('Análise preço x área do primeiro andar')

In [None]:
#sns.scatterplot(data = casa, x = '2ndFlrSF', y = 'SalePrice', hue = 'OverallQual')
#plt.title('Análise preço x área do segundo andar')

In [None]:
sns.regplot(data = casa, x = '1stFlrSF', y = 'SalePrice')

In [None]:
df_sel = casa[['SalePrice', 'OverallQual',
       'OverallCond', 'YearBuilt', 'YearRemodAdd', 'MasVnrArea', 'BsmtFinSF1',
       'BsmtFinSF2', 'BsmtUnfSF', 'TotalBsmtSF', '1stFlrSF', '2ndFlrSF']]


matriz_corr = df_sel.corr()
sns.heatmap(matriz_corr, annot=False, cmap='coolwarm')

In [None]:
print(casa['SalePrice'].describe())
plt.figure(figsize=(9, 8))
sns.distplot(casa['SalePrice'], color='g', bins=100, hist_kws={'alpha': 0.4});

####
####
### Agora é sua vez! 
### Vamos pegar o dataset abaixo, ler o significado de suas features e analisá-lo :)
[Link do dataset](https://www.kaggle.com/datasets/uciml/red-wine-quality-cortez-et-al-2009)

In [None]:
# Lendo os dados
diretorio = r'C:\Users\pjroc\Projetos\Capacitação - SIGHT\Dataset\winemag-data-130k-v2.csv'
df_w = pd.read_csv(diretorio)

In [None]:
df_w.head()

In [None]:
countries = df_w.country.unique()
countries

In [None]:
reviews_per_country = df_w.country.value_counts()

In [None]:
reviews_per_country

### Escolha um país e veja que variedade de uva possui o preço mais alto e estude também a pontuação em relação a variedade. Diga se corresponde ao esperado ( maior preço, maior pontuação )

In [None]:
# Filtrando o dataset 
df_brasil = df_w[df_w['country'] == 'Brazil']

In [None]:
df_brasil.drop('Unnamed: 0', axis=1, inplace = True)

In [None]:
sns.barplot(data = df_brasil, y = 'variety', x = 'price', orient = 'h')

In [None]:
sns.barplot(data = df_brasil, y = 'variety', x = 'points', orient = 'h')

In [None]:
sns.scatterplot(data = df_brasil, x='points', y = 'price', hue = 'title', palette = 'viridis')
plt.legend(title='Título', bbox_to_anchor=(1.02, 1), loc='upper left')

### Questão para finalizar: Eu sou um comprador de vinho econômico e quero saber qual vinho apresenta o melhor custo benefício

### Solução:

In [None]:
points_to_price_ratio = df_w['points']/df_w['price'] # Cria uma lista com a razão entre as duas colunas
df_w['points_to_price_ratio'] = points_to_price_ratio # Cria uma coluna com a lista feita
max_points_price_ratio = points_to_price_ratio.max() # Cria um escalar com o valor máximo da razão
print(df_w[df_w['points_to_price_ratio'] == max_points_price_ratio]['title'].iloc[1])
bargain_wine = df_w[df_w['points_to_price_ratio'] == max_points_price_ratio]['title'].iloc[1]

### Opcional: Crie uma classificação numérica para os vinhos com base na sua pontuação (points)
Nas próximas linhas de código, lhe ensinarei a usar .apply. É um método para aplicação de função no dataset



In [None]:
data = {'A': [1, 2, 3, 4, 5]}
df_t = pd.DataFrame(data)
df_t

In [None]:
def square(x):
    return x**2

# Aplicar a função à coluna 'A'
df_t['A_squared'] = df_t['A'].apply(square)     # Cria uma nova coluna com os valores quadrados de a

# Imprimir o dataframe resultante
df_t