# Laboratório de Estatística - Semana 1

Este será o nosso primeiro contato na disciplina com a linguagem de programação Python. 

Não se preocupe em memorizar ou entender cada comando. O Python será a nossa calculadora para nos ajudar na resolução dos exercícios de Estatística, o foco do curso.

Este notebook guiará você pelos conceitos básicos de manipulação de dados com Pandas, NumPy e visualização de dados com Matplotlib e Seaborn.

## Objetivos
- Importar dados de um arquivo CSV
- Criar um DataFrame com dados fictícios e exibir as primeiras linhas.
- Calcular a média e a soma das colunas do DataFrame.
- Visualizar dados utilizando Matplotlib e Seaborn.
- Realizar análise exploratória de dados com gráficos diversos, incluindo histograma, gráficos de linha, scatter plots, boxplots, pairplots e gráficos de Pareto.
- Explorar as funções `df.describe()` e `df.info()`.

Vamos começar!

### Importação das Bibliotecas Necessárias
Primeiro, precisamos importar as bibliotecas que usaremos: Pandas e Matplotlib.


In [4]:
# Importando as bibliotecas necessárias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configuração para exibir os gráficos diretamente no notebook
%matplotlib inline

### Criar um DataFrame com Dados Fictícios

Vamos criar um DataFrame com alguns dados fictícios. Um DataFrame é uma estrutura de dados semelhante a uma tabela, onde podemos armazenar e manipular dados.

```python
# Criando um DataFrame com dados fictícios
data = {
    'Nome': ['Ana', 'Bruno', 'Carlos', 'Daniela', 'Eduardo'],
    'Idade': [23, 35, 45, 22, 28],
    'Salário': [50000, 60000, 80000, 45000, 52000]
}

df = pd.DataFrame(data)

# Exibindo as primeiras linhas do DataFrame
print(df.head())
```

In [None]:
# Criando um DataFrame com dados fictícios

# Exibindo as primeiras linhas do DataFrame


### Calcular a Média e a Soma das Colunas do DataFrame

Agora vamos calcular a média e a soma das colunas 'Idade' e 'Salário'.

```python
# Calculando a média
media_idade = df['Idade'].mean()
media_salario = df['Salário'].mean()

# Calculando a soma
soma_idade = df['Idade'].sum()
soma_salario = df['Salário'].sum()

print(f"Média de Idade: {media_idade}")
print(f"Média de Salário: {media_salario}")
print(f"Soma de Idade: {soma_idade}")
print(f"Soma de Salário: {soma_salario}")
```

In [None]:
# Calculando a média

# Calculando a soma

# Imprimindo os resultados


### Criar um Histograma para uma das Colunas do DataFrame

Vamos criar um histograma para a coluna 'Idade'.

```python
# Criando um histograma para a coluna 'Idade'
plt.hist(df['Idade'], bins=5, edgecolor='black')
plt.title('Histograma de Idade')
plt.xlabel('Idade')
plt.ylabel('Frequência')

# Ajustando a escala do eixo x
# range(start, stop, step): Gera uma sequência de números de start até stop - 1, incrementando por step
plt.xticks(range(22, 45+1, 2))

plt.show()
```

In [None]:
# Criando um histograma para a coluna 'Idade'

# Ajustando a escala do eixo x
# range(start, stop, step): Gera uma sequência de números de start até stop - 1, incrementando por step


### Criar um Gráfico de Linha Utilizando Duas Colunas do DataFrame

Agora, vamos criar um gráfico de linha usando as colunas 'Idade' e 'Salário'.

```python
# Criando um gráfico de linha
plt.plot(df['Idade'], df['Salário'], marker='o')
plt.title('Gráfico de Salário por Idade')
plt.xlabel('Idade')
plt.ylabel('Salário')
plt.grid(True)
plt.show()
```

In [None]:
# Criar um Gráfico de Linha Utilizando Duas Colunas do DataFrame


### Ordenando os dados

Observe que a linha desenhada no gráfico gerado não está crescendo de forma contínua. Isso ocorre devido aos dados de idade não estarem ordenados em ordem crescente.

Para ordenar os valores no gráfico, você pode ordenar o DataFrame por uma das colunas antes de criar o gráfico. Neste caso, vamos ordenar o DataFrame pela coluna 'Idade'. Isso garantirá que as idades estejam em ordem crescente no gráfico, tornando-o mais fácil de interpretar.

```python
# Ordenando o DataFrame pela coluna 'Idade'
df = df.sort_values(by='Idade')

# Criar um Gráfico de Linha Utilizando Duas Colunas do DataFrame
plt.plot(df['Idade'], df['Salário'], marker='o')
plt.title('Gráfico de Salário por Idade')
plt.xlabel('Idade')
plt.ylabel('Salário')
plt.grid(True)
plt.show()
```

Esta é a linha responsável por ordenar o DataFrame pela coluna 'Idade' em ordem crescente. O comando sort_values(by='Idade') organiza o DataFrame de forma que as idades estejam em ordem crescente.

```python
df = df.sort_values(by='Idade')
```

Perceba que a alteração no DataFrame que fizemos foi permanente. Caso não queira perder o dado na sua forma original, você deve guardar as modificações em um DataFrame novo!

In [None]:
# Ordenando o DataFrame pela coluna 'Idade'

# Criar um Gráfico de Linha Utilizando Duas Colunas do DataFrame


## Scatter Plots
Um scatter plot (ou gráfico de dispersão) é usado para visualizar a relação entre duas variáveis numéricas.
No gráfico de dispersão, cada ponto representa uma observação dos dados com suas coordenadas determinadas pelos valores das duas variáveis.

```Python
# Criar um Gráfico de Pontos Utilizando Duas Colunas do DataFrame
plt.scatter(df['Idade'], df['Salário'], marker='o')
plt.title('Gráfico de Salário por Idade')
plt.xlabel('Idade')
plt.ylabel('Salário')
plt.show()
```

In [None]:
# Criar um Gráfico de Pontos Utilizando Duas Colunas do DataFrame


## Criação de um boxplot
Um boxplot (ou diagrama de bigode) é usado para visualizar a distribuição dos dados através de seus quartis.
O boxplot mostra a mediana dos dados, os quartis superior e inferior, e possíveis outliers.

```Python
# Criar um Gráfico de Boxplot Utilizando uma Coluna do DataFrame
sns.boxplot(x='Idade', data=df)
plt.title('Boxplot da Idade')
plt.show()
```

In [None]:
# Criar um Gráfico de Boxplot Utilizando uma Coluna do DataFrame


## Criação de um pairplot

Um pairplot (ou gráfico de pares) é uma visualização muito útil para analisar relações entre múltiplas variáveis em um DataFrame. Ele cria uma grade de gráficos, onde cada gráfico mostra a relação entre dois conjuntos de variáveis. Os gráficos na diagonal geralmente mostram a distribuição univariada (como histogramas) de cada variável, enquanto os gráficos fora da diagonal mostram as relações bivariadas (como scatter plots) entre as variáveis.

### Utilização de um Pairplot
Análise de Correlação: Um pairplot permite que você observe rapidamente como diferentes variáveis estão correlacionadas entre si. Você pode identificar padrões de correlação positiva, negativa ou ausência de correlação.

- Distribuição dos Dados: A diagonal do pairplot exibe a distribuição de cada variável. Isso ajuda a entender a forma da distribuição (normal, enviesada, etc.).
- Outliers e Agrupamentos: Você pode identificar outliers e possíveis agrupamentos de dados ao observar os scatter plots fora da diagonal.

```Python
# Criar um Gráfico de Pairplot Utilizando todo o DataFrame
sns.pairplot(df)
plt.show()
```

In [None]:
# Criar um Gráfico de Pairplot Utilizando todo o DataFrame


## Criação de um gráfico de Pareto

O gráfico de Pareto é uma combinação de um gráfico de barras e um gráfico de linha. Ele é usado para destacar os fatores mais significativos em um conjunto de dados, ordenando as barras em ordem decrescente e mostrando a frequência acumulada com uma linha.

```Python
# Criando um gráfico de Pareto
frequencia = df['Nome'].value_counts()                                  # Frequência dos valores na coluna 'Nome'
frequencia_acumulada = frequencia.cumsum()                              # Frequência acumulada
frequencia_relativa = frequencia / frequencia.sum()                     # Frequência relativa (percentual)
frequencia_relativa_acumulada = frequencia_acumulada / frequencia.sum() # Frequência relativa acumulada (percentual acumulado)

# Define os eixos do gráfico
fig, ax1 = plt.subplots()                         # Criar a figura e os eixos para o gráfico
ax2 = ax1.twinx()                                 # Segundo eixo y que compartilha o mesmo eixo x (para a frequência acumulada)
frequencia.plot(kind='bar', ax=ax1, color='blue') # Plotar o gráfico de barras da frequência
frequencia_relativa_acumulada.plot(ax=ax2, color='red', marker='o', linestyle='-') # Plotar o gráfico de linha da f. acum. relativa

# Define os rótulos
ax1.set_xlabel('Nome') # Definir o rótulo do eixo x
ax1.set_ylabel('Frequência') # Rótulo do eixo y para o gráfico de barras
ax2.set_ylabel('Frequência Acumulada') # Rótulo do eixo y para o gráfico de linha
plt.title('Gráfico de Pareto') # Título do gráfico

# Mostrar o gráfico
plt.show()
```

In [None]:
# Criando um gráfico de Pareto

# Define os eixos do gráfico

# Define os rótulos

# Mostrar o gráfico


### Explorando as Funções `df.describe()` e `df.info()`

Vamos explorar algumas funções úteis para obter informações sobre o DataFrame.

```python
# Exibindo estatísticas descritivas
print(df.describe())

# Exibindo informações do DataFrame
print(df.info())
```

In [None]:
# Exibindo estatísticas descritivas


In [None]:
# Exibindo informações do DataFrame


# Leitura de arquivos de dados utilizando Pandas

Nesta estapa iremos importar arquivos de dados do tipo CSV.

O arquivo `'arquivo.csv'` está disponível no Canvas da disciplina.

Faça o download do arquivo e coloque no mesmo diretório deste notebook Jupyter.

```Python
# Importa o arquico CSV
df = pd.read_csv('arquivo.csv')
```

In [None]:
# Importa o arquico CSV


## Exibição das primeiras e últimas linhas do DataFrame
Esta célula exibe as primeiras e últimas linhas do DataFrame para uma visão geral dos dados.

In [None]:
# Exibindo as primeiras linhas

# Exibindo as últimas linhas


## Resumo estatístico dos dados

Esta célula exibe um resumo estatístico das colunas numéricas do DataFrame.

```Python
# Exibindo resumo estatístico
print("Resumo estatístico do DataFrame:")
print(df.describe())
```

In [None]:
# Exibindo resumo estatístico


## Seleção de Dados

Esta célula demonstra como selecionar uma coluna específica dos dados.

```Python
# Selecionando uma coluna específica
coluna_selecionada = df['Idade']
print(f"Dados da coluna selecionada:\n{coluna_selecionada}")
```

In [None]:
# Selecionando uma coluna específica


## Filtro de Dados

Esta célula demonstra como filtrar dados com base em uma condição.

```Python
# Filtrando dados que atendem a uma condição. No caso, idade maior que 25 anos.
filtro = df[df['Idade'] > 25]
print(f"Dados filtrados (Idade > 25):\n{filtro}")
```

In [None]:
# Filtrando dados que atendem a uma condição. No caso, idade maior que 25 anos.


# Criação e manipulação de DataFrames

Esta célula demonstra como criar um DataFrame a partir de um dicionário.

```Python
# Criando um DataFrame
data = {'coluna1': [1, 2], 'coluna2': [3, 4]}
df = pd.DataFrame(data)
print("DataFrame criado:\n", df)
```

In [None]:
# Criando um DataFrame


## Operações Básicas

Estas células mostram como adicionar e remover colunas em um DataFrame.

```Python
# Adicionar colunas
df['nova_coluna'] = df['coluna1'] + df['coluna2']
print("DataFrame após adicionar nova coluna:\n", df)

# Remover colunas
df.drop('coluna1', axis=1, inplace=True)
print("DataFrame após remover a coluna 'coluna1':\n", df)
```

In [None]:
# Adicionar colunas

# Remover colunas


## Cálculo de estatísticas descritivas básicas

Estas células mostram como calcular a descrição, a média e a soma das colunas do DataFrame.

```Python
# Descrição
print("Descrição do DataFrame:\n", df.describe())

# Média
print("Média das colunas do DataFrame:\n", df.mean())

# Soma
print("Soma das colunas do DataFrame:\n", df.sum())
```

In [None]:
# Descrição

# Média

# Soma
