# Oficina de Introdução à Ciência de Dados com Python 2023 - PyLadies Fortaleza

Índice
1.   Análise exploratória
2.   Medidas de localização
3.   Medidas de variação

Facilitadoras
*   Letícia Sampaio - [linkedin](https://www.linkedin.com/in/lesampaio/)
*   Joamila Brito - [linkedin](https://www.linkedin.com/in/joamila/)





## Rodar esta célula para conectar com o Google Drive

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


## Importar bibliotecas Python

- [Pandas](https://pandas.pydata.org/docs/index.html): Pandas é uma biblioteca de software criada para a linguagem Python para manipulação e análise de dados. Em particular, oferece estruturas e operações para manipular tabelas numéricas e séries temporais.
- [Seaborn](https://seaborn.pydata.org/index.html): Seaborn é uma biblioteca de visualização de dados Python baseada em *matplotlib*. Ele fornece uma interface de alto nível para desenhar gráficos estatísticos atraentes e informativos.

In [2]:
import pandas as pd
import seaborn as sns

# **Seção 1: Análise Exploratória**

## Conjunto de dados dos **Jogos Olímpicos** 🥇

Fonte: [Kaggle](https://www.kaggle.com/datasets/bhanupratapbiswas/olympic-data)

In [3]:
# Path para conjunto de dados
data_path = "/content/drive/MyDrive/PyLadies/oficina_ciencia_de_dados/dataset_olympics.csv"

# Carregar os dados
dados = pd.read_csv(data_path)

Visualização do DataFrame
- DataFrame: Estrutura básica em Pandas, representa uma tabela.


Vamos trabalhar com **Dados estruturados**
- Altamente organizados e possue formato bem definido das informações. Tipos básicos de dados estruturados:
  - Quantitativos ou numéricos
  - Qualitativos ou categóricos

In [None]:
# Visualização das 5 primeiras linhas do DataFrame
dados.head()

## Descrever conjunto de dados

Visualizar colunas dos DataFrame

In [None]:
dados.columns

In [None]:
# Selecionando uma coluna do DataFrame

## Forma 01
dados["Season"]

## Forma 02
#dados.Season

Descrever tamanho total do DataFrame
- DataFrame: Tabela

In [None]:
len( dados )

Mostrar quantidades de linhas e colunas

In [None]:
dados.shape

Visualizar valores únicos de uma variável

In [None]:
dados["Sport"].unique()

Slice
- Visualizar um recorte das informações

In [None]:
fatia = dados[dados["Year"] > 2000]

In [None]:
# Valores únicos da fatia de dados
fatia["Sport"].unique()

Visualizar tipos das variáveis:
- Categóricas: int64, float64
- Numéricas: object (categorical)

In [None]:
dados.info()

Descrever dados faltantes: NaN
- NaN é um valor ou símbolo usado nas linguagens de programação para representar um valor numérico indefinido ou irrepresentável

In [None]:
dados.head()

In [None]:
# Buscar NaN no DataFrame completo
dados.isna().sum()

In [None]:
# Buscar NaN em uma coluna do DataFrame
dados["Age"].isna().sum()

## Investigar motivos dos dados ausentes

- Falha de medição
- Correlação com outra variável ou contexto

Problema: Dados ausentes das variável idade. Isso pode estar relacionado ao ano de acontecimento das olimpíadas?

Hipótese: Olimpíadas mais antigas, em geral, apresentaram mais problemas para armazenar os registros da variável idade.

In [None]:
# Filtrar linhas do DataFrame em que 'Age' está vazia
dados_age_nan = dados[ dados["Age"].isna() ]

# Visualizar DataFrame
dados_age_nan.head()

In [None]:
# Contabilizar o total de valores vazios para cada ano
dados_age_nan["Year"].value_counts()

In [None]:
# Ordenar a contagem por Index (Ano)
dados_age_nan["Year"].value_counts().sort_index()

In [None]:
# Plotar histograma que apresente a distribuição dos valores ausentes ao longo dos anos
sns.histplot( dados_age_nan["Year"].value_counts() )

In [None]:
# Plotar histograma que apresente a distribuição dos valores ausentes ao longo dos anos (Ordenado por index)

### Seu código

**Exercício 1**

Problema 1: Por que existem valores ausentes de medalhas? Como você pode construir uma hipótese para esse problema a partir dos dados?

Problema 2: Por que existem valores ausentes de altura? Como você pode construir uma hipótese para esse problema a partir dos dados?

In [29]:
# Resolução

### Seu código

# **Seção 1.1: Medidas de Posição (Tendência Central)**
- As medidas de posição ou medidas de tendência central indicam um valor que melhor representa todo o conjunto de dados, ou seja, dão a tendência da concentração dos valores observados.

Descrever as métricas estatísticas das variáveis numéricas
* Média (mean) - é calculada somando-se todos os valores de um conjunto de dados e dividindo-se pelo número de elementos deste conjunto.
* Amplitude (max-min) - valores máximos e mínimos da variável.
* Percentis (25%, 50%, 75%) - os percentis são medidas que dividem a amostra em 100 partes.
* Mediana (50%) - é o número central de uma lista de dados organizados de forma crescente ou decrescente.

In [None]:
dados.describe()

Amplitude

In [None]:
# Valor máximo da variável
dados["Height"].max()

# Valor mínimo da variável
#dados["Height"].min()

Percentis

In [None]:
# Todas as colunas numéricas
dados.quantile(q = 0.25)

In [None]:
# Calcule o percentil para a coluna 'Height'

### Seu código

## Boxplot (Diagrama de caixas)
Uma ferramenta gráfica para representar a variação de dados observados de uma variável numérica por meio de quartis.

![Componentes do boxplot](https://fernandafperes.com.br/blog/interpretacao-boxplot/g2.png)

Quartil
- Uma representação ou uma delimitação para o percentil. Na prática, teremos três quartis que dividirão um conjunto de dados em quatro partes iguais.

![Imagem de quartis](https://didatica.tech/wp-content/uploads/2022/07/Quartil.png)

Outliers ou Valores discrepantes
- É uma observação que apresenta um grande afastamento das demais da série, ou que é inconsistente.

In [None]:
# Idade dos atletas
sns.boxplot(data=dados, x="Age")

In [None]:
# Idade dos atletas por gênero
sns.boxplot(data=dados, x='Age', y='Sex')

# **Seção 1.3: Medidas de Variação**

* Variância (var)
* Desvio padrão (std)

In [None]:
dados.var(axis=0)

In [None]:
dados.std(axis=0)

# **Seção 1.4: Correlação**

Correlação de Pearson
- Mede o grau da correlação entre duas variáveis de escala métrica. Este coeficiente, normalmente representado por ρ assume apenas valores entre -1 e 1.

In [None]:
dados.corr(numeric_only=True)

In [None]:
# Mapa de calor
sns.heatmap(dados.corr(numeric_only=True), cmap="Blues", annot=True)

In [None]:
# Observar correlações através de gráfico de dispersão
sns.scatterplot(data=dados, x='Weight', y='Height')

In [None]:
# Observar correlações através de gráfico de dispersão
sns.scatterplot(data=dados, x='Weight', y='Height', hue='Sex')

# **Sua vez!**

# **Faça a análise de uma ou mais variáveis do conjunto de dados utilizando o que aprendemos hoje 📑**