# SEADS 2024: Workshop de An√°lise de dados com üêç Python

O qu√™ comp√µe um projeto de an√°lise de dados na industria hoje? Existem v√°rias compet√™ncias envolvidas na an√°lise de dados; em grandes √°reas, podemos listar:

## DevOps
 * Automa√ß√£o de deploy
 * Integra√ß√£o cont√≠nua
 * IaC (Infrastructure as Code)

## Engenharia de Dados
 * Ingest√£o de dados
 * Transforma√ß√£o, limpeza e qualidade
 * Armazenamento e disponibiliza√ß√£o do dado

## Ci√™ncia de Dados
 * An√°lises estat√≠sticas
 * Modelos de machine learning

## Engenharia de Machine Learning
 * Deploy de modelos
 * An√°lise de m√©tricas
 * Alarmes

# Python üêç

Lembrete r√°pido de Python.

In [6]:
# Listas
[1, 2, 3]

# Booleano
True and False

# Dicion√°rios
{"chave": "valor"}

# Fun√ß√µes
def hello(): return 42

# Vari√°veis
evento = "SEADS 2024"
print(evento)

SEADS 2024


# Jupyter Lab ü™ê

Esta interface que estamos utilizando se chama Jupyter Lab. Ela nos permite misturar c√©lulas de texto, escrito em *Markdown*, e c√©lulas de c√≥digo.

O Jupyter Lab, ou apenas Jupyter, √© muito utilizado no meio para explora√ß√£o de dados.

* Para executar uma c√©lula, pressione <kbd>Control</kbd> + <kbd>Enter</kbd>
* Para editar uma c√©lula, clique duas vezes com o mouse üêÅ

# Pandas üêº

A biblioteca Pandas (https://pandas.pydata.org/) √© a porta de entrada para an√°lise de dados! Ela nos permite recortar & picotar o dado de diferentes dimens√µes, calcular valores agregados (soma, m√©dia, desvio padr√£o, etc.), e tamb√©m nos ajuda a plotar gr√°ficos.

Podemos pensar no Pandas como um "Excel" em Python.

In [2]:
import pandas as pd

## Series

Uma das abstra√ß√µes b√°sicas do Pandas √© a `Series`, que nada mais √© do que uma *coluna* de dados. Toda s√©rie possui:

* um tipo de dado (inteiro, ponto flutuante, string, etc.)
* um √≠ndice (que vamos ver mais adiante)
* um nome

In [7]:
pd.Series(["terra", "marte", "jupiter"], name="planeta")

0      terra
1      marte
2    jupiter
Name: planeta, dtype: object

## DataFrame

Um `DataFrame` nada mais √© do que uma cole√ß√£o de colunas.

In [11]:
pd.DataFrame(dict(
    planeta=pd.Series(["terra", "marte", "jupiter"]),
    diametro=pd.Series([12_756, 6_794, 142_984]),
))

Unnamed: 0,planeta,diametro
0,terra,12756
1,marte,6794
2,jupiter,142984


# Kaggle: Brazilian CS:GO üî´

Vamos utilizar um conjunto de dados aberto disponibilizado pelo Kaggle de dados do Counter-Strike Brasileiro!

https://www.kaggle.com/datasets/gamersclub/brazilian-csgo-plataform-dataset-by-gamers-club

Esse dataset cont√©m informa√ß√µes como:
* Quantos bonecos o jogador derrubou na partida
* Quantas bombas plantadas/defusadas
* e muitas outras que nem eu sei ainda ;)

Vamos explorar esse dataset juntos?

## Trabalhando com arquivos CSV

O Pandas nos permite trabalhar com diversos tipos de arquivos, como
* CSV
* Excel
* JSON
* Parquet
* e muitos outros

In [15]:
pd.read_csv("datasets/tb_lobby_stats_player.csv")

Unnamed: 0,idLobbyGame,idPlayer,idRoom,qtKill,qtAssist,qtDeath,qtHs,qtBombeDefuse,qtBombePlant,qtTk,...,qtFlashAssist,qtHitHeadshot,qtHitChest,qtHitStomach,qtHitLeftAtm,qtHitRightArm,qtHitLeftLeg,qtHitRightLeg,flWinner,dtCreatedAt
0,1,1,1,5,1,16,2,0,0,0.0,...,0.0,3.0,13.0,4.0,2.0,2.0,1.0,0.0,0,2022-01-21 19:45:44
1,2,1,2,24,3,18,6,0,4,0.0,...,0.0,7.0,26.0,14.0,2.0,1.0,1.0,3.0,1,2022-02-04 02:09:47
2,3,2,3,6,4,23,2,0,1,0.0,...,0.0,3.0,15.0,8.0,1.0,2.0,0.0,2.0,0,2021-09-18 18:07:43
3,3,391,27508,10,5,20,4,1,0,0.0,...,0.0,6.0,27.0,10.0,1.0,7.0,6.0,6.0,1,2021-09-18 18:07:43
4,4,2,4,8,4,26,6,0,2,0.0,...,2.0,8.0,19.0,12.0,2.0,3.0,2.0,5.0,0,2021-09-27 00:17:45
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
184147,172907,2716,178496,21,3,13,5,1,1,0.0,...,0.0,7.0,42.0,26.0,1.0,4.0,6.0,2.0,1,2021-11-27 16:47:57
184148,172908,2716,178497,15,1,22,5,0,1,0.0,...,0.0,5.0,21.0,21.0,3.0,7.0,2.0,4.0,1,2021-12-10 01:08:48
184149,172909,2716,178498,9,6,23,2,0,3,0.0,...,0.0,3.0,25.0,12.0,1.0,5.0,6.0,7.0,0,2022-01-09 21:01:10
184150,172910,2716,178499,15,5,20,6,0,2,0.0,...,1.0,8.0,22.0,16.0,2.0,8.0,3.0,6.0,0,2022-01-14 17:42:37
