# Introdução

**OBJETIVO**: O objetivo deste notebook é dar o pontapé nos estudos sobre manipulação de dados utilizando Python

---

## Cabeçalho 

### Imports 

In [None]:
import os
import numpy as np
import pandas as pd

from pathlib import Path

### Configurações 

In [None]:
%config Completer.use_jedi = False

# pode ser "completo" ou "amostra"
TIPO_DADOS = "completo"

# checa se o notebook está sendo executado no google colab
GOOGLE_COLAB = "google.colab" in str(get_ipython())

# monta a pasta com os conteúdos
if GOOGLE_COLAB:
    from google.colab import drive
    drive.mount("/content/drive")
    
# informa o caminho para a pasta de ciência de dados a partir do drive
# você pode deixar isso como vazio se você não tiver adicionado a pasta
CAMINHO_DRIVE = "Ciência de Dados"

# links para os dados a serem baixados diretamente da Web
LINKS_DADOS = {
    "amostra": {
        "escola.parquet": "https://drive.google.com/uc?id=1i51S1GKVqc-_5KgWsfXDc3Fnkf1y700y&export=download",
        "ideb.parquet": "https://drive.google.com/uc?id=1NXCGhtluNbd2Vccyof3Y-eaw1vHkvIAL&export=download",
        "turma.parquet": "https://drive.google.com/uc?id=1ks0lsbU5GXI6sbZRG9f8zGdzZqDRK8SG&export=download",
    },
    "completo": {
        "escola.parquet": "https://drive.google.com/uc?id=1_at50Wh4JJz1jR-hhsqutVaUorN0M4IL&export=download",
        "ideb.parquet": "https://drive.google.com/uc?id=183GP-MVohBC84NvHMLYcBQ4YRRCPHxYi&export=download",
        "turma.parquet": "https://drive.google.com/uc?id=1OSrAB3oAAX-9NNWZ7dG0mcWFOIcjWUs8&export=download",
    }
}

  """Entry point for launching an IPython kernel.


Mounted at /content/drive


### Caminhos 

In [None]:
vPATH_NOTEBOOK = Path(os.path.dirname(os.path.realpath("__file__")))
vPATH_DADOS = vPATH_NOTEBOOK.parent.parent / f"dados/{TIPO_DADOS}"

---

## Carregamento de Base 

O primeiro passo na manipulação de dados é sempre realizar o carregamento dos dados a serem trabalhados. Para isso o pandas contém um conjunto de funções que começam com read_ e que terminam com o tipo de arquivo a ser baixado.

É importante notar que o pandas é capaz de trabalhar tanto com dados locais quanto com dados Web. Veja a célula abaixo por exemplo, temos 3 opções de download dos dados: Dentro do ambiente colab, na qual referenciamos um caminho para o arquivo a partir das pastas do ambiente, um segundo para o qual baixamos diretamenta de um link da internet e um terceiro, para quando temos os arquivos no diretório local

In [None]:
if GOOGLE_COLAB and CAMINHO_DRIVE != "":
    df = pd.read_parquet(
        f"drive/MyDrive/{CAMINHO_DRIVE}/dados/{TIPO_DADOS}/aquisicao/escola.parquet",
        filters=[("ANO", "=", 2020)]
    )
elif GOOGLE_COLAB or not os.path.exists(vPATH_DADOS / "saida/aquisicao/escola_temp.parquet"):
    df = pd.read_parquet(LINKS_DADOS[TIPO_DADOS]["escola.parquet"])
else:
    df = pd.read_parquet(vPATH_DADOS / "aquisicao/escola.parquet", filters=[("ANO", "=", 2020)])

In [None]:
df

---

## Representação dos Dados 

Ok, agora nós temos nossos dados carregados no pandas, mas o que exatamente nós recebemos como variável?

Resposta: Um DataFrame. 

Um DataFrame é uma estrutura de dados que representa uma tabela, sendo definido por linhas e colunas nomeadas que permitem acessar o conteúdo de cada célula "dado".

<img src="https://media.geeksforgeeks.org/wp-content/cdn-uploads/creating_dataframe1.png" />

Computacionalmente, cada coluna de um data frame é representado por um outro elemento chamado "Série", e cada série é constituída por um nome (que corresponde ao nome da coluna) e os indices (que correspondem aos indices do data frame) além de seu conteúdo (dados)

<img src="https://www.w3resource.com/w3r_images/pandas-series-add-image-1.svg" />

Os dados de Séries por sua vez são arrays da biblioteca numpy. Arrays (ou vetores) do numpy são representações que emulam arrays em outras linguagens (como C/C++) que representam uma lista de dados de dimensões fixas e de tipo único usada para calculos de algebra linear

<img src="https://miro.medium.com/max/3184/1*X0Dg7QfSYtWhSAu-afi8-g.png" />

Nós raramente trabalharemos dados usando numpy, entretanto os conceitos são úteis pois o numpy acaba por facilitar algumas operações que seriam mais complexas no pandas que nós veremos mais a frente.

**Além disso, lembre-se: Séries e DataFrames são baseadas em Arrays, portanto se você entender como determinadas operações funcionam para um desses objetos você consegue entender como funciona para todos**

---