# Tutorial Inicial - Manipulação de dados com **pandas** (versão Python do tutorial em R)

Um dos aspectos mais incríveis da linguagem Python para ciência de dados é a quantidade de bibliotecas criadas pela comunidade. Assim como no R existem diferentes “gramáticas”, em Python temos estilos e padrões consolidados. Nes tutorial, vamos aprender a manipular dados com a biblioteca **pandas**. Podemos pensar na linguagem python como uma língua com diversos dialétos. **pandas**, que é o “dialeto” mais popular para trabalhar com data frames (tabelas) em python.

---
## Instalando e carregando pacotes no Python

Quando você abre um ambiente de python, diversas funções estão disponíveis para uso. Elas são parte da base da linguagem, que é carregado automaticamente, ou seja, temos disponível as funções da linguagem tal como ela foi desenhada originalmente.

Se quiseremos utilizar funções de bibliotecas desenvolvidas na comunidade de python que não parte da base da linguagem, precisamos instalá-las e carregá-las ao iniciar a seção. Vamos ver como fazer isso.

No terminal ou no ambiente onde vai utilizar python faça uma única vez:

```bash
pip install pandas pyarrow requests
```

Após instalação, sempre que queremos utilizar a biblioteca _pandas_ devemos carregá-lo com a função _import_. Você deve fazer isso toda vez que começar uma sessão.

Vamos instalar mais duas bibliotecas que vamos utilizar neste tutorial:

```bash
pip install pyarrow requests
```

E começar carregando-as. Observe que _pandas_ foi carregada com o "apelido" pd, ou seja, pd a partir de agora significa _pandas_:

In [1]:
import pandas as pd
import requests 

---
## Introdução ao `pandas`

### Começando pelo meio: DataFrames

Uma característica distintiva da linguagem python é ter um desenvolvimento avançado para a análise de dados e computação científica. E quando pensamos em análise de dados, a protagonista do show é a _base de dados_ ou, como vamos conhecer a partir de agora, __data frame__.

Por esta razão, em vez de aprender como fazer aritmética, elaborar funções ou executar loops para repetir tarefas e outros aspectos básicos da linguagem, vamos começar olhando para pythom como concorrente da linguagem R e de softwares utilizados para análise de dados em ciências sociais, como SPSS, Stata, SAS e companhia.

As principais características de um data frame são: (1) cada coluna representa uma variável (ou característica) de um conjunto de observações; (2) cada linha representa uma observação e contém os valores de cada variável para tal observação. Vejamos um exemplo:

| Candidato | Partido | Votos | 
| --------- |:-------:| -----:|
| Beatriz   | PMDB    |   350 | 
| Danilo    | SOL     |  1598 | 
| Pedro     | PTB     |   784 | 
| Davi      | PSD     |   580 | 
| Mateus    | PV      |   2   | 

Note que em uma linha os elementos são de tipos de diferentes: na primeira coluna há uma nome (texto), na segunda uma sigla de partido (texto, mas limitado a um conjunto de siglas) e na terceira votos (número inteiros). 

Por outro lado, em cada coluna há somente elementos de um tipo. Por exemplo, há apenas números inteiros na coluna votos. Colunas são variáveis e por isso aceitam registros de um único tipo. Se você já fez um curso de estatísticas básica ou de métodos quantitativos deve se lembrar que as variáveis são classificadas da seguinte maneira:

1- Discretas

  - Nominais, que são categorias (normalmente texto) não ordenadas
  
  - Ordinais, que são categorias (normalmente texto) ordenadas
  
  - Inteiros, ou seja, o conjunto dos números inteiros

2- Contínuas, números que podem assumir valores não inteiros

Se destacamos uma coluna do nosso data frame, temos um __vetor__. Por exemplo, a variável "Votos" pode ser presentado da seguinte maneira: {350, 1598, 784, 580, 2}. Um data frame é um conjunto de variáveis (vetores!) dispostos na vertical e combinados um ao lado do outro.

Data frame e vetores são __objetos__ na linguagem python.

Vamos ver como python representa vetores e data frames na tela:



In [2]:
df = pd.DataFrame({
    "Candidato": ["Beatriz", "Danilo", "Pedro", "Davi", "Mateus"],
    "Partido":   ["PMDB", "SOL", "PTB", "PSD", "PV"],
    "Votos":     [350, 1598, 784, 580, 2]
})
df

Unnamed: 0,Candidato,Partido,Votos
0,Beatriz,PMDB,350
1,Danilo,SOL,1598
2,Pedro,PTB,784
3,Davi,PSD,580
4,Mateus,PV,2


---
## Cadastro de Escolas (SP)

Neste tutorial vamos trabalhar com as bases de dados da educação municipal da cidade de São Paulo. Em particular, vamos começar trabalhando com o  cadastro de escolas da Prefeitura de São Paulo.

A página na qual você encontrará o cadastro de escolas é essa aqui [aqui](https://dados.prefeitura.sp.gov.br/dataset/cadastro-de-escolas-municipais-conveniadas-e-privadas). Comece baixando o dicionário de dados e os dados mais atuais.

**URL dos dados (CSV):**
```
https://dados.prefeitura.sp.gov.br/dataset/8da55b0e-b385-4b54-9296-d0000014ddd5/resource/533188c6-1949-4976-ac4e-acd313415cd1/download/escolas122024.csv
```

### Abrindo dados em Python (com script)

Vamos ver agora como podemos utilizar o url diretamente em python para carregar os dados com um objeto do tipo data frame. Em primeiro lugar, guardamos o url em um objeto de texto:

In [3]:
url_escolas = "https://dados.prefeitura.sp.gov.br/dataset/8da55b0e-b385-4b54-9296-d0000014ddd5/resource/533188c6-1949-4976-ac4e-acd313415cd1/download/escolas122024.csv"


A seguir, utilizamos a função __read_csv__ da bilioteca pandas para ler os dados. Veja que temos que especificar algumas características do arquivo, como o separador do arquvio em .csv e o encoding em que foi escrito (para não termos problemas com acentos ao ler em Windows um arquivo gravado em Mac/Linux e vice-versa).

In [4]:
escolas = pd.read_csv(url_escolas, sep=";", encoding="latin1")

Veja que utilizamos um símbolo de igualdade para fazer uma "atribuição", ou seja, para guardar na memória um objeto com um nome. O data frame com o cadastro da escola agora mora na memória da sua sessão como um objeto cujo nome é "escolas" e podemos utilizá-lo a qualquer momento apenas usando o nome que lhe foi atribuído. O nome é o que vai do lado esquerdo. A parte do lado direito da equação de atribuição é o objeto a ser guardado.


### Explorando sem “ver planilha”

No editor de planilhas estamos acostumados a ver os dados, célula a célula. Mas será que é realmente útil ficar olhando para os dados? Você perceberá com o tempo que olhar os dados é desnecessário e até contraproducente.

Há maneiras de observar a matriz que armazena o seu data frame em python:

In [5]:
display(escolas)

Unnamed: 0,DRE,CODESC,TIPOESC,NOMES,DESLOC,CEU,DIRETORIA,SUBPREF,ENDERECO,NUMERO,...,ATO_CRIACAO,DOM_CRIACAO,DT_INI_CONV,DT_AUTORIZA,DT_EXTINCAO,NOME_ANT,REDE,LATITUDE,LONGITUDE,DATABASE
0,G,86,EMEI,PAULO CAMILHIER FLORENCANO,PAULO CAMILHIER FLORENCANO,,GUAIANASES,GUAIANASES,RUA FELICIANO DE MENDONCA,502.0,...,26134,13/06/1988,,16/03/1991,,,DIR,-23553905,-46398452,31/12/2024
1,FO,94,EMEI,VICENTE PAULO DA SILVA,VICENTE PAULO DA SILVA,,FREGUESIA/BRASILANDIA,CASA VERDE/CACHOEIRINHA,RUA DOUTOR FLEURY SILVEIRA,295.0,...,26314,04/07/1988,,16/03/1991,,,DIR,-23489728,-46670198,31/12/2024
2,MP,108,EMEF,"JOSE ERMIRIO DE MORAES, SEN.","JOSE ERMIRIO DE MORAES, SEN.",,SAO MIGUEL,SAO MIGUEL,RUA SAO BRAS DO SUACUI,159.0,...,26312,05/07/1988,,13/03/2001,,VILA NITRO OPERARIA,DIR,-23478312,-46427344,31/12/2024
3,BT,191,EMEF,"ALIPIO CORREA NETO, PROF.","ALIPIO CORREA NETO, PROF.",,BUTANTA,BUTANTA,AVENIDA JOAO CAIAFFA,140.0,...,26003,27/05/1988,,16/03/1991,,,DIR,-23612237,-46749888,31/12/2024
4,PJ,205,EMEBS,"VERA LUCIA APARECIDA RIBEIRO, PROFA.","VERA LUCIA APARECIDA RIBEIRO, PROFA.",,PIRITUBA,PIRITUBA,RUA BENEDITO PEREIRA,206.0,...,26229,22/06/1988,,16/03/1991,,,DIR,-23486142,-46733901,31/12/2024
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5021,PJ,700053,CEU AT COM,PINHEIRINHO DAGUA,PINHEIRINHO DAGUA,PINHEIRINHO D'AGUA,PIRITUBA,PIRITUBA,RUA CAMILLO ZANOTTI,92.0,...,59933,01/12/2020,,,,,CON,-23438098,-46732201,31/12/2024
5022,PE,700054,CEU AT COM,MONTE SERRAT,MONTE SERRAT,MONTE SERRAT,PENHA,MOOCA,RUA MONTE SERRAT,230.0,...,59931,01/12/2020,,,,,CON,-23539898,-46562294,31/12/2024
5023,PJ,700055,CEU AT COM,CORETO DE TAIPAS,CORETO DE TAIPAS,CORETO DE TAIPAS,PIRITUBA,PIRITUBA,RUA JOÃO AMADO COUTINHO,240.0,...,59932,01/12/2020,,,,,CON,-23447574,-46714798,31/12/2024
5024,PE,700056,CEU AT COM,HORIZONTE AZUL,HORIZONTE AZUL,HORIZONTE AZUL,PENHA,PENHA,AVENIDA SYLVIO TORRES,295.0,...,59930,01/12/2020,,,,,CON,-23552513,-46487631,31/12/2024


Ou podemos ver apenas o topo da matriz com __head__: 

In [6]:
escolas.head(6)

Unnamed: 0,DRE,CODESC,TIPOESC,NOMES,DESLOC,CEU,DIRETORIA,SUBPREF,ENDERECO,NUMERO,...,ATO_CRIACAO,DOM_CRIACAO,DT_INI_CONV,DT_AUTORIZA,DT_EXTINCAO,NOME_ANT,REDE,LATITUDE,LONGITUDE,DATABASE
0,G,86,EMEI,PAULO CAMILHIER FLORENCANO,PAULO CAMILHIER FLORENCANO,,GUAIANASES,GUAIANASES,RUA FELICIANO DE MENDONCA,502.0,...,26134,13/06/1988,,16/03/1991,,,DIR,-23553905,-46398452,31/12/2024
1,FO,94,EMEI,VICENTE PAULO DA SILVA,VICENTE PAULO DA SILVA,,FREGUESIA/BRASILANDIA,CASA VERDE/CACHOEIRINHA,RUA DOUTOR FLEURY SILVEIRA,295.0,...,26314,04/07/1988,,16/03/1991,,,DIR,-23489728,-46670198,31/12/2024
2,MP,108,EMEF,"JOSE ERMIRIO DE MORAES, SEN.","JOSE ERMIRIO DE MORAES, SEN.",,SAO MIGUEL,SAO MIGUEL,RUA SAO BRAS DO SUACUI,159.0,...,26312,05/07/1988,,13/03/2001,,VILA NITRO OPERARIA,DIR,-23478312,-46427344,31/12/2024
3,BT,191,EMEF,"ALIPIO CORREA NETO, PROF.","ALIPIO CORREA NETO, PROF.",,BUTANTA,BUTANTA,AVENIDA JOAO CAIAFFA,140.0,...,26003,27/05/1988,,16/03/1991,,,DIR,-23612237,-46749888,31/12/2024
4,PJ,205,EMEBS,"VERA LUCIA APARECIDA RIBEIRO, PROFA.","VERA LUCIA APARECIDA RIBEIRO, PROFA.",,PIRITUBA,PIRITUBA,RUA BENEDITO PEREIRA,206.0,...,26229,22/06/1988,,16/03/1991,,,DIR,-23486142,-46733901,31/12/2024
5,BT,213,EMEI,"ANTONIO CARLOS PACHECO E SILVA, PROF.","ANTONIO CARLOS PACHECO E SILVA, PROF.",,BUTANTA,BUTANTA,AVENIDA JOÃO CAIAFFA,90.0,...,26117,07/06/1988,,13/03/2001,,,DIR,-23611929,-46750176,31/12/2024


Com apenas as 6 primeiras linhas do data frame temos noção de todo o conjunto. Sabemos rapidamente que existem informações sobre o nome das escolas, seus códigos de cadastro, de que tipo de escola se trata, à qual diretoria regional de ensino (DRE) pertence, etc.

Quantas escolas há? Há tantas escolas quanto linhas no data frame. E quantas informações temos disponíveis para cada escola? Ou seja, quantas variáveis há no conjunto de dados?

In [7]:
# número de linhas e colunas
escolas.shape

(5026, 34)

Qual é o nome das variáveis?


In [8]:
# nomes das colunas
list(escolas.columns)[:20]

['DRE',
 'CODESC',
 'TIPOESC',
 'NOMES',
 'DESLOC',
 'CEU',
 'DIRETORIA',
 'SUBPREF',
 'ENDERECO',
 'NUMERO',
 'BAIRRO',
 'CEP',
 'TEL1',
 'TEL2',
 'FAX',
 'SITUACAO',
 'DISTRITO',
 'CDIST',
 'SETOR',
 'CODINEP']

Qual é a estrutura dos dados?

In [11]:
# estrutura dos dados
escolas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5026 entries, 0 to 5025
Data columns (total 34 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   DRE          5026 non-null   object 
 1   CODESC       5026 non-null   int64  
 2   TIPOESC      5026 non-null   object 
 3   NOMES        5026 non-null   object 
 4   DESLOC       5026 non-null   object 
 5   CEU          269 non-null    object 
 6   DIRETORIA    5026 non-null   object 
 7   SUBPREF      5026 non-null   object 
 8   ENDERECO     5026 non-null   object 
 9   NUMERO       4806 non-null   float64
 10  BAIRRO       5026 non-null   object 
 11  CEP          5026 non-null   int64  
 12  TEL1         4674 non-null   object 
 13  TEL2         1349 non-null   object 
 14  FAX          455 non-null    object 
 15  SITUACAO     5026 non-null   object 
 16  DISTRITO     5026 non-null   object 
 17  CDIST        5026 non-null   int64  
 18  SETOR        5026 non-null   int64  
 19  CODINE

---
## Renomeando variáveis


Quando trabalhamos com dados que não coletamos, em geral, não vamos gostar dos nomes das variáveis que quem produziu os dados escolheu. Mais ainda, com certa frequência, obtemos dados cujos nomes das colunas são compostos ou contêm acentuação, cedilha e demais caracteres especiais. Dá um tremendo trabalho usar nomes com tais característica, apesar de possível. O ideal é termos nomes sem espaço (você pode usar ponto ou subscrito para separar palavras em um nome composto) e que contenham preferencialmente letras minísculas sem acento e números.


In [12]:
escolas = escolas.rename(columns={
    "DRE": "dre_abreviatura",
    "CODESC": "codigo",
    "TIPOESC": "tipo",
    "NOMES": "nome",
    "DIRETORIA": "dre",
    "LATITUDE": "lat",
    "LONGITUDE": "lon",
    "CODINEP": "codigo_inep"
})
list(escolas.columns)[:12]

['dre_abreviatura',
 'codigo',
 'tipo',
 'nome',
 'DESLOC',
 'CEU',
 'dre',
 'SUBPREF',
 'ENDERECO',
 'NUMERO',
 'BAIRRO',
 'CEP']

---
## Encadeando tarefas


Nesta etapa vamos **encadear** operações com `pandas` usando um padrão legível: cada transformação é aplicada na sequência anterior. 
- Começamos lendo o CSV (`read_csv`).
- Em seguida **renomeamos** colunas (`.rename(columns={...})`).
- Por fim, **selecionamos** apenas as colunas de interesse com `.loc[:, [...]]`.

Esse estilo imita um *pipeline* de manipulação: fica fácil **ler de cima para baixo** e ver o que acontece com os dados em cada linha. Além disso, evitamos criar muitos objetos intermediários.

In [25]:
escolas = (
    pd.read_csv(url_escolas, sep=";", dtype=str, encoding="latin1")
      .rename(columns={
          "DRE": "dre_abreviatura",
          "CODESC": "codigo",
          "TIPOESC": "tipo",
          "NOMES": "nome",
          "DIRETORIA": "dre",
          "LATITUDE": "lat",
          "LONGITUDE": "lon",
          "CODINEP": "codigo_inep"
      })
      # seleciona colunas de interesse
      .loc[:, ["dre_abreviatura", "codigo", "tipo", "nome", "dre", "lat", "lon", "codigo_inep"]]
)
escolas.head()

Unnamed: 0,dre_abreviatura,codigo,tipo,nome,dre,lat,lon,codigo_inep
0,G,86,EMEI,PAULO CAMILHIER FLORENCANO,GUAIANASES,-23553905,-46398452,35098711
1,FO,94,EMEI,VICENTE PAULO DA SILVA,FREGUESIA/BRASILANDIA,-23489728,-46670198,35098361
2,MP,108,EMEF,"JOSE ERMIRIO DE MORAES, SEN.",SAO MIGUEL,-23478312,-46427344,35098760
3,BT,191,EMEF,"ALIPIO CORREA NETO, PROF.",BUTANTA,-23612237,-46749888,35098462
4,PJ,205,EMEBS,"VERA LUCIA APARECIDA RIBEIRO, PROFA.",PIRITUBA,-23486142,-46733901,35079029


---
## Transformando variáveis



Agora ajustamos **latitude** e **longitude**. No arquivo, os valores estão sem separador decimal (escala multiplicada por 1.000.000). 

- Usamos `.assign(...)` para criar/atualizar colunas de forma encadeada.
- `pd.to_numeric(..., errors="coerce")` garante conversão segura, transformando entradas inválidas em `NaN` (em vez de quebrar o fluxo).
- Ao dividir por `1_000_000`, recolocamos o ponto decimal na posição correta.

Resultado: colunas `lat` e `lon` já numéricas e prontas para mapas, *joins* espaciais ou gráficos.

In [17]:
# Converter lat/lon
escolas = (
    escolas
    .assign(
        lat=lambda d: pd.to_numeric(d["lat"], errors="coerce") / 1_000_000,
        lon=lambda d: pd.to_numeric(d["lon"], errors="coerce") / 1_000_000,
    )
)
escolas[["lat","lon"]].head()

Unnamed: 0,lat,lon
0,-23.553905,-46.398452
1,-23.489728,-46.670198
2,-23.478312,-46.427344
3,-23.612237,-46.749888
4,-23.486142,-46.733901


---
## Filtrando linhas

Ex.: selecionar apenas **EMEIs**.


Filtragem em `pandas` é feita com **máscaras booleanas**. 
- `df[col] == valor` cria uma série de `True/False`.
- Usando essa série entre colchetes (`df[condicao]`), obtemos apenas as linhas verdadeiras.

Atribuímos o resultado a um novo DataFrame (`.copy()` é uma boa prática para evitar *SettingWithCopyWarning* quando formos editar essas linhas depois).

In [18]:
emeis = escolas[escolas["tipo"] == "EMEI"].copy()
emeis.head()

Unnamed: 0,dre_abreviatura,codigo,tipo,nome,DESLOC,CEU,dre,SUBPREF,ENDERECO,NUMERO,...,ATO_CRIACAO,DOM_CRIACAO,DT_INI_CONV,DT_AUTORIZA,DT_EXTINCAO,NOME_ANT,REDE,lat,lon,DATABASE
0,G,86,EMEI,PAULO CAMILHIER FLORENCANO,PAULO CAMILHIER FLORENCANO,,GUAIANASES,GUAIANASES,RUA FELICIANO DE MENDONCA,502.0,...,26134,13/06/1988,,16/03/1991,,,DIR,-23.553905,-46.398452,31/12/2024
1,FO,94,EMEI,VICENTE PAULO DA SILVA,VICENTE PAULO DA SILVA,,FREGUESIA/BRASILANDIA,CASA VERDE/CACHOEIRINHA,RUA DOUTOR FLEURY SILVEIRA,295.0,...,26314,04/07/1988,,16/03/1991,,,DIR,-23.489728,-46.670198,31/12/2024
5,BT,213,EMEI,"ANTONIO CARLOS PACHECO E SILVA, PROF.","ANTONIO CARLOS PACHECO E SILVA, PROF.",,BUTANTA,BUTANTA,AVENIDA JOÃO CAIAFFA,90.0,...,26117,07/06/1988,,13/03/2001,,,DIR,-23.611929,-46.750176,31/12/2024
6,FO,221,EMEI,NAIR CORREA BUARQUE,NAIR CORREA BUARQUE,,FREGUESIA/BRASILANDIA,FREGUESIA/BRASILANDIA,RUA SANTA ANGELA,51.0,...,26231,22/06/1988,,13/03/2001,,INSTALADA JUNTO A EMPG ELIAS S. CAVALCANTI,DIR,-23.498613,-46.685953,31/12/2024
7,JT,230,EMEI,"MARIA YOLANDA DE SOUZA PINTO HAHNE, DA.","MARIA YOLANDA DE SOUZA PINTO HAHNE, DA.",,JACANA/TREMEMBE,VILA MARIA/VILA GUILHERME,RUA GASTAO MADEIRA,340.0,...,26395,13/07/1988,,07/11/1992,,PARQUE SHIBA,DIR,-23.506186,-46.585236,31/12/2024


Ex.: **CEI DIRET**, **CEI INDIR** e **CR.P.CONV** (equivalente ao `OR`).

Para múltiplos valores, prefira `Series.isin(lista)`, que expressa bem o *OU lógico* (qualquer um dos valores). 
Para combinar com outra condição (como uma DRE específica), use `&` (E lógico) entre as máscaras, lembrando de **colocar parênteses** ao redor de cada uma para manter a precedência correta.

In [19]:
tipos_creche = ["CEI DIRET", "CEI INDIR", "CR.P.CONV"]
creches = escolas[escolas["tipo"].isin(tipos_creche)].copy()
creches.head()

Unnamed: 0,dre_abreviatura,codigo,tipo,nome,DESLOC,CEU,dre,SUBPREF,ENDERECO,NUMERO,...,ATO_CRIACAO,DOM_CRIACAO,DT_INI_CONV,DT_AUTORIZA,DT_EXTINCAO,NOME_ANT,REDE,lat,lon,DATABASE
425,FO,19483,CEI DIRET,JARDIM SANTA TEREZA,JARDIM SANTA TEREZA,,FREGUESIA/BRASILANDIA,FREGUESIA/BRASILANDIA,RUA AUGUSTO CÉSAR SANDINO,,...,53492,23/10/2012,,,,,DIR,-23.459748,-46.679644,31/12/2024
589,PJ,30993,CR.P.CONV,VILA SULINA,VILA SULINA,,PIRITUBA,PERUS,RUA LUÍSA MARIA ROSA,299.0,...,472020,13/02/2020,,,,,CON,-23.445107,-46.785264,31/12/2024
1323,PE,302106,CR.P.CONV,PEQUENA LUZ,PEQUENA LUZ,,PENHA,PENHA,AVENIDA GALERA,4.0,...,2015.0.282.404.0,11/12/2015,,,,,CON,-23.49748,-46.516867,31/12/2024
1324,PE,302108,CR.P.CONV,CASA DE CRIAR E BRINCAR,CASA DE CRIAR E BRINCAR,,PENHA,PENHA,AVENIDA DAS ALTEROSAS,64.0,...,2015.0.282.400.7,18/12/2015,,11/10/2022,,MUNDO DO SABER,CON,-23.530963,-46.50864,31/12/2024
1347,PJ,303429,CR.P.CONV,NOSSA SENHORA DA ANUNCIACAO,NOSSA SENHORA DA ANUNCIACAO,,PIRITUBA,LAPA,RUA CONSELHEIRRO OLEGARIO,54.0,...,,,13/11/2004,18/10/1995,,ANUNCIACAO INST. BENEF.,CON,-23.514169,-46.721588,31/12/2024


E combinando com outra variável (equivalente ao `AND`).

In [20]:
creches_ipiranga = creches[creches["dre"] == "DIRETORIA REGIONAL DE EDUCACAO IPIRANGA"].copy()
creches_ipiranga.head(), creches_ipiranga.shape

(Empty DataFrame
 Columns: [dre_abreviatura, codigo, tipo, nome, DESLOC, CEU, dre, SUBPREF, ENDERECO, NUMERO, BAIRRO, CEP, TEL1, TEL2, FAX, SITUACAO, DISTRITO, CDIST, SETOR, codigo_inep, CD_CIE, EH, FX_ETARIA, DT_CRIACAO, ATO_CRIACAO, DOM_CRIACAO, DT_INI_CONV, DT_AUTORIZA, DT_EXTINCAO, NOME_ANT, REDE, lat, lon, DATABASE]
 Index: []
 
 [0 rows x 34 columns],
 (0, 34))

---
## Extras úteis (contagens, ordenações, agrupamentos)


- **Amostragem**: `sample(n)` ajuda a inspecionar rapidamente dados variados.
- **Contagens**: `value_counts()` é ótimo para frequências de categorias.
- **Agrupar e resumir**: `groupby(...).agg(...)` permite sumarizações por grupo; finalize com `reset_index()` e `sort_values()` para deixar a tabela pronta para leitura ou visualização.

In [21]:
# Amostra aleatória
escolas.sample(6, random_state=42)

Unnamed: 0,dre_abreviatura,codigo,tipo,nome,DESLOC,CEU,dre,SUBPREF,ENDERECO,NUMERO,...,ATO_CRIACAO,DOM_CRIACAO,DT_INI_CONV,DT_AUTORIZA,DT_EXTINCAO,NOME_ANT,REDE,lat,lon,DATABASE
877,CL,92886,EMEF,OLIVEIRA VIANA,OLIVEIRA VIANA,,CAMPO LIMPO,M'BOI MIRIM,RUA PROFESSOR BARROSO DO AMARAL,694.0,...,12197,03/09/1975,,10/04/1981,,E.M. VILA SANTA LUCIA,DIR,-23.686526,-46.763578,31/12/2024
4886,FO,501570,MOVA,CENTRO DE ASSISTENCIA SOCIAL DE VILA DIONISIA II,CENTRO DE ASSISTENCIA SOCIAL DE VILA DIONISIA II,,FREGUESIA/BRASILANDIA,CASA VERDE/CACHOEIRINHA,RUA VINTE E DOIS DE AGOSTO,263.0,...,"2,02E+11",15/07/2016,,,,CENTRO DE ASSISTENCIA SOCIAL DE VILA DIONISIA,CON,-23.467612,-46.659608,31/12/2024
2484,PJ,308178,CR.P.CONV,SOLAR DO AMANHECER,SOLAR DO AMANHECER,,PIRITUBA,PERUS,RUA FLORÊNCIO CARPI,379.0,...,"2,01E+11",07/11/2014,07/11/2014,15/05/2019,,,CON,-23.438489,-46.79055,31/12/2024
2288,IQ,307856,CR.P.CONV,LINA E O BALAO,LINA E O BALAO,,ITAQUERA,ARICANDUVA/FORMOSA/CARRAO,RUA TEOFRASTO,21.0,...,"2,01E+11",24/09/2012,24/09/2012,17/09/2014,,FONTE DO SABER,CON,-23.574975,-46.538222,31/12/2024
811,JT,92223,EMEI,MARIA ISABEL PACHECO DE ALMEIDA RIBEIRO,MARIA ISABEL PACHECO DE ALMEIDA RIBEIRO,,JACANA/TREMEMBE,VILA MARIA/VILA GUILHERME,RUA FRANCISCO FRANCO MACHADO,160.0,...,,,,19/03/1986,,VILA SABRINA - PI 104,DIR,-23.492475,-46.572753,31/12/2024
248,MP,19289,CEU EMEI,ANTON MAKARENKO,ANTON MAKARENKO,PARQUE VEREDAS,SAO MIGUEL,ITAIM PAULISTA,RUA DANIEL MULLER,347.0,...,42832,06/02/2003,,08/05/2007,,PARQUE VEREDAS,DIR,-23.513365,-46.389651,31/12/2024


In [22]:
# Contagem de categorias
escolas["tipo"].value_counts(dropna=False).head(10)

tipo
CR.P.CONV     1826
ESC.PART.      795
EMEF           551
EMEI           517
CEI INDIR      399
CEI DIRET      315
MOVA           266
CEU AT COM      58
CEU             58
CEU EMEI        47
Name: count, dtype: int64

In [23]:
# Agrupar e sumarizar (groupby + agg)
(
    escolas
    .groupby("dre", dropna=False)
    .agg(qtd=("codigo", "count"))
    .reset_index()
    .sort_values("qtd", ascending=False)
    .head(10)
)

Unnamed: 0,dre,qtd
1,CAMPO LIMPO,501
5,IPIRANGA,478
9,PIRITUBA,459
8,PENHA,448
12,SAO MIGUEL,392
6,ITAQUERA,366
10,SANTO AMARO,366
4,GUAIANASES,363
0,BUTANTA,350
3,FREGUESIA/BRASILANDIA,349


---
## Pipeline completo (do zero ao subset final)


Aqui juntamos **todas as etapas** em um único fluxo declarativo: 
1. Ler e renomear;
2. Padronizar `lat`/`lon` (incluindo remoção de pontos em `lon` quando necessário);
3. Selecionar variáveis-chave;
4. Filtrar creches por tipos e DRE específica.

Essa organização facilita reproduzir, revisar e compartilhar a análise, pois o *pipeline* conta a história da transformação de dados do início ao fim.

In [26]:
url_escolas = "https://dados.prefeitura.sp.gov.br/dataset/8da55b0e-b385-4b54-9296-d0000014ddd5/resource/533188c6-1949-4976-ac4e-acd313415cd1/download/escolas122024.csv"
tipos_creche = ["CEI DIRET", "CEI INDIR", "CR.P.CONV"]

escolas_pipeline = (
    pd.read_csv(url_escolas, sep=";", dtype=str, encoding="latin1")
      .rename(columns={
          "DRE": "dre_abreviatura",
          "CODESC": "codigo",
          "TIPOESC": "tipo",
          "NOMES": "nome",
          "DIRETORIA": "dre",
          "LATITUDE": "lat",
          "LONGITUDE": "lon",
          "CODINEP": "codigo_inep"
      })
      .assign(
          lat=lambda d: pd.to_numeric(d["lat"], errors="coerce") / 1_000_000,
          lon=lambda d: pd.to_numeric(d["lon"].str.replace(".", "", regex=False), errors="coerce") / 1_000_000
      )
      .loc[:, ["dre_abreviatura", "codigo", "tipo", "nome", "dre", "lat", "lon", "codigo_inep"]]
)

creches_ipiranga = (
    escolas_pipeline[
        escolas_pipeline["tipo"].isin(tipos_creche) &
        (escolas_pipeline["dre"] == "DIRETORIA REGIONAL DE EDUCACAO IPIRANGA")
    ]
    .copy()
)

escolas_pipeline.head(), creches_ipiranga.head(), creches_ipiranga.shape

(  dre_abreviatura codigo   tipo                                  nome  \
 0               G     86   EMEI            PAULO CAMILHIER FLORENCANO   
 1              FO     94   EMEI                VICENTE PAULO DA SILVA   
 2              MP    108   EMEF          JOSE ERMIRIO DE MORAES, SEN.   
 3              BT    191   EMEF             ALIPIO CORREA NETO, PROF.   
 4              PJ    205  EMEBS  VERA LUCIA APARECIDA RIBEIRO, PROFA.   
 
                      dre        lat        lon codigo_inep  
 0             GUAIANASES -23.553905 -46.398452    35098711  
 1  FREGUESIA/BRASILANDIA -23.489728 -46.670198    35098361  
 2             SAO MIGUEL -23.478312 -46.427344    35098760  
 3                BUTANTA -23.612237 -46.749888    35098462  
 4               PIRITUBA -23.486142 -46.733901    35079029  ,
 Empty DataFrame
 Columns: [dre_abreviatura, codigo, tipo, nome, dre, lat, lon, codigo_inep]
 Index: [],
 (0, 8))