<h1 style="font-weight:bold">Qual o Efeito da Legalização da Maconha na Taxa de Criminalidade ao Longo do Tempo?</h1>

<hr/>
<h2>Parte 1 - Definição do Problema, Coleta, Pipeline e Limpeza de Dados</h2>
<hr/>

<h2>1) INTRODUÇÃO</h2>

<h3>1.1)  Definição do Problema </h3>

Em 2016, os eleitores da Califórnia nos EUA aprovaram a Proposição 64, que legalizou o uso recreativo da maconha no estado. Neste link você encontra os detalhes sobre a aprovação da Proposição 64:

<a href="https://ballotpedia.org/California_Proposition_64,_Marijuana_Legalization_(2016)">California Proposition 64, Marijuana Legalization (2016)</a>

Os opositores à medida apresentaram cinco principais objeções à mudança no Guia Oficial de Informações do Eleitor do estado. Eles argumentaram que a legalização:

- (1) Dobraria o número de mortes nas rodovias.
- (2) Permitiria o cultivo de maconha perto de escolas e parques.
- (3) Aumentaria a atividade do mercado negro e do cartel.
- (4) Prejudicaria as comunidades pobres com problemas de dependência por meio do influxo de novos pontos de vendas de maconha.
- (5) Aumentaria a criminalidade ao longo do tempo, especialmente nas áreas próximas aos pontos de venda de maconha legalizada (cada ponto de venda de maconha legalizada é chamado de marijuana dispensary). 


Vamos realizar uma análise de dados com base em séries temporais e análises geoespaciais, além de outras técnicas exploratórias mais gerais, para examinar se essas previsões se tornaram realidade em Los Angeles desde que a legalização entrou em vigor. Nosso foco principal será nos dados disponíveis sobre detenções por crimes relacionados à maconha e na taxa geral de crimes nas proximidades de dispensários. Vamos focar principalmente nos itens 2, 4 e 5 acima.

Os dados usados neste projeto estão disponíveis publicamente e são oferecidos pelo portal de dados abertos do governo de Los Angeles.

Você é favor ou contra à legalização da Maconha? Vamos emitir uma opinião com base nos dados.

<h3>1.2) Divisão do Projeto Final</h3>

Neste projeto iremos trabalhar com dados de 4 fontes diferentes. Teremos que extrair, limpar, organizar, relacionar e explorar os dados e definir um Pipeline de Dados. Aplicaremos Modelagem Estatística, iremos validar suposições e hipóteses e identificar as variáveis relevantes para nossa análise durante a Modelagem Preditiva. Por fim, vamos construir um modelo de Análise de Séries Temporais, interpretar as estatísticas e emitir nossa conclusão através de um Sumário Executivo.

Como este é um projeto extenso, que envolve muito trabalho e muitas etapas, será dividido em 3 etapas:
* **Parte 1**: Definição do Problema, Coleta, Pipeline e Limpeza de Dados.
* **Parte 2**: Análise Exploratória com Geolocalização e Modelagem Estatística.
* **Parte 3**: Modelagem Preditiva, Análise de Séries Temporais, Conclusões Finais e Apresentação do Sumário Executivo do Projeto. 

Trabalharemos com dados reais disponíveis publicamente e de diferentes fontes, totalizando cerca de 4 milhões de registros.

<h3>1.3) Fontes de Dados</h3>

Os dados necessários para nosso trabalho não podem ser encontrados em uma única fonte. Precisamos dos seguintes dados:
1. Dados sobre lojas que vendem maconha legalizada em Los Angeles. Esses dados serão coletados do Yelp via API.
2. Dados sobre os crimes em Los Angeles. O portal <a href="https://data.lacity.org/">Los Angeles Open Data</a> fornece esses dados com fácil acesso para download no formato csv ou via API. Faremos o download do arquivo com os crimes entre 2010 e 2019.
3. Dados sobre prisões em Los Angeles. O mesmo portal no item 2 fornece os dados e faremos o download.
4. Dados demográficos de escolas em Los Angeles. Esses dados estão disponíveis publicamente no <a href="http://www.lausd.k12.ca.us/lausd/offices/bulletins/">School Information Branch</a>, de onde faremos o download.

Para cada conjunto de dados, teremos que fazer o download, limpar os dados e deixá-los organizados para as Partes 2 e 3 do nosso projeto.

<h3>1.4) Carregando os Pacotes Usados Neste Jupyter Notebook</h3>

In [15]:
# Instala o pacote yelp
#!pip install -q yelp
# Instala o pacote yelpapi
#!pip install -q yelpapi

import warnings
warnings.filterwarnings("ignore")

# Imports para manipulação de dados
import re
import json
import time
import numpy as np
import pandas as pd
from yelp.client import Client
from yelpapi import YelpAPI

<hr/>

<h2>2) DATASET 1 - LOJAS QUE VENDEM MACONHA EM LOS ANGELES</h2>

Vamos coletar os dados utilizando o <a target="blank" href="https://www.yelp.com/">Yelp</a>. O Yelp é serviço que contém avaliações (reviews) e informações sobre empresas em várias regiões do mundo. Nosso objetivo é buscar as lojas de venda de maconha legalizada (chamadas dispensários) na região de Los Angeles. 

Vamos cruzar esses dados com a taxa de crimes e prisões nas mesmas regiões, além de dados sobre escolas. 

Para usar o Yelp, é ncessário instalar os pacotes yelp e yelpapi. Depois isso, acessamos os endereços abaixo, vamos criar uma conta Yelp e então criar uma app para obter a API de acesso. O processo é bem simples.

Aqui tem os detalhes da API:
> https://www.yelp.com/developers/documentation/v3/get_started

E aqui o cadastro da app:
> https://www.yelp.com/developers/documentation/v3/authentication

Ao criar a conta, é necessário confirmar por e-mail antes de criar a app. Assim que a app é criada, é gerada uma API (uma chave). Lembre-se de copiar e salvar em um local seguro na sua máquina e então inserir a API na célula abaixo onde está 'sua_api_key'.

Não é possível seguir adiante se não criarmos a API. 

Não exagere no número de solicitações à API (execuções do código mais abaixo) pois há um limite de 5000 chamadas diárias da API na conta gratuita que você irá criar. Se ultrapassar o limite diário, sua conta pode ser bloqueada.

In [None]:
# Aqui você deve incluir sua API Yelp
# client_id = S3Q8rdxLg5kyCv0Mw38vXA
minha_api = "QUexjUmHdWUOjabZGlGZfE0ZnK0rMWik3zkYTxprTdI9CYMEdhFgcOjW2jDteGPDwxXKqWl1Qqz6lesAGKa6mhjDNsDPmYLPA221gkSA1qYFQejz_Qoe5McOUs6pYnYx"

# Com a API definida, criamos um cliente de acesso
cliente_acesso = Client(minha_api)

A função abaixo é para formatar o arquivo retornado com as consultas da API e gerar um arquivo de log da execução (uma espécie de histórico). Usaremos expressões regulares para limpar e formatar o arquivo.

In [None]:
# Função para formatar o arquivo com as consultas à API
def formata_arquivo(file_path, logfile = './dados/arquivo_log.txt', file_description = None): 
   
    # Com o nome completo do arquivo, aplicamos expressões regulares para a limpeza
    # Aqui ajustamos a extensão do arquivo
    try:
        ext = re.search('(?<!^)(?<!\.)\.(?!\.)', file_path).start() 
    except:
        raise NameError('Digite um caminho de onde o arquivo pode ser encontrado.') 
    
    # Com o nome completo do arquivo, aplicamos expressões regulares para a limpeza
    # Aqui ajustamos timestamp para o nome do arquivo
    try:
        stamp = re.search('(?<!^)(?<!\.)[a-z]+_[a-z]+(?=\.)', file_path).start()
    except:
        raise NameError('Digite um caminho de onde o arquivo pode ser encontrado.') 
        
    # Formata o nome do arquivo adicionando o timestamp
    formatted_name = f'{file_path[:stamp]}{round(time.time())}_{file_path[stamp:]}' 
    
    # Se não tiver descrição no arquivo, adicionamos uma
    if not file_description:
        file_description = f'Arquivo gerado em: {time.asctime(time.gmtime(round(time.time())))}'
        
    # Abrimos o arquivo de log e gravamos o arquivo de dados formatado e a descrição
    with open(logfile, 'a+') as f:
        f.write(f'{formatted_name}: {file_description}\n')
        
    # Retornamos o arquivo de dados formatado e a descrição
    return formatted_name, file_description

A próxima função vai conectar ao Yelp com via API e retornar 1000 amostras, ou seja, 1000 registros de lojas que estão classificadas como "dispensaries" (lojas que vendem maconha legalizada em Los Angeles).

In [None]:
# Função de busca das lojas que vendem maconha legalizada em Los Angeles
def busca_yelp(category, location, offset_number = 0, n_samples = 1000):
    
    yelp_api = YelpAPI(minha_api) # API
    last_result = round(time.time()) # Registro do último resultado
    resultados = [] # Lista para gravar os resultados
    size = 50 # Tamanho
    loops = 0 # Inicializa o número de loops
    run = 1 # Inicializa o número de execuções
    offset_count = offset_number # Inicializa o offset
   
    # Loop para retonar os dados
    while loops < n_samples:
        print(f'Iniciando consulta {run}')
        
        posts = yelp_api.search_query(categories = category, location = location, offset = offset_count, limit = size) # Fazendo a consulta
        resultados.extend(posts['businesses']) # Posts ligados a business
        
        loops += size # Incrementa o número de loops
        offset_count += 50 # Incrementa o offset
        time.sleep(3) # Aguarda 3 segundos para executar a próxima consulta 
        run += 1 # Incrementa o número de execuções
       
    # Finalizado o loop, vamos retornar o nome do arquivo formatado e a descrição
    formatted_name, file_description = formata_arquivo(file_path =f'./dados/arquivo_{category}.json')
    
    # Abrimos o arquivo formatado e fazemos o dump (gravação) dos resultados da consulta em formato JSON
    with open(formatted_name, 'w+') as f:
        json.dump(resultados, f)
    
    print(f'\nConsulta concluída. Encontramos esse número de lojas: {len(resultados)} {category}s.')
    
    return print(f'\nEsse foi o último timestamp {round(time.time())}.')

In [None]:
# Executamos a busca com o tipo de estabelecimento e a cidade
busca_yelp('cannabisdispensaries', 'los angeles', n_samples = 1000)

A última linha acima o número do timestamp. Esse código representa o momento exato (hora, minuto, segundo) que o arquivo foi gerado. Pegamos o código e incluímos como prefixo no nome do arquivo na célula abaixo.

Isso tem que ser feito cada vez que executar este Jupyter Notebook. Mas é claro que poderíamos automatizar esse processo de outra forma.

In [None]:
# Abre o arquivo JSON para leitura e geração da lista final
with open(f'dados/1655350078_arquivo_cannabisdispensaries.json', 'r') as f:
    lista_lojas_la = json.load(f)

In [None]:
# Vamos visualizar um registro da lista
lista_lojas_la[0]

Dados extraídos com sucesso! Vamos organizar e limpar esses dados.

In [None]:
# Essa função vai organizar os dados da lista de lojas em um dataframe do pandas
def organiza_dados(lista_lojas, df):
    
    # Converte a lista de lojas em dataframe do pandas
    df = pd.DataFrame(lista_lojas)
    
    # Lista com nos nomes de colunas que nos interessam
    col_list = ['name',
                'is_closed',
                'url',
                'rating',
                'coordinates',
                'location',
                'price',
                'review_count']
    
    # Define a lista de colunas acima como nome de cada coluna
    df = df[col_list]

    return df

In [None]:
# Aplica a função e cria nosso dataframe
df_lojas = organiza_dados(lista_lojas_la, df = 'df_lojas')

In [None]:
# Shape
df_lojas.shape

In [None]:
# Visualizamos uma amostra de dados
df_lojas.head()

Vamos extrair a lista de latitudes e longitudes de cada loja, pois usaremos geolocalização mais tarde. Em seguida vamos adicionar essas informações ao nosso DataFrame

In [None]:
# Extrai a lista de latitudes e longitudes
lista_latitude = [lista_lojas_la[i]['coordinates']['latitude'] for i in range(len(lista_lojas_la))]
lista_longitude = [lista_lojas_la[i]['coordinates']['longitude'] for i in range(len(lista_lojas_la))]


# Adiciona latitude e longitude ao dataframe de lojas
df_lojas['latitude'] = lista_latitude
df_lojas['longitude'] = lista_longitude


# Visualizamos uma amostra de dados
df_lojas.head()

In [None]:
# Com latitude e longitude, a coluna location com o endereço completo não é mais necessária e removemos do dataframe
df_lojas.drop('location', axis = 1, inplace = True)

# E então criamos uma nova coluna location contendo uma tupla com latitude e longitude
df_lojas['location'] = list(zip(df_lojas['latitude'], df_lojas['longitude']))

# Visualizamos uma amostra de dados
df_lojas.head()

In [None]:
# E removemos a coluna com as coordenadas
df_lojas.drop(labels = ['coordinates'], axis = 1, inplace = True)

# Conferimos o shape
df_lojas.shape

In [None]:
# Visualizamos uma amostra de dados
df_lojas.head()

Por hora nosso primeiro dataset está concluído. Vamos salvá-lo em disco.

In [None]:
# Salva o dataframe de lojas em um arquivo csv
df_lojas.to_csv('dados/df_lojas.csv')

<hr/>

<h2>3) DATASET 2 - CRIMES EM LOS ANGELES DE 2010 A 2019</h2>

Nosso segundo dataset é sobre os crimes que ocorreram em Los Angeles entre 2010 e 2019. Para o download dos dados, siga os passos abaixo:

1. Acesse o endereço: https://data.lacity.org/
2. Descendo um pouco na página, use a caixa de busca de datasets e pesquise por "Crime Data".
3. O que você precisa deve ser a primeira opção: "Crime Data from 2010 to 2019". Clique no nome do dataset.
4. Na página seguinte clique no botão azul "View Data". Clique então em "Export" - "Download" - "CSV".
5. Coloque o arquivo na pasta dados no mesmo diretório onde está este Jupyter Notebook. O arquivo tem mais de 2 milhões de registros.

In [None]:
# Vamos carregar o arquivo com os crimes em LA entre 2010 e 2019
df_crimes = pd.read_csv('dados/Crime_Data_from_2010_to_2019.csv')

In [None]:
# Shape
df_crimes.shape

In [None]:
# Visualizamos uma amostra de dados
df_crimes.head()

In [None]:
# Vamos verificar se temos valores nulos
df_crimes.isnull().sum()

Vamos fazer uma limpeza geral removendo colunas que não serão necessárias. Antes, um ajuste simples no nome de cada coluna.

In [None]:
# Se tiver espaço no nome da coluna, vamos substituir por underline, para poder usar os nomes das colunas 
# como filtro de indexação.
df_crimes.columns = [column.lower().replace(' ', '_') for column in df_crimes.columns]

Aqui estão colunas que não serão necessárias e podemos remover do dataset. O dicionário de dados está na página onde você fez o download do arquivo.

Vamos remover por grupos para facilitar a identificação do que está sendo removido. Observe que usamos comandos diferentes para remover as colunas para você aprender diferentes alternativas.

In [None]:
colunas_drop = ['crm_cd_1', 'crm_cd_2', 'crm_cd_3', 'crm_cd_4', 
                'premis_cd', 'premis_desc', 'vict_descent', 'vict_sex','status', 
                'dr_no', 'area_', 'date_rptd', 'rpt_dist_no', 'crm_cd','part_1-2',
                'mocodes', 'cross_street',
                'weapon_used_cd',
                'status_desc', 'time_occ', 'vict_age']
df_crimes.drop(labels = colunas_drop, axis = 1, inplace = True)


In [None]:
# A coluna weapon_desc vamos manter e preencher valores NA com 'desconhecido'
df_crimes.weapon_desc.fillna('desconhecido', inplace = True)

In [None]:
# Vamos checar se ainda sobrou valor nulo
df_crimes.isnull().sum()

In [None]:
# Visualizamos uma amostra de dados
df_crimes.head()

In [None]:
# Salva o dataframe de crimes em um arquivo csv
df_crimes.to_csv('dados/df_crimes.csv')

<hr/>

<h2>4) DATASET 3 - PRISÕES EM LOS ANGELES DE 2010 A 2019</h2>

Já temos o dataset de crimes, mas precisamos do dataset de prisões em LA. Os dados podem ser obtidos com o mesmo procedimento descrito no Dataset 2, com apenas uma mudança:
1. Acesse o endereço: https://data.lacity.org/
2. Descendo um pouco na página, use a caixa de busca de datasets e pesquise por "Arrests".
3. O que você precisa deve ser a primeira opção: "Arrest Data from 2010 to Present". Clique no nome do dataset.
4. Na página seguinte clique no botão azul "View Data". Clique então em "Export" - "Download" - "CSV".
5. Coloque o arquivo na pasta dados no mesmo diretório onde está este Jupyter Notebook. O arquivo tem mais de 1 milhão de registros.

O arquivo csv contém aproximadamente 1,2 milhão de prisões. O conjunto de dados é fornecido pelo Departamento de Polícia de Los Angeles (LAPD). Cada linha é o registro de um detido e cada coluna contém detalhes sobre o incidente da prisão. Para os fins deste projeto, examinaremos apenas as detenções relacionadas à maconha aplicando um filtro à `Charge Description` se a coluna contiver a palavra `marijuana` (maconha em inglês).

Calcularemos então a distância entre cada prisão e dispensário de maconha e examinaremos o número de prisões por maconha a menos de 800 quilômetros de um dispensário a cada ano (faremos isso na Análise Exploratória).

In [None]:
# Vamos carregar o arquivo com as prisoes em LA de 2010 ao momento presente
df_prisoes = pd.read_csv('dados/Arrest_Data_from_2010_to_Present.csv')

In [None]:
# Shape
df_prisoes.shape

In [None]:
# Visualizamos uma amostra de dados
df_prisoes.head()

In [None]:
# Tipos de dados
df_prisoes.dtypes

In [None]:
# Vamos converter a coluna 'Arrest Date' de string (object) para Datetime, para facilitar a manipulação
df_prisoes['Arrest Date'] = pd.to_datetime(df_prisoes['Arrest Date'])

In [None]:
# Vamos usar expressões regulares para limpar a coluna Location (convertemos a tupla em lista)
df_prisoes['Location'] = df_prisoes['Location'].map(lambda x: re.sub('[(),°]', '', x)).str.split()

In [None]:
# Visualizamos uma amostra de dados
df_prisoes.head()

In [None]:
# Vamos criar as variáveis latitude e longitude
# Como convertemos a coluna Location de tupla para lista, agora é mais fácil indexar pela coluna, 0 ou 1
df_prisoes['latitude'] = df_prisoes['Location'].map(lambda x: x[0])
df_prisoes['longitude'] = df_prisoes['Location'].map(lambda x: x[1])

In [None]:
# Convertemos latitude e longitude para o tipo float para não perder a precisão
df_prisoes['latitude'] = df_prisoes['latitude'].map(lambda x: float(x))
df_prisoes['longitude'] = df_prisoes['longitude'].map(lambda x: float(x))

In [None]:
# Convertemos os registros da coluna 'Charge Description' em string e minúsculo
df_prisoes['Charge Description'] = df_prisoes['Charge Description'].map(lambda x: str(x))
df_prisoes['Charge Description'] = df_prisoes['Charge Description'].map(lambda x: x.lower())

In [None]:
# Shape
df_prisoes.shape

In [None]:
# Visualizamos uma amostra de dados
df_prisoes.head()

Agora, vamos extrair prisões relacionadas à maconha, já que este é o tema principal do projeto. Mas um bom exercício seria você estudar a relação de outros tipos de prisões.

**Obs: Maconha tem muitas denominações em inglês, mas nesses datasets está registrada como marijuana**.

In [None]:
# Vamos extrair todos os tipos de prisões e colocar em uma lista
lista_prisoes = list(df_prisoes['Charge Description'].value_counts().index.sort_values())

# Vamos colocar em minúsculo para usar os dados no mesmo padrão
lista_prisoes = [x.lower() for x in lista_prisoes]

In [None]:
#Vamos checar os tipos de prisões.
# Tipos de prisões
lista_prisoes

In [None]:
# Vamos filtrar somente prisões por marijuana. Vamos usar 'mari' na pesquisa pois pode haver abreviações.
# Uma list comprehenion sempre ajuda nessas horas.
[x for x in lista_prisoes if 'mari' in x]

In [None]:
# Qual o total?
len([x for x in lista_prisoes if 'mari' in x])

Existem 34 tipos diferentes de prisões por causa de maconha que tratam de cultivar, possuir, vender, fumar em público e lidar com menores.

In [None]:
# Criamos uma lista com as razões de prisão por maconha
prisoes_maconha = [x for x in lista_prisoes if 'mari' in x]

# Criamos uma coluna no dataframe que identifica as prisões se elas estiverem relacionadas à maconha
df_prisoes['marijuana_related'] = df_prisoes['Charge Description'].map(lambda x: x if x in prisoes_maconha else np.NaN)

# Visualizamos uma amostra de dados
df_prisoes.head()

Valores nulos foram gerados. Vamos contar o que NÃO é valor nulo.

In [None]:
qtd_prisoes = len(df_prisoes[~df_prisoes['marijuana_related'].isnull()])

print('Foram {} prisões por razões relacionadas à maconha!'.format(qtd_prisoes))


In [None]:
# Deixamos apenas os registros não nulos
df_prisoes = df_prisoes[~df_prisoes['marijuana_related'].isnull()]

# Shape
df_prisoes.shape

In [None]:
# Visualizamos uma amostra de dados
df_prisoes.head()

In [None]:
# Salva o dataframe de prisões em um arquivo csv
df_prisoes.to_csv('dados/df_prisoes.csv')

<hr/>

<h2>5) DATASET 4 - ESCOLAS E INSTITUIÇÕES DE ENSINO EM LOS ANGELES</h2>

Iremos calcular a distância entre todas as prisões por maconha e as escolas do Distrito Escolar Unificado de Los Angeles (LAUSD), examinando o número de prisões por maconha a menos de 800 quilômetros de uma escola a cada ano.

Logo, do que precisamos? Dos dados das escolas, certo? Para nossa sorte, LA é uma cidade que já está no futuro e vive orientada a dados (data-driven). 

Os dados que precisamos estão disponíveis neste endereço:

> http://www.lausd.k12.ca.us/lausd/offices/bulletins/

E este é o arquivo que precisamos:

> http://www.lausd.k12.ca.us/lausd/offices/bulletins/lausdk12.tab

In [8]:
# Carregamos o arquivo com dados de escolas de LA
df_escolas = pd.read_csv('dados/lausdk12.tab', sep = '\t')

In [9]:
# Shape
df_escolas.shape

(1386, 14)

In [10]:
# Visualizamos uma amostra de dados
df_escolas.head()

Unnamed: 0,Cost Center Code,Legacy Code,School,Address,City,State,Zip Code,Telephone,Fax,Grades,Calendar,Local District,Board District,File Build Date
0,1585701,5857,107th Street Elementary,147 E 107th St,Los Angeles,CA,90003,323-756-8137,323-779-6942,K- 5,1 Trk,S,7-Dr Richard A Vladovic,2020-05-14
1,1585702,5858,107th Street Elementary Science/Tech/Eng/Arts/...,147 E 107th St,Los Angeles,CA,90003,323-756-8137,323-779-6942,1- 5,1 Trk,S,7-Dr Richard A Vladovic,2020-05-14
2,1583601,5836,109th Street Elementary,10915 S Mc Kinley Ave,Los Angeles,CA,90059,323-756-9206,323-755-2307,K- 5,1 Trk,S,7-Dr Richard A Vladovic,2020-05-14
3,1708201,7082,10th Street Elementary,1000 Grattan St,Los Angeles,CA,90015,213-380-8990,213-480-6732,1- 5,1 Trk,C,2-Monica Garcia,2020-05-14
4,1588401,5884,112th Street Elementary,1265 E 112th St,Los Angeles,CA,90059,323-567-2108,323-567-2611,K- 5,1 Trk,S,7-Dr Richard A Vladovic,2020-05-14


Vamos combinar as colunas `Address`, `City`, `State`, `CEP` para criar uma variável `complete_address` que será usada para obter as coordenadas de cada escola, que usaremos na geolocalização.

In [11]:
# Combinando dados de endereços para gerar as coordenadas mais tarde
df_escolas['complete_address'] = df_escolas['Address'] +' '+ df_escolas['City'] +' '+ df_escolas['State'] +' '+ df_escolas['Zip Code'].astype(str)

# Podemos deletar colunas que não serão necessárias
df_escolas = df_escolas.drop(['Address', 'City', 'State', 'Cost Center Code', 'Legacy Code', 'Telephone', 'Fax', 'Calendar', 'File Build Date'], 1)

Agora vamos verificar escolas duplicadas com base no endereço completo e remover as duplicatas. 

Essas escolas podem ter nomes diferentes ou ser separadas em escolas diferentes, como "107th Street Elementary" e "107th Street Elementary Science/Tech/Eng/Arts/". Se o endereço for o mesmo, a duplicata será removida.

In [12]:
# Removemos duplicatas, se existirem
df_escolas = df_escolas[~df_escolas.duplicated(subset = 'complete_address')].sort_values('complete_address')

# Reset do índice do dataframe, pois registros podem ter sido removidos
df_escolas.reset_index(drop = True, inplace = True)

# Shape
df_escolas.shape

(947, 6)

In [13]:
# Visualizamos uma amostra de dados
df_escolas.head()

Unnamed: 0,School,Zip Code,Grades,Local District,Board District,complete_address
0,Frank Del Olmo Elementary,90004,K- 5,C,2-Monica Garcia,100 N New Hampshire Ave Los Angeles CA 90004
1,10th Street Elementary,90015,1- 5,C,2-Monica Garcia,1000 Grattan St Los Angeles CA 90015
2,Elementary Community Day School,91311,K- 6,XS,3-Scott M Schmerelson,10001 Jumilla Ave Chatsworth CA 91311
3,Cesar E Chavez Learning Academy - Arts/Theatre...,91340,9-12,NE,6-Kelly Gonez,1001 Arroyo Ave San Fernando CA 91340
4,San Pedro Senior High Gifted STEAM Magnet,90731,9-12,S,7-Dr Richard A Vladovic,1001 W 15th St San Pedro CA 90731


In [14]:
# Salva o dataframe de escolas em um arquivo csv
df_escolas.to_csv('dados/df_escolas.csv')

Agora temos 4 arquivos csv, um para cada dataset após a limpeza. Alguns ajustes ainda terão que ser feitos, mas precisamos das ferramentas da Análise Exploratória para isso.

Vamos fazer isso no próximo notebook.