In [1]:
# Objetivo1
# O primeiro objetivo do projeto é plotar em um mapa, a distribuição de nossos clientes na cidade de Guarulhos
# Importar as bibliotecas necessárias para o desenvolvimento do projeto
import pandas as pd   #Biblioteca necessária para organizar os dados do .csv em linhas e colunas(tabulados)
import numpy as np    #Biblioteca necessária para se trabalhar com matrizes de n dimensões
import folium         #Biblioteca que nos permite utilizar o mapa para plotar nossos pontos
import random         #Biblioteca necessária para gerar números aleatórios

In [2]:
#Carregar os dados do dataset em .csv(neste caso) para uma tabela(dataframe)
clientes = pd.read_csv('clientes.csv')

In [3]:
#Mostrando a quantidade de dados no dataset
print('Este dataset contém {} linhas e {} colunas'.format(clientes.shape[0],clientes.shape[1]))

Este dataset contém 5000 linhas e 13 colunas


In [4]:
#Mostrar dados do dataset (03 primeiros)
clientes.head(3)

Unnamed: 0,Number,GivenName,Surname,Gender,StreetAddress,City,StateFull,ZipCode,TelephoneNumber,Age,Company,Latitude,Longitude
0,1,Melissa,Silva,female,Rua José Maluf 1805,São Paulo,São Paulo,02226-200,(11) 2816-2641,33,Monit,-23.673147,-46.542181
1,2,Kaua,Melo,male,Rua Padre Roma 868,Jaboatão dos Guararapes,Pernambuco,54160-440,(81) 3519-2573,30,Thompson,-8.093942,-34.875021
2,3,Eduardo,Ferreira,male,Rua Fernando de Noronha 699,Francisco Beltrão,Paraná,85601-820,(46) 2926-4056,26,Harvest Foods,-26.100984,-53.062383


In [5]:
#Mostrar como o pandas está interpretando os dados
clientes.dtypes

Number               int64
GivenName           object
Surname             object
Gender              object
StreetAddress       object
City                object
StateFull           object
ZipCode             object
TelephoneNumber     object
Age                  int64
Company             object
Latitude           float64
Longitude          float64
dtype: object

In [6]:
#Mostrar a descrição estatística dos dados númericos(interpretados pelo pandas)
clientes.describe()

Unnamed: 0,Number,Age,Latitude,Longitude
count,5000.0,5000.0,5000.0,5000.0
mean,2500.5,31.443,-19.242405,-45.9236
std,1443.520003,8.04923,7.18522,5.196275
min,1.0,18.0,-32.138543,-68.132763
25%,1250.75,24.0,-23.557897,-48.899268
50%,2500.5,32.0,-22.342137,-46.652148
75%,3750.25,38.0,-16.311875,-43.343168
max,5000.0,45.0,3.273142,-34.765942


In [7]:
#Verificando se existem campos sem preenchimento
clientes.isnull().sum().sort_values(ascending=False).head(10)

Company            4
Longitude          0
Latitude           0
Age                0
TelephoneNumber    0
ZipCode            0
StateFull          0
City               0
StreetAddress      0
Gender             0
dtype: int64

In [8]:
#Mostrar os nomes das colunas
clientes.columns

Index(['Number', 'GivenName', 'Surname', 'Gender', 'StreetAddress', 'City',
       'StateFull', 'ZipCode', 'TelephoneNumber', 'Age', 'Company', 'Latitude',
       'Longitude'],
      dtype='object')

In [9]:
#Renomeando colunas para ficar mais didático
clientes.columns = ['Número', 'Nome', 'Sobrenome', 'Genero', 'Endereço',
                     'Cidade', 'Estado', 'CEP',
                     'Telefone', 'Idades', 'Empresa','Latitude','Longitude']

In [10]:
#Mostrar novo formato das colunas
clientes.columns

Index(['Número', 'Nome', 'Sobrenome', 'Genero', 'Endereço', 'Cidade', 'Estado',
       'CEP', 'Telefone', 'Idades', 'Empresa', 'Latitude', 'Longitude'],
      dtype='object')

In [11]:
#Mostrar os três primeiros dados com colunas renomeadas
clientes.head(3)

Unnamed: 0,Número,Nome,Sobrenome,Genero,Endereço,Cidade,Estado,CEP,Telefone,Idades,Empresa,Latitude,Longitude
0,1,Melissa,Silva,female,Rua José Maluf 1805,São Paulo,São Paulo,02226-200,(11) 2816-2641,33,Monit,-23.673147,-46.542181
1,2,Kaua,Melo,male,Rua Padre Roma 868,Jaboatão dos Guararapes,Pernambuco,54160-440,(81) 3519-2573,30,Thompson,-8.093942,-34.875021
2,3,Eduardo,Ferreira,male,Rua Fernando de Noronha 699,Francisco Beltrão,Paraná,85601-820,(46) 2926-4056,26,Harvest Foods,-26.100984,-53.062383


In [12]:
#Excluindo colunas desnecessárias para o projeto (Opcional neste projeto) 
clientes.drop(['Sobrenome', 'Genero', 'Estado', 'CEP','Telefone', 'Idades', 'Empresa'],axis=1,inplace=True)

In [13]:
#Mostrar novo banco de dados sem dados desnecessários
clientes.head(3)

Unnamed: 0,Número,Nome,Endereço,Cidade,Latitude,Longitude
0,1,Melissa,Rua José Maluf 1805,São Paulo,-23.673147,-46.542181
1,2,Kaua,Rua Padre Roma 868,Jaboatão dos Guararapes,-8.093942,-34.875021
2,3,Eduardo,Rua Fernando de Noronha 699,Francisco Beltrão,-26.100984,-53.062383


In [14]:
#Criando uma nova dataframe somente com os clientes da cidade: "Guarulhos"
clientes_guarulhos = clientes[clientes['Cidade'] == 'Guarulhos']

In [15]:
#Visualizando DataFrame
clientes_guarulhos.head()

Unnamed: 0,Número,Nome,Endereço,Cidade,Latitude,Longitude
26,27,Ryan,Rua Santo Antônio do Paraíso 310,Guarulhos,-23.383449,-46.523581
65,66,Clara,Rua Sargento da Aeronáutica da Benedito Fumeni...,Guarulhos,-23.452123,-46.362001
73,74,Vitoria,Rua Armando Arruda Pereira 838,Guarulhos,-23.329813,-46.432172
202,203,Larissa,Rua da Juventude 1877,Guarulhos,-23.392773,-46.515911
284,285,Emilly,Rua Jerônimo Monteiro 934,Guarulhos,-23.341047,-46.541464


In [16]:
#Mostrando a quantidade de linha e colunas no novo dataframe
print('O dataFrame com a cidade de Guarulhos contém: {} linhas e {} colunas'
      .format(clientes_guarulhos.shape[0],clientes_guarulhos.shape[1]))

O dataFrame com a cidade de Guarulhos contém: 50 linhas e 6 colunas


In [17]:
#Plotar a localização dos clientes de Guarulhos no mapa

#Variavel para gerar números aleatórios
numero_de_clientes = random.randint(random.randint(0,10),50)

#Variaveis para plotar o melhor local de entrega    
consulta = clientes_guarulhos[0:numero_de_clientes]
latitude = consulta['Latitude'].mean()
longitude = consulta['Longitude'].mean()

#Inserir latitude minima e longitude max dos clientes a serem mostrados no mapa
map = folium.Map(location=[clientes_guarulhos['Latitude'].min(), clientes_guarulhos['Longitude'].max()],zoom_start=10)

#Criando um loop para plotar cada cliente do conjunto de dados no mapa
for linha in clientes_guarulhos[0:numero_de_clientes].iterrows():
    folium.Marker([linha[1]['Latitude'], linha[1]['Longitude']], popup='Cliente: {}, Enderço: {}'.format
(linha[1]['Nome'],linha[1]['Endereço'])).add_to(map)
    
#Plotar o local médio para entrega aos clientes do conjunto de dados
folium.Marker([latitude, longitude],
              popup='Melhor Local de Entrega',
              icon=folium.Icon(color='red',icon='info-sign')
              ).add_to(map)

#Mostrar os clientes selecionados aleatóriamente
consulta

Unnamed: 0,Número,Nome,Endereço,Cidade,Latitude,Longitude
26,27,Ryan,Rua Santo Antônio do Paraíso 310,Guarulhos,-23.383449,-46.523581
65,66,Clara,Rua Sargento da Aeronáutica da Benedito Fumeni...,Guarulhos,-23.452123,-46.362001
73,74,Vitoria,Rua Armando Arruda Pereira 838,Guarulhos,-23.329813,-46.432172
202,203,Larissa,Rua da Juventude 1877,Guarulhos,-23.392773,-46.515911
284,285,Emilly,Rua Jerônimo Monteiro 934,Guarulhos,-23.341047,-46.541464
586,587,Aline,Avenida Medeiros Neto 782,Guarulhos,-23.314182,-46.514079
593,594,Julia,Viela Alagoinhas 10,Guarulhos,-23.447242,-46.483167
639,640,Pedro,Viela Iraque 1287,Guarulhos,-23.378962,-46.518694
644,645,Júlio,Rua Santa Terezinha 887,Guarulhos,-23.400414,-46.370005
1076,1077,Gustavo,Rua Jaguaribe 1000,Guarulhos,-23.441243,-46.466094


In [18]:
#Gerar mapa
map