# Exercício 1 - Ligações para o 911

### Nos EUA, o número 911 é destinado à emergências. O [Kaggle](https://www.kaggle.com/mchirico/montcoalert) disponibilizou dados de ligações para o serviço:

* lat: Variável String, Latitude
* lng: Variável String, Longitude
* desc: Variável String, Descrição da Chamada de Emergência
* zip: Variável String, CEP
* título: Variável String, Título
* timeStamp: Variável String, AAAA-MM-DD HH: MM: SS
* twp: Variável String, Township
* addr: Variável String, Endereço
* e: Variável String, variável Dummy (sempre 1)



In [1]:
# Realizando as importações e definindo o corte das casas decimais:
import numpy as np
import pandas as pd
pd.options.display.float_format = '{:.2f}'.format

### Leia o arquivo csv (911.csv) como um dataframe chamado _calls_

In [2]:
# Checkando as 5 primeiras linhas do arquivo:
calls = pd.read_csv('911.csv')
calls.drop(labels = 'e',axis=1,inplace=True)
calls.head(5)

Unnamed: 0,lat,lng,desc,zip,title,timeStamp,twp,addr
0,40.3,-75.58,REINDEER CT & DEAD END; NEW HANOVER; Station ...,19525.0,EMS: BACK PAINS/INJURY,2015-12-10 17:40:00,NEW HANOVER,REINDEER CT & DEAD END
1,40.26,-75.26,BRIAR PATH & WHITEMARSH LN; HATFIELD TOWNSHIP...,19446.0,EMS: DIABETIC EMERGENCY,2015-12-10 17:40:00,HATFIELD TOWNSHIP,BRIAR PATH & WHITEMARSH LN
2,40.12,-75.35,HAWS AVE; NORRISTOWN; 2015-12-10 @ 14:39:21-St...,19401.0,Fire: GAS-ODOR/LEAK,2015-12-10 17:40:00,NORRISTOWN,HAWS AVE
3,40.12,-75.34,AIRY ST & SWEDE ST; NORRISTOWN; Station 308A;...,19401.0,EMS: CARDIAC EMERGENCY,2015-12-10 17:40:01,NORRISTOWN,AIRY ST & SWEDE ST
4,40.25,-75.6,CHERRYWOOD CT & DEAD END; LOWER POTTSGROVE; S...,,EMS: DIZZINESS,2015-12-10 17:40:01,LOWER POTTSGROVE,CHERRYWOOD CT & DEAD END


### Quantas linhas e colunas tem o arquivo? Qual a quantidade de memória necessária para carregá-lo?

In [3]:
#Analisando informações sobre tipo de dados, incluindo o dtype do índice e, tipos de coluna, valores não nulos e uso da memória:
calls.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99492 entries, 0 to 99491
Data columns (total 8 columns):
lat          99492 non-null float64
lng          99492 non-null float64
desc         99492 non-null object
zip          86637 non-null float64
title        99492 non-null object
timeStamp    99492 non-null object
twp          99449 non-null object
addr         98973 non-null object
dtypes: float64(3), object(5)
memory usage: 6.1+ MB


### Quais são os top 5 CEPs nas chamadas 911?

In [4]:
# 5 CEP´s mais chamados:
calls['zip'].value_counts().iloc[:5]

19401.00    6979
19464.00    6643
19403.00    4854
19446.00    4748
19406.00    3174
Name: zip, dtype: int64

### Quais são os 5 principais municípios nas chamadas 911?

In [5]:
# Principais municipios (chamadas):
calls['twp'].value_counts().iloc[:5]

LOWER MERION    8443
ABINGTON        5977
NORRISTOWN      5890
UPPER MERION    5227
CHELTENHAM      4575
Name: twp, dtype: int64

### Quantos códigos de título únicos existem?

In [6]:
# Chekando Códigos únicos:
calls['title'].nunique()

110

### Na coluna _title_ existem Razões / Departamentos especificados antes do código do título. Estes são _"EMS"_, _"Fire"_ e _"Traffic"_. Crie uma nova coluna chamada _Reason_ que conterá esse valor em cada linha

#### Por exemplo, se o valor da coluna do título for EMS: BACK PAINS / BLESSOR, o valor da coluna Reason será EMS.

In [7]:
calls['Reason'] = calls['title'].apply(lambda s:s.split(':')[0])
calls['Reason'].head()

0     EMS
1     EMS
2    Fire
3     EMS
4     EMS
Name: Reason, dtype: object

### Qual é a razão mais comum para uma chamada do 911 com base nessa nova coluna?

In [8]:
calls['Reason'].value_counts()

EMS        48877
Traffic    35695
Fire       14920
Name: Reason, dtype: int64

### Qual é o tipo de dados dos objetos na coluna _timeStamp_?

In [9]:
calls['timeStamp'] = pd.to_datetime(calls['timeStamp'])

In [10]:
type(calls['timeStamp'].iloc[0])

pandas._libs.tslibs.timestamps.Timestamp

### Converta a coluna _timeStamp_ para DateTime. Use [pd.to_datetime](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.to_datetime.html) para essa operação.

In [11]:
# Aplicando conversão:
time = calls['timeStamp'].iloc[0]
time.hour

17

### Crie 3 novas colunas chamadas _Hour_, _Month_ e _Day of Week_. Você criará essas colunas com base na coluna timeStamp

In [12]:
calls['Hour'] = calls['timeStamp'].apply(lambda time:time.hour)
calls['Month'] = calls['timeStamp'].apply(lambda time:time.month)
calls['Day of Week'] = calls['timeStamp'].apply(lambda time:time.dayofweek)

In [13]:
calls.sample(5)

Unnamed: 0,lat,lng,desc,zip,title,timeStamp,twp,addr,Reason,Hour,Month,Day of Week
80674,40.28,-75.25,COUNTY LINE RD; HATFIELD TOWNSHIP; Station 34...,,EMS: VEHICLE ACCIDENT,2016-07-07 17:56:01,HATFIELD TOWNSHIP,COUNTY LINE RD,EMS,17,7,3
33774,40.33,-75.62,PHILADELPHIA AVE & WILLIAMS WAY; DOUGLASS; 201...,19525.0,Traffic: VEHICLE ACCIDENT -,2016-03-03 20:02:01,DOUGLASS,PHILADELPHIA AVE & WILLIAMS WAY,Traffic,20,3,3
93517,40.31,-75.35,GODSHALL RD & HOMESTEAD AVE; FRANCONIA; Stati...,18964.0,EMS: GENERAL WEAKNESS,2016-08-08 22:17:00,FRANCONIA,GODSHALL RD & HOMESTEAD AVE,EMS,22,8,0
82799,40.12,-75.1,JAMISON LN & SHARPLESS RD; ABINGTON; 2016-07-1...,19046.0,Traffic: ROAD OBSTRUCTION -,2016-07-13 13:07:02,ABINGTON,JAMISON LN & SHARPLESS RD,Traffic,13,7,2
88868,40.15,-75.28,UNION MEETING RD & HARVEST DR; WHITPAIN; Stat...,19422.0,EMS: FRACTURE,2016-07-28 07:47:00,WHITPAIN,UNION MEETING RD & HARVEST DR,EMS,7,7,3


### Observe como o dia da demana é um número inteiro de 0-6. Mapeie os nomes das seqüências reais para o dia da semana, nessa mesma coluna:

- 0 => Mon
- 1 => Tue
- 2 => Wed
- 3 => Thu
- 4 => Fri
- 5 => Sat
- 6 => Sun

In [14]:
dmap = {0:'Mon',1:'Tue',2:'Wed',3:'Thu',4:'Fri',5:'Sat',6:'Sun'}

In [15]:
calls['Day of Week']=calls['Day of Week'].map(dmap)

In [16]:
calls['Day of Week']

0        Thu
1        Thu
2        Thu
3        Thu
4        Thu
5        Thu
6        Thu
7        Thu
8        Thu
9        Thu
10       Thu
11       Thu
12       Thu
13       Thu
14       Thu
15       Thu
16       Thu
17       Thu
18       Thu
19       Thu
20       Thu
21       Thu
22       Thu
23       Thu
24       Thu
25       Thu
26       Thu
27       Thu
28       Thu
29       Thu
        ... 
99462    Wed
99463    Wed
99464    Wed
99465    Wed
99466    Wed
99467    Wed
99468    Wed
99469    Wed
99470    Wed
99471    Wed
99472    Wed
99473    Wed
99474    Wed
99475    Wed
99476    Wed
99477    Wed
99478    Wed
99479    Wed
99480    Wed
99481    Wed
99482    Wed
99483    Wed
99484    Wed
99485    Wed
99486    Wed
99487    Wed
99488    Wed
99489    Wed
99490    Wed
99491    Wed
Name: Day of Week, Length: 99492, dtype: object

In [17]:
calls.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99492 entries, 0 to 99491
Data columns (total 12 columns):
lat            99492 non-null float64
lng            99492 non-null float64
desc           99492 non-null object
zip            86637 non-null float64
title          99492 non-null object
timeStamp      99492 non-null datetime64[ns]
twp            99449 non-null object
addr           98973 non-null object
Reason         99492 non-null object
Hour           99492 non-null int64
Month          99492 non-null int64
Day of Week    99492 non-null object
dtypes: datetime64[ns](1), float64(3), int64(2), object(6)
memory usage: 9.1+ MB


### Qual a quantidade de chamadas de cada motivo (_Reason_) por mês?

In [18]:
byMonth = calls.groupby('Month').count()
byMonth

Unnamed: 0_level_0,lat,lng,desc,zip,title,timeStamp,twp,addr,Reason,Hour,Day of Week
Month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,13205,13205,13205,11527,13205,13205,13203,13096,13205,13205,13205
2,11467,11467,11467,9930,11467,11467,11465,11396,11467,11467,11467
3,11101,11101,11101,9755,11101,11101,11092,11059,11101,11101,11101
4,11326,11326,11326,9895,11326,11326,11323,11283,11326,11326,11326
5,11423,11423,11423,9946,11423,11423,11420,11378,11423,11423,11423
6,11786,11786,11786,10212,11786,11786,11777,11732,11786,11786,11786
7,12137,12137,12137,10633,12137,12137,12133,12088,12137,12137,12137
8,9078,9078,9078,7832,9078,9078,9073,9025,9078,9078,9078
12,7969,7969,7969,6907,7969,7969,7963,7916,7969,7969,7969


### Qual foi o dia com a maior quantidade de chamadas? Quantas chamadas foram executadas neste dia?

In [19]:
calls.groupby(['Day of Week']).size().reset_index(name='Chamadas').max()

Day of Week      Wed
Chamadas       15150
dtype: object

### Levando-se em consideração apenas atendimentos feitos às sextas-feiras, qual a hora do dia com o maior número de chamadas?

In [20]:
calls[calls['Day of Week'] == 'Fri'].groupby('Hour').size().reset_index(name='Chamadas').max()

Hour          23
Chamadas    1039
dtype: int64

### Levando-se em consideração os atendimentos relacionados a incêndio (_Reason_ = _Fire_) qual a quantidade de chamados aos sábados?

In [21]:
calls[(calls['Day of Week'] == 'Sat')&(calls['Reason'] == 'Fire')].groupby(['Reason']).size().reset_index(name='Chamadas').max()

Reason      Fire
Chamadas    2068
dtype: object