## Data Cleaning Unidades de Saudade 

In [1]:
import pandas as pd

### LOAD DATA

In [2]:
df = pd.read_csv('Unidades_de_Saúde.csv')

In [3]:
df.columns

Index(['X', 'Y', 'CNES', 'NOME', 'CAP', 'EQUIPES', 'ENDERECO', 'BAIRRO',
       'TELEFONE', 'EMAIL', 'HORARIO_SEMANA', 'HORARIO_SABADO', 'TIPO_ABC',
       'TIPO_UNIDADE', 'DATA_INAUGURACAO', 'Flg_UPP', 'POINT_X', 'POINT_Y',
       'Bairro_', 'Flg_Gestao', 'Flg_Ativo', 'GlobalID', 'CNES_', 'OBJECTID'],
      dtype='object')

In [4]:
df = df[['NOME','ENDERECO','BAIRRO','TIPO_UNIDADE']]

### Finding NULL values

In [5]:
null_columns = df.columns[df.isnull().any()]

In [6]:
df[null_columns].isnull().sum()

ENDERECO        2
BAIRRO          7
TIPO_UNIDADE    1
dtype: int64

In [7]:
df[df.isnull().any(axis=1)]

Unnamed: 0,NOME,ENDERECO,BAIRRO,TIPO_UNIDADE
323,FIOCRUZ/ENSP/CENTRO DE SAUDE ESCOLA GERMANO SI...,,Manguinhos,CMS
324,SMS CF ERIVALDO FERNANDES NOBREGA,,Méier,CLINICA DA FAMILIA
327,SMS CF ODALEA FIRMO DUTRA,"RUA BOTUCATU, 633",GRAJAÚ,
331,SMS CF JOAO BATISTA CHAGAS - AP 53,"RUA PITOMBEIRAS, S/N, JARDIM 7 DE ABRIL, PACIE...",,CLINICA DA FAMILIA
332,SMS CMS JOSE PARANHOS FONTENELLE - AP 31,RUA LEOPOLDINA REGO 700 PENHA,,CMS
333,SMS CF AMAURY BOTTANY - AP 33,AV MONSENHOR FELIX 512 IRAJA 21361132,,CLINICA DA FAMILIA
334,SMS CF JEREMIAS MORAES DA SILVA - AP 31,RUA TEIXEIRA RIBEIRO SN MARE 21044251,,CLINICA DA FAMILIA
335,SMS CF ODALEA FIRMO DUTRA - AP 22,RUA BOTUCATU 633 GRAJAU 20541340,,CLINICA DA FAMILIA
336,SMS POLICLINICA ROCHA MAIA AP 21,RUA GENERAL SEVERIANO 91 BOTAFOGO 22290040,,POLICLINICA
337,SMS COORDENACAO DE EMERGENCIA REGIONAL CER CAM...,"AVENIDA CESARIO DE MELO, 3215, , CAMPO GRANDE,...",,UPA


### Dealing with NULLS

In [8]:
# TIPO UNIDADE
df.iloc[327]['TIPO_UNIDADE'] = 'CLINICA DA FAMILIA'
# ENDERECO
df.iloc[323]['ENDERECO'] = 'Rua Leopoldo Bulhões, 1480'
df.iloc[324]['ENDERECO'] = 'Rua Rio Grande Do Sul, 26'
# BAIRRO
df.iloc[331]['BAIRRO'] = 'Paciência'
df.iloc[332]['BAIRRO'] = 'Penha'
df.iloc[333]['BAIRRO'] = 'Irajá'
df.iloc[334]['BAIRRO'] = 'Maré'
df.iloc[335]['BAIRRO'] = 'GRAJAÚ'
df.iloc[336]['BAIRRO'] = 'Botafogo'
df.iloc[337]['BAIRRO'] = 'Campo Grande'

In [9]:
df[null_columns].isnull().sum()

ENDERECO        0
BAIRRO          0
TIPO_UNIDADE    0
dtype: int64

### UPPER CASE 

In [10]:
df['ENDERECO'] = df['ENDERECO'].str.upper()
df['NOME'] = df['NOME'].str.upper()
df['BAIRRO'] = df['BAIRRO'].str.upper()
df['TIPO_UNIDADE'] = df['TIPO_UNIDADE'].str.upper()

In [11]:
df['BAIRRO'] = df['BAIRRO'].str.replace('Á','A')
df['BAIRRO'] = df['BAIRRO'].str.replace('É','E')
df['BAIRRO'] = df['BAIRRO'].str.replace('Í','I')
df['BAIRRO'] = df['BAIRRO'].str.replace('Ó','O')
df['BAIRRO'] = df['BAIRRO'].str.replace('Ú','U')
df['BAIRRO'] = df['BAIRRO'].str.replace('Â','A')
df['BAIRRO'] = df['BAIRRO'].str.replace('Ê','E')
df['BAIRRO'] = df['BAIRRO'].str.replace('Ã','A')
df['BAIRRO'] = df['BAIRRO'].str.replace('Ç','C')

**Getting Lat and Long**

In [12]:
import geocoder

In [13]:
lat = []
long = []

for i in df['ENDERECO']:
    lat_lng_coords = None
    print(i)
    if len(i.split(',')) > 6:
        i = i[0] + '' + i[1]
    while(lat_lng_coords is None):
        g = geocoder.arcgis('{} , RIO DE JANEIRO'.format(i))
        lat_lng_coords = g.latlng
        print(g)
        
    lat.append(lat_lng_coords[0])
    long.append(lat_lng_coords[1])

RUA JOAO RODRIGUES, 43, , SAO FRANCISCO XAVIER, 20960010
<[OK] Arcgis - Geocode [Rua João Rodrigues 43, São Francisco Xavier, Rio de Janeiro, 20960-010]>
RUA DO BISPO, 159, , RIO COMPRIDO, 20261066
<[OK] Arcgis - Geocode [Rua do Bispo 159, Rio Comprido, Rio de Janeiro, 20261-066]>
RUA RIVADAVIA CORREA, 188, , GAMBOA, 20220290
<[OK] Arcgis - Geocode [Rua Rivadávia Corrêa 188, Gamboa, Rio de Janeiro, 20220-290]>
AVENIDA TRINTA E UM DE MARCO, S/N, TERRENO DA CHAMINE, CATUMBI, 20251000
<[OK] Arcgis - Geocode [Avenida Trinta e Um de Março, Catumbi, Rio de Janeiro, 20250-370]>
RUA CONSTANT JARDIM, 8, , SANTA TERESA, 20241160
<[OK] Arcgis - Geocode [Rua Constante Jardim 8, Santa Teresa, Rio de Janeiro, 20240-230]>
AVENIDA DO EXERCITO, 1, , SAO CRISTOVAO, 20910025
<[OK] Arcgis - Geocode [Avenida do Exército 1, São Cristóvão, Rio de Janeiro, 20910-025]>
RUA CARLOS SEIDL, 785, , CAJU, 20931004
<[OK] Arcgis - Geocode [Rua Carlos Seidl 785, Caju, Rio de Janeiro, 20931-002]>
RUA WALDEMAR DUTRA, 55,

<[OK] Arcgis - Geocode [Rua São Godofredo 45, Penha, Rio de Janeiro, 21021-230]>
RUA 17, S/N0, VILA DO JOAO, COMPLEXO DA MARE, 21043020
<[OK] Arcgis - Geocode [Rua 17, Maré, Rio de Janeiro, 21046-555]>
RUA DR ANTONIO MONTEIRO - ANTIGA RUA COMBU, 191, CACUIA, CACUIA, 21921610
<[OK] Arcgis - Geocode [Rua Combu 191, Jardim Carioca, Rio de Janeiro, 21921-610]>
RUA LEOPOLDINA REGO, 700, , PENHA, 21021522
<[OK] Arcgis - Geocode [Rua Leopoldina Rêgo 700, Penha, Rio de Janeiro, 21021-522]>
RUA ANA NERI COM RUA GENERAL BELFORD, S/N, , ROCHA, 20960082
<[OK] Arcgis - Geocode [Rua General Belford, Rocha, Rio de Janeiro, 20961-000]>
AVENIDA DOM HELDER CAMARA, SN, , JACAREZINHO, 20973011
<[OK] Arcgis - Geocode [Avenida Dom Helder Câmara, Jacarezinho, Rio de Janeiro, 20973-011]>
RUA VOLTA GRANDE, SN, PCA AUGUSTO MONTEIRO, DEL CASTILHO, 21051100
<[OK] Arcgis - Geocode [Rua Volta Grande, Del Castilho, Rio de Janeiro, 21051-230]>
ESTRADA ADHEMAR BEBIANO, 3686, , ENGENHO DA RAINHA, 20766721
<[OK] Arcgis 

<[OK] Arcgis - Geocode [Rua Edgard Werneck 1601, Cidade de Deus, Rio de Janeiro, 22763-011]>
AVENIDA GUIOMAR NOVAES, 133, , RECREIO DOS BANDEIRANTES, 22790590
<[OK] Arcgis - Geocode [Avenida Guiomar Novaes 133, Recreio dos Bandeirantes, Rio de Janeiro, 22790-590]>
ESTRADA DO ITANHANGA, 270, , ITANHANGA, 22753005
<[OK] Arcgis - Geocode [Estrada do Itanhangá 270, Itanhangá, Rio de Janeiro, 22753-005]>
AVENIDA GEREMARIO DANTAS, 135, , JACAREPAGUA- TANQUE, 22735000
<[OK] Arcgis - Geocode [Avenida Geremário Dantas 135, Tanque, Rio de Janeiro, 22735-000]>
RUA BARAO, 260, PRACA SECA, JACAREPAGUA, 21321620
<[OK] Arcgis - Geocode [Rua Barão 260, Praça Seca, Rio de Janeiro, 21211-300]>
RUA JACARANDA, 16, AC EST BAND 13907, VARGEM PEQUENA, 22783117
<[OK] Arcgis - Geocode [Rua Jacarandá, Vargem Pequena, Rio de Janeiro, 22713-360]>
ESTRADA DO RIO PEQUENO, S/N, , JACAREPAGUA, 22723195
<[OK] Arcgis - Geocode [Estrada do Rio Pequeno, Jacarepaguá, Rio de Janeiro, 22723-195]>
ESTRADA DO ENGENHO NOVO, S/

<[OK] Arcgis - Geocode [Avenida Cesário de Melo 5580, Inhoaíba, Rio de Janeiro, 23059-001]>
PRACA MAJOR VIEIRA DE MELO, S/N, , CAMPO GRANDE, 23045405
<[OK] Arcgis - Geocode [Praça Major Viera de Melo, Campo Grande, Rio de Janeiro, 23045-405]>
ESTRADA DOS PALMARES, S/N*, JESUITAS, SANTA CRUZ, 23575270
<[OK] Arcgis - Geocode [Estrada dos Palmares, Santa Cruz, Rio de Janeiro, 23575-275]>
RUA SANTO AUGURIO, 40, PEDRINHA, SANTA CRUZ, 23510220
<[OK] Arcgis - Geocode [Rua Santo Augúrio 40, Santa Cruz, Rio de Janeiro, 23510-220]>
AVENIDA CESARIO DE MELO, 25, , SANTA CRUZ, 23575070
<[OK] Arcgis - Geocode [Avenida Cesário de Melo, Santa Cruz, Rio de Janeiro, 21710-231]>
AVENIDA JOAO XXIII, S/N, CONJUNTO LIBERDADE, SANTA CRUZ, 23560352
<[OK] Arcgis - Geocode [Avenida João XXIII, Santa Cruz, Rio de Janeiro, 23560-352]>
ESTRADA DE PACIENCIA, S/N, PRACA MALENDO MALEA, PACIENCIA, 23585045
<[OK] Arcgis - Geocode [Praça Molendo]>
AVENIDA CESARIO DE MELO, 11485, TRES PONTES, SANTA CRUZ, 23056000
<[OK] A

<[OK] Arcgis - Geocode [Estrada do Galeão 2920, Portuguesa, Rio de Janeiro, 21931-582]>
AVENIDA UBIRAJARA, 25, , IRAJA, 21230300
<[OK] Arcgis - Geocode [Avenida Ubirajara, Irajá, Rio de Janeiro, 21230-300]>
RUA GENERAL JOSE CRISTINO, 87, , SAO CRISTOVAO, 20921400
<[OK] Arcgis - Geocode [Rua General José Cristino 87, Vasco da Gama, Rio de Janeiro, 20921-400]>
R. VISC. DE NITERÓI, 1450 - MANGUEIRA, RIO DE JANEIRO - RJ, 20550-200
<[OK] Arcgis - Geocode [Rua Visconde de Niterói 1450, Mangueira, Rio de Janeiro, 20943-001]>
RUA ADAUTO BOTELHO, S/N, , JACAREPAGUA, 22713550
<[OK] Arcgis - Geocode [Avenida Adauto Botelho, Jacarepaguá, Rio de Janeiro, 22713-550]>
RUA VISCONDE DE NITEROI, 1450, , MANGUEIRA, 20943001
<[OK] Arcgis - Geocode [Rua Visconde de Niterói 1450, Mangueira, Rio de Janeiro, 20943-001]>
PRACA 1 DE MAIO, SN, , BANGU, 21830006
<[OK] Arcgis - Geocode [21830-150, Bangu, Rio de Janeiro]>
RUA DA CAPELA, 96, , PIEDADE, 20740310
<[OK] Arcgis - Geocode [Rua da Capella 96, Piedade, Rio

<[OK] Arcgis - Geocode [Rua Jumirim 87, Coelho Neto, Rio de Janeiro, 21510-580]>
RUA MAGALHAES GANDAVO - PRACA DO BOM CONSELHO, 204, MALLET, REALENGO, 21755290
<[OK] Arcgis - Geocode [Rua Magalhães Gandavo, Realengo, Rio de Janeiro, 21755-290]>
AVENIDA SAMPAIO CORREA, 105, , JACAREPAGUA-TAQUARA, 22713560
<[OK] Arcgis - Geocode [Avenida Sampaio Corrêa 105, Jacarepaguá, Rio de Janeiro, 22713-210]>
AVENIDA PONTALINA, S/N, , REALENGO, 21710120
<[OK] Arcgis - Geocode [Avenida Pontalina, Realengo, Rio de Janeiro, 21710-120]>
AV JOAO XXIII, S/N, , SANTA CRUZ, 23570000
<[OK] Arcgis - Geocode [Avenida João XXIII, Santa Cruz, Rio de Janeiro, 23570-000]>
RUA PADRE MANSO, SEM N., FDS - ENTRADA LATERA, MADUREIRA, 21310260
<[OK] Arcgis - Geocode [Rua Padre Manso, Madureira, Rio de Janeiro, 21310-260]>
RUA CANDIDO BENICIO, SN, , PRACA SECA, 21320060
<[OK] Arcgis - Geocode [Rua Cândido Benício, Praça Seca, Rio de Janeiro, 21320-060]>
AVENIDA SALVADOR ALLENDE, SN, ASA BRANCA, BARRA DA TIJUCA, 22780990


In [14]:
df['LAT'] = lat

In [15]:
df['LON'] = long

In [16]:
# ERROR ALEMAO
df.loc[265, 'LAT'] = -22.864982
df.loc[265, 'LON'] = -43.268517

In [17]:
df.head()

Unnamed: 0,NOME,ENDERECO,BAIRRO,TIPO_UNIDADE,LAT,LON
0,SMS CF DONA ZICA - AP 10,"RUA JOAO RODRIGUES, 43, , SAO FRANCISCO XAVIER...",SAO FRANCISCO XAVIER,CLINICA DA FAMILIA,-22.901297,-43.243086
1,SMS CF ESTACIO DE SA - AP 10,"RUA DO BISPO, 159, , RIO COMPRIDO, 20261066",RIO COMPRIDO,CLINICA DA FAMILIA,-22.923544,-43.21306
2,SMS CF NELIO DE OLIVEIRA - AP 10,"RUA RIVADAVIA CORREA, 188, , GAMBOA, 20220290",GAMBOA,CLINICA DA FAMILIA,-22.897909,-43.195612
3,SMS CF SERGIO VIEIRA DE MELLO - AP 10,"AVENIDA TRINTA E UM DE MARCO, S/N, TERRENO DA ...",CATUMBI,CLINICA DA FAMILIA,-22.916814,-43.194241
4,SMS CMS ERNANI AGRICOLA - AP 10,"RUA CONSTANT JARDIM, 8, , SANTA TERESA, 20241160",SANTA TERESA,CMS,-22.921211,-43.189151


### VISUALIZATION

In [18]:
import folium

In [19]:
g = geocoder.arcgis('RIO DE JANEIRO')
lat_lng_coords = g.latlng
latitude = lat_lng_coords[0]
longitude = lat_lng_coords[1]
print('The geograpical coordinate of Toronto City are {}, {}.'.format(latitude, longitude))

The geograpical coordinate of Toronto City are -22.91215999999997, -43.17500999999993.


In [20]:
# create map of New York using latitude and longitude values
map_rj = folium.Map(location=[latitude, longitude], zoom_start=11)

# add markers to map
for lat, lng, bairro, unidade in zip(df['LAT'], df['LON'], df['BAIRRO'], df['TIPO_UNIDADE']):
    label = '{}, {}'.format(bairro, unidade)
    label = folium.Popup(label, parse_html=True)

    
    folium.CircleMarker(
        [lat, lng],
        radius=5,
        popup=label,
        color='black',
        fill=True,
        fill_color='#3186cc',
        fill_opacity=0.7,
        parse_html=False).add_to(map_rj)  
        
map_rj

In [21]:
# create map of New York using latitude and longitude values
map_rj = folium.Map(location=[latitude, longitude], zoom_start=11)

# add markers to map
for lat, lng, bairro, unidade in zip(df['LAT'], df['LON'], df['BAIRRO'], df['TIPO_UNIDADE']):
    label = '{}, {}'.format(bairro, unidade)
    label = folium.Popup(label, parse_html=True)
    
    # Coloring Districs
    if unidade == 'CAPS':
        c = 'BLACK'
    elif unidade == 'CMS':
        c = 'green'
    elif unidade == 'CLINICA DA FAMILIA':
        c = 'red'
    elif unidade == 'POLICLINICA':
        c = 'purple'
    elif unidade == 'UPA':
        c = 'orange'
    else:
        c = 'blue'
        
    folium.CircleMarker(
        [lat, lng],
        radius=5,
        popup=label,
        color=c,
        fill=True,
        fill_color=c,
        fill_opacity=0.7,
        parse_html=False).add_to(map_rj)  

legend_html =   '''
                <div style="position: fixed; 
                            bottom: 10px; left: 10px; width: 200px; height: 45px; 
                            border:2px solid grey; z-index:9999; font-size:14px;
                            ">
                              &nbsp; CAPS > <i class="fa fa-circle" aria-hidden="true" style="color:BLACK"></i>
                              CMS > <i class="fa fa-circle" aria-hidden="true" style="color:green"></i>
                              CF > <i class="fa fa-circle" aria-hidden="true" style="color:red"></i><br>
                              &nbsp; POLI > <i class="fa fa-circle" aria-hidden="true" style="color:purple"></i>
                              UPA > <i class="fa fa-circle" aria-hidden="true" style="color:orange"></i>
                              HOS > <i class="fa fa-circle" aria-hidden="true" style="color:blue"></i>
                              

                </div>
                ''' 

map_rj.get_root().html.add_child(folium.Element(legend_html))

    
map_rj

# Export Data

In [22]:
teste = df.copy()

In [23]:
teste = teste.drop(['NOME','ENDERECO'],axis=1)

In [24]:
dum = pd.get_dummies(teste['TIPO_UNIDADE'])

In [25]:
result = pd.concat([teste, dum], axis=1, sort=False)

In [26]:
result = result.groupby(['BAIRRO']).sum()

In [27]:
result['HOS'] = result.iloc[:,2:9].sum(axis=1)

**The types of clinics and hospitals have no interest for us**

In [28]:
result = result.drop(['LAT','LON','CAPS','CENTRO DE REFERENCIA','CLINICA DA FAMILIA','CMS','HOSPITAL','POLICLINICA','UPA'],axis=1)

In [29]:
result = result.reset_index()

In [30]:
result.head()

Unnamed: 0,BAIRRO,HOS
0,ABOLICAO,1
1,ACARI,3
2,ALTO DA BOA VISTA,1
3,ANIL,1
4,BANCARIOS,1


In [31]:
result.to_csv('SUS.csv')