<img src='letscodebr_cover.jpeg' align='left' width=100%/>

# Ada Tech [DS-PY-004] Técnicas de Programação I (PY) Aulas 4 e 5 : GeoPandas - Enunciado do Exercício 6.

## Conjuntos de dados

Na prática de aula de hoje, usaremos um **conjunto de propriedades** que a imobiliária [Properati](https://www.properati.com.ar/) tem à venda. O interessante é que aos dados clássicos da propriedade (valor, superfície, vizinhança, tipo de propriedade), adiciona-se a posição geoespacial através de sua latitude e longitude.

Por outro lado, vamos considerar as **estações de metrô**, onde também aparecem o nome e a linha a que pertence, e também, obviamente, seus dados de posição geográfica.

## Exercício

Começamos lendo os dois conjuntos de dados em um `dataframe` e os transformamos em um `GeoDataFrame`. É o tipo de dado que o `GeoPandas` necessita para realizar operações com dados geoespaciais.

Então vamos calcular a distância de cada propriedade até o obelisco de Buenos Aires, e isso será registrado em uma nova coluna. Faremos um cálculo para ver se existe alguma relação entre essa distância e o preço do imóvel.

Finalmente desenharemos uma linha geométrica com todas as estações de metrô de uma linha, e faremos um gráfico sobre a cidade.

Importamos as bibliotecas de que vamos precisar:

In [13]:
import pandas as pd
import geopandas as gpd
import matplotlib.pyplot as plt

import shapely # gera as figuras geométricas
import descartes # relacionar-se bem com matplotlib
import pyproj # projeções. Transformação de Coordenadas

### Parte 1 - Arquivo de Propriedades

Vamos ler os dados do arquivo "../Data/Real_State_Properati.csv" em um `DataFrame` do pandas com o método [`pandas.read_csv()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html), instanciando o objeto `df_prop`.

**Nota**: os dados são separados por tabulações. O parâmetro [`sep = '\ t'`](https://www.ti-enxame.com/pt/python/o-que-impressao-...-sep-t-significa/1045309866/) deve ser usado.

- 1.a. Tomamos uma amostra de 5 elementos.

- 1 b. Quantas propriedades existem? Quantas são as colunas?

- 1 C. Quais são as colunas? Que tipo de dados elas têm?

- 1.d. Quantas propriedades existem por bairro? A vizinhança está listada na coluna `place_name`.

Dica: Você pode aplicar o método [`pandas.Series.value_counts()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.value_counts.html?highlight=value_counts#pandas.Series.value_counts).

- 1.e. As colunas `lat` e `lon` identificam a latitude e longitude da posição geoespacial das propriedades. Mas precisamos que a posição seja expressa pela forma geométrica Point, para podermos trabalhá-la a partir do GeoPandas.

Em outras palavras, devemos transformar o `DataFrame` em um `GeoDataFrame`. Vamos instanciar o objeto `geo_prop`. Mas para gerar um `GeoDataFrame`, precisamos adicionar uma nova coluna contendo uma forma geométrica às colunas do `DataFrame`. Nesse caso, um `ponto`, que é gerado a partir de latitude e longitude. Recomenda-se que a nova coluna seja nomeada `geometry`. Fazemos isso com o método [`geopandas.points_from_xy()`](https://geopandas.org/docs/reference/api/geopandas.points_from_xy.html).

*Observe* que para definir o tipo *ponto*, inserimos a **longitude** e a **latitude**.

Verificamos a nova coluna observando as primeiras linhas.

### Parte 2 - Arquivo da estação de metrô

Vamos ler os dados do arquivo `../Data/estaciones-de-subte.csv` em um `DataFrame` do pandas com o método [`pandas.read_csv()`](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html). Vamos instanciar o objeto `df_subte`.

**Nota**: Os dados são separados por vírgulas. O parâmetro `sep = ','` deve ser usado.

- 2.a. Consultamos os primeiros $10$ registros.

- 2.b. Quantas estações existem? Quantas são as colunas?

- 2 c. Quais são as colunas? Que tipo de dados são eles?

- 2.d. Quantas estações temos por linha?

Dica: Similar ao punto 1.d

- 2.e. As colunas `lat` e `lon` identificam a latitude e a longitude da posição geoespacial das propriedades. Mas precisamos que a posição seja expressa pela forma geométrica `Point`, para podermos trabalhá-la a partir do `GeoPandas`.

Dica: Similar ao punto 1.e

Verificamos a nova coluna observando as primeiras linhas.

### Parte 3 - Cálculo da distância

Vamos calcular a distância de cada propriedade ao obelisco de Buenos Aires, e a registraremos em uma nova coluna.

Primeiro, precisamos representar a localização geográfica do Obelisco de Buenos Aires. Fazemos isso usando a forma geométrica `Point` e as coordenadas do lugar.

Já o método que calcula a distância entre dois pontos, [`geopy.distance.geodesic()`](https://geopy.readthedocs.io/en/stable/#geopy.distance.geodesic), precisa representar a localização geográfica do Obelisco de Buenos Aires por uma tupla.

Agora podemos adicionar a nova coluna com a distância entre o ponto do obelisco e o ponto de cada propriedade (em metros). Vamos chamá-lo de `obelisk_distance`.

**Uma iteração** deve ser gerada no índice de `geo_prop`:

Dica: Você pode explorar o código

```python
for i in geo_prop.index:
    geo_prop.loc[i, 'distance_obelisk'] = Cálculo da distância entre o obelisco e cada propriedade.
```
    
O [cálculo da distância](https://geopy.readthedocs.io/en/stable/#module-geopy.distance) é realizado com o método [`geopy.distance.geodesic()`](https://geopy.readthedocs.io/en/stable/#geopy.distance.geodesic), discutido. Também com a instrução: 

```python
geo_prop.loc[i, 'geometry'].X 
```
obtemos a coordenada de comprimento da distância. Deve terminar com `.meters` para indicar a distância em metros.

Verificamos a nova coluna observando as primeiras linhas.

Vamos calcular a relação entre a distância até o obelisco e os preços de cada propriedade. Calcularemos também a média por vizinhança da distância e dos preços, e então classificaremos as médias e ver se os primeiros $10$ classificados de cada média são das mesmas barras.

Para todos os cálculos, precisamos usar o método `groupby`. Primeiro, um novo `GeoDataFrame` deve ser criado com tantas linhas quanto vizinhanças.

Em seguida, devemos adicionar duas colunas com as médias (distância e preço) por bairro.

Dica:
```python
geo_prop_group['nova coluna'] = geo_prop.groupby(['xxxxxxx'])[["yyyy"]].mean()
```

E por último, acrescente mais duas colunas com a classificação de acordo com a média (distância e preço) por bairro.

Dica:
```python
geo_prop_group["nova coluna rank"] = geo_prop_group['xxxxxxxx'].rank(ascending = True)
```

Nós verificamos as novas colunas.

Finalmente, observe se os primeiros $10$ classificados de cada média são das mesmas bairros. Faça primeiro na classificação de distância e, em seguida, na classificação de preços.

Dica: Você pode aplicar o modelo [pandas.DataFrame.sort_values](https://pandas.pydata.org/pandas-docs/version/0.23.4/generated/pandas.DataFrame.sort_values.html).

### Parte 4 - Linha conectando às estações de metrô

Vamos fazer uma linha geométrica com as estações de metrô da linha H e representá-la graficamente sobre a cidade.


<div>
    <div class = "mapa">
        <img src='img/metro_BA.jpg' alt="Elementos geométricos" width=80% height=90%>
    </div>
</div>

Primeiro vamos selecionar apenas as estações na linha H, e salvar a seleção na variável `geo_subte_h`.

Como mostra o desenho, a linha vai de Norte a Sul (ou Sul a Norte). Como as estações devem estar alinhadas para que a linha saia corretamente, podemos usar a coluna `lat` para ordená-las; `lat` é a latitude de cada estação.

Dica: Considere aplicar o método [`pandas.DataFrame.sort_values()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html)

Para simplificar a codificação, manteremos apenas os dados geográficos de cada estação. Geramos uma `GeoSeries` com a coluna geométrica de `geo_subte_h`. E nós o chamamos de `geo_subte_h_geometry`.

Agora criamos as linhas que conectam as estações de metrô. Cada linha é formada por dois pontos. Portanto, temos que pegar o primeiro e o segundo pontos da `Geoserie` e aplicar o método [`shapely.geometry.LineString()`](https://autogis-site.readthedocs.io/en/latest/notebooks/L1/geometric-objects.html#linestring) a eles. Em seguida, continuamos com o segundo e o terceiro, e assim por diante.

Primeiro criamos uma lista onde salvaremos cada linha. Chamamos de `line_h`. Deve ter comprimento igual ao número de estações menos $1$, ou seja, comprimento $11$.

Agora podemos criar as linhas e salvá-las na lista.

**Uma iteração** deve ser gerada para atravessar a `GeoSerie` `geo_subte_h_geometry`.

Dica: Considere aplicar o seguinte código

```python
for i in range(longitud_line): 
    line_h[i] = Linha criada entre o elemento i e o elemento i + 1
```

O cálculo é realizado com o método [`shapely.geometry.LineString()`](https://autogis-site.readthedocs.io/en/latest/notebooks/L1/geometric-objects.html#linestring) da biblioteca `shapely`, discutido anteriormente.

Agora vamos representar graficamente as linhas num mapa com os bairros de Buenos Aires. Vamos ler os dados do arquivo "../Data/Neighborhoods.csv" em um `DataFrame` do pandas com o método [`pandas.read_csv()`](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html). Vamos instanciar o objeto `df_bairros`.

E então geramos um `GeoDataFrame` dos bairros a partir do `Dataframe`. Neste caso, a coluna `WKT` já contém uma forma geométrica polígono que representa o contorno de cada vizinhança. Mas em um formato `WKT`, não permite gerar um `GeoDataFrame`. Portanto, temos que convertê-lo em um formato de `geometria`.

Por outro lado, precisamos representar graficamente as linhas para gerar uma `Geoserie` onde cada elemento é composto por dois pontos e a linha entre eles.

Com o método `plot()`, geramos o gráfico: