<img src='letscodebr_cover.jpeg' align='left' width=100%/>

# Ada Tech [DS-PY-004] Técnicas de Programação I (PY) Aulas 4 e 5 : Pandas - Enunciado do Exercício 5.

## Conjuntos de dados

Na prática de aula de hoje, usaremos um **conjunto de propriedades** que a imobiliária [Properati](https://www.properati.com.ar/) tem à venda. O interessante é que aos dados clássicos da propriedade (valor, superfície, vizinhança, tipo de propriedade), adiciona-se a posição geoespacial através de sua latitude e longitude.

Por outro lado, vamos considerar as **estações de metrô**, onde também aparecem o nome e a linha a que pertence, e também, obviamente, seus dados de posição geográfica.

## Exercício

Começamos lendo os dois conjuntos de dados em um `dataframe` e os transformamos em um `GeoDataFrame`. É o tipo de dado que o `GeoPandas` necessita para realizar operações com dados geoespaciais.

Então vamos *calcular a distância* de cada propriedade até o obelisco de Buenos Aires, e isso será registrado em uma nova coluna. Faremos um cálculo para ver se existe alguma relação entre essa distância e o preço do imóvel.

Finalmente desenharemos uma linha geométrica com todas as estações de metrô de uma linha, e faremos um gráfico sobre a cidade.

Importamos as bibliotecas de que vamos precisar:

In [1]:
import pandas as pd
import geopandas as gpd
import matplotlib.pyplot as plt

import shapely # genera las figuras geometricas
import descartes # relaciona shapely con matplotlib
import pyproj # proyecciones. Transformar coordenadas

### Parte 1 - Arquivo de Propriedades

Vamos ler os dados do arquivo "../Data/Real_State_Properati.csv" em um `DataFrame` do pandas com o método [`pandas.read_csv()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html), instanciando o objeto `df_prop`.

**Nota**: os dados são separados por tabulações. O parâmetro [`sep = '\ t'`](https://www.ti-enxame.com/pt/python/o-que-impressao-...-sep-t-significa/1045309866/) deve ser usado.

#### Tomamos uma amostra de 5 elementos

As colunas do conjunto de dados são:

- `property_type`: Tipo de Propriedade. - `object`
- `place_name`: Bairro de Buenos Aires. - `object`
- `country_name`: Nome do país. Fixo 'Argentina'. - `object`
- `state_name`: Província ou Estado. Fixo 'Capital Federal'. - `object`
- `lat`: Latitude da posição geoespacial da propriedade. - `float64`
- `lon`: Longitude da posição geoespacial da propriedade. - `float64`
- `price`: Preço da propriedade. - `float64`
- `currency`: Moeda usada para o valor da propriedade. - `object`
- `surface_total_in_m2`: Área da propriedade. - `float64`

#### Transforme o DataFrame em um GeoDataFrame

Para gerar um `GeoDataFrame`, precisamos adicionar uma nova coluna contendo uma forma geométrica às colunas do `DataFrame`. Nesse caso, um ponto, que é gerado a partir de latitude e longitude.

Recomenda-se que a nova coluna seja nomeada `geometry`. O método [`geopandas.points_from_xy()`](https://geopandas.org/docs/reference/api/geopandas.points_from_xy.html) define o tipo **ponto**, ao inserirmos primeiro a **longitude** e a **latitude**.

In [2]:
geometria = 

SyntaxError: invalid syntax (3600179281.py, line 1)

In [None]:
geometria[0:2]

In [None]:
geo_prop = gpd.GeoDataFrame(  )

In [None]:
type(geo_prop)

In [None]:
geo_prop.loc[:4, ['geometry', 'lat', 'lon','property_type','place_name']]

### Parte 2 - Arquivo da estação de metrô

Vamos ler os dados do arquivo "../Data/estaciones-de-subte.csv" em um `DataFrame` do pandas com o método [`pandas.read_csv()`](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html). Vamos instanciar o objeto `df_subte`.

**Nota**: Os dados são separados por vírgulas. O parâmetro `sep = ','` deve ser usado.

#### Consultamos os primeiros $10$ registros

As colunas do conjunto de dados são:

- `lon`: Longitude da posição geoespacial da estação de metrô. - `float64`
- `lat`: O t. Latitude da posição geoespacial da estação de metrô. - `float64
- `id`:  Eu iria. Número sequencial. - `float64
- `est`: Nome da estação de metrô. - `object`
- `lin`: A linha de metrô à qual a estação pertence. - `object`

#### Transforme o DataFrame em um GeoDataFrame

Para gerar um `GeoDataFrame`, precisamos adicionar uma nova coluna contendo uma forma geométrica às colunas do `DataFrame`. Nesse caso, um ponto, que é gerado a partir de latitude e longitude.

Recomenda-se que a nova coluna seja nomeada `geometry`. O método [`geopandas.points_from_xy()`](https://geopandas.org/docs/reference/api/geopandas.points_from_xy.html) define o tipo **ponto**, ao inserirmos primeiro a **longitude** e a **latitude**.

In [None]:
geo_subte = 

In [None]:
type(geo_subte)

### Parte 3 - Cálculo da distância

Vamos calcular a distância de cada propriedade ao obelisco de Buenos Aires, e a registraremos em uma nova coluna.

<img src='img/Obelisco_de_BA_2008.jpeg' align='left' width=50%/>

Primeiro, precisamos representar a localização geográfica do Obelisco de Buenos Aires. Fazemos isso usando a forma geométrica `Point` e as coordenadas do lugar.

In [None]:
from shapely.geometry import Point

point_obelisk_p = Point(-58.381555, -34.605425)

In [None]:
type(point_obelisk_p)

Já o método que calcula a distância entre dois pontos, [`geopy.distance.geodesic`](https://geopy.readthedocs.io/en/stable/#geopy.distance.geodesic), precisa representar a localização geográfica do Obelisco de Buenos Aires por uma tupla.

In [None]:
point_obelisk = (-58.381555,-34.605425)

In [None]:
type(point_obelisk)

Agora podemos adicionar a nova coluna com a distância entre o ponto do obelisco e o ponto de cada propriedade (em metros). Vamos chamá-lo de `obelisk_distance`.

**Uma iteração** deve ser gerada no índice de `geo_prop`:

Ajuda:
```python
for i in geo_prop.index:
    geo_prop.loc[i, 'distance_obelisk'] = Cálculo da distância entre o obelisco e cada propriedade.
```
    
O [cálculo da distância](https://geopy.readthedocs.io/en/stable/#module-geopy.distance) é realizado com o método [`geopy.distance.geodesic()`](https://geopy.readthedocs.io/en/stable/#geopy.distance.geodesic), discutido anteriormente.

Também com a instrução: 

```python 
geo_prop.loc[i, 'geometry'].X 
``` 

obtemos a coordenada de comprimento da distância. Deve terminar com `.meters` para indicar a distância em metros.

In [None]:
import geopy.distance

for i in geo_prop.index:
    geo_prop.loc[i, 'distance_obelisk'] = 

In [None]:
geo_prop.loc[:4, ['distance_obelisk','geometry', 'lat', 'lon','property_type','place_name']]

É interessante encontrar **valores extremos** na distância calculada, os `outliers`. Cálculos estatísticos podem nos confundir. Para isso, vamos classificar o `GeoDataFrame` `geo_prop` pela coluna `distance_obelisk` em ordem decrescente. E veja se nos primeiros valores encontramos distâncias que apresentam um valor extremo em relação aos demais.

O primeiro registro tem a distância errada, que é gerada a partir dos dados de comprimento errados. Melhor removê-lo.

Para fazer isso, procuramos as propriedades que têm uma `distância_obelisco` maior que $19.000~$m e as eliminamos:

- Procuramos os valores de índice que representam essas propriedades:

In [None]:
indice = geo_prop[geo_prop.distance_obelisk > 19000].index

indice

- Con el método drop eliminamos esas filas

<code>geo_prop.drop(              ,inplace=True)</code>

Verificamos ordenando novamente pela coluna `obelisk_distance` em ordem decrescente.

E agora podemos fazer um histograma sobre as distâncias.

In [None]:
plt.title('Distancia al Obelisco')
plt.hist(geo_prop["distance_obelisk"], bins=20, alpha=1, edgecolor = 'black',  linewidth=1)
plt.grid(True)
plt.show()
plt.clf()

### Parte 4 - Linha conectando as estações de metrô

Vamos fazer uma linha geométrica com as estações de metrô da linha H e representá-la graficamente sobre a cidade.

<div>
    <div class = "mapa">
        <img src='img/metro_BA.jpg' alt="Elementos geométricos" width=80% height=90%>
    </div>
</div>

Vemos os primeiros registros do `GeoDataFrame` `geo_subte`.

Primeiro vamos selecionar apenas as estações na linha H, e salvar a seleção na variável `geo_subte_h`.

In [None]:
geo_subte_h = 

In [None]:
geo_subte_h

Como mostra o desenho, a linha vai de Norte a Sul (ou Sul a Norte). Como as estações devem estar alinhadas para que a linha saia corretamente, podemos usar a coluna `lat` para ordená-las; `lat` é a latitude de cada estação. Vamos aplicar o método [`pandas.DataFrame.sort_values()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html) para realizar o ordenamento.

In [None]:
geo_subte_h = 

In [None]:
geo_subte_h

Para simplificar a codificação, manteremos apenas os dados geográficos de cada estação. Geramos uma `GeoSeries` com a coluna geométrica de `geo_subte_h`. E o chamamos de `geo_subte_h_geometry`.

In [None]:
geo_subte_h_geometry = 

In [None]:
type(geo_subte_h_geometry)

Agora criamos as linhas que conectam as estações de metrô. Cada linha é formada por **dois pontos**. Portanto, temos que pegar o primeiro e o segundo pontos do `Geoserie` e aplicar o método [`shapely.geometry.LineString()`](https://autogis-site.readthedocs.io/en/latest/notebooks/L1/geometric-objects.html#linestring) a eles. Em seguida, continuamos com o segundo e o terceiro, e assim por diante.

Primeiro instanciamos uma lista onde salvaremos cada linha e a chamaremos de `line_h`. Deve ter comprimento igual ao número de estações menos $1$, ou seja, comprimento $11$.

In [None]:
longitud_linea = len(geo_subte_h_geometry)-1
linea_h = list(range(longitud_linea))

In [None]:
len(linea_h)

Agora podemos criar as linhas e salvá-las na lista.

Uma iteração deve ser gerada para atravessar a `GeoSerie` `geo_subte_h_geometry`.

```python
para i no intervalo (line_length):
     linea_h [i] = Eu crio a linha entre o elemento i e o elemento i + 1
```
    
O cálculo é realizado com o método [`shapely.geometry.LineString()`](https://autogis-site.readthedocs.io/en/latest/notebooks/L1/geometric-objects.html#linestring) da [biblioteca shapely](https://shapely.readthedocs.io/en/stable/manual.html), discutido anteriormente.

In [None]:
from shapely.geometry import LineString

for i in range(longitud_linea): 
    linea_h[i] = 

In [None]:
linea_h

Agora vamos representar graficamente as linhas em um mapa com os bairros de Buenos Aires. Vamos ler os dados do arquivo `../Data/Neighborhoods.csv` em um `DataFrame` do pandas com o método [`pandas.read_csv()`](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html). Vamos chamá-lo de `df_bairros`.

In [None]:
df_barrios = 

In [None]:
df_barrios.head(3)

In [None]:
type(df_barrios)

E então geramos um `GeoDataFrame` das vizinhanças do `Dataframe`. Neste caso, a coluna `WKT` já contém uma forma geométrica do tipo Polígono, que representa o contorno de cada vizinhança. Mas em um formato `WKT`, não permite gerar um `GeoDataFrame`. Portanto, temos que convertê-lo em um formato de `geometry`.

In [None]:
import shapely.wkt

df_bairros["WKT"] = df_bairros["WKT"].apply(shapely.wkt.loads) 
geo_barrios = gpd.GeoDataFrame(df_bairros, geometry = 'WKT')

In [None]:
geo_barrios.dtypes

Por outro lado, precisamos representar graficamente as linhas para gerar um `Geoserie`, em que cada elemento é composto por dois pontos e a linha entre eles.

In [None]:
linea_h_geo = list(range(longitud_linea))

for i in range(longitud_linea): 
    linea_h_geo[i] = gpd.GeoSeries([geo_subte_h_geometry.iloc[i], 
                                    geo_subte_h_geometry.iloc[i + 1], 
                                    linea_h[i]
                                   ]
                                  )    

In [None]:
linea_h_geo[:2]

Com o método `plot()`, geramos o gráfico:

In [None]:
fig, ax = plt.subplots()
ax.set_aspect('equal')
geo_barrios.plot(ax = ax, 
                 color = 'white', 
                 edgecolor = 'black'
                )

for i in range(len(geo_subte_h_geometry) - 2): 
    linea_h_geo[i].plot(ax = ax, 
                        color = 'red'
                       )

plt.show();