### 1. dev_notebook_biciMAD stations

This is your development environment...you may start:
- Exploring your data.
- Testing the ad-hoc methods.
- Designing your pipeline.

In [1]:
import pandas as pd
bicimad_df = pd.read_csv('./data/bicimad_stations.csv')
bicimad_df.head()

Unnamed: 0,\tid\tname\tlight\tnumber\taddress\tactivate\tno_available\ttotal_bases\tdock_bikes\tfree_bases\treservations_count\tgeometry.type\tgeometry.coordinates
0\t1\t1a - Puerta del Sol A\t3\t1a\tPuerta del Sol nº 1\t1\t1\t30\t0\t0\t0\tPoint\t[-3.7018341,40.4172137]
1\t2\t1b - Puerta del Sol B\t3\t1b\tPuerta del Sol nº 1\t1\t1\t30\t0\t0\t0\tPoint\t[-3.701602938060457,40.41731271011562]
2\t3\t2 - Miguel Moya\t3\t2\tCalle Miguel Moya nº 1\t1\t1\t24\t0\t0\t0\tPoint\t[-3.7058415,40.4205886]
3\t4\t3 - Plaza Conde Suchil\t2\t3\tPlaza del Conde del Valle de Súchil nº 3\t1\t0\t18\t9\t9\t0\tPoint\t[-3.7069171,40.4302937]
4\t5\t4 - Malasaña\t1\t4\tCalle Manuela Malasaña nº 5\t1\t0\t24\t23\t1\t0\tPoint\t[-3.7025875,40.4285524]


Al imprimir el dataframe, observo que están delimitados por '\t'. Según la documentación [pandas.read_csv](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html) debo separar las columnas con `sep='\t':`

In [2]:
bicimad_df = pd.read_csv('./data/bicimad_stations.csv', sep='\t')
bicimad_df.tail(2)

Unnamed: 0.1,Unnamed: 0,id,name,light,number,address,activate,no_available,total_bases,dock_bikes,free_bases,reservations_count,geometry.type,geometry.coordinates
262,262,268,260 - Facultad Biología,2,260,Calle José Antonio Novais frente al nº 12,1,0,24,12,10,0,Point,"[-3.7272945, 40.4483322]"
263,263,269,261 - Facultad Derecho,2,261,Avenida Complutense nº 23,1,0,24,8,16,0,Point,"[-3.72937, 40.45109]"


In [3]:
bicimad_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 264 entries, 0 to 263
Data columns (total 14 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   Unnamed: 0            264 non-null    int64 
 1   id                    264 non-null    int64 
 2   name                  264 non-null    object
 3   light                 264 non-null    int64 
 4   number                264 non-null    object
 5   address               264 non-null    object
 6   activate              264 non-null    int64 
 7   no_available          264 non-null    int64 
 8   total_bases           264 non-null    int64 
 9   dock_bikes            264 non-null    int64 
 10  free_bases            264 non-null    int64 
 11  reservations_count    264 non-null    int64 
 12  geometry.type         264 non-null    object
 13  geometry.coordinates  264 non-null    object
dtypes: int64(9), object(5)
memory usage: 29.0+ KB


1. Tenemos **14 columnas.** Solo necesitamos **3** de ellas:

    - **name:** Nombre de la estación de biciMAD
    - **address:** Dirección de la estación de biciMAD
    - **geometry.coordinates:** Coordenadas (longitud y latitud) de la ubicación de biciMAD


2. Tenemos **264 registros** de los cuales debemos revisar en las 3 columnas:

    - Si hay **valores nulos** en las **3 columnas**
    - Si hay **valores únicos** para la **estaciones biciMAD** y coincide con 264
    - Si hay un **máximo** de 264 registros no nulos en la columna `address`
    - Si hay un **máximo** de 264 registros no nulos en la columna `geometry.coordinates`

[Documentación Pandas Dataframes](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html)

Contamos los registros de la columna 'name', revisando que haya una estación de biciMAD diferente para cada registro:

**1. Nombres de la estación de biciMAD ['name']**

[pandas.Series.value_counts](https://pandas.pydata.org/docs/reference/api/pandas.Series.value_counts.html): **.value_counts()** regresa una serie con el conteo de valores únicos, en orden descendiente (de mayor a menor). Excluye NA por defecto.

In [4]:
bicimad_df['name'].value_counts()

name
1a - Puerta del Sol A       1
179 - Puente de Vallecas    1
165 - Entrada Matadero      1
166 - Segovia 26            1
167 - Segovia 45            1
                           ..
94 - Biblioteca Nacional    1
95 - Villanueva             1
96 - Castelló               1
97 - Alcalá                 1
261 - Facultad Derecho      1
Name: count, Length: 264, dtype: int64

Para asegurarme, contaré con **.notnull()** los valores **NO nulos**, pasandoles de nuevo un **.value_counts()**

In [5]:
# https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.notnull.html
bicimad_df['name'].notnull().value_counts()

name
True    264
Name: count, dtype: int64

- Tenemos 264 estaciones distintas (sin repetir) de biciMAD, que era lo que estabamos esperando
- NO hay valores nulos, puesto que hay **264 True**

**2. Direcciones de las estaciones de biciMAD ['address']**

Contamos los registros de la columna 'address', revisando que hayan maximo 264 registros en direcciones. Pueden haber repetidos, puesto que puede haber más de una estación de biciMAD por dirección:

In [6]:
bicimad_df['address'].value_counts()

address
Puerta del Sol nº 1                2
Calle Serrano nº 34                2
Plaza de Celenque nº 1             2
Calle Arcipreste de Hita nº 12     2
Paseo de la Infanta Isabel nº 3    2
                                  ..
Paseo de Recoletos nº 20           1
Calle Claudio Coello nº 109        1
Calle Alcalá nº 111                1
Avenida de Menéndez Pelayo nº 3    1
Avenida Complutense nº 23          1
Name: count, Length: 257, dtype: int64

In [7]:
bicimad_df['address'].notnull().value_counts()

address
True    264
Name: count, dtype: int64

- El número de estaciones es **menor o igual a 264 (257)**
- NO hay valores nulos, puesto que hay **264 True**

**3. Coordenadas (longitud y latitud) de la ubicación de biciMAD ['geometry.coordinates']**

In [8]:
bicimad_df['geometry.coordinates'].head(2)

0                   [-3.7018341, 40.4172137]
1    [-3.701602938060457, 40.41731271011562]
Name: geometry.coordinates, dtype: object

Reviso el primer elemento para tener idea que tipo de datos voy a analizar en la serie bicimad_df['geometry.coordinates']:

In [9]:
print(bicimad_df['geometry.coordinates'][0])
print(type(bicimad_df['geometry.coordinates'][0]))

[-3.7018341, 40.4172137]
<class 'str'>


In [10]:
bicimad_df['geometry.coordinates'].info()

<class 'pandas.core.series.Series'>
RangeIndex: 264 entries, 0 to 263
Series name: geometry.coordinates
Non-Null Count  Dtype 
--------------  ----- 
264 non-null    object
dtypes: object(1)
memory usage: 2.2+ KB


Quiero asegurarme que cada dtype 'object' sea un string como el que he obtenido del primer elemento. 

Para la columna **bicimad_df['geometry.coordinates']** aplico una función lambda a cada uno de los elementos
que he llamado 'coord', que me devuelva **True** con la función **isinstance(),** si todas las coordenadas son
de tipo **str** y que me dé un total de **264.**

- [pandas.DataFrame.apply](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.apply.html)
- [Python Lambda](https://www.w3schools.com/python/python_lambda.asp)
- [Python isinstance() Function](https://www.w3schools.com/python/ref_func_isinstance.asp)

In [11]:
bicimad_df['geometry.coordinates'].apply(lambda coord: isinstance(coord, str)).value_counts()

geometry.coordinates
True    264
Name: count, dtype: int64

Repetiré la misma verificación de las 2 anteriores columnas, con las coordenadas:

In [12]:
bicimad_df['geometry.coordinates'].value_counts()

geometry.coordinates
[-3.7018341, 40.4172137]    1
[-3.66925, 40.3979722]      1
[-3.6975708, 40.3928821]    1
[-3.7135833, 40.4138333]    1
[-3.717487, 40.413736]      1
                           ..
[-3.690756, 40.4232153]     1
[-3.6870548, 40.4226584]    1
[-3.6821793, 40.422064]     1
[-3.6805189, 40.4222969]    1
[-3.72937, 40.45109]        1
Name: count, Length: 264, dtype: int64

- Cada coordenada es **única,** dandome un total de **264**
- El conteo de strings dió **264 True**, lo cual NO hay valores nulos

### Modificando el dataframe con las 3 columnas relevantes

In [13]:
bicimad_df = bicimad_df[['name','address','geometry.coordinates']]

In [14]:
bicimad_df.head()

Unnamed: 0,name,address,geometry.coordinates
0,1a - Puerta del Sol A,Puerta del Sol nº 1,"[-3.7018341, 40.4172137]"
1,1b - Puerta del Sol B,Puerta del Sol nº 1,"[-3.701602938060457, 40.41731271011562]"
2,2 - Miguel Moya,Calle Miguel Moya nº 1,"[-3.7058415, 40.4205886]"
3,3 - Plaza Conde Suchil,Plaza del Conde del Valle de Súchil nº 3,"[-3.7069171, 40.4302937]"
4,4 - Malasaña,Calle Manuela Malasaña nº 5,"[-3.7025875, 40.4285524]"


Voy a guardar en una nueva variable **'coordinates_df',** el dataframe con la limpieza de la columna 'geometry.coordinates' con[.str.split()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.split.html).

El proceso será el siguiente:

1. Le quito los brackets con **.str.strip('[]')**
2. Elimino las comas con **.str.split(',', expand=True)** para expandir a dos columnas
3. Aplico el método **[.astype('float64')](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.astype.html)** para que los valores tengan formato float para Pandas

Lo podemos ver a continuación con la nueva variable **'coordinates_df':**

In [15]:
coordinates_df = bicimad_df['geometry.coordinates'].str.strip('[]').str.split(',', expand=True).astype('float64')
coordinates_df

Unnamed: 0,0,1
0,-3.701834,40.417214
1,-3.701603,40.417313
2,-3.705842,40.420589
3,-3.706917,40.430294
4,-3.702587,40.428552
...,...,...
259,-3.729970,40.438960
260,-3.726990,40.443750
261,-3.726930,40.443420
262,-3.727295,40.448332


Con **.str.split(',', expand=True)** me separa la columna 'geometry.coordinates' en 2.

0 y 1 para **longitud y latitud,** respectivamente.

El siguiente paso es [renombrar las columnas:](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.columns.html)

In [16]:
coordinates_df.columns = ['mad_long', 'mad_lat']
coordinates_df

Unnamed: 0,mad_long,mad_lat
0,-3.701834,40.417214
1,-3.701603,40.417313
2,-3.705842,40.420589
3,-3.706917,40.430294
4,-3.702587,40.428552
...,...,...
259,-3.729970,40.438960
260,-3.726990,40.443750
261,-3.726930,40.443420
262,-3.727295,40.448332


**Concatenar los dataframes por columnas:** agregaré con `axis=1` las columnas de `coordinates_df` al principal `bicimad_df`con [pandas.concat](https://pandas.pydata.org/docs/reference/api/pandas.concat.html)

In [17]:
bicimad_df = pd.concat([bicimad_df,coordinates_df],axis=1)
bicimad_df

Unnamed: 0,name,address,geometry.coordinates,mad_long,mad_lat
0,1a - Puerta del Sol A,Puerta del Sol nº 1,"[-3.7018341, 40.4172137]",-3.701834,40.417214
1,1b - Puerta del Sol B,Puerta del Sol nº 1,"[-3.701602938060457, 40.41731271011562]",-3.701603,40.417313
2,2 - Miguel Moya,Calle Miguel Moya nº 1,"[-3.7058415, 40.4205886]",-3.705842,40.420589
3,3 - Plaza Conde Suchil,Plaza del Conde del Valle de Súchil nº 3,"[-3.7069171, 40.4302937]",-3.706917,40.430294
4,4 - Malasaña,Calle Manuela Malasaña nº 5,"[-3.7025875, 40.4285524]",-3.702587,40.428552
...,...,...,...,...,...
259,257 - INEF,Avenida Juan de Herrera frente a la calle Paul...,"[-3.72997, 40.43896]",-3.729970,40.438960
260,258 - Ciudad Universitaria 1,Avenida de la Complutense (Metro Ciudad Univer...,"[-3.72699, 40.44375]",-3.726990,40.443750
261,259 - Ciudad Universitaria 2,Avenida de la Complutense (Metro Ciudad Univer...,"[-3.72693, 40.44342]",-3.726930,40.443420
262,260 - Facultad Biología,Calle José Antonio Novais frente al nº 12,"[-3.7272945, 40.4483322]",-3.727295,40.448332


Elimino la columna **geometry.coordinates** con [pandas.DataFrame.drop](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html)

In [18]:
bicimad_df = bicimad_df.drop(columns=['geometry.coordinates'])

### Dataframe final de bicimad_df

In [19]:
# Renombramos las columnas
bicimad_df = bicimad_df.rename(columns={"name": "BiciMAD station",
                          "address" : "BiciMAD address"})
bicimad_df

Unnamed: 0,BiciMAD station,BiciMAD address,mad_long,mad_lat
0,1a - Puerta del Sol A,Puerta del Sol nº 1,-3.701834,40.417214
1,1b - Puerta del Sol B,Puerta del Sol nº 1,-3.701603,40.417313
2,2 - Miguel Moya,Calle Miguel Moya nº 1,-3.705842,40.420589
3,3 - Plaza Conde Suchil,Plaza del Conde del Valle de Súchil nº 3,-3.706917,40.430294
4,4 - Malasaña,Calle Manuela Malasaña nº 5,-3.702587,40.428552
...,...,...,...,...
259,257 - INEF,Avenida Juan de Herrera frente a la calle Paul...,-3.729970,40.438960
260,258 - Ciudad Universitaria 1,Avenida de la Complutense (Metro Ciudad Univer...,-3.726990,40.443750
261,259 - Ciudad Universitaria 2,Avenida de la Complutense (Metro Ciudad Univer...,-3.726930,40.443420
262,260 - Facultad Biología,Calle José Antonio Novais frente al nº 12,-3.727295,40.448332


In [20]:
bicimad_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 264 entries, 0 to 263
Data columns (total 4 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   BiciMAD station  264 non-null    object 
 1   BiciMAD address  264 non-null    object 
 2   mad_long         264 non-null    float64
 3   mad_lat          264 non-null    float64
dtypes: float64(2), object(2)
memory usage: 8.4+ KB


### Exportamos el .csv final de bicimad_stations (v2)

In [22]:
from pathlib import Path
filepath = Path('./data/bicimad_stations.csv')  
filepath.parent.mkdir(parents=True, exist_ok=True) 
bicimad_df.to_csv(filepath)