# 1. ANÁLISIS EXPLORATORIO DE DATOS

En esta sección de la actividad realizaremos un análisis previo de los datos basandonos en lo propuesto por el profesor en el correo recibido:
- Barrio de estudio: CAMPANAR
- Barrio de comparación: ALBORS

Para comenzar deberemos importar nuestros datos y seccionarlos para cada uno de los barrios a analizar y comparar. Para ello importaremos las librerías necesarias para esto:

In [38]:
import pandas as pd  # Importamos librería para manejo de datos
import seaborn as sns # Importamos librería para visualización de datos
from sklearn.preprocessing import MinMaxScaler # Importamos librería para normalización de datos
from sklearn.cluster import KMeans # Importamos librería para agrupamiento
from sklearn.linear_model import LinearRegression # Importamos librería para regresión lineal

import os # Importamos librería para manejo de archivos y rutas

Una vez importadas podemos traer los datos que exploraremos:

In [None]:
ruta = os.path.join("..", "data", "raw", "usobici_raw.csv") # Definimos la ruta con los datos de trabajo

dataframe = pd.read_csv(ruta) # Cargamos el archivo CSV
print(dataframe.head()) # Mostramos los primeros registros del archivo

                      updated                  address  number  available  \
0  2025-02-03 00:01:42.000000  Alameda - Pintor Maella      53         23   
1  2025-02-03 00:09:53.000000  Alameda - Pintor Maella      53         25   
2  2025-02-03 00:20:14.000000  Alameda - Pintor Maella      53         23   
3  2025-02-03 00:30:36.000000  Alameda - Pintor Maella      53         23   
4  2025-02-03 00:39:44.000000  Alameda - Pintor Maella      53         23   

         lat       lon  total open  free  
0  39.456764 -0.348139     25    T     2  
1  39.456764 -0.348139     25    T     0  
2  39.456764 -0.348139     25    T     2  
3  39.456764 -0.348139     25    T     2  
4  39.456764 -0.348139     25    T     2  


Primero de todo, ¿que tipos de datos tenemos? Es probable que los numeros sean cadenas, por lo que realizar cálculos con ellos sería problematico. Para ello podemos usar un método de pandas que nos devuelve el tipo de dato por columna:

In [40]:
print(dataframe.dtypes) # Mostramos un resumen de los datos

updated       object
address       object
number         int64
available      int64
lat          float64
lon          float64
total          int64
open          object
free           int64
dtype: object


Podemos observar que por ejemplo aunque la columna *free* (el número de bicis librespor estación) es un número entero, pero *open* sin embargo es un "object" lo cual nos dará problemas en el futuro.
Otra pregunta importante que debemos responder es sobre la naturaleza de los datos generales, como por ejemplo si contienen datos nulos y otras caracteristicas de la muestra:

In [42]:
print("-------------------  INFO -------------------\n")
print(dataframe.info()) # Mostramos un resumen de los datos

print("\n-------------------  DESCRIPCIÓN -------------------\n")
print(dataframe.describe()) # Mostramos un resumen de los datos

-------------------  INFO -------------------

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4068 entries, 0 to 4067
Data columns (total 9 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   updated    4068 non-null   object 
 1   address    4068 non-null   object 
 2   number     4068 non-null   int64  
 3   available  4068 non-null   int64  
 4   lat        4068 non-null   float64
 5   lon        4068 non-null   float64
 6   total      4068 non-null   int64  
 7   open       4068 non-null   object 
 8   free       4068 non-null   int64  
dtypes: float64(2), int64(4), object(3)
memory usage: 286.2+ KB
None

-------------------  DESCRIPCIÓN -------------------

       number    available           lat           lon   total         free
count  4068.0  4068.000000  4.068000e+03  4.068000e+03  4068.0  4068.000000
mean     53.0    17.118240  3.945676e+01 -3.481393e-01    25.0     7.855457
std       0.0     7.428375  7.106301e-15  5.551798e-17 

Podemos confirmar que no tenemos registros nulos, ya que ambos métodos nos dan un conteo de 4068 y el info nos dice que esos son no nulos. Además, podemos ver también que existe una media de 17 bicicletas en cada estación. ¿Los datos que debemos escoger, ¿se parecen a la muestra general o son una excepción?

In [55]:
data_campanar = dataframe[dataframe["address"] == "Campanar"] # Seleccionamos los datos de la estación Campanar
data_albors = dataframe[dataframe["address"] == "Albors"] # Seleccionamos los datos de la estación Albors

print(data_campanar.head()) # Mostramos los primeros registros de la estación Campanar

print("-------------------  INFO -------------------\n")
print(data_campanar.info()) # Mostramos un resumen de los datos de la estación Campanar

print("\n-------------------  DESCRIPCIÓN -------------------\n")
print(data_campanar.describe()) # Mostramos un resumen de los datos de la estación Campanar

Empty DataFrame
Columns: [updated, address, number, available, lat, lon, total, open, free]
Index: []
-------------------  INFO -------------------

<class 'pandas.core.frame.DataFrame'>
Index: 0 entries
Data columns (total 9 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   updated    0 non-null      object 
 1   address    0 non-null      object 
 2   number     0 non-null      int64  
 3   available  0 non-null      int64  
 4   lat        0 non-null      float64
 5   lon        0 non-null      float64
 6   total      0 non-null      int64  
 7   open       0 non-null      object 
 8   free       0 non-null      int64  
dtypes: float64(2), int64(4), object(3)
memory usage: 0.0+ bytes
None

-------------------  DESCRIPCIÓN -------------------

       number  available  lat  lon  total  free
count     0.0        0.0  0.0  0.0    0.0   0.0
mean      NaN        NaN  NaN  NaN    NaN   NaN
std       NaN        NaN  NaN  NaN    NaN   NaN
min    