# Primera entrega German Koning

In [9]:
import pandas as pd

## Dataset de calidad del aire

In [10]:
dfAir = pd.read_csv("./AirQualityUCI.csv", delimiter=';')

## Variables de interés en el dataset:

1. **Date y Time:**
   - Estas columnas representan la fecha y la hora de las observaciones. Son fundamentales para análisis temporales. En el contexto comercial, el análisis temporal podría ser crucial para identificar tendencias estacionales, cambios a lo largo del tiempo y patrones en el comportamiento de los datos.

2. **CO(GT), NMHC(GT), C6H6(GT), NOx(GT), NO2(GT):**
   - Estas columnas contienen mediciones de diferentes compuestos químicos en el aire. En un contexto analítico, estas variables podrían ser de interés para comprender la calidad del aire y su impacto en la salud pública. Comprender las fluctuaciones de estos compuestos a lo largo del tiempo podría ser crucial para tomar medidas preventivas o correctivas en ciertos lugares.

3. **T (Temperatura), RH (Humedad relativa), AH (Humedad absoluta):**
   - Estas variables meteorológicas son fundamentales para comprender la influencia del clima en la calidad del aire. En un contexto comercial, podrían ser relevantes para entender las condiciones ambientales y cómo afectan la calidad del aire. Por ejemplo, ciertos niveles de temperatura y humedad podrían estar correlacionados con niveles más altos o más bajos de contaminantes en el aire.



In [11]:
dfAir.head()

Unnamed: 0,Date,Time,CO(GT),PT08.S1(CO),NMHC(GT),C6H6(GT),PT08.S2(NMHC),NOx(GT),PT08.S3(NOx),NO2(GT),PT08.S4(NO2),PT08.S5(O3),T,RH,AH,Unnamed: 15,Unnamed: 16
0,10/03/2004,18.00.00,26,1360.0,150.0,119,1046.0,166.0,1056.0,113.0,1692.0,1268.0,136,489,7578,,
1,10/03/2004,19.00.00,2,1292.0,112.0,94,955.0,103.0,1174.0,92.0,1559.0,972.0,133,477,7255,,
2,10/03/2004,20.00.00,22,1402.0,88.0,90,939.0,131.0,1140.0,114.0,1555.0,1074.0,119,540,7502,,
3,10/03/2004,21.00.00,22,1376.0,80.0,92,948.0,172.0,1092.0,122.0,1584.0,1203.0,110,600,7867,,
4,10/03/2004,22.00.00,16,1272.0,51.0,65,836.0,131.0,1205.0,116.0,1490.0,1110.0,112,596,7888,,


In [12]:
dfAir.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9471 entries, 0 to 9470
Data columns (total 17 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Date           9357 non-null   object 
 1   Time           9357 non-null   object 
 2   CO(GT)         9357 non-null   object 
 3   PT08.S1(CO)    9357 non-null   float64
 4   NMHC(GT)       9357 non-null   float64
 5   C6H6(GT)       9357 non-null   object 
 6   PT08.S2(NMHC)  9357 non-null   float64
 7   NOx(GT)        9357 non-null   float64
 8   PT08.S3(NOx)   9357 non-null   float64
 9   NO2(GT)        9357 non-null   float64
 10  PT08.S4(NO2)   9357 non-null   float64
 11  PT08.S5(O3)    9357 non-null   float64
 12  T              9357 non-null   object 
 13  RH             9357 non-null   object 
 14  AH             9357 non-null   object 
 15  Unnamed: 15    0 non-null      float64
 16  Unnamed: 16    0 non-null      float64
dtypes: float64(10), object(7)
memory usage: 1.2+ MB


# Dataset de uso de bicicletas

In [13]:
bikeDs = pd.read_csv("./bikeSharing/hour.csv", delimiter=',')

## Variables de interés en el segundo dataset:

1. **instant:**
   - Representa un identificador único para cada registro en el dataset. Es una variable de tipo entero (int64). En un contexto analítico, puede ser útil para identificar y referenciar registros específicos.

2. **dteday:**
   - Esta columna representa la fecha de las observaciones. Es de tipo objeto (object). Similar a Date en el conjunto de datos anterior, el análisis temporal basado en esta columna podría ser crucial para identificar patrones estacionales y tendencias a lo largo del tiempo.

3. **season, yr, mnth, hr, holiday, weekday, workingday:**
   - Estas columnas representan la información relacionada con la fecha y el tiempo, como la estación del año, el año, el mes, la hora, si es día festivo, el día de la semana y si es día laborable. Estos datos son de tipo entero (int64) y pueden ser cruciales para análisis temporales, comportamientos estacionales y patrones relacionados con días laborables o festivos.

4. **weathersit, temp, atemp, hum, windspeed:**
   - Estas variables representan datos meteorológicos y de condiciones climáticas. Weathersit es una medida de la situación meteorológica, mientras que temp, atemp, hum y windspeed representan la temperatura, sensación térmica, humedad y velocidad del viento, respectivamente. En un contexto analítico, estas variables son esenciales para comprender cómo las condiciones climáticas afectan el comportamiento de otras variables, como la cantidad de usuarios en cierto tipo de actividad o evento.

5. **casual, registered, cnt:**
   - Estas columnas representan la cantidad de usuarios en una actividad particular, divididos en usuarios casuales, usuarios registrados y el total (cnt). Estas variables de tipo entero (int64) pueden ser de gran interés en un contexto comercial, ya que podrían ayudar a comprender la demanda de ciertos servicios o actividades a lo largo del tiempo.

En resumen, este conjunto de datos contiene información detallada sobre el comportamiento de usuarios en función de variables temporales, climáticas y de la naturaleza de su actividad. Las variables más interesantes para un análisis analítico y comercial serían las relacionadas con la fecha, hora, condiciones climáticas y la cantidad de usuarios en diferentes categorías.

In [14]:
bikeDs.head()

Unnamed: 0,instant,dteday,season,yr,mnth,hr,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
0,1,2011-01-01,1,0,1,0,0,6,0,1,0.24,0.2879,0.81,0.0,3,13,16
1,2,2011-01-01,1,0,1,1,0,6,0,1,0.22,0.2727,0.8,0.0,8,32,40
2,3,2011-01-01,1,0,1,2,0,6,0,1,0.22,0.2727,0.8,0.0,5,27,32
3,4,2011-01-01,1,0,1,3,0,6,0,1,0.24,0.2879,0.75,0.0,3,10,13
4,5,2011-01-01,1,0,1,4,0,6,0,1,0.24,0.2879,0.75,0.0,0,1,1


In [15]:
bikeDs.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17379 entries, 0 to 17378
Data columns (total 17 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   instant     17379 non-null  int64  
 1   dteday      17379 non-null  object 
 2   season      17379 non-null  int64  
 3   yr          17379 non-null  int64  
 4   mnth        17379 non-null  int64  
 5   hr          17379 non-null  int64  
 6   holiday     17379 non-null  int64  
 7   weekday     17379 non-null  int64  
 8   workingday  17379 non-null  int64  
 9   weathersit  17379 non-null  int64  
 10  temp        17379 non-null  float64
 11  atemp       17379 non-null  float64
 12  hum         17379 non-null  float64
 13  windspeed   17379 non-null  float64
 14  casual      17379 non-null  int64  
 15  registered  17379 non-null  int64  
 16  cnt         17379 non-null  int64  
dtypes: float64(4), int64(12), object(1)
memory usage: 2.3+ MB
