## Importar librerias y archivo de trafico

In [2]:
import pandas as pd

# Ruta al archivo CSV
file_path = 'Automated_Traffic_Volume_Counts_20241108.csv'

# Leer el archivo CSV
df = pd.read_csv(file_path)

# Mostrar las columnas del dataset
print("Columnas del dataset:")
print(df.columns)

# Mostrar las primeras filas del dataset para tener una idea de los datos
print("\nPrimeras filas del dataset:")
print(df.head())



Columnas del dataset:
Index(['RequestID', 'Boro', 'Yr', 'M', 'D', 'HH', 'MM', 'Vol', 'SegmentID',
       'WktGeom', 'street', 'fromSt', 'toSt', 'Direction'],
      dtype='object')

Primeras filas del dataset:
   RequestID    Boro    Yr  M   D  HH  MM  Vol  SegmentID  \
0      32970  Queens  2021  4  30   2   0    0     149701   
1      32970  Queens  2021  4  30   2  15    1     149701   
2      32970  Queens  2021  4  30   2  30    0     149701   
3      32970  Queens  2021  4  30   2  45    0     149701   
4      32970  Queens  2021  4  30   3   0    1     149701   

                                        WktGeom          street  \
0  POINT (997407.0998491726 208620.92612708386)  PULASKI BRIDGE   
1  POINT (997407.0998491726 208620.92612708386)  PULASKI BRIDGE   
2  POINT (997407.0998491726 208620.92612708386)  PULASKI BRIDGE   
3  POINT (997407.0998491726 208620.92612708386)  PULASKI BRIDGE   
4  POINT (997407.0998491726 208620.92612708386)  PULASKI BRIDGE   

                    f

## Se eliminan columnas irrelevantes para el analisis

In [3]:
columnas_a_eliminar = [
    'RequestID',  # ID de la solicitud, probablemente irrelevante para el análisis.
    'WktGeom',    # Coordenadas geométricas en formato WKT, no necesarias para el análisis actual.
    'street',     # Nombre de la calle, podría no ser necesario dependiendo del análisis.
    'fromSt',     # Calle de origen, podría no ser necesaria.
    'toSt',       # Calle de destino, podría no ser necesaria.
    'Direction'   # Dirección del tráfico, podría no ser necesaria para algunos tipos de análisis.
]

# Eliminar las columnas del DataFrame
df = df.drop(columns=columnas_a_eliminar, errors='ignore')

# Mostrar las primeras filas del DataFrame limpio
print(df.head())

     Boro    Yr  M   D  HH  MM  Vol  SegmentID
0  Queens  2021  4  30   2   0    0     149701
1  Queens  2021  4  30   2  15    1     149701
2  Queens  2021  4  30   2  30    0     149701
3  Queens  2021  4  30   2  45    0     149701
4  Queens  2021  4  30   3   0    1     149701


# Mostrar la cantidad de filas en el DataFrame


In [4]:
# Mostrar la cantidad de filas en el DataFrame
print("Cantidad de filas en el DataFrame:")
print(df.shape[0])

Cantidad de filas en el DataFrame:
1712605


# Mostrar la cantidad de valores nulos en cada columna del DataFrame

In [5]:
# Mostrar la cantidad de valores nulos en cada columna del DataFrame
print("Cantidad de valores nulos en cada columna:")
print(df.isnull().sum())

Cantidad de valores nulos en cada columna:
Boro         0
Yr           0
M            0
D            0
HH           0
MM           0
Vol          0
SegmentID    0
dtype: int64


# Buscar duplicados en el DataFrame
**SE CONSERVAN**
Motivo: Los datos de tráfico recolectados en intervalos de tiempo muy cortos pueden mostrar pocas variaciones entre registros consecutivos, resultando en duplicaciones aparentes.

In [6]:
# Buscar filas duplicadas donde todos los datos sean iguales
duplicados_completos = df[df.duplicated()]

# Mostrar las filas duplicadas
print("Filas duplicadas donde todos los datos son iguales:")
print(duplicados_completos)

Filas duplicadas donde todos los datos son iguales:
             Boro    Yr  M   D  HH  MM  Vol  SegmentID
15837      Queens  2020  9   7  12  15   56      91184
21967      Queens  2020  9   7  21  30   29      91184
21978      Queens  2020  9   8   0  15   12      91184
21993      Queens  2020  9   8   4   0    4      91184
23662    Brooklyn  2015  5  17  10   0  170      20379
...           ...   ... ..  ..  ..  ..  ...        ...
1711018    Queens  2015  5   1   3  30   22      62117
1712593    Queens  2014  6  28  13  15    5      90610
1712594    Queens  2014  6  28  13  30    5      90610
1712596    Queens  2014  6  28  14   0    1      90610
1712600    Queens  2014  6  28  15   0    6      90610

[7701 rows x 8 columns]


# Unir las columnas yr, M, D, HH, MM en una sola columna de tipo datetime


In [11]:
# Asegúrate de que las columnas tengan los nombres correctos
df.rename(columns={'yr': 'Yr', 'm': 'M', 'd': 'D', 'hh': 'HH', 'mm': 'MM'}, inplace=True)

# Unir las columnas Yr, M, D, HH, MM en una sola columna de tipo datetime
df['datetime'] = pd.to_datetime(df[['Yr', 'M', 'D', 'HH', 'MM']].rename(columns={'Yr': 'year', 'M': 'month', 'D': 'day', 'HH': 'hour', 'MM': 'minute'}))

# Eliminar las columnas originales
df.drop(columns=['Yr', 'M', 'D', 'HH', 'MM'], inplace=True)

# Mostrar las primeras filas del DataFrame para verificar la nueva columna
print(df.head())

     Boro  Vol  SegmentID            datetime
0  Queens    0     149701 2021-04-30 02:00:00
1  Queens    1     149701 2021-04-30 02:15:00
2  Queens    0     149701 2021-04-30 02:30:00
3  Queens    0     149701 2021-04-30 02:45:00
4  Queens    1     149701 2021-04-30 03:00:00
