# Documentacion de las columnas segun origen : 

https://www.datos.gob.ar/dataset/transporte-sube---cantidad-transacciones-usos-por-fecha/archivo/transporte_93410ab1-88df-457a-8e24-262d41211f9c


### dia_transporte 
	Fecha ISO-8601 (date)
	Día de transporte informado 
    
### nombre_empresa 
	Texto (string)
	Nombre de la empresa de transporte 
    
### linea 
	Texto (string)
	Descripción de la línea 

### amba 
	Texto (string)
	SI/NO 
    
### tipo_transporte 
	Texto (string)
	colectivo, tren, subte, lanchas 
    
### jurisdiccion 
	Texto (string)
	tipo de jurisdicción de la línea (NACIONAL, PROVINCIAL, MUNICIPAL): en caso de subte queda vacío. 
    
    
### provincia 
	Texto (string)
	nombre de la provincia, en caso de ser jurisdicción provincial o municipal. Si es jurisdicción nacional figura JN. En caso de subte queda vacío.
    
### municipio 
	Texto (string)
	nombre del municipio, en caso de ser jurisdicción municipal. SI es jurisdicción nacional o provincial figura SD o SN respectivamente. En caso de subte queda vacío.
    
### cantidad 
	Número entero (integer)
	cantidad de transacciones de uso / check-in / checkout sin checkin / Venta de boletos, neteadas de eventuales reversas.
    
### dato_preliminar 
	Texto (string)
	SI/NO 


In [20]:
# Limpieza de los datos para que solo tengamos informacion acerca de los trenes 

In [21]:
import pandas as pd

In [22]:
df = pd.read_csv('datosoficiales2022.csv')

In [23]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 439337 entries, 0 to 439336
Data columns (total 10 columns):
 #   Column           Non-Null Count   Dtype 
---  ------           --------------   ----- 
 0   DIA_TRANSPORTE   439337 non-null  object
 1   NOMBRE_EMPRESA   439337 non-null  object
 2   LINEA            439337 non-null  object
 3   AMBA             439337 non-null  object
 4   TIPO_TRANSPORTE  439337 non-null  object
 5   JURISDICCION     436762 non-null  object
 6   PROVINCIA        436762 non-null  object
 7   MUNICIPIO        436762 non-null  object
 8   CANTIDAD         439337 non-null  int64 
 9   DATO_PRELIMINAR  439337 non-null  object
dtypes: int64(1), object(9)
memory usage: 33.5+ MB


In [24]:
# Elimina las filas donde TIPO_TRANSPORTE sea diferente de 'TREN'
df = df[df['TIPO_TRANSPORTE'] == 'TREN']


In [25]:
df['DIA_TRANSPORTE']
print(df['DIA_TRANSPORTE'].dtype)


object


In [27]:
# los datos no estan en el formato correcto, los transformamos.

df['DIA_TRANSPORTE'] = pd.to_datetime(df['DIA_TRANSPORTE'], format='%Y-%m-%d', errors='coerce')
print(df['DIA_TRANSPORTE'].dtype)


datetime64[ns]


In [30]:
df['DIA_SEMANA'] = df['DIA_TRANSPORTE'].dt.day_name()

# Colocamos las columnas en un orden conveniente para trabajar : 
# Reorganiza las columnas para que 'DIA_SEMANA' esté en la posición 1
df = df[['DIA_TRANSPORTE', 'DIA_SEMANA', 'NOMBRE_EMPRESA', 'LINEA', 'AMBA', 'TIPO_TRANSPORTE', 'JURISDICCION', 'PROVINCIA', 'MUNICIPIO', 'CANTIDAD', 'DATO_PRELIMINAR']]


In [31]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6629 entries, 346 to 438551
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   DIA_TRANSPORTE   6629 non-null   datetime64[ns]
 1   DIA_SEMANA       6629 non-null   object        
 2   NOMBRE_EMPRESA   6629 non-null   object        
 3   LINEA            6629 non-null   object        
 4   AMBA             6629 non-null   object        
 5   TIPO_TRANSPORTE  6629 non-null   object        
 6   JURISDICCION     6629 non-null   object        
 7   PROVINCIA        6629 non-null   object        
 8   MUNICIPIO        6629 non-null   object        
 9   CANTIDAD         6629 non-null   int64         
 10  DATO_PRELIMINAR  6629 non-null   object        
dtypes: datetime64[ns](1), int64(1), object(9)
memory usage: 621.5+ KB


In [33]:
# Guardamos el DataFrame modificado en un archivo CSV con un nombre específico
df.to_csv('datosoficiales2022_trenes.csv', index=False)