In [2]:
pip install pandas matplotlib streamlit

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 24.3.1 -> 25.0.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [6]:
import pandas as pd

df = pd.read_csv("usuarios_ecobici.csv")
df.head()

Unnamed: 0,id_usuario,genero_usuario,edad_usuario,fecha_alta,hora_alta
0,1094487,OTHER,35,2024-01-18,09:21:02
1,1097128,FEMALE,21,2024-01-21,23:02:26
2,1102901,OTHER,19,2024-01-29,19:33:32
3,1096100,FEMALE,29,2024-01-20,18:57:05
4,1103049,MALE,21,2024-01-30,00:49:33


In [20]:
print(df.shape)
print(df.columns)
print(df.dtypes)

(197077, 5)
Index(['id_usuario', 'genero_usuario', 'edad_usuario', 'fecha_alta',
       'hora_alta'],
      dtype='object')
id_usuario         int64
genero_usuario    object
edad_usuario       int64
fecha_alta        object
hora_alta         object
dtype: object


In [17]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 197077 entries, 0 to 197076
Data columns (total 5 columns):
 #   Column          Non-Null Count   Dtype 
---  ------          --------------   ----- 
 0   id_usuario      197077 non-null  int64 
 1   genero_usuario  197077 non-null  object
 2   edad_usuario    197077 non-null  int64 
 3   fecha_alta      197077 non-null  object
 4   hora_alta       197077 non-null  object
dtypes: int64(2), object(3)
memory usage: 7.5+ MB
None


In [16]:
df.isnull().sum()

id_usuario        0
genero_usuario    0
edad_usuario      0
fecha_alta        0
hora_alta         0
dtype: int64

# Ver cuantos duplicados hay

In [21]:

print(df.duplicated().sum())

0


# Corregir tipos de datos
Actualmente , fecha_alta y hora_alta estan como object, pero podrian convertirse a tipo de hora y fecha

In [22]:
df['fecha_alta'] = pd.to_datetime(df['fecha_alta'], errors='coerce')
df['hora_alta'] = pd.to_datetime(df['hora_alta'], format='%H:%M:%S', errors='coerce').dt.time

In [25]:
print(df.dtypes)

id_usuario                 int64
genero_usuario            object
edad_usuario               int64
fecha_alta        datetime64[ns]
hora_alta                 object
dtype: object


# Limpiar valores inconsistentes (por ejemplo, en genero_usuario)

In [None]:
# Ver valores únicos en genero_usuario
print(df['genero_usuario'].unique())

['OTHER' 'FEMALE' 'MALE']


# Proceder a mostrar los valores de una forma mas comun:

In [29]:
# Limpiar y normalizar
df['genero_usuario'] = df['genero_usuario'].str.strip().str.lower()

# Reemplazo por etiquetas estándar en español
df['genero_usuario'] = df['genero_usuario'].replace({
    'male': 'masculino',
    'female': 'femenino',
    'other': 'otro'
})

In [30]:
df.head()

Unnamed: 0,id_usuario,genero_usuario,edad_usuario,fecha_alta,hora_alta
0,1094487,otro,35,2024-01-18,09:21:02
1,1097128,femenino,21,2024-01-21,23:02:26
2,1102901,otro,19,2024-01-29,19:33:32
3,1096100,femenino,29,2024-01-20,18:57:05
4,1103049,masculino,21,2024-01-30,00:49:33


# Revisar valores extraños en edad

In [49]:
print(df['edad_usuario'].describe().round().astype(int))

count    197007
mean         31
std          12
min           4
25%          21
50%          27
75%          37
max          98
Name: edad_usuario, dtype: int64


# Coloco nombres mas comunes a las columnas y evitando la redundancia

In [51]:
df = df.rename(columns={
    'id_usuario': 'id',
    'genero_usuario': 'genero',
    'edad_usuario': 'edad',
    'fecha_alta': 'fecha',
    'hora_alta': 'hora'
})

In [52]:
df.head()

Unnamed: 0,id,genero,edad,fecha,hora
0,1094487,otro,35,2024-01-18,09:21:02
1,1097128,femenino,21,2024-01-21,23:02:26
2,1102901,otro,19,2024-01-29,19:33:32
3,1096100,femenino,29,2024-01-20,18:57:05
4,1103049,masculino,21,2024-01-30,00:49:33


# Creamos un nuevo csv con nuestros df limpio

In [53]:
df.to_csv("usuarios_ecobici_limpio.csv", index=False)

In [54]:
df.head()

Unnamed: 0,id,genero,edad,fecha,hora
0,1094487,otro,35,2024-01-18,09:21:02
1,1097128,femenino,21,2024-01-21,23:02:26
2,1102901,otro,19,2024-01-29,19:33:32
3,1096100,femenino,29,2024-01-20,18:57:05
4,1103049,masculino,21,2024-01-30,00:49:33
