<a href="https://colab.research.google.com/github/pablolube/Data-analyst-projects/blob/main/Data_Cleaning_Usuarios.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import pandas as pd
import numpy as np

#  ETL

## Importacion de datos

In [None]:
url = {} # Armo un diccionario con las urls de mi Github
usuarios={} # Armo un diccinario con los dataframes de mi Github
for i in range(2015, 2019):
    url[i] = "https://raw.githubusercontent.com/pablolube/Data-analyst-projects/refs/heads/main/Ecobicis_Analysis/Bases/usuarios-ecobici-" + str(i) + ".csv"
    usuarios[i] = pd.read_csv(url[i])
    print(f"Data del usuario {i} carga exitosa")

for i in range(2019, 2025):
    url[i] = "https://raw.githubusercontent.com/pablolube/Data-analyst-projects/refs/heads/main/Ecobicis_Analysis/Bases/usuarios_ecobici_" + str(i) + ".csv"
    usuarios[i] = pd.read_csv(url[i])
    print(f"Data del usuario {i} carga exitosa")

Data del usuario 2015 carga exitosa
Data del usuario 2016 carga exitosa
Data del usuario 2017 carga exitosa
Data del usuario 2018 carga exitosa
Data del usuario 2019 carga exitosa
Data del usuario 2020 carga exitosa
Data del usuario 2021 carga exitosa
Data del usuario 2022 carga exitosa


  usuarios[i] = pd.read_csv(url[i])


Data del usuario 2023 carga exitosa
Data del usuario 2024 carga exitosa


Imprimo cada Dataset para ver que datos contienen si es necesario hacer algun tipo de limpieza previo a la union de los dataframes


In [None]:
for i in range(2015, 2025):
    print(f"\n{'='*50}")
    print(f"Usuarios del año {i}".center(50))
    print(f"{'='*50}\n")

    # Verificar si hay datos para el año actual
    if i in usuarios:
        # Mostrar las primeras filas del DataFrame
        print(f"Primeros registros del año {i}:\n")
        print(usuarios[i].head().to_string(index=False))

        # Mostrar tipos de datos
        print(f"\n{'-'*20} Tipos de datos {'-'*20}")
        print(usuarios[i].dtypes)
    else:
        print(f"No se encontraron datos para el año {i}")





              Usuarios del año 2015               

Primeros registros del año 2015:

 id_usuario genero_usuario  edad_usuario fecha_alta  hora_alta
       7682              M            45   28-02-15 5:32:55 PM
      19577              M            47   28-02-15 5:33:12 PM
     108635              M            26   28-02-15 5:35:14 PM
     129948              M            29   28-02-15 5:35:43 PM
     129949              M            24   28-02-15 5:35:43 PM

-------------------- Tipos de datos --------------------
id_usuario         int64
genero_usuario    object
edad_usuario       int64
fecha_alta        object
hora_alta         object
dtype: object

              Usuarios del año 2016               

Primeros registros del año 2016:

 id_usuario genero_usuario  edad_usuario fecha_alta   hora_alta
     223858              M            41   01-01-16  3:45:19 AM
     223873              M            35   01-01-16 12:36:42 PM
     223874              M            47   01-01-16 12:45:4

**Conclusiones Iniciales Post-Importacion de de los Datos**

En primer lugar, se ha identificado que algunas columnas presentan nombres inconsistentes. Por ello, antes de proceder con la unión de los DataFrames, se realizará la homogeneización de los nombres de las columnas, incluyendo ajustes en campos como 'ID Cliente', 'ID Usuario' y 'Customer.Has.Dni..Yes...No.'.

Adicionalmente, se detectaron varias particularidades que, si bien no afectan directamente el proceso de integración, se ajustarán para garantizar la uniformidad de los datos:

1. A partir del año 2020, se incorporó una columna que indica si el cliente tiene DNI, lo que generó numerosos valores nulos en esta variable.

2. Los valores correspondientes a los géneros presentan formatos inconsistentes: algunas tablas utilizan 'Male' y 'Female', mientras que otras emplean las abreviaturas 'M' y 'F'.

3. Los valores relacionados con la hora de alta están representados en algunos casos en formato AM/PM, lo que requiere su normalización.

4. En cuanto a la fecha de alta, se observaron dos formatos distintos: año-mes-día y día-mes-año, los cuales deberán ser unificados.

5. Los DataFrames anteriores a 2019 tienen números en formato real (float), mientras que los posteriores los presentan como enteros (integer). Este aspecto será abordado con mayor detalle durante la limpieza posterior a la concatenación.

6. Varias columnas están etiquetadas como Object en lugar de sus formatos correspondientes, por lo que se realizarán las transformaciones necesarias.

## **Data Wrangling**

### DataFrame Formatting and Cleaning




In [None]:
for i in range (2015,2019):
  usuarios[i] = usuarios[i].rename(columns={'genero_usuario':'Genero','ID Cliente': 'ID_usuario','id_usuario': 'ID_usuario','edad_usuario':'Edad','Customer.Has.Dni..Yes...No.':'DNI','Customer Has Dni (Yes / No)':'DNI'})
  # Normalizacion en columna Genero
  usuarios[i]['Genero'] = usuarios[i]['Genero'].replace({'M':'MALE','F':'FEMALE','O':'OTHER'})

  # Fecha_alta ajuste el formato --> Datetime
  usuarios[i]['fecha_alta'] =pd.to_datetime(usuarios[i]['fecha_alta'] , format='%d-%m-%y')

  # hora_alta ajuste el formato AM/PM --> Time
  usuarios[i]['hora_alta'] = pd.to_datetime(usuarios[i]['hora_alta'], format='%I:%M:%S %p').dt.time



In [None]:
for i in range(2019, 2025):
  usuarios[i] = usuarios[i].rename(columns={'genero_usuario':'Genero','ID Cliente': 'ID_usuario','id_usuario': 'ID_usuario','edad_usuario':'Edad','Customer.Has.Dni..Yes...No.':'DNI','Customer Has Dni (Yes / No)':'DNI'})
  # Normalizacion en columna Genero
  usuarios[i]['Genero'] = usuarios[i]['Genero'].replace({'M':'MALE','F':'FEMALE','O':'OTHER'})

  # Fecha_alta ajuste el formato --> Datetime
  usuarios[i]['fecha_alta'] =pd.to_datetime(usuarios[i]['fecha_alta'])

  # hora_alta ajuste el formato --> Time
  usuarios[i]['hora_alta'] = pd.to_datetime(usuarios[i]['hora_alta'], format='%H:%M:%S').dt.time


### DataFrame Concatenation



In [None]:
# Copio el Dataframe
df_usuarios = usuarios[2015].copy()

# Agregar los demás DataFrames usando concat()
for i in range(2015, 2025):
    if i in usuarios:
        df_usuarios = pd.concat([df_usuarios, usuarios[i]], ignore_index=True, axis=0, sort=False)
    else:
        print(f"Warning: DataFrame for year {i} not found in 'usuarios' dictionary.")

# Previsualizo
df_usuarios

Unnamed: 0,ID_usuario,Genero,Edad,fecha_alta,hora_alta,DNI
0,7682,MALE,45.0,2015-02-28,17:32:55,
1,19577,MALE,47.0,2015-02-28,17:33:12,
2,108635,MALE,26.0,2015-02-28,17:35:14,
3,129948,MALE,29.0,2015-02-28,17:35:43,
4,129949,MALE,24.0,2015-02-28,17:35:43,
...,...,...,...,...,...,...
928803,1084451,OTHER,33,2024-01-01,22:25:31,No
928804,1084135,OTHER,40,2024-01-01,16:26:35,No
928805,1083797,FEMALE,19,2024-01-01,12:18:18,Yes
928806,1084368,OTHER,51,2024-01-01,18:59:58,No


### Missing values, duplicates, and inconsistencies

Revio tamaño del Dataframe

In [None]:
df_usuarios.shape

(928808, 6)

In [None]:
#Reviso valores nulos y tipos de dato
df_usuarios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 928808 entries, 0 to 928807
Data columns (total 6 columns):
 #   Column      Non-Null Count   Dtype         
---  ------      --------------   -----         
 0   ID_usuario  928808 non-null  int64         
 1   Genero      927689 non-null  object        
 2   Edad        928041 non-null  object        
 3   fecha_alta  928808 non-null  datetime64[ns]
 4   hora_alta   928808 non-null  object        
 5   DNI         610529 non-null  object        
dtypes: datetime64[ns](1), int64(1), object(4)
memory usage: 42.5+ MB


In [None]:
df_usuarios.head()

Unnamed: 0,ID_usuario,Genero,Edad,fecha_alta,hora_alta,DNI
0,7682,MALE,45.0,2015-02-28,17:32:55,
1,19577,MALE,47.0,2015-02-28,17:33:12,
2,108635,MALE,26.0,2015-02-28,17:35:14,
3,129948,MALE,29.0,2015-02-28,17:35:43,
4,129949,MALE,24.0,2015-02-28,17:35:43,


In [None]:
df_usuarios.tail()

Unnamed: 0,ID_usuario,Genero,Edad,fecha_alta,hora_alta,DNI
928803,1084451,OTHER,33,2024-01-01,22:25:31,No
928804,1084135,OTHER,40,2024-01-01,16:26:35,No
928805,1083797,FEMALE,19,2024-01-01,12:18:18,Yes
928806,1084368,OTHER,51,2024-01-01,18:59:58,No
928807,1083717,OTHER,49,2024-01-01,10:57:49,No


In [None]:
#Reviso valores unicos para ver si hat datos que estan de mas
df_usuarios.nunique().sort_values(ascending=True)

Unnamed: 0,0
DNI,2
Genero,3
Edad,286
fecha_alta,3460
hora_alta,79705
ID_usuario,860689


####**Edad Cleaning**

Tratando de transformar las edades en integer me di cuenta que habia algunos datos con ",".
Por lo que decidi inspecionar estos casos en detalle

In [None]:
Valores_coma=df_usuarios[df_usuarios['Edad'].str.contains(',', na=False)]
Valores_coma


Unnamed: 0,ID_usuario,Genero,Edad,fecha_alta,hora_alta,DNI
435498,811993,OTHER,2023,2021-11-20,15:52:24,No
532819,911079,OTHER,1019,2022-10-23,17:44:40,No
633038,1063435,OTHER,1015,2023-11-21,16:32:10,No
774453,1238144,MALE,2021,2024-10-27,20:08:47,Yes
810310,1202670,MALE,2018,2024-09-07,18:39:34,Yes
822918,1189702,FEMALE,2006,2024-08-09,22:34:35,No
845203,1167228,MALE,1013,2024-06-16,15:20:11,Yes
862137,1150325,FEMALE,1923,2024-04-29,13:33:57,Yes
881647,1130915,FEMALE,2018,2024-03-21,21:19:50,Yes
903131,1109473,MALE,2023,2024-02-11,20:24:45,Yes


Revisando los datos me di cuenta que tenia datos incoherentes, edades negativas y por fuera de los rangos habituales, por lo cual decidi transformar los valores negativos y los atipicos asignarles el valor de la mediana.

In [None]:
# Filtro los registros donde 'Edad' no sea un valor numérico
no_numericos = df_usuarios[~df_usuarios['Edad'].apply(pd.to_numeric, errors='coerce').notna()]

# Reviso los valores no numéricos
print("Cantidad de valores no numericos:\n")
print(no_numericos)
print("\n" + "="*30 + "\n")

print("Listado de valores no numericos")
print(df_usuarios['Edad'].isnull().sum())
print("\n" + "="*30 + "\n")

# Revise las fechas de esos valores, porque me dio curiosidad de ver si eran de un año en particular, por si hubo algo en particular ese año que haya cambiado respecto a otros
print("Listado de valores no numericos por año")
print(no_numericos['fecha_alta'].dt.year.value_counts())


Cantidad de valores no numericos:

        ID_usuario  Genero   Edad fecha_alta hora_alta  DNI
312367       25237     NaN    NaN 2019-03-04  02:54:45  NaN
312368       25463     NaN    NaN 2019-03-04  08:12:28  NaN
312410       25336     NaN    NaN 2019-03-04  05:26:36  NaN
312425       25264     NaN    NaN 2019-03-04  03:38:03  NaN
312430       25346     NaN    NaN 2019-03-04  05:52:12  NaN
...            ...     ...    ...        ...       ...  ...
822918     1189702  FEMALE  2,006 2024-08-09  22:34:35   No
845203     1167228    MALE  1,013 2024-06-16  15:20:11  Yes
862137     1150325  FEMALE  1,923 2024-04-29  13:33:57  Yes
881647     1130915  FEMALE  2,018 2024-03-21  21:19:50  Yes
903131     1109473    MALE  2,023 2024-02-11  20:24:45  Yes

[777 rows x 6 columns]


Listado de valores no numericos
767


Listado de valores no numericos por año
fecha_alta
2019    765
2024      7
2020      2
2021      1
2022      1
2023      1
Name: count, dtype: int64


In [None]:
#Transformo valores en numericos, aquellos que no corresponden los pongo como Na
df_usuarios['Edad']=pd.to_numeric(df_usuarios['Edad'],errors='coerce')

# Los numeros negativos los transformo en numeros positivos
df_usuarios.loc[df_usuarios['Edad'] < 0, 'Edad'] = df_usuarios['Edad'] * -1

#Las edades fuera del rango habitual las transformo en dato Nan
df_usuarios.loc[df_usuarios['Edad'] > 100, 'Edad'] = np.NAN
df_usuarios.loc[df_usuarios['Edad'] < 10, 'Edad'] = np.NAN

#Reemplazo los valores Nan por la mediana
df_usuarios['Edad'].fillna(df_usuarios['Edad'].median(), inplace=True)

#Transformo la Edad de un tipo Object a un Integer
df_usuarios['Edad']=df_usuarios['Edad'].astype(int)



The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_usuarios['Edad'].fillna(df_usuarios['Edad'].median(), inplace=True)


Reviso que todos los cambios esten bien realizados

In [None]:
# prompt: print(df_usuarios['Edad'].pd.dtype())

print(df_usuarios['Edad'].dtype)

int64


#### **Datetime Cleaning**

In [None]:
fecha_alta_nulos=df_usuarios[df_usuarios['fecha_alta'].isnull()]
fecha_alta_nulos

Unnamed: 0,ID_usuario,Genero,Edad,fecha_alta,hora_alta,DNI


In [None]:
print("\n**Distribución de fechas**\n")

# Años
print("Años:\n")
print(df_usuarios['fecha_alta'].dt.year.value_counts().sort_index().to_string())
print("\n" + "="*30 + "\n")

# Meses
print("Meses:\n")
print(df_usuarios['fecha_alta'].dt.month.value_counts().sort_index().to_string())
print("\n" + "="*30 + "\n")

# Días
print("Días:\n")
print(df_usuarios['fecha_alta'].dt.day.value_counts().sort_index().to_string())
print("\n" + "="*30)



**Distribución de fechas**

Años:

fecha_alta
2015     80794
2016     39481
2017     58222
2018     56182
2019     83600
2020    107166
2021     81577
2022    105997
2023    136066
2024    179723


Meses:

fecha_alta
1      80764
2      70930
3      74680
4      69199
5      72331
6      60811
7      66279
8      87594
9      98307
10    101566
11     93758
12     52589


Días:

fecha_alta
1     29458
2     28949
3     27953
4     29761
5     29507
6     30532
7     42558
8     32026
9     31816
10    30174
11    29234
12    28726
13    29538
14    30124
15    30636
16    30366
17    28760
18    30650
19    28632
20    29521
21    28872
22    30187
23    30434
24    28437
25    36525
26    29143
27    30369
28    35142
29    29122
30    26201
31    15455



No hay nada que limpiar en la fechas, no hay nulos y valores fuera de los rangos

**Horas revisión**

In [None]:
df_usuarios['hora_alta'].isnull().sum()

0

In [None]:
df_usuarios['hora_alta'].value_counts()

Unnamed: 0_level_0,count
hora_alta,Unnamed: 1_level_1
17:35:44,1542
05:15:14,1309
05:15:13,1291
05:15:15,1251
17:35:45,1244
...,...
02:50:10,1
02:47:28,1
06:48:14,1
07:34:19,1


#### ID_Usuarios Cleaning

In [None]:
# Check for duplicates based on 'ID_usuario' and count them
duplicate_count = df_usuarios.duplicated(subset='ID_usuario').sum()
print(f"Number of duplicate 'ID_usuario' values: {duplicate_count}")


Number of duplicate 'ID_usuario' values: 68119


Me llama la atención la cantidad de datos duplicados, por lo que me dan dudas de si hubo algun cambio dentro de id_usuario entre años

In [None]:
#Quiero ver si hubo algun
# Convert 'fecha_alta' to datetime if it's not already
df_usuarios['fecha_alta'] = pd.to_datetime(df_usuarios['fecha_alta'])

# Extract the year
df_usuarios['Year'] = df_usuarios['fecha_alta'].dt.year

# Group data by year
for year in df_usuarios['Year'].unique():
    year_df = df_usuarios[df_usuarios['Year'] == year]

    # Get the top 3 highest and lowest IDs
    bottom_3_ids = year_df.nsmallest(3, 'ID_usuario')['ID_usuario'].tolist()
    top_3_ids = year_df.nlargest(3, 'ID_usuario')['ID_usuario'].tolist()

    print(f"Year: {year}")
    print("Bottom 3 Lowest IDs:", bottom_3_ids)
    print("Top 3 Highest IDs:", top_3_ids)
    print("-" * 20)

Year: 2015
Bottom 3 Lowest IDs: [7682, 7682, 19577]
Top 3 Highest IDs: [223847, 223847, 223845]
--------------------
Year: 2016
Bottom 3 Lowest IDs: [223858, 223873, 223874]
Top 3 Highest IDs: [336109, 336107, 336104]
--------------------
Year: 2017
Bottom 3 Lowest IDs: [336112, 336114, 336119]
Top 3 Highest IDs: [494671, 494664, 494659]
--------------------
Year: 2018
Bottom 3 Lowest IDs: [131987, 132072, 132096]
Top 3 Highest IDs: [672973, 672938, 672933]
--------------------
Year: 2019
Bottom 3 Lowest IDs: [42, 59, 63]
Top 3 Highest IDs: [628357, 628342, 628326]
--------------------
Year: 2020
Bottom 3 Lowest IDs: [628360, 628361, 628362]
Top 3 Highest IDs: [735971, 735970, 735969]
--------------------
Year: 2021
Bottom 3 Lowest IDs: [735972, 735973, 735974]
Top 3 Highest IDs: [822846, 822845, 822844]
--------------------
Year: 2022
Bottom 3 Lowest IDs: [822847, 822848, 822849]
Top 3 Highest IDs: [939852, 939851, 939850]
--------------------
Year: 2023
Bottom 3 Lowest IDs: [939855, 

Por lo visto hubo un reseteo del numero de ID en 2019, por esta situacion voy a limpiar duplicados considerando los años 2015 a 2018 y 2019 a 2024





In [None]:
df_usuarios= df_usuarios.drop_duplicates(keep='first')

In [None]:
df_usuarios

Unnamed: 0,ID_usuario,Genero,Edad,fecha_alta,hora_alta,DNI,Year
0,7682,MALE,45,2015-02-28,17:32:55,,2015
1,19577,MALE,47,2015-02-28,17:33:12,,2015
2,108635,MALE,26,2015-02-28,17:35:14,,2015
3,129948,MALE,29,2015-02-28,17:35:43,,2015
4,129949,MALE,24,2015-02-28,17:35:43,,2015
...,...,...,...,...,...,...,...
928803,1084451,OTHER,33,2024-01-01,22:25:31,No,2024
928804,1084135,OTHER,40,2024-01-01,16:26:35,No,2024
928805,1083797,FEMALE,19,2024-01-01,12:18:18,Yes,2024
928806,1084368,OTHER,51,2024-01-01,18:59:58,No,2024


En el año 2019, se implementó un cambio de sistema que pasó a estar patrocinado por Itaú. Como consecuencia, las claves de identificación (ID) fueron reiniciadas. Ante esta situación, se decidió gestionar los registros duplicados de manera diferenciada: separando los casos ocurridos antes de 2019 de aquellos posteriores.

Separo Dataframes en 2

In [None]:
df1=df_usuarios[df_usuarios['fecha_alta'].dt.year<2019]
df2=df_usuarios[df_usuarios['fecha_alta'].dt.year>=2019]


Borro duplicados de 2019

In [None]:
df1=df1.drop_duplicates(subset='ID_usuario', keep='first')


Concatenos los 2 Dataframes

In [None]:
df_usuarios=pd.concat([df1,df2])

Finalmente decidi dejar solo los ultimos

In [None]:
df_usuarios = df_usuarios.sort_values(by='fecha_alta', ascending=False)
df_usuarios = df_usuarios.drop_duplicates(subset='ID_usuario', keep='first')

In [None]:
# prompt: unificar fecha alta hora alta en una columna tipo datetime

# Combine 'fecha_alta' and 'hora_alta' into a single datetime column
df_usuarios['Fecha_hora_alta'] = pd.to_datetime(df_usuarios['fecha_alta'].dt.strftime('%Y-%m-%d') + ' ' + df_usuarios['hora_alta'].astype(str))

In [None]:
df_usuarios.drop(['fecha_alta', 'hora_alta','Year'], axis=1, inplace=True)
df_usuarios


Unnamed: 0,ID_usuario,Genero,Edad,DNI,Fecha_hora_alta
749546,1262984,OTHER,32,No,2024-12-03 16:03:57
749477,1263089,MALE,19,No,2024-12-03 17:49:14
749479,1263032,MALE,32,No,2024-12-03 16:49:34
749480,1263059,MALE,23,No,2024-12-03 17:23:44
749481,1262776,FEMALE,39,No,2024-12-03 11:12:39
...,...,...,...,...,...
1300,131246,MALE,31,,2015-02-28 17:35:44
1301,131251,MALE,35,,2015-02-28 17:35:44
1302,131250,MALE,45,,2015-02-28 17:35:44
1303,131249,MALE,52,,2015-02-28 17:35:44


## Guardado en Base de Datos

In [None]:
!pip install pandas sqlalchemy mysql-connector-python




In [None]:
from sqlalchemy import create_engine

# Configurar el motor de conexión
engine = create_engine(
    'mysql+mysqlconnector://up7msjmoylataglx:fKUhm4qOu1jQsHinvbOQ@bobjam16ouqkiv5dd4ud-mysql.services.clever-cloud.com:3306/bobjam16ouqkiv5dd4ud'
)

In [None]:
chunksize = 10000  # Ajusta este valor según sea necesario
cargado = 0

for i in range(0, len(df_usuarios), chunksize):
    # Divide el DataFrame en chunks
    chunk = df_usuarios[i:i + chunksize]

    try:
        # Carga el chunk en la base de datos
        chunk.to_sql(
            name='usuarios',
            con=engine,
            if_exists='append',  # Cambiar a 'append' para cargar chunks posteriores
            index=False
        )
        # Actualiza el contador
        cargado += len(chunk)
        print(f"{cargado} registros cargados")
    except Exception as e:
        print(f"Error al cargar el chunk desde {i} hasta {i + chunksize}: {e}")


10000 registros cargados
20000 registros cargados
30000 registros cargados
40000 registros cargados
50000 registros cargados
60000 registros cargados
70000 registros cargados
80000 registros cargados
90000 registros cargados
100000 registros cargados
110000 registros cargados
120000 registros cargados
130000 registros cargados
140000 registros cargados
150000 registros cargados
160000 registros cargados
170000 registros cargados
180000 registros cargados
190000 registros cargados
200000 registros cargados
210000 registros cargados
220000 registros cargados
230000 registros cargados
240000 registros cargados
250000 registros cargados
260000 registros cargados
270000 registros cargados
280000 registros cargados
290000 registros cargados
300000 registros cargados
310000 registros cargados
320000 registros cargados
330000 registros cargados
340000 registros cargados
350000 registros cargados
360000 registros cargados
370000 registros cargados
380000 registros cargados
390000 registros carg