<a href="https://colab.research.google.com/github/SandyAtencio/Cleaning_data_Python_Part_1/blob/master/Cleaning_data_Python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### **⚠️😓Problemas comunes de datos**
A continuacion vamos a trabajar sobre un dataset que contiene datos sucios, al cual le vamos a aplicar tecnicas de limpieza como:

✔️Conversion de tipos de datos<br>
✔️Eliminacion de datos duplicados para evitar el doble conteo<br>
✔️Restrinccion de rangos para evitar datos futuros incoherentes

**🧾Informacion del Dataset**<br>
El dataset que estaremos trabajando comprende informacion sobre las estaciones de inicio y finalización, la duración del viaje y cierta información para el usuario de un servicio de bicicletas compartidas.

In [1]:
import pandas as pd
import numpy as np
import datetime as dt

In [2]:
df_ride = pd.read_csv('ride_sharing_new.csv')
#veamos que tiene el dataset
df_ride

Unnamed: 0,ride_id,duration,station_A_id,station_A_name,station_B_id,station_B_name,bike_id,user_type,user_birth_year,user_gender,tire_sizes,ride_date
0,0,12 minutes,81,Berry St at 4th St,323,Broadway at Kearny,5480,2,1959,Male,27,19/01/2020
1,1,24 minutes,3,Powell St BART Station (Market St at 4th St),118,Eureka Valley Recreation Center,5193,2,1965,Male,27,24/10/2018
2,2,8 minutes,67,San Francisco Caltrain Station 2 (Townsend St...,23,The Embarcadero at Steuart St,3652,3,1993,Male,29,21/01/2020
3,3,4 minutes,16,Steuart St at Market St,28,The Embarcadero at Bryant St,1883,1,1979,Male,26,22/01/2020
4,4,11 minutes,22,Howard St at Beale St,350,8th St at Brannan St,4626,2,1994,Male,27,23/01/2020
...,...,...,...,...,...,...,...,...,...,...,...,...
71,99,9 minutes,16,Steuart St at Market St,93,4th St at Mission Bay Blvd S,5125,1,1988,Male,27,3/08/2018
72,71,11 minutes,3,Powell St BART Station (Market St at 5th St),44,The Embarcadero at Sansome St,4805,2,1987,Male,27,4/08/2018
73,71,11 minutes,3,Powell St BART Station (Market St at 5th St),44,The Embarcadero at Sansome St,4805,2,1987,Male,27,4/08/2018
74,89,9 minutes,15,San Francisco Ferry Building (Harry Bridges Pl...,81,Berry St at 4th St,5552,1,1990,Male,26,6/08/2018


In [3]:
df_ride.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 76 entries, 0 to 75
Data columns (total 12 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   ride_id          76 non-null     int64 
 1   duration         76 non-null     object
 2   station_A_id     76 non-null     int64 
 3   station_A_name   76 non-null     object
 4   station_B_id     76 non-null     int64 
 5   station_B_name   76 non-null     object
 6   bike_id          76 non-null     int64 
 7   user_type        76 non-null     int64 
 8   user_birth_year  76 non-null     int64 
 9   user_gender      76 non-null     object
 10  tire_sizes       76 non-null     int64 
 11  ride_date        76 non-null     object
dtypes: int64(7), object(5)
memory usage: 7.2+ KB


La columna `user_type` contiene información sobre si un usuario está viajando gratis y toma los siguientes valores:

🚴‍♂️ `1` de viaje gratis <br>
🚴‍♂️ `2` de pago por viaje <br>
🚴‍♂️ `3` de suscriptores mensuales <br>

In [4]:
#utilizamos describe para ver el resumen estadistico de los datos de la columna user_type
df_ride['user_type'].describe()

count    76.000000
mean      1.881579
std       0.692187
min       1.000000
25%       1.000000
50%       2.000000
75%       2.000000
max       3.000000
Name: user_type, dtype: float64

In [5]:
# Corroborar si faltan valores en los datos
df_ride.isnull().sum()

ride_id            0
duration           0
station_A_id       0
station_A_name     0
station_B_id       0
station_B_name     0
bike_id            0
user_type          0
user_birth_year    0
user_gender        0
tire_sizes         0
ride_date          0
dtype: int64

In [6]:
# Comprobar valores perdidos. Exactamente lo mismo que la linea anterior
df_ride.isna().any()

ride_id            False
duration           False
station_A_id       False
station_A_name     False
station_B_id       False
station_B_name     False
bike_id            False
user_type          False
user_birth_year    False
user_gender        False
tire_sizes         False
ride_date          False
dtype: bool

👁️‍🗨️ Al observar las estadisticas resumidas de la columna `user_type` vemos que  tiene un conjunto finito de valores posibles que representan agrupaciones de datos, por ende, debemos convertir esta columna a tipo categoría.

In [7]:
#podemos a cambiar el tipo de dato con astype, y se lo asignamos a la nueva columna
df_ride['user_type'] = df_ride['user_type'].astype('category')

#Para asegurarnos que la conversion fue correcta utilizamos la declaracion assert
assert df_ride['user_type'].dtype == 'category'

#y nuevamente observamos las estadisticas resumidas de la nueva columna, y podemos ver que
#el resultado cambia al tratarse de una variable categorica
print(df_ride['user_type'].describe())

count     76
unique     3
top        2
freq      39
Name: user_type, dtype: int64


🧹Ahora bien, siguiendo con nuestra limpieza debemos evitar la inconsistencia de tipo de datos, es decir, debemos asegurarnos que los datos de tipo numericos sean numericos y asi sucesivamente con los demas datos. Esto se hace con el fin de que las operaciones matematicas que querramos realizar sobre esos datos arrojen resultados correctos y no erroneos.

Despues de haber revisado que contiene nuestro dataset, vamos a convertir la columna `duration` que es de tipo `object` a tipo `int`. Sin embargo, antes de eso, debemos asegurarnos de eliminar la palabra "minutes" para asi poderla convertir a numerica.

In [8]:
#eliminamos la cadena minutes con el metodo strip
df_ride['duration'] = df_ride['duration'].str.strip('minutes')
df_ride['duration']


0     12 
1     24 
2      8 
3      4 
4     11 
     ... 
71     9 
72    11 
73    11 
74     9 
75     9 
Name: duration, Length: 76, dtype: object

In [9]:
#convertirmos duration a tipo int
df_ride['duration'] = df_ride['duration'].astype('int')

#Para asegurarnos que la conversion fue correcta utilizamos la declaracion assert
assert df_ride['duration'].dtype == 'int'

#Finalmente conocemos cual es la media de la columna duration_time
print(df_ride['duration'].mean())

12.776315789473685


Ahora vamos a trabajar sobre la columna `tire_size` la cual contiene datos sobre el tamaño de los neumáticos de cada bicicleta. el tamaño de los neumáticos de las bicicletas pueden ser 26" 27" y 29" y son almacenados con un valor float.

Actualmente se quieren reducir los costos de mantenimiento, por consiguiente el proveedor decidió establecer el tamaño máximo de neumáticos en 27. Respecto a esto  vamos a asegurarnos de que la columna  `tire_sizes` tenga el rango correcto para esto establecemos el nuevo limite superior 27" para los tamaños de neumáticos, y despues convirtimos la columna a tipo categoria.

In [10]:
#usamos loc para seleccionar todo esos registros mayores a 27 establecerle el limite superior que es 27
df_ride.loc[df_ride['tire_sizes'] > 27, 'tire_sizes'] = 27
df_ride.head(10)

#convetirmos a tipo categorico
df_ride['tire_sizes'] = df_ride['tire_sizes'].astype('category')

df_ride['tire_sizes'].describe()

count     76
unique     2
top       27
freq      73
Name: tire_sizes, dtype: int64

📅 Ahora procederemos a encontrar todos los registros de la columna `ride_date` que tengan fechas futura, en caso de que si exista esta inconsistencia, lo que haremos sera establecer el valor maximo de esta columna con la fecha de hoy, pero antes de hacer eso debemos convetir a `ride_data` a tipo datetime.

In [11]:
#convertimos a ride_date en tipo de dato datetime
df_ride['ride_date'] = pd.to_datetime(df_ride['ride_date']).dt.date

#almacenamos la fecha de hoy
today = dt.date.today()

# y por ultimo le aplicamos la fecha de hoy almacenada en today a aquellos registros con
#fechas futuras, es decir con fechas superiores a hoy
df_ride.loc[df_ride['ride_date'] > today, 'ride_date'] = today

#mostramos la fecha maxima
print(df_ride['ride_date'].max())

today

2022-04-05


  df_ride['ride_date'] = pd.to_datetime(df_ride['ride_date']).dt.date


datetime.date(2023, 8, 17)

LLego la hora, de encontrar los datos duplicados.
Vamos a buscar que registros se encuentran duplicados en nuestro dataset.


In [12]:
# Aqui buscamos duplicados
duplicates = df_ride.duplicated('ride_id', keep = False)

# ordenamos por la columna ride_id los registros duplicados obtenidos
df_ride = df_ride[duplicates].sort_values( by = 'ride_id')
df_ride


Unnamed: 0,ride_id,duration,station_A_id,station_A_name,station_B_id,station_B_name,bike_id,user_type,user_birth_year,user_gender,tire_sizes,ride_date
21,33,11,67,San Francisco Caltrain Station 2 (Townsend St...,364,China Basin St at 3rd St,5055,3,1986,Male,27,2019-03-27
38,33,6,67,San Francisco Caltrain Station 2 (Townsend St...,343,Bryant St at 2nd St,2804,1,1966,Male,27,2018-01-07
52,55,13,21,Montgomery St BART Station (Market St at 2nd St),78,Folsom St at 9th St,2531,2,1999,Female,27,2018-07-15
64,55,10,21,Montgomery St BART Station (Market St at 2nd St),58,Market St at 10th St,3715,2,1999,Male,27,2018-07-27
72,71,11,3,Powell St BART Station (Market St at 5th St),44,The Embarcadero at Sansome St,4805,2,1987,Male,27,2018-04-08
73,71,11,3,Powell St BART Station (Market St at 5th St),44,The Embarcadero at Sansome St,4805,2,1987,Male,27,2018-04-08
74,89,9,15,San Francisco Ferry Building (Harry Bridges Pl...,81,Berry St at 4th St,5552,1,1990,Male,26,2018-06-08
75,89,9,15,San Francisco Ferry Building (Harry Bridges Pl...,81,Berry St at 4th St,5552,1,1990,Male,26,2018-06-08


In [13]:
# y por ultimo imprimimos los datos duplicados, mostramos
#en cuales columnas estaban estos registros
print(df_ride[['ride_id','duration','user_birth_year']])

    ride_id  duration  user_birth_year
21       33        11             1986
38       33         6             1966
52       55        13             1999
64       55        10             1999
72       71        11             1987
73       71        11             1987
74       89         9             1990
75       89         9             1990


Despues de conocer los duplicados y las columnas que los almacenan hemos podido observar que hay filas duplicadas tanto completas como incompletas para algunos valores de la columna `ride_id`, con valores diferentes para las columnas `user_birth_year` y duration.

Entonces, lo que vamos hacer es primero tratar esas filas duplicadas eliminando primero los duplicados completos y luego fusionando las filas duplicadas incompletas en una, manteniendo el promedio de `duration` y el mínimo `user_birth_year` para cada conjunto de filas duplicadas incompletas.

In [14]:
# Eliminamos los duplicados completos en ride_sharing
ride_dup = df_ride.drop_duplicates()

# Creamos un diccionario de estadisticas para funciones de agregacion
statistics = {'user_birth_year': 'min', 'duration': 'mean'}

# Agrupamos por ride_id y calculamos las nuevas estadisticas
ride_unique = ride_dup.groupby('ride_id').agg(statistics).reset_index()

# nuevamente buscamos valores duplicados
duplicates = ride_unique.duplicated(subset = 'ride_id', keep = False)
duplicated_rides = ride_unique[duplicates == True]

# y por ultimo nos aseguramos que se haya aplicado todo correctamente
assert duplicated_rides.shape[0] == 0

ride_unique

Unnamed: 0,ride_id,user_birth_year,duration
0,33,1966,8.5
1,55,1999,11.5
2,71,1987,11.0
3,89,1990,9.0


### **❌🔡Problemas de texto y datos categóricos**

En este espacio, vamos a corregir las incoherencias de hay con espacios en blanco y mayúsculas en las etiquetas de las categorías, tambien, vamos a contraer varias categorías en una sola y cambiar el formato de las cadenas para mantener la coherencia

**🧾Informacion del Dataset**<br>

En este espacio trabajaremos con un dataset llamado `df_airlines` que contiene las respuestas de una encuesta que se le realizaron a los clientes de las aerolineas del aeropuerto de San Francisco. Este dataset tiene metadatos de vuelos, destinos, tiempos de espera, y tambien respuestas a preguntas de seguridad y sastifaccion



💡 Vamos a examinar las columnas categóricas `dest_region` y `dest_size` del dataset `df_airlines`, y nos aseguraremos de que estén limpias y listas para el análisis.

In [15]:
df_airlines = pd.read_csv('airlines_final.csv')

In [16]:
# Imprimimos los valores unicos de ambas columnas
print('Dest Region: ', df_airlines['dest_region'].unique(), "\n")
print('Dest Size: ', df_airlines['dest_size'].unique(), "\n")

Dest Region:  ['Asia' 'Canada/Mexico' 'West US' 'East US' 'Midwest US' 'EAST US'
 'Middle East' 'Europe' 'eur' 'Central/South America'
 'Australia/New Zealand' 'middle east'] 

Dest Size:  ['Hub' 'Small' '    Hub' 'Medium' 'Large' 'Hub     ' '    Small'
 'Medium     ' '    Medium' 'Small     ' '    Large' 'Large     '] 



Del resultado anterior podemos concluir los siguientes problemas:

⚠️La columna `dest_region` tiene valores inconsistentes debido a las mayúsculas y tiene un valor que debe reasignarse.

⚠️La columna `dest_size` solo tiene valores inconsistentes debido a los espacios iniciales y finales.

Para resolver los problemas que hemos dectetado procederemos a:<br>
⭐Cambiar las mayusculas de todos los valores de `dest_region` a minisculas.<br>
⭐Remplazar `'eur'` con `'europe'` en `dest_region` usando el metodo `.replace()` <br>
⭐Quitar los espacios en blancos de la columna `dest_size` usando el metodo `.strip()`<br>
⭐Verificar que los cambios se hayan realizado con exito imprimiendo los valores unico de las columnas usando el metodo `.unique()`<br>

In [17]:
df_airlines['dest_region'] = df_airlines['dest_region'].str.lower()

df_airlines['dest_region'] = df_airlines['dest_region'].replace({'eur':'europe'})

df_airlines['dest_size'] = df_airlines['dest_size'].str.strip()

print('Dest Region: ', df_airlines['dest_region'].unique(), "\n")
print('Dest Size: ', df_airlines['dest_size'].unique(), "\n")

Dest Region:  ['asia' 'canada/mexico' 'west us' 'east us' 'midwest us' 'middle east'
 'europe' 'central/south america' 'australia/new zealand'] 

Dest Size:  ['Hub' 'Small' 'Medium' 'Large'] 



Para entender mejor a los encuestado, deseamos averiguar si existe una relación entre ciertas respuestas y el día de la semana y el tiempo de espera en la puerta.

el dataset `df_airlines` contiene las columnas `day` y `wait_min`, que son categóricas y numéricas respectivamente. La columna `day` contiene el día exacto en que se realizó un vuelo y `wait_min` la cantidad de minutos que los viajeros tardaron en esperar en la puerta de embarque. Para facilitar su análisis, deseamos crear dos nuevas variables categóricas:

`wait_type:`
* `'short'` de 0 a 60 min
* `'medium'`de 60 a 180 min
* `'long'` mas de 180 min

`day_week:`
* `'weekday'`si el día está en el día de la semana
* `'weekend'`si el día es en el fin de semana.

Para resolverlo realizaremos los siguientes pasos:

👍 Creamos los rangos y etiquetas para la columna `wait_type`<br>
👍 Creamos la columna `wait_type` desde `wait_min` usando el metodo `pd.cut()`<br>
👍 Creamos el diccionario `mapping` que ayudara a mapear a los dias de la semana `'weekday'` y a los dias del fin de semana`'weekend'`<br>
Creamos la columna `day_week` usando `.replace()`

In [18]:
# Creamos los rangos para categoria
label_ranges = [0, 60, 180, np.inf]
label_names = ['short', 'medium', 'long']

# Creamos la columna wait_type
df_airlines['wait_type'] = pd.cut(df_airlines['wait_min'], bins =label_ranges,
                                labels = label_names)

# Creamos el diccionario
mappings = {'Monday':'weekday', 'Tuesday':'weekday', 'Wednesday': 'weekday',
            'Thursday': 'weekday', 'Friday': 'weekday',
            'Saturday': 'weekend', 'Sunday': 'weekend'}

df_airlines['day_week'] = df_airlines['day'].replace(mappings)

In [19]:
df_airlines.head()

Unnamed: 0,id,day,airline,destination,dest_region,dest_size,boarding_area,dept_time,wait_min,cleanliness,safety,satisfaction,wait_type,day_week
0,1351,Tuesday,UNITED INTL,KANSAI,asia,Hub,Gates 91-102,2018-12-31,115.0,Clean,Neutral,Very satisfied,medium,weekday
1,373,Friday,ALASKA,SAN JOSE DEL CABO,canada/mexico,Small,Gates 50-59,2018-12-31,135.0,Clean,Very safe,Very satisfied,medium,weekday
2,2820,Thursday,DELTA,LOS ANGELES,west us,Hub,Gates 40-48,2018-12-31,70.0,Average,Somewhat safe,Neutral,medium,weekday
3,1157,Tuesday,SOUTHWEST,LOS ANGELES,west us,Hub,Gates 20-39,2018-12-31,190.0,Clean,Very safe,Somewhat satsified,long,weekday
4,2992,Wednesday,AMERICAN,MIAMI,east us,Hub,Gates 50-59,2018-12-31,559.0,Unacceptable,Very safe,Somewhat satsified,long,weekday


Y finalmente nuestros datos han quedado limpios y listos para ser utilizados. 🎉🎉🎉