# **Proyecto 3 - Limpieza de datos**

## **Introducción**

En este proyecto se realiza una limpieza de datos a una tabla que contiene información sobre clientes de un almacén. Se desarrollarán los principales componentes una limpieza de datos y se concluirá después de cada uno de estos. Así mismo se hará una exploración de grupos en los que puede ser categorizados los individuos de la tabla 

## **Importación de librerías** 

In [None]:
import pandas as pd 
import numpy as np

Se importarón las librerías pandas y numpy para poder interactuar con la tabla 

## **Carga de datos**

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/labeconometria/MLxE/main/proyectos1er/dataset_1.csv')

Se usa pandas para crear un DataFrame con el archivo csv de los datos.

## **Exploración Inicial**

In [None]:
df.head()  # 5 primeros datos 

Unnamed: 0,user_id,gender,wage,purchased,birth_day
0,217,Female,,0,1983-08-06
1,226,Female,146500.0,1,1972-01-28
2,697,Male,,1,1981-12-12
3,743,Female,,0,1983-05-26
4,63,Female,140500.0,1,1967-11-02


In [None]:
df.tail() # 5 ultimos datos 

Unnamed: 0,user_id,gender,wage,purchased,birth_day
1169,636,Male,76500.0,0,1970-08-26
1170,320,Female,143500.0,1,1970-04-07
1171,136,Female,,1,1968-12-28
1172,721,Male,148000.0,1,1993-11-23
1173,471,man,60500.0,0,1984-06-02


In [None]:
df.info()  # Datos nulos por columna 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1174 entries, 0 to 1173
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   user_id    1174 non-null   int64  
 1   gender     1174 non-null   object 
 2   wage       930 non-null    float64
 3   purchased  1174 non-null   int64  
 4   birth_day  1174 non-null   object 
dtypes: float64(1), int64(2), object(2)
memory usage: 46.0+ KB


Observamos los 5 primeros y ultimo datos de la tabla, podemos ver que cuenta con 5 columnas, dentro de las cuales las mas importantes hace referencia al salario del cliente y otra a si es comprador o no. Así mismo con el comando .info() podemos observar que la tabla cuenta con 1174 observaciones, y que para la variable wage existen datos faltantes.

## **Revisión de duplicados explícitos e implícitos**

In [None]:
print(f'Numero de datos antes de eliminar Duplicados : {len(df)}')
df = df.drop_duplicates()  # Se eliminan duplicados explicitos
print(f'Numero de datos despues de eliminar Duplicados : {len(df)}')

Numero de datos antes de eliminar Duplicados : 1174
Numero de datos despues de eliminar Duplicados : 1000


In [None]:
for columna in df.columns:    # Se observan las respuestas para ver si hay duplicados implicitos 
  print(df[columna].unique())

[ 217  226  697  743   63   92  971  777  753  211  891  817  587  889
  126  238  733  483  463  139  994  473  316  662  578  180  631  129
  688  341  382   54  998  961  583  128  542  654  950  367  243  488
   80  307  793  269  607  319  702  903  745    1  679  757  689  440
  568  922  701   64  346  775  432  551  107  674  283  321  653  393
  962  357   73  771  304  429  703   69  363  308  544  419  599  917
  744  555  867   82  120  175  279  329  567  188  833  579  859  142
  791  589  276  704   19  729  815  651  850  335  200  944  947  621
  204  780  902  417  420  462  750  273  522  907  360  968  672  262
  324  881  285  371  554  720  250  151  914  625  862  106  582  192
  766  687  983  841  242  479  228  478  178  206  616  931  286  788
  378   23  369  428  513  541  433  476   90  127  834  553  386  915
  822   25  540  957  987  213  591   55  742  698  425  576  893  796
  974  160  100  581  716  300  695   27  911  942  933  533  690  920
  149 

In [None]:
df['gender'] = df['gender'].replace({'woman':'Female','man':'Male'})

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.


In [None]:
df['gender'].unique()  # Se modificaron las respuestas de la variables gender

array(['Female', 'Male'], dtype=object)

En esta sección se busca analizar, detectar y corregir los posibles datos duplicados dentro de la tabla, de manera que en un primer momento se utiliza el comando drop_duplicates() para eliminar los duplicados explícitos. Durante este proceso se eliminaron 174 observaciones, y ahora la tabla cuenta con 1000 observaciones.

Después de estos se utilizó el comando unique() por medio de un bucle para que mostrara todos los valores únicos en cada columna de la tabla, Esto con el fin de analizar si existe algún tipo de duplicado implícito dentro de los datos. Este proceso permitió identificar que la variable gender tenía unos valores duplicados, de manera que con el comando replace se corrigió este problema.

## **Transformación de tipos de datos**


In [None]:
df.dtypes    # Se observan los tipos de datos

user_id        int64
gender        object
wage         float64
purchased      int64
birth_day     object
dtype: object

In [None]:
df['birth_day'] = pd.to_datetime(df['birth_day']) # Modificamos el tipo de dato de la variable birth_day}
df['purchased'] = df['purchased'].astype('category') 

Con el comando dtypes verificamos los tipos de datos de cada columna de la tabla, después de esto transformamos las fechas a un formato más óptimo y la variable purchased a una categoría.

## **Generando variable Age**

In [None]:
df['age'] = [2022 - año for año in df['birth_day'].dt.year]
df['age'].describe()

count    1000.000000
mean       40.106000
std        10.707073
min        18.000000
25%        32.000000
50%        40.000000
75%        48.000000
max        63.000000
Name: age, dtype: float64

A partir de la variable que hace referencia la fecha de nacimiento de cada individuo se puede calcular una variable de edad, la cual puede ser útil para una posterior categorización entre rangos de edad. Esta nueva variable age se calcula a partir de la resta del presente año (2022) con el año de nacimiento de cada individuo

# **Missing values**

In [None]:
n = len(df)
print('Porcentaje de Missing values por variable')
print(' ')
for columna in df.columns:
  porcentaje = df[columna].isna().sum()/n
  print(f'{columna}: {porcentaje*100} %')



Porcentaje de Missing values por variable
 
user_id: 0.0 %
gender: 0.0 %
wage: 21.4 %
purchased: 0.0 %
birth_day: 0.0 %
age: 0.0 %


In [None]:
df['wage'].describe()

count       786.000000
mean      72580.152672
std       34268.329521
min       15000.000000
25%       46125.000000
50%       71750.000000
75%       90000.000000
max      152500.000000
Name: wage, dtype: float64

In [None]:
df['wage'] = df['wage'].fillna(df['wage'].mean())

In [None]:
df['wage'].describe()

count      1000.000000
mean      72580.152672
std       30377.009614
min       15000.000000
25%       53500.000000
50%       72580.152672
75%       83000.000000
max      152500.000000
Name: wage, dtype: float64

El propósito de esta sección era analizar el porcentaje de missing values por columnas, usando un bucle y con ayuda del comando .isna() se pudo identificar que la columna wage cuenta con un 21.4 % de datos faltantes. Este porcentaje nos puede guiar a una solución a este problema, en un primer momento eliminar estos registros estaría afectando significativamente a la tabla, de manera que se optó por reemplazar los valores faltantes en dicha columna por la media de la misma. 

## **Outliers**

In [None]:
rango_iq = df['wage'].quantile(0.75)  - df['wage'].quantile(0.25)

limite_superior = df['wage'].quantile(0.75) + (1.5 * rango_iq)
limite_inferior = df['wage'].quantile(0.25) - (1.5 * rango_iq)

print('Analizis outliers Variable Wage')
print(' ')
print(f'Limite Superior = {limite_superior}')
print(f'Limite Inferio = {limite_inferior}') 
#  iqr = serie.quantile(q = 0.75) - serie.quantile(q = 0.25)

Analizis outliers Variable Wage
 
Limite Superior = 127250.0
Limite Inferio = 9250.0


In [None]:
copia = df.copy()

In [None]:
n_antes = len(copia)
df = df[(df['wage']<=limite_superior) & (df['wage']>=limite_inferior)]
n_despues = len(df)
print(f'Se eliminarion {n_antes - n_despues} datos ({((n_antes-n_despues)/n_antes) * 100}% del total)')

Se eliminarion 77 datos (7.7% del total)


En esta sección se busca analizar los datos atípicos u outliers de la variable wage, con el fin de eliminarlos. Para esto se usó el concepto del Rango Intercuartílico, donde se crea un límite superior e inferior, de manera que los datos que estén por fuera de estos se considerarían como atípicos. Después de determinar los límites superior e inferior, se encontré que el 7.7% (77) de los datos se configuraban como outliers, de modo que se eliminaron del total de las observaciones.

## **Manejo de memoria**

In [None]:
df.memory_usage()

Index        7384
user_id      7384
gender       7384
wage         7384
purchased    1047
birth_day    7384
age          7384
dtype: int64

In [None]:
lista = ['purchased','age']
for columna in lista:
  df[columna] = df[columna].astype('int8')

df['gender'] = df['gender'].astype('category')

In [None]:
df.memory_usage()

Index        7384
user_id      7384
gender       1047
wage         7384
purchased     923
birth_day    7384
age           923
dtype: int64

En esta sección se redujo la memoria que ocupa la tabla modificando los tipos de datos de las columnas, las que eran de números enteros se transformaron a formato 'int8', la cual ocupa menos memoria, también la variable de género se transformó en una de tipo categórica.

## **Clasificacion de datos**

#### **(Grupos Etarios)**

In [None]:
df['age'].describe()

count    923.000000
mean      39.631636
std       10.728293
min       18.000000
25%       32.000000
50%       39.000000
75%       47.000000
max       63.000000
Name: age, dtype: float64

In [None]:
df['grupo_etario'] = df['age']
df['grupo_etario'] = np.where((df['grupo_etario']>=14) & (df['grupo_etario']<=26) , -111 , df['grupo_etario']) # jovenes
df['grupo_etario'] = np.where((df['grupo_etario']>26) & (df['grupo_etario']<=59) , -222 , df['grupo_etario']) # Adultos 
df['grupo_etario'] = np.where(df['grupo_etario']>59 , -333 , df['grupo_etario']) # Tercera Edad
df['grupo_etario'] = df['grupo_etario'].replace({-111:'Joven',-222:'Adulto',-333:'Tercera Edad'})

In [None]:
df['grupo_etario'].value_counts()

Adulto          768
Joven           114
Tercera Edad     41
Name: grupo_etario, dtype: int64

#### **(Grupos de ingreso)**

In [None]:
df['wage'].describe()

count       923.000000
mean      66897.781876
std       24003.697750
min       15000.000000
25%       51500.000000
50%       72580.152672
75%       79000.000000
max      126500.000000
Name: wage, dtype: float64

In [None]:
df['grupo_ingreso'] = df['wage']
df['grupo_ingreso'] = np.where(df['grupo_ingreso']<=42000,-111,df['grupo_ingreso'])
df['grupo_ingreso'] = np.where((df['grupo_ingreso']>42000) & (df['grupo_ingreso']<=84000),-222,df['grupo_ingreso'])
df['grupo_ingreso'] = np.where(df['grupo_ingreso']>84000,-333,df['grupo_ingreso'])

df['grupo_ingreso'] = df['grupo_ingreso'].replace({-111:'Ingreso Bajo',-222:'Ingreso Medio',-333:'Ingreso Alto'})
df['grupo_ingreso'].value_counts()

Ingreso Medio    593
Ingreso Bajo     165
Ingreso Alto     165
Name: grupo_ingreso, dtype: int64

En esta sección buscamos generar dos variables nuevas en la tabla, cada una de estas buscará categorizar a los individuos en determinados grupos según unas condiciones dadas, para esto se usa el comando remplace() de pandas y la función where() de numpy.

La primera de estas variables hace referencia al grupo etario al que pertenece el individuo, Joven (14 - 26 años), Adulto (27 - 59 años), Tercera Edad (60+ años).

La otra variable generada hace referencia al grupo de ingreso al cual pertenece el individuo, Ingreso Bajo (<=42000), Ingreso Medio (42000 - 84000), Ingreso Alto (+84000).

Algunas conclusiones interesantes al realizar esta categorización de los datos es que gran parte de los individuos son adultos y, por otro lado, también la mayor parte cuentan con un nivel medio de ingresos.


### **Tablas Pivot**

En esta sección Se construirán tablas Pivot para determinar el porcentaje de compradores por los diferentes grupos anteriormente creados.

In [None]:
df['conteo'] = 1
tabla1 = pd.pivot_table(df,index='grupo_etario',columns='purchased',values='conteo',aggfunc='sum').fillna(0)
tabla1['cantidad'] = df['grupo_etario'].value_counts().values
tabla1['Porcentaje de Compras por grupo'] = tabla1[1]/tabla1['cantidad'] *100
# tabla1[['Porcentaje de Compras por grupo']]
tabla1


purchased,0,1,cantidad,Porcentaje de Compras por grupo
grupo_etario,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Adulto,473.0,295.0,768,38.411458
Joven,114.0,0.0,114,0.0
Tercera Edad,3.0,38.0,41,92.682927


Esta tabla pivot permite identificar que dentro del grupo de la tercera edad un 92% es comprador, aun así es importante tener en cuenta que este grupo solo cuenta con 41 individuos, de manera que es mayor en magnitud el 38.41 % de individuos del grupo adulto, el cual correspondería a 291 individuos.

In [None]:
tabla2 = pd.pivot_table(df,index='grupo_ingreso',columns='purchased',values='conteo',aggfunc='sum')
tabla2['cantidad'] = [165,165,593]
tabla2['Porcentaje de Compras por grupo'] = tabla2[1]/tabla2['cantidad'] *100
# tabla2[['Porcentaje de Compras por grupo']]
tabla2

purchased,0,1,cantidad,Porcentaje de Compras por grupo
grupo_ingreso,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Ingreso Alto,52,113,165,68.484848
Ingreso Bajo,82,83,165,50.30303
Ingreso Medio,456,137,593,23.102867


Esta tabla pivot permite entrever que el grupo con un porcentaje más alto de compradores es el de los ingresos altos; sin embargo, también se debe tener en cuenta la diferencia entre la cantidad de personas que pertenecen a este grupo (165), en comparación a el de ingreso medio (593)

In [None]:
tabla3 = pd.pivot_table(df,index='gender',columns='purchased',values='conteo',aggfunc='sum')
tabla3['cantidad'] = tabla3[0] + tabla3[1] 
tabla3['Porcentaje de Compras por grupo'] = tabla3[1]/tabla3['cantidad'] *100
# tabla3[['Porcentaje de Compras por grupo']]
tabla3

purchased,0,1,cantidad,Porcentaje de Compras por grupo
gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Female,295,180,475,37.894737
Male,295,153,448,34.151786


Esta tabla permite entrever que un porcentaje mayor de mujeres es comprador en comparación al grupo de hombres, así mismo esta magnitud es mayor en comparación con el total de los individuos.

In [None]:
tabla4 = pd.pivot_table(df,index=['grupo_etario','grupo_ingreso','gender'],columns='purchased',values='conteo',aggfunc='sum')
tabla4['cantidad'] = tabla4[0] + tabla4[1]
tabla4['Porcentaje de Compras por grupo'] = tabla4[1]/tabla4['cantidad'] * 100
# tabla4[['Porcentaje de Compras por grupo']]
tabla4

Unnamed: 0_level_0,Unnamed: 1_level_0,purchased,0,1,cantidad,Porcentaje de Compras por grupo
grupo_etario,grupo_ingreso,gender,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Adulto,Ingreso Alto,Female,25,55,80,68.75
Adulto,Ingreso Alto,Male,15,48,63,76.190476
Adulto,Ingreso Bajo,Female,27,41,68,60.294118
Adulto,Ingreso Bajo,Male,26,33,59,55.932203
Adulto,Ingreso Medio,Female,187,64,251,25.498008
Adulto,Ingreso Medio,Male,193,54,247,21.862348
Joven,Ingreso Alto,Female,3,0,3,0.0
Joven,Ingreso Alto,Male,8,0,8,0.0
Joven,Ingreso Bajo,Female,15,0,15,0.0
Joven,Ingreso Bajo,Male,14,0,14,0.0


La anterior tabla pívot permite ver la el porcentaje de individuos que son compradores por cada sub grupo teniendo en cuenta las divisiones en grupo según edad, nivel de ingreso y género, así mismo se puede observar en cuál de estos grupos la magnitud de compradores es mayor.

De manera que se puede concluir que el grupo que más es comprador corresponde al de mujeres adultas de ingreso medio; sin embargo, lo interesante es que la participación porcentual dentro de ese mismo grupo es mucho menos a comparación de la de otros sub grupos.

In [None]:
tabla5 = pd.pivot_table(df,index='grupo_etario',values='wage',aggfunc=np.mean)
tabla5 = pd.concat([tabla5,pd.pivot_table(df,index='grupo_etario',values='wage',aggfunc=np.median)['wage']],axis=1)
tabla5.columns = ['Promedio Ingreso','Mediana Ingreso']
tabla5

Unnamed: 0_level_0,Promedio Ingreso,Mediana Ingreso
grupo_etario,Unnamed: 1_level_1,Unnamed: 2_level_1
Adulto,67890.008747,72580.152672
Joven,60221.441007,72580.152672
Tercera Edad,66875.162912,72580.152672


In [None]:
tabla6 = pd.pivot_table(df,index='gender',values='wage',aggfunc=np.mean)
tabla6 = pd.concat([tabla6,pd.pivot_table(df,index='gender',values='wage',aggfunc=np.median)['wage']],axis=1)
tabla6.columns = ['Promedio Ingreso','Mediana Ingreso']
tabla6

Unnamed: 0_level_0,Promedio Ingreso,Mediana Ingreso
gender,Unnamed: 1_level_1,Unnamed: 2_level_1
Female,67224.162314,72580.152672
Male,66551.731189,72580.152672


Estas últimas dos tablas pivot simplemente permiten denotar tanto él la mediana como el promedio de los ingresos según el grupo etario o el género, de estas se pueden concluir aspectos importantes, tales como que los hombres de esta muestra perciben en promedio menos ingresos que las mujeres.

## **Concluciones Generales**

La exploración inicial y limpieza de estos datos resulto con la eliminación de un porcentaje significativo de las observaciones, la mayoría de este debido a los datos duplicados dentro de los mismos (174). Además, dentro del proceso de análisis de outliers usando la única variable numérica del conjunto de datos (wage) se eliminaron más observaciones. 

Después de esto es interesante analizar las sub divisiones de grupos creadas, y dentro de estas cuáles eran en las que más individuos eran compradores, algunos apuntes interesantes en relación con esto es el hecho de que en valor absoluto el grupo de las mujeres de ingreso medio adultas son las más son compradora; sin embargo, en término porcentuales dentro del mismo grupo, hay distintas subdivisiones las cuales su total de individuos con compradores; sin embargo, se deben denotar que su peso sobre el total de la muestra es menos en comparación a otros, esto es el caso de hombres mujeres de la tercera edad de ingreso bajo. 

En contra posición hay sub grupos en los cuales ninguno de los individuos es comprador, tales como los jóvenes, hombres y mujeres de todos los ingresos, esto puede deberse al tipo de productos que ofrece la empresa de la cual sean estos datos