 # **<font color="DarkBlue">Limpieza y Preparaci√≥n de Datos üêº </font>**

<p align="center">
<img src="https://pandas.pydata.org/static/img/pandas_mark.svg" width="50">
</p>


https://pandas.pydata.org/

<p align="justify">
üöÄ La limpieza y prepraraci√≥n de datos, tambi√©n conocido como <i>data wrangling</i>, se refiere al proceso de adecuar los datos antes de ser analizados o utilizados en modelos de machine learning.
<br><br>
La limpieza y preparaci√≥n es una parte fundamental del proceso de an√°lisis de datos, ya que los datos en bruto rara vez est√°n en un estado √≥ptimo para su an√°lisis directo. Al realizarlo, se asegura la calidad y la integridad de los datos, permitiendo un an√°lisis m√°s preciso y confiable, y facilitando la extracci√≥n de informaci√≥n y conocimientos significativos de los datos.
<br><br>
A continuaci√≥n se realizan algunas tareas de preprocesamiento tales como:
<br><br>

* verificar datos duplicados,
* comprobar y trabajar valores nulos,
* verificar y modificar el tipo de dato,
* renombrar y eliminar columnas,
* crear nuevas columnas, etc.


 ## **<font color="DarkBlue">Carga de bibliotecas</font>**

In [None]:
# Iniciamos con la carga de nuestros m√≥dulos
import pandas as pd
import numpy as np

## **<font color="DarkBlue">`DataFrame` de datos de clientes</font>**

In [None]:
df_clientes = pd.read_csv("https://raw.githubusercontent.com/cristiandarioortegayubro/BDS/main/datasets/credit_card_application2.csv", index_col=0)

In [None]:
df_clientes.head()

Unnamed: 0,ID,CODE_GENDER,FLAG_OWN_CAR,FLAG_OWN_REALTY,CNT_CHILDREN,AMT_INCOME_TOTAL,NAME_INCOME_TYPE,NAME_EDUCATION_TYPE,NAME_FAMILY_STATUS,NAME_HOUSING_TYPE,DAYS_BIRTH,DAYS_EMPLOYED,FLAG_MOBIL,FLAG_WORK_PHONE,FLAG_PHONE,FLAG_EMAIL,OCCUPATION_TYPE,CNT_FAM_MEMBERS
0,5008804,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,1,0,0,,2.0
1,5008805,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,1,0,0,,2.0
2,5008806,M,Y,Y,0,112500.0,Working,Secondary / secondary special,Married,House / apartment,-21474,-1134,1,0,0,0,Security staff,2.0
3,5008808,F,N,Y,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,1,0,1,1,Sales staff,1.0
4,5008809,F,N,Y,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,1,0,1,1,Sales staff,1.0


Este DataFrame contiene la informaci√≥n general del solicitante de la trajeta de cr√©dito. El conjunto de datos contiene las siguientes variables:

- **ID**: el n√∫mero del cliente.

- **CODE_GENDER**: g√©nero: M (Masculino) / F (Femenino).

- **FLAG_OWN_CAR**: propietario veh√≠culo: Y (Si) / N (No).

- **FLAG_OWN_REALTY**:  propietario inmueble: Y (Si) / N (No).

- **CNT_CHILDREN**: cantidad de hijos.

- **AMT_INCOME_TOTAL**: ingreso anual.

- **NAME_INCOME_TYPE**: tipo de ingreso.

- **NAME_EDUCATION_TYPE**: nivel educativo.

- **NAME_FAMILY_STATUS**: estado civil.

- **NAME_HOUSING_TYPE**: vivienda.

- **DAYS_BIRTH**: d√≠as hasta el nacimiento contando desde hoy hacia atr√°s, por ejemplo -1 significa ayer.

- **DAYS_EMPLOYED**: d√≠as empleado contando desde hoy hacia atr√°s. Si es positivo, significa la cantidad de d√≠as desempleado.

- **FLAG_MOBIL**: tiene n√∫mero de celular: 1 (Si) / 0 (No).

- **FLAG_WORK_PHONE**: tiene n√∫mero de tel√©fono laboral: 1 (Si) / 0 (No).

- **FLAG_PHONE**: tiene n√∫mero de tel√©fono fijo: 1 (Si) / 0 (No).

- **FLAG_EMAIL**: tiene direcci√≥n de correo electr√≥nico: 1 (Si) / 0 (No).

- **OCCUPATION_TYPE**:	ocupaci√≥n.

- **CNT_FAM_MEMBERS**:	tama√±o del grupo familiar.

## **<font color="DarkBlue">Preparando los datos...</font>**

### **<font color="DarkBlue">M√©todo <code>rename()</font>**

<p align="justify">
‚úÖ El m√©todo <code>rename</code> de pandas se utiliza para cambiar el nombre de etiquetas de filas o columnas en un <code>DataFrame</code>. Permite renombrar elementos existentes.
<br><br>
Los par√°metros principales son:
<br><br>
</p>

* `columns`: permite especificar un diccionario para renombrar las columnas del DataFrame. Las claves representan los nombres actuales de las columnas y los valores correspondientes representan los nuevos nombres que se desean asignar.

* `index`: permite especificar un diccionario para renombrar las filas del DataFrame. Si se proporciona un diccionario, las claves representan los nombres actuales de las filas y los valores correspondientes representan los nuevos nombres que se desean asignar.

<p align="justify">
<br>
Tambi√©n es posible usar una funci√≥n para renombrar las filas o columnas en vez de un diccionario. Si se proporciona una funci√≥n, se aplica la funci√≥n a cada nombre de fila o columna seg√∫n sea el caso y se utiliza el resultado como el nuevo nombre.
</p>

In [None]:
nombres_nuevos = {'CODE_GENDER':'Genero','FLAG_OWN_CAR':'Auto','FLAG_OWN_REALTY':'Propiedad',
                  'CNT_CHILDREN':'Hijos','AMT_INCOME_TOTAL':'Ingreso_anual',
                  'NAME_EDUCATION_TYPE':'Nivel_educativo','NAME_FAMILY_STATUS':'Estado_civil',
                  'NAME_HOUSING_TYPE':'Vivienda','FLAG_EMAIL':'Email', 'FLAG_MOBIL':'Celular',
                  'DAYS_BIRTH':'Dias_nacimiento', 'DAYS_EMPLOYED':'Dias_empleado',
                  'NAME_INCOME_TYPE':'Tipo_trabajo','FLAG_WORK_PHONE':'Telefono_laboral',
                  'FLAG_PHONE':'Telefono_fijo','CNT_FAM_MEMBERS':'Tama√±o_familia',
                  'OCCUPATION_TYPE':'Ocupacion'}

In [None]:
df_clientes.rename(columns=nombres_nuevos, inplace=True)
df_clientes.head(2)

Unnamed: 0,ID,Genero,Auto,Propiedad,Hijos,Ingreso_anual,Tipo_trabajo,Nivel_educativo,Estado_civil,Vivienda,Dias_nacimiento,Dias_empleado,Celular,Telefono_laboral,Telefono_fijo,Email,Ocupacion,Tama√±o_familia
0,5008804,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,1,0,0,,2.0
1,5008805,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,1,0,0,,2.0


In [None]:
df_clientes.info()

<class 'pandas.core.frame.DataFrame'>
Index: 100000 entries, 0 to 99999
Data columns (total 18 columns):
 #   Column            Non-Null Count   Dtype  
---  ------            --------------   -----  
 0   ID                100000 non-null  int64  
 1   Genero            100000 non-null  object 
 2   Auto              100000 non-null  object 
 3   Propiedad         100000 non-null  object 
 4   Hijos             100000 non-null  int64  
 5   Ingreso_anual     100000 non-null  float64
 6   Tipo_trabajo      100000 non-null  object 
 7   Nivel_educativo   100000 non-null  object 
 8   Estado_civil      100000 non-null  object 
 9   Vivienda          100000 non-null  object 
 10  Dias_nacimiento   100000 non-null  int64  
 11  Dias_empleado     100000 non-null  int64  
 12  Celular           100000 non-null  int64  
 13  Telefono_laboral  100000 non-null  int64  
 14  Telefono_fijo     100000 non-null  int64  
 15  Email             100000 non-null  int64  
 16  Ocupacion         68593 no

### **<font color="DarkBlue">M√©todo <code>drop()</font>**

<p align="justify">
‚úÖ El m√©todo <code>drop</code> de <code>pandas</code> se utiliza para eliminar filas o columnas de un <code>DataFrame</code>. Permite eliminar elementos no deseados y ajustar la estructura del <code>DataFrame</code> seg√∫n sea necesario.
<br><br>
Los par√°metros principales son los siguientes:
</p>

* `labels`: especifica las etiquetas de las filas o columnas que se deben eliminar. Puede ser una sola etiqueta o una lista de etiquetas. Si deseas eliminar m√∫ltiples filas o columnas, simplemente proporciona una lista con las etiquetas correspondientes.

* `axis`: indica el eje a lo largo del cual se realizar√° el borrado. Un valor de `0` indica que se eliminar√°n filas, mientras que un valor de `1` indica que se eliminar√°n columnas.

* `inplace`: Es un par√°metro booleano opcional que determina si el `DataFrame` original debe modificarse directamente o si se debe devolver una copia del `DataFrame` modificado. Si `inplace=True`, se realizar√° una modificaci√≥n directa en el `DataFrame` original.

üëÄ Cuando aplic√≥ el m√©todo `nunique` al `DataFrame` la variable `Celular` pose√≠a un solo valor, por lo tanto es eliminada.

In [None]:
df_clientes.Celular.nunique()

1

In [None]:
# df_clientes.drop('Celular', axis=1, inplace=True)
df_clientes.drop(columns = 'Celular', inplace=True)

### **<font color="DarkBlue">M√©todo <code>isna()</font>**

<p align="justify">
‚úÖ El m√©todo <code>isna</code> de <code>pandas</code>, al igual que <code>isnull</code>, se utiliza para verificar si existen valores nulos (NaN) en un <code>DataFrame</code> o una <code>Serie</code>. Retorna una matriz de valores booleanos con el mismo tama√±o que el <code>DataFrame</code> o la <code>Serie</code> original, donde <code>True</code> indica la presencia de valores nulos y <code>False</code> indica valores no nulos.
<br><br>
Si se aplica el m√©todo <code>sum()</code> al resultado de <code>df_clientes.isna()</code>, se obtiene la cantidad de valores nulos en cada columna del <code>DataFrame</code>. El m√©todo <code>sum()</code> suma los valores booleanos en cada columna, donde <code>True</code> se trata como $1$ y <code>False</code> se trata como $0$.
<br><br>
Luego el resultado de cada columna se divide por la longitud del <code>DataFrame</code> <code>len(df_clientes)</code> y se obtiene el porcentaje de valores nulos por columna.

In [None]:
nulos = (df_clientes.isna().sum()/len(df_clientes)).sort_values(ascending = False)
nulos.name = 'Porcentaje de nulos'
nulos

Unnamed: 0,Porcentaje de nulos
Ocupacion,0.31407
ID,0.0
Vivienda,0.0
Email,0.0
Telefono_fijo,0.0
Telefono_laboral,0.0
Dias_empleado,0.0
Dias_nacimiento,0.0
Estado_civil,0.0
Genero,0.0


üëÄ La columna `Ocupacion` tiene 31% de valores nulos. Ser√°n reemlazados por el valor `unknown`.

### **<font color="DarkBlue">M√©todo <code>fillna()</font>**

<p align="justify">
‚úÖ El m√©todo <code>fillna</code> de pandas se utiliza para rellenar los valores nulos (NaN) en un <code>DataFrame</code> o una <code>Serie</code> con un valor espec√≠fico o una <b>estrategia de llenado</b>. Permite tratar los valores faltantes de manera flexible y ajustar los datos de acuerdo a las necesidades del an√°lisis.

In [None]:
df_clientes.Ocupacion = df_clientes.Ocupacion.fillna(value='unknown')

In [None]:
nulos = (df_clientes.isna().sum()/len(df_clientes)).sort_values(ascending = False)
nulos.name = 'Porcentaje de nulos'
nulos

Unnamed: 0,Porcentaje de nulos
ID,0.0
Vivienda,0.0
Ocupacion,0.0
Email,0.0
Telefono_fijo,0.0
Telefono_laboral,0.0
Dias_empleado,0.0
Dias_nacimiento,0.0
Estado_civil,0.0
Genero,0.0


üëÄ La columna `Ocupacion` ya no posee valores nulos! ü¶æ

### **<font color="DarkBlue">M√©todo <code>replace()</font>**

<p align="justify">
‚úÖ El m√©todo <code>replace</code> de <code>pandas</code> se utiliza para reemplazar valores espec√≠ficos en un <code>DataFrame</code> o una <code>Serie</code> con nuevos valores. Permite realizar cambios en los datos seg√∫n criterios definidos y ajustarlos seg√∫n las necesidades del an√°lisis.

Los par√°metros principales son los siguientes:

* `to_replace`: especifica el valor o los valores que se desean reemplazar en el `DataFrame` o la `Serie`. Puede ser un valor escalar, una lista de valores, un diccionario de mapeo.

* `value`: Especifica el valor o los valores que se utilizar√°n como reemplazo. Puede ser un valor escalar, una lista de valores o un diccionario de mapeo.

In [None]:
df_clientes.Genero.value_counts()

Unnamed: 0_level_0,count
Genero,Unnamed: 1_level_1
F,67866
M,32134


In [None]:
df_clientes.Auto.value_counts()

Unnamed: 0_level_0,count
Auto,Unnamed: 1_level_1
N,62631
Y,37369


In [None]:
df_clientes.Propiedad.value_counts()

Unnamed: 0_level_0,count
Propiedad,Unnamed: 1_level_1
Y,66976
N,33024


In [None]:
df_clientes.Genero = df_clientes.Genero.replace(['F','M'], [1,0])
df_clientes.Auto = df_clientes.Auto.replace(['Y','N'], [1,0])
df_clientes.Propiedad = df_clientes.Propiedad.replace(['Y','N'], [1,0])

  df_clientes.Genero = df_clientes.Genero.replace(['F','M'], [1,0])
  df_clientes.Auto = df_clientes.Auto.replace(['Y','N'], [1,0])
  df_clientes.Propiedad = df_clientes.Propiedad.replace(['Y','N'], [1,0])


### **<font color="DarkBlue">M√©todo <code>astype()</font>**

<p align="justify">
‚úÖ El m√©todo <code>astype</code> de <code>pandas</code> se utiliza para cambiar el tipo de datos de una columna en un <code>DataFrame</code> o de una <code>Serie</code>. Permite realizar conversiones de tipos de datos de manera expl√≠cita y ajustar los datos para realizar c√°lculos o an√°lisis adecuados.

In [None]:
df_clientes.info()

<class 'pandas.core.frame.DataFrame'>
Index: 100000 entries, 0 to 99999
Data columns (total 17 columns):
 #   Column            Non-Null Count   Dtype  
---  ------            --------------   -----  
 0   ID                100000 non-null  int64  
 1   Genero            100000 non-null  int64  
 2   Auto              100000 non-null  int64  
 3   Propiedad         100000 non-null  int64  
 4   Hijos             100000 non-null  int64  
 5   Ingreso_anual     100000 non-null  float64
 6   Tipo_trabajo      100000 non-null  object 
 7   Nivel_educativo   100000 non-null  object 
 8   Estado_civil      100000 non-null  object 
 9   Vivienda          100000 non-null  object 
 10  Dias_nacimiento   100000 non-null  int64  
 11  Dias_empleado     100000 non-null  int64  
 12  Telefono_laboral  100000 non-null  int64  
 13  Telefono_fijo     100000 non-null  int64  
 14  Email             100000 non-null  int64  
 15  Ocupacion         100000 non-null  object 
 16  Tama√±o_familia    100000 

In [None]:
df_clientes.Tama√±o_familia = df_clientes.Tama√±o_familia.astype(int)

In [None]:
df_clientes.info()

<class 'pandas.core.frame.DataFrame'>
Index: 100000 entries, 0 to 99999
Data columns (total 17 columns):
 #   Column            Non-Null Count   Dtype  
---  ------            --------------   -----  
 0   ID                100000 non-null  int64  
 1   Genero            100000 non-null  int64  
 2   Auto              100000 non-null  int64  
 3   Propiedad         100000 non-null  int64  
 4   Hijos             100000 non-null  int64  
 5   Ingreso_anual     100000 non-null  float64
 6   Tipo_trabajo      100000 non-null  object 
 7   Nivel_educativo   100000 non-null  object 
 8   Estado_civil      100000 non-null  object 
 9   Vivienda          100000 non-null  object 
 10  Dias_nacimiento   100000 non-null  int64  
 11  Dias_empleado     100000 non-null  int64  
 12  Telefono_laboral  100000 non-null  int64  
 13  Telefono_fijo     100000 non-null  int64  
 14  Email             100000 non-null  int64  
 15  Ocupacion         100000 non-null  object 
 16  Tama√±o_familia    100000 

### **<font color="DarkBlue">M√©todo <code>apply()</font>**

<p align="justify">
‚úÖ El m√©todo <code>apply</code> en <code>pandas</code> se utiliza para aplicar una funci√≥n a lo largo de un eje de un <code>DataFrame</code> o una <code>Serie</code>. Puede aplicar una funci√≥n a cada fila o columna de un <code>DataFrame</code> o a cada elemento de una <code>Serie</code>.
<br><br>
Se crea una nueva variable llamada <code>Desempleado</code> en base a la informaci√≥n de la columna <code>Dias_empleado</code>. Se aplica una funci√≥n <code>lambda</code> que recorre la columna <code>Dias_empleado</code> y,

 * si el valor observado en cada fila es $\geq 0$ el resultado que se asigna a la nueva columna `Desempleado` es $1$,
 * por el contrario, si el valor observado es $< 0$ el resultado asignado a la nueva columna es $0$.

<p align="justify">
Entonces, la variables <code>Desempleado</code> tomar√° dos valores posibles (binaria): $1$ cuando est√° desempleado y $0$ cuando no lo est√°.  

In [None]:
df_clientes['Desempleado'] = df_clientes.Dias_empleado.apply(lambda x: 1 if x >= 0 else 0)

üëÄ La funci√≥n `lambda` puede ser especialmente √∫til cuando se requiere una operaci√≥n simple y no es necesario definir una funci√≥n separada.

In [None]:
df_clientes.head(10)

Unnamed: 0,ID,Genero,Auto,Propiedad,Hijos,Ingreso_anual,Tipo_trabajo,Nivel_educativo,Estado_civil,Vivienda,Dias_nacimiento,Dias_empleado,Telefono_laboral,Telefono_fijo,Email,Ocupacion,Tama√±o_familia,Desempleado
0,5008804,0,1,1,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,0,0,unknown,2,0
1,5008805,0,1,1,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,0,0,unknown,2,0
2,5008806,0,1,1,0,112500.0,Working,Secondary / secondary special,Married,House / apartment,-21474,-1134,0,0,0,Security staff,2,0
3,5008808,1,0,1,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,0,1,1,Sales staff,1,0
4,5008809,1,0,1,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,0,1,1,Sales staff,1,0
5,5008810,1,0,1,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,0,1,1,Sales staff,1,0
6,5008811,1,0,1,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,0,1,1,Sales staff,1,0
7,5008812,1,0,1,0,283500.0,Pensioner,Higher education,Separated,House / apartment,-22464,365243,0,0,0,unknown,1,1
8,5008813,1,0,1,0,283500.0,Pensioner,Higher education,Separated,House / apartment,-22464,365243,0,0,0,unknown,1,1
9,5008814,1,0,1,0,283500.0,Pensioner,Higher education,Separated,House / apartment,-22464,365243,0,0,0,unknown,1,1


<p align="justify">
Se crea una nueva variable llamada <code>A√±os_empleado</code> en base a la informaci√≥n de la columna <code>Dias_empleado</code>. Se aplica una funci√≥n <code>lambda</code> que recorre la columna <code>Dias_empleado</code> y,

* si el valor observado en cada fila es $<$ 0 el resultado que se asigna a la nueva columna `A√±os_empleado` surge de dividir la cantidad de d√≠as (en negativo) por 365.25,
* por el contrario, si el valor observado es $\geq$ 0 el resultado asignado a la nueva columna es 0.

In [None]:
df_clientes['A√±os_empleado'] = df_clientes.Dias_empleado.apply(lambda x: round(-x/365.25, 2) if x < 0 else 0)

In [None]:
df_clientes.head(10)

Unnamed: 0,ID,Genero,Auto,Propiedad,Hijos,Ingreso_anual,Tipo_trabajo,Nivel_educativo,Estado_civil,Vivienda,Dias_nacimiento,Dias_empleado,Telefono_laboral,Telefono_fijo,Email,Ocupacion,Tama√±o_familia,Desempleado,A√±os_empleado
0,5008804,0,1,1,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,0,0,unknown,2,0,12.44
1,5008805,0,1,1,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,0,0,unknown,2,0,12.44
2,5008806,0,1,1,0,112500.0,Working,Secondary / secondary special,Married,House / apartment,-21474,-1134,0,0,0,Security staff,2,0,3.1
3,5008808,1,0,1,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,0,1,1,Sales staff,1,0,8.35
4,5008809,1,0,1,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,0,1,1,Sales staff,1,0,8.35
5,5008810,1,0,1,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,0,1,1,Sales staff,1,0,8.35
6,5008811,1,0,1,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,0,1,1,Sales staff,1,0,8.35
7,5008812,1,0,1,0,283500.0,Pensioner,Higher education,Separated,House / apartment,-22464,365243,0,0,0,unknown,1,1,0.0
8,5008813,1,0,1,0,283500.0,Pensioner,Higher education,Separated,House / apartment,-22464,365243,0,0,0,unknown,1,1,0.0
9,5008814,1,0,1,0,283500.0,Pensioner,Higher education,Separated,House / apartment,-22464,365243,0,0,0,unknown,1,1,0.0


Se crea una nueva variable llamada `Edad` en base a la informaci√≥n de la columna `Dias_nacimiento`. Se aplica una funci√≥n `lambda` que recorre la columna `Dias_nacimiento` y divide la cantidad de d√≠as (en negativo) por 365.25, el resultado se ir√° asignando a la nueva columna `Edad`.

In [None]:
df_clientes['Edad'] = df_clientes.Dias_nacimiento.apply(lambda x: round(-x/365.25, 2))

Eliminamos aquellas columnas que previamente usamos para generar nuevas variables:

In [None]:
df_clientes.drop(columns=["Dias_nacimiento","Dias_empleado"], inplace=True)
df_clientes.info()

<class 'pandas.core.frame.DataFrame'>
Index: 100000 entries, 0 to 99999
Data columns (total 18 columns):
 #   Column            Non-Null Count   Dtype  
---  ------            --------------   -----  
 0   ID                100000 non-null  int64  
 1   Genero            100000 non-null  int64  
 2   Auto              100000 non-null  int64  
 3   Propiedad         100000 non-null  int64  
 4   Hijos             100000 non-null  int64  
 5   Ingreso_anual     100000 non-null  float64
 6   Tipo_trabajo      100000 non-null  object 
 7   Nivel_educativo   100000 non-null  object 
 8   Estado_civil      100000 non-null  object 
 9   Vivienda          100000 non-null  object 
 10  Telefono_laboral  100000 non-null  int64  
 11  Telefono_fijo     100000 non-null  int64  
 12  Email             100000 non-null  int64  
 13  Ocupacion         100000 non-null  object 
 14  Tama√±o_familia    100000 non-null  int64  
 15  Desempleado       100000 non-null  int64  
 16  A√±os_empleado     100000

In [None]:
df_clientes.head(10)

Unnamed: 0,ID,Genero,Auto,Propiedad,Hijos,Ingreso_anual,Tipo_trabajo,Nivel_educativo,Estado_civil,Vivienda,Telefono_laboral,Telefono_fijo,Email,Ocupacion,Tama√±o_familia,Desempleado,A√±os_empleado,Edad
0,5008804,0,1,1,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,1,0,0,unknown,2,0,12.44,32.87
1,5008805,0,1,1,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,1,0,0,unknown,2,0,12.44,32.87
2,5008806,0,1,1,0,112500.0,Working,Secondary / secondary special,Married,House / apartment,0,0,0,Security staff,2,0,3.1,58.79
3,5008808,1,0,1,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,0,1,1,Sales staff,1,0,8.35,52.32
4,5008809,1,0,1,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,0,1,1,Sales staff,1,0,8.35,52.32
5,5008810,1,0,1,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,0,1,1,Sales staff,1,0,8.35,52.32
6,5008811,1,0,1,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,0,1,1,Sales staff,1,0,8.35,52.32
7,5008812,1,0,1,0,283500.0,Pensioner,Higher education,Separated,House / apartment,0,0,0,unknown,1,1,0.0,61.5
8,5008813,1,0,1,0,283500.0,Pensioner,Higher education,Separated,House / apartment,0,0,0,unknown,1,1,0.0,61.5
9,5008814,1,0,1,0,283500.0,Pensioner,Higher education,Separated,House / apartment,0,0,0,unknown,1,1,0.0,61.5


### **<font color="DarkBlue">M√©todo <code>drop_duplicates()</font>**

<p align="justify">
‚úÖ El m√©todo <code>drop_duplicates</code> de <code>pandas</code> se utiliza para eliminar duplicados de un <code>DataFrame</code>. Permite identificar y eliminar filas duplicadas en funci√≥n de los valores de las columnas especificadas.


Los par√°metros principales son los siguientes:

* `subset`: especifica las columnas que se utilizar√°n para identificar duplicados. Si no se proporciona, se considerar√°n todas las columnas.
* `keep`: determina qu√© duplicados mantener. Puede tomar uno de los siguientes valores:

    * 'first': mantiene la primera aparici√≥n de cada duplicado y elimina las subsiguientes. Por defecto esta es la opci√≥n que selecciona.
    * 'last': mantiene la √∫ltima aparici√≥n de cada duplicado y elimina las anteriores.
    * `False`: elimina todas las apariciones de los duplicados.

<p align="justify">
En resumen, el m√©todo <code>drop_duplicates</code> es √∫til para eliminar filas duplicadas de un <code>DataFrame</code>. Puede ajustarse para eliminar duplicados basados en todas las columnas o en columnas espec√≠ficas, y permite mantener la primera o √∫ltima aparici√≥n de cada duplicado o eliminar todas las apariciones.

In [None]:
df_clientes = df_clientes.drop_duplicates(subset = df_clientes.columns[1:], )

<p align="justify">
üëÄ Para identificar las columnas a eliminar se utiliz√≥ el m√©todo <code>columns</code> de <code>pandas</code>, este m√©todo se utiliza para obtener una lista de las etiquetas de columna de un <code>DataFrame</code>. Luego con la expresi√≥n <code>[1:]</code> se filtraron aquellas columnas a partir del √≠ndice 1 (<code>Genero</code>) hasta el final.


In [None]:
df_clientes.head()

Unnamed: 0,ID,Genero,Auto,Propiedad,Hijos,Ingreso_anual,Tipo_trabajo,Nivel_educativo,Estado_civil,Vivienda,Telefono_laboral,Telefono_fijo,Email,Ocupacion,Tama√±o_familia,Desempleado,A√±os_empleado,Edad
0,5008804,0,1,1,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,1,0,0,unknown,2,0,12.44,32.87
2,5008806,0,1,1,0,112500.0,Working,Secondary / secondary special,Married,House / apartment,0,0,0,Security staff,2,0,3.1,58.79
3,5008808,1,0,1,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,0,1,1,Sales staff,1,0,8.35,52.32
7,5008812,1,0,1,0,283500.0,Pensioner,Higher education,Separated,House / apartment,0,0,0,unknown,1,1,0.0,61.5
10,5008815,0,1,1,0,270000.0,Working,Higher education,Married,House / apartment,1,1,1,Accountants,2,0,2.11,46.19


<br>
<br>
<p align="center"><b>
üíó
<font color="DarkBlue">
Hemos llegado al final de nuestro colab de Pandas, a seguir codeando...
</font>
</p>