<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Groupby" data-toc-modified-id="Groupby-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Groupby</a></span><ul class="toc-item"><li><span><a href="#Otros-métodos-interesantes-del-groupby()" data-toc-modified-id="Otros-métodos-interesantes-del-groupby()-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Otros métodos interesantes del <code>groupby()</code></a></span></li></ul></li><li><span><a href="#Apply" data-toc-modified-id="Apply-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Apply</a></span><ul class="toc-item"><li><span><a href="#Categorizamos-la-columna-de-age" data-toc-modified-id="Categorizamos-la-columna-de-age-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Categorizamos la columna de <code>age</code></a></span></li><li><span><a href="#Convertir-columnas-de-tipo-string-a-float" data-toc-modified-id="Convertir-columnas-de-tipo-string-a-float-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>Convertir columnas de tipo <em>string</em> a <em>float</em></a></span></li></ul></li><li><span><a href="#Otros-métodos-de-limpieza" data-toc-modified-id="Otros-métodos-de-limpieza-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Otros métodos de limpieza</a></span><ul class="toc-item"><li><span><a href="#.map()" data-toc-modified-id=".map()-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span><code>.map()</code></a></span></li><li><span><a href="#.replace()" data-toc-modified-id=".replace()-3.2"><span class="toc-item-num">3.2&nbsp;&nbsp;</span><code>.replace()</code></a></span></li></ul></li><li><span><a href="#Ejercicios" data-toc-modified-id="Ejercicios-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Ejercicios</a></span></li></ul></div>

# Groupby

En pandas, `groupby` es una función que permite agrupar datos en función de una o varias columnas y realizar operaciones agregadas en cada grupo. Es una función esencial para el análisis de datos y es ampliamente utilizada en el proceso de limpieza y exploración de datos.

Cuando se trabaja con conjuntos de datos grandes y complejos, `groupby` es especialmente útil para:

1. **Agrupar datos por categorías:** Permite dividir los datos en grupos basados en los valores únicos de una o más columnas. Esto es útil para analizar subconjuntos específicos de los datos y obtener información para cada categoría.

2. **Realizar operaciones de agregación:** Después de agrupar los datos, se pueden aplicar operaciones de agregación como sumas, promedios, máximos, mínimos o cualquier función personalizada para resumir los valores en cada grupo. Esto proporciona una visión general de las características o tendencias clave en cada categoría.

3. **Identificar patrones y relaciones:** La función `groupby` permite descubrir patrones o relaciones entre las categorías, lo que puede ayudar a entender cómo se relacionan ciertas variables con otras.

4. **Manejar datos faltantes:** Con `groupby`, se pueden realizar operaciones específicas para manejar datos faltantes en cada grupo, como rellenarlos con la media o una valor específico del grupo.

5. **Detección de outliers:** Al agrupar los datos, se pueden identificar y tratar los outliers (valores atípicos) de manera más efectiva para cada grupo, lo que evita que los outliers influyan en el análisis general de los datos.

6. **Realizar operaciones en múltiples columnas:** Se puede aplicar la función `groupby` para realizar operaciones de agregación en múltiples columnas simultáneamente, lo que permite un análisis más completo de los datos.

En el proceso de limpieza y exploración de datos, `groupby` se utiliza para entender mejor la estructura de los datos, identificar problemas o inconsistencias, y obtener estadísticas resumidas para cada grupo de interés. Además, `groupby` es valioso para preparar los datos antes de realizar análisis más complejos, como modelos predictivos o análisis estadísticos avanzados.

Su sintaxis básica es:
La sintaxis básica del `groupby` en pandas es la siguiente:

```python
df.groupby(by=columna_o_lista_de_columnas)
```

Donde:
- `df`:  Es el DataFrame en el cual deseas aplicar el `groupby`.

- `by`: Es el argumento que especifica cómo quieres agrupar los datos. Puede ser una columna única o una lista de columnas por las cuales deseas agrupar los datos.

Una vez que se ha aplicado el `groupby`, generalmente se sigue combinando con alguna operación de agregación para obtener resultados significativos para cada grupo. Algunas de las operaciones de agregación comunes incluyen `sum()`, `mean()`, `count()`, `min()`, `max()`, entre otras.

Antes de empezar con el código entendamos visualmente cómo funciona el `groupby`.

![image.png](https://github.com/Adalab/data_imagenes/blob/main/Modulo-2/Pandas/groupby.png?raw=true)


A lo largo de este apartado de la lección vamos a ir contestando varias preguntas que nos ayuden a conocer mejor nuestros datos, algunas de las preguntas que vamos a contestar son: 

-  ¿Cuál es la edad media de los clientes en función de su educación?

- ¿Son los clientes que aceptan el producto ofrecido en la campaña de marketing más jovenes?

- ¿Hay diferencia entre la cantidad de gente que acepta nuestra propuesta o no y su estado civil?

Estas son solo algunas preguntas que nos podríamos hacer, pero os animamos a que probeis otros posibles preguntas y que escribais el código. 

In [31]:
# importamos las librerías que necesitamos

# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np


# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

In [32]:
# cargamos el dataframe creado en la lección anterior
df = pd.read_csv("datos/bank-additional_full.csv", index_col = 0)
df.head(1)

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,married,basic 4y,0.0,0.0,0.0,telephone,261,1,999,0,nonexistent,1.1,93994,-364,4857,5191,no,2-agosto-2019,41.495,-71.233,agosto,2019.0


In [33]:
# contestemos a la primera pregunta, ¿cuál es la edad media de los clientes en función de su educación?
# por lo tanto, en este caso tendremos que agrupar por el tipo de educación y calcular la media de la edad usando el método '.mean()' 
# pero antes de calcular la media veamos que pasa si solo le pasamos el groupby sin especificar que operación queremos hacer (en nuestro caso la media)
df.groupby("education")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fe4d6171b90>

In [34]:
# en la línea de código anterior vemos que en realidad nos devuelve un objeto de tipo groupby, pero no nos da ningún resultado como tal. 
# y es que cuando hacemos un groupby y no le especificamos lo que queremos hacer/calcular, nos devolverá este objeto. 
# por lo tanto, añadamos a continuación lo que queremos calcular, en este caso la media
df.groupby("education").mean(numeric_only = True)

Unnamed: 0_level_0,income,kidhome,teenhome,numwebvisitsmonth,age,default,housing,loan,duration,campaign,pdays,previous,empvarrate,latitude,longitude,contact_year
education,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
basic 4y,92337.678375,0.990817,1.00023,16.729109,47.6049,0.0,0.520425,0.152538,264.402204,2.602388,965.710973,0.145317,0.211088,36.847573,-95.8188,2017.018933
basic 6y,92193.844929,1.03311,0.989941,16.545683,40.418783,0.0,0.520448,0.145932,263.083822,2.559514,980.689438,0.128667,0.244635,36.760509,-95.722083,2016.950295
basic 9y,93563.3644,1.002853,0.998098,16.537328,39.101327,0.0,0.532423,0.149033,260.404977,2.536852,979.18117,0.141702,0.149834,36.841785,-96.063955,2016.960993
high school,94141.961411,1.007053,0.989521,16.496222,37.909434,0.000121,0.528666,0.155702,260.479295,2.562217,964.589723,0.187909,0.029602,36.884489,-96.114177,2017.017828
illiterate,80480.388889,0.888889,0.888889,16.222222,48.785714,0.0,0.555556,0.166667,276.777778,2.277778,943.833333,0.111111,-0.133333,35.827667,-106.574167,2016.833333
professional course,93669.489867,1.019536,1.005477,16.653825,39.994828,0.000433,0.554039,0.158003,252.658755,2.594303,960.771043,0.164506,0.167866,36.794159,-95.933331,2017.010846
university degree,92738.460148,0.998349,1.002673,16.610753,38.844152,0.0,0.546566,0.162619,252.436567,2.559896,950.97862,0.194152,-0.034342,36.847812,-95.81306,2017.005695


In [35]:
# vemos que en el caso anterior, nos ha devuelto la media de todas las columnas numéricas. Pero a nosotras no nos interesa la media de todas las columnas, 
# SOLO NOS INTERESA LA MEDIA DE LA EDAD
# para eso tendremos que seguir la siguiente sintaxis, fijaos como le hemos pasado una lista fuera de groupby especificando la columna sobre la que quiero calcular la media
# en este caso vamos a almacenar los resultados del groupby en una variable
educacion_edad = df.groupby("education")["age"].mean()
educacion_edad

education
basic 4y               47.604900
basic 6y               40.418783
basic 9y               39.101327
high school            37.909434
illiterate             48.785714
professional course    39.994828
university degree      38.844152
Name: age, dtype: float64

In [36]:
# si nos fijamos, el resultado que nos devuelve es una Serie, pero a nosotros nos puede interesar tenerlo como un DataFrame. 
# para eso lo que tendremos que hacer es usar el método '.reset_index()' de Pandas y almacenarlo en una variable
df_educacion_edad = educacion_edad.reset_index()
df_educacion_edad

Unnamed: 0,education,age
0,basic 4y,47.6049
1,basic 6y,40.418783
2,basic 9y,39.101327
3,high school,37.909434
4,illiterate,48.785714
5,professional course,39.994828
6,university degree,38.844152


In [37]:
# vale... ya hemos contestado a la primera pregunta, vamos a por la segunda:  ¿son los clientes que aceptan el producto ofrecido en la campaña de marketing más jovenes?
# para contestar a este pregunta tendré que agrupar por la columna "y" donde tenemos la información de si el cliente acepto el producto ofrecido en la campaña o no
# además tendremos que calcular la media de la edad, igual que en el ejemplo anterior. 
# recordad que añadimos el reset_index() al final para conseguir un DataFrame

# en este caso, podemos ver como no hay una gran diferencia entre las medias de las edades de nuestros clientes que han aceptado o no. 
df_edad_aceptacion = df.groupby("y")["age"].mean().reset_index()
df_edad_aceptacion

Unnamed: 0,y,age
0,no,39.861724
1,yes,40.88631


In [38]:
# vamos con la tercera de las preguntas: ¿hay diferencia entre la cantidad de gente que acepta nuestra propuesta o no y su estado civil?
# en este caso están implicadas dos variables categóricas, lo que podría plantearnos si se puede agrupar por más de una columna, la respuesta es si.
# en este caso la sintaxis cambiará un poco y lo que tendremos que hacer es pasar una lista dentro del groupby con las columnas por las que queremos agrupar

# además ahora no queremos hacer una media si no que queremos contar el número de clientes que tenemos para cada combinación de categorías, 
# para eso lo que haremos será contar el número de id que tenemos
df.groupby(["marital", "y"])["id"].count().reset_index()

Unnamed: 0,marital,y,id
0,divorced,no,4321
1,divorced,yes,490
2,married,no,23344
3,married,yes,2655
4,single,no,10419
5,single,yes,1686


Otros estadísticos que podemos calcular con el groupby son: 

- `count()` – número de observaciones no nulas
- `describe()` - resumen de los principales estadísticos
- `sum()` – suma de todos los valores
- `mean()` – media de los valores
- `median()` – mediana de los valores
- `min()` – valor mínimo
- `max()` – valor máximo
- `std()` – desviación estándar
- `var()`– varianza

Hasta ahora, solo hemos estado calculando un estadístico por cada groupby, pero se puede calcular más de un estadístico en un único groupby, para eso tendremos que usar el método `.agg()`.Por lo tanto, el método `agg()` en el `groupby` de pandas se utiliza para aplicar una o varias operaciones de agregación a los grupos resultantes después de haber realizado el `groupby` en un DataFrame.

La sintaxis básica del método `agg()` es la siguiente:

```python
df.groupby(by=columna_o_lista_de_columnas).agg(funciones_de_agregacion)
```

Donde:
- `df`: Es el DataFrame en el cual se realiza el `groupby`.

- `by`: Es el argumento que especifica cómo deseas agrupar los datos.

- `funciones_de_agregacion`: Es una o varias funciones de agregación que se aplicarán a cada grupo. Pueden ser funciones incorporadas de pandas como `sum()`, `mean()`, `count()`, `min()`, `max()`, entre otras, o funciones personalizadas definidas por el usuario.

Ampliemos un poco una de las preguntas planteadas al inicio del jupyter, "¿Cuál es la edad media de los clientes en función de su educación?". En este caso, no calcularemos solo la media, sino que calcularemos también la mediana, la varianza, la desviación estándar, el máximo y el mínimo. 


In [39]:
educacion_edad_ampliada = df.groupby("education")["age"].agg(["mean", "median", "std", "var", "min", "max"])
educacion_edad_ampliada

Unnamed: 0_level_0,mean,median,std,var,min,max
education,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
basic 4y,47.6049,47.0,12.261436,150.342812,18.0,98.0
basic 6y,40.418783,39.0,8.680987,75.359532,18.0,95.0
basic 9y,39.101327,38.0,9.604425,92.244978,17.0,94.0
high school,37.909434,36.0,9.681421,93.729917,18.0,88.0
illiterate,48.785714,45.0,11.709159,137.104396,34.0,80.0
professional course,39.994828,38.0,9.869948,97.415864,20.0,86.0
university degree,38.844152,36.0,9.626975,92.67864,20.0,91.0


Interpretemos los resultados obtenidos del gropuby anterior, pero antes de lanzarnos a ver los números entendamos que es esto de la media, mediana, desviación estándar(std) y varianza (var). 


1. Media: La media es el promedio de un conjunto de datos. Se obtiene sumando todos los valores y luego dividiendo esa suma entre el número total de datos.


    Interpretación: Supongamos que la media de edad de las alumnas es de aproximadamente 26.4 años. Es una medida central que nos da una idea general del valor típico de edad en el grupo.

2. Desviación estándar: La desviación estándar es una medida de dispersión que nos indica cuánto se desvían los valores individuales del promedio (la media). Una desviación estándar alta indica que los valores están más dispersos, mientras que una desviación estándar baja indica que los valores están más cercanos a la media.

    Interpretación: Supongamos que la desviación estándar resulta ser 2.5. Esto significa que, en promedio, las edades de las alumnas están dispersas alrededor de 2.5 años de distancia de la media (26.4). Siendo una desviación estándar relativamente baja, podemos decir que las edades de las alumnas están relativamente cercanas al valor promedio.

3. Varianza: La varianza es otra medida de dispersión que mide el grado en que los datos se alejan de la media. Se calcula como el promedio de los cuadrados de las diferencias entre cada valor y la media.


    Interpretación: Si suponemos que la varianza resulta ser 6.25, esto significa que, en promedio, las edades de las alumnas difieren aproximadamente 6.25 años cuadrados de la media (26.4). La varianza es útil para comprender la dispersión de los datos, pero puede ser difícil de interpretar directamente debido a que se expresan en unidades al cuadrado.

4. Mediana: La mediana es el valor que se encuentra justo en el centro de un conjunto de datos ordenados. Divide al conjunto en dos partes iguales, donde la mitad de los datos están por encima y la otra mitad por debajo.

    Interpretación: Supongamos que la mediana tiene un valor de 82. Esto nos indica que la mitad de las alumnas obtuvo una nota por encima de 82 y la otra mitad por debajo de este valor. Es útil para describir un valor típico en datos que pueden estar influenciados por valores extremos (outliers).

Estas medidas estadísticas son esenciales para resumir, describir y entender los datos en el contexto de la exploración y análisis de datos. Proporcionan una visión general de la distribución, la tendencia central y la dispersión de los datos, lo que permite tomar decisiones basadas en datos sólidos y obtener información valiosa para la toma de decisiones en diversas áreas como investigación, planificación empresarial, marketing, entre otros.

**¿Qué conclusiones podemos sacar de nuestro groupby?**

- La mediana vemos que su valor es de 47 años para los clientes que tienen una educación *basic 4y*, esto significa que el 50 % de los clientes con este tipo de educación tienen una edad menor a 47 años y el otro 50% tienen una edad mayor que 47.  

- Por otro lado vemos que de media los clientes con una educación de *high school* son los más jovenes (media de 37.90). Por el contrario, clientes con una educación de *illiterate* y *basic 4y* tienen unas medias muy parecidas siendo los que tienen una media mayor de edad. 

- La varianza nos indica la dispersión de los datos en unidades al cuadrado, cosa que se puede hacer bastante complejo de interpretar, por eso tenemos la desviación que ya no esta expresada en unidades al cuadrado y es más fácil. Vamos a centrarnos en una sola de las categorías, en concreto en *basic 4y* que tiene una media de 47.60 y una desviación de 12.26, esto significa que cada cliente se desvía de media 12.26 años respecto al valor de la media (12.26). 

- Ahora nos puede surgir la duda de **¿cómo podemos saber si esa desviación es grande o pequeña?** Para debemos compararla con la media y tener en cuenta el contexto específico del problema. Aquí hay algunas pautas generales para interpretar la magnitud de la desviación estándar:

    - Comparación con la media:

        - Si la desviación estándar es mucho menor que la media, indica que los datos tienden a estar muy cerca del valor promedio. En otras palabras, los datos están más agrupados y tienen poca dispersión alrededor de la media. Esto se consideraría una desviación estándar pequeña.

        - Si la desviación estándar es aproximadamente igual a la media, sugiere que los datos tienen una dispersión moderada alrededor del promedio. En este caso, se consideraría una desviación estándar de tamaño medio.

        - Si la desviación estándar es considerablemente mayor que la media, significa que los datos tienen una dispersión significativa alrededor del promedio. Esto se consideraría una desviación estándar grande.

    - Escala de los datos:

        - La magnitud absoluta de la desviación estándar depende de la escala de los datos. Si los valores en el conjunto de datos tienen una escala grande, la desviación estándar también será grande en términos absolutos. Del mismo modo, si los datos tienen una escala pequeña, la desviación estándar será pequeña en términos absolutos.

        - Por lo tanto, es importante considerar la magnitud de los datos y no solo el valor numérico de la desviación estándar.




## Otros métodos interesantes del `groupby()`

In [40]:
# recordamos el df
df.head(2)

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,married,basic 4y,0.0,0.0,0.0,telephone,261,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,agosto,2019.0
1,85477,1,1,2012-12-30,7,e9d37224-cb6f-4942-98d7-46672963d097,57.0,services,married,high school,,0.0,0.0,telephone,149,1,999,0,nonexistent,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923,septiembre,2016.0


In [41]:
# vamos a contar el número de personas que han aceptado o no el producto en función de la forma de contacto. 
# empezamos creando el groupby, y en este caso no le vamos a indicar que función de agregación queremos 
# YA QUE TODOS LOS MÉTODOS QUE VAMOS A APRENDER EN ESTE APARTADO SOLO FUNCIONAN SOBRE UN OBJETO DE TIPO GROUPBY
df_contact_acept = df.groupby(["contact", "y"])
df_contact_acept


<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fe4d300a250>

In [42]:
# Método 'ngroups': Indica el número de grupos distintos creados después de agrupar los datos
# utilizando la cláusula groupby. 
# NOTA: este método se tiene que aplicar sobre un objeto de tipo groupby y NO sobre un DataFrame o una Serie
# en este caso nos dicen que se han generado 4 grupos. 
df_contact_acept.ngroups

4

In [43]:
# añadamos ahora la función de agregación para ver que grupos nos han quedado
# como nos piden saber el número de personas que han aceptado o no el producto en función de la forma de contacto 
# nuestra función de agregación será un '.count()'
df.groupby(["contact", "y"])['id'].count().reset_index()

Unnamed: 0,contact,y,id
0,cellular,no,23357
1,cellular,yes,4039
2,telephone,no,14799
3,telephone,yes,805


# Resumen de lo aprendido en el `groupby`


Por supuesto, aquí tienes la tabla actualizada con el método `ngroups` incluido:

| Método `groupby`       | Descripción                                 | Ejemplo en Python                                           |
|------------------------|---------------------------------------------|--------------------------------------------------------------|
| `.groupby()`           | Agrupa un DataFrame por columnas específicas. | `grupos = df.groupby('columna')`                              |
| `.agg()`               | Realiza agregaciones en grupos.              | `resultados = grupos['columna_agregada'].agg(['sum', 'mean'])` |
| `.count()`             | Cuenta los elementos en cada grupo.          | `conteo = grupos['columna'].count()`                         |
| `.sum()`               | Calcula la suma de valores en grupos.        | `suma = grupos['columna'].sum()`                             |
| `.mean()`              | Calcula el promedio en grupos.               | `promedio = grupos['columna'].mean()`                        |
| `.max()`               | Encuentra el valor máximo en grupos.         | `maximo = grupos['columna'].max()`                           |
| `.min()`               | Encuentra el valor mínimo en grupos.         | `minimo = grupos['columna'].min()`                           |
| `.std()`               | Calcula la desviación estándar en grupos.    | `desviacion = grupos['columna'].std()`                       |
| `.median()`            | Calcula la mediana en grupos.                | `mediana = grupos['columna'].median()`                       |
| `.ngroups`            | Devuelve el número de grupos creados.         | `num_grupos = grupos.ngroups`                                |



# Apply

El método `apply()` se utiliza para aplicar una función personalizada a los elementos de un *DataFrame* o una *Serie*. Puedes pensar en `apply()` como una forma de transformar o limpiar los datos en el análisis de datos.

La sintaxis básica de `apply()` es la siguiente:

```python
# Supongamos que tenemos un DataFrame 'df' y queremos aplicar la función 'func' a la columna 'columna'
df['nueva_columna'] = df['columna'].apply(func)
```

Donde:
- `func: Es la función que se aplicará a los elementos del DataFrame.

La función que se pasa como argumento a `apply()` puede ser una función lambda o cualquier otra función definida por el usuario. Esta función actúa como una función de transformación que se aplicará a cada elemento del DataFrame o Serie.

La utilidad de `apply()` en el proceso de limpieza y transformación de datos radica en que te permite realizar operaciones personalizadas y complejas en los datos. Algunos ejemplos de cómo `apply()` puede ser útil:

1. **Operaciones matemáticas o estadísticas personalizadas:** Puedes utilizar `apply()` para realizar cálculos complejos en los datos, por ejemplo, aplicar una fórmula específica a una columna, para la generalización de nuevas columnas.

2. **Limpieza y normalización de datos:** Puedes utilizar `apply()` para aplicar funciones que manejen valores nulos, eliminen caracteres no deseados o realicen otros tipos de limpieza en los datos.

3. **Categorización y mapeo:** `apply()` puede utilizarse para asignar categorías o etiquetas a los datos basándose en ciertas condiciones o mapear valores a nuevos valores.

4. **Extracción de información:** Puedes utilizar `apply()` para extraer información relevante de los datos, como obtener el año de una fecha o extraer palabras clave de una cadena de texto.

5. **Normalización y escalado de datos:** Puedes aplicar una función de normalización o escalado personalizada a los datos para que estén en un rango específico.

6. **Filtrado de datos:** Puedes utilizar `apply()` para filtrar datos basados en ciertas condiciones definidas por una función.

En general, `apply()` es un recurso muy útil en el análisis de datos porque te brinda la flexibilidad de aplicar cualquier operación que necesites en los datos, lo que permite realizar transformaciones específicas y adaptadas a los requerimientos del análisis en particular. Sin embargo, es importante utilizarlo con cuidado, ya que aplicar funciones personalizadas a grandes conjuntos de datos puede ser más lento en comparación con las operaciones vectorizadas de Pandas y NumPy. Siempre es recomendable considerar las alternativas y, en algunos casos, el uso de funciones vectorizadas puede ser más eficiente.

Si recordamos, estamos en la fase de limpieza de los datos ¿Qué limpieza vamos a hacer nosotras?

- Vamos a categorizar la columna de edad, para crear una columna nueva donde tengamos "joven", "adulto", "mayor". 

- Las columnas  de `conspriceidx`, `consconfidx` y 	`euribor3m` son de tipo string, pero en realidad son números por lo que tendremos que hacer una serie de modificaciones en las columnas para poner los datos en el tipo correcto. 



In [44]:
# Recordamos el dataframe con el que estamos trabajando
df.head()

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,married,basic 4y,0.0,0.0,0.0,telephone,261,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,agosto,2019.0
1,85477,1,1,2012-12-30,7,e9d37224-cb6f-4942-98d7-46672963d097,57.0,services,married,high school,,0.0,0.0,telephone,149,1,999,0,nonexistent,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923,septiembre,2016.0
2,147233,1,1,2012-02-02,5,3f9f49b5-e410-4948-bf6e-f9244f04918b,37.0,services,married,high school,0.0,1.0,0.0,telephone,226,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,15-febrero-2019,34.939,-94.847,febrero,2019.0
3,121393,1,2,2012-12-21,29,9991fafb-4447-451a-8be2-b0df6098d13e,40.0,admin.,married,basic 6y,0.0,0.0,0.0,telephone,151,1,999,0,nonexistent,1.1,93994,-364,,5191,no,29-noviembre-2015,49.041,-70.308,noviembre,2015.0
4,63164,1,2,2012-06-20,20,eca60b76-70b6-4077-80ba-bc52e8ebb0eb,56.0,services,married,high school,0.0,0.0,1.0,telephone,307,1,999,0,nonexistent,1.1,93994,-364,,5191,no,29-enero-2017,38.033,-104.463,enero,2017.0


## Categorizamos la columna de `age`

Vamos a categorizar la columna `age` para conseguir las siguientes categorías:


- Jóvenes adultos: 17 a 25 años

- Adultos jóvenes: 26 a 39 años

- Mediana edad: 40 a 59 años

- Adultos mayores: 60 en adelante


In [45]:
# lo primero que vamos a hacer es recordad cuál es valor máximo, mínimo de la columna de `age`
# para eso usaremos el método '.max()' y '.min()' de Pandas

print(f"El valor mínimo de la edad es: {df['age'].min()}")
print(f"El valor máximo de la edad es: {df['age'].max()}")

El valor mínimo de la edad es: 17.0
El valor máximo de la edad es: 98.0


In [46]:
# lo primero que vamos a hacer es crear una función que reciba un número y nos devuelva a que grupo de edad pertenece

def categorizar_edad(numero):
    
    """
    Categoriza la edad en grupos específicos.

    Esta función toma como entrada un número que representa la edad y devuelve una categoría
    específica basada en el rango de edad.

    Args:
    ----------
    numero : int
        La edad que se desea categorizar.

    Returns:
    ------------
    str
        Una cadena que representa la categoría de edad a la que pertenece el número.

    """
    if numero >=17 and numero <= 25:
        return "Jóvenes adultos"
    
    elif numero >= 26 and numero <= 39:
        return "Adultos jóvenes"

    elif numero >= 40 and numero <= 59:
        return "Mediana edad"
    
    else:
        return "Adultos mayores"
    
# Probemos la función para ver si funciona correctamente:
print(f"Una persona de 56 pertenece a la categoría: {categorizar_edad(56)}")
print(f"Una persona de 20 pertenece a la categoría: {categorizar_edad(20)}")
print(f"Una persona de 33 pertenece a la categoría: {categorizar_edad(33)}")
print(f"Una persona de 45 pertenece a la categoría: {categorizar_edad(45)}")

Una persona de 56 pertenece a la categoría: Mediana edad
Una persona de 20 pertenece a la categoría: Jóvenes adultos
Una persona de 33 pertenece a la categoría: Adultos jóvenes
Una persona de 45 pertenece a la categoría: Mediana edad


In [47]:
# ya hemos creado la función y hemos visto que funciona, lo siguiente que tendríamos que hacer es aplicarla a todo nuestro DataFrame usando el método `apply()`
# si nos fijamos esto nos devuelve una Serie, pero este resultado no lo hemos almacenado en una variable, por lo que lo siguiente que haremos será crear una nueva columna en el DataFrame con el resultado de este apply
df["age"].apply(categorizar_edad)

0        Adultos mayores
1           Mediana edad
2        Adultos jóvenes
3           Mediana edad
4           Mediana edad
              ...       
42995    Adultos mayores
42996    Adultos jóvenes
42997    Adultos mayores
42998    Adultos mayores
42999    Adultos mayores
Name: age, Length: 43000, dtype: object

In [48]:
# creamos una columna nueva que se llama "age_cat" resultado de nuestro 'apply()'
df["age_cat"] = df["age"].apply(categorizar_edad)

# chequeamos que se ha creado la columna nueva(siempre aparecerá al final del DataFrame)
df.head()

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year,age_cat
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,married,basic 4y,0.0,0.0,0.0,telephone,261,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,agosto,2019.0,Adultos mayores
1,85477,1,1,2012-12-30,7,e9d37224-cb6f-4942-98d7-46672963d097,57.0,services,married,high school,,0.0,0.0,telephone,149,1,999,0,nonexistent,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923,septiembre,2016.0,Mediana edad
2,147233,1,1,2012-02-02,5,3f9f49b5-e410-4948-bf6e-f9244f04918b,37.0,services,married,high school,0.0,1.0,0.0,telephone,226,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,15-febrero-2019,34.939,-94.847,febrero,2019.0,Adultos jóvenes
3,121393,1,2,2012-12-21,29,9991fafb-4447-451a-8be2-b0df6098d13e,40.0,admin.,married,basic 6y,0.0,0.0,0.0,telephone,151,1,999,0,nonexistent,1.1,93994,-364,,5191,no,29-noviembre-2015,49.041,-70.308,noviembre,2015.0,Mediana edad
4,63164,1,2,2012-06-20,20,eca60b76-70b6-4077-80ba-bc52e8ebb0eb,56.0,services,married,high school,0.0,0.0,1.0,telephone,307,1,999,0,nonexistent,1.1,93994,-364,,5191,no,29-enero-2017,38.033,-104.463,enero,2017.0,Mediana edad


##  Convertir columnas de tipo *string* a *float*


- Lo primero que tenemos que tener en cuenta es que en Python los decimales van con "." y no con comas como tenemos en las columnas involucradas, por lo que tendremos que reemplazar las comas por puntos. 

- Una vez puestos los puntos, tendremos que convertir ese valor a float, para esto usaremos un método que no conocemos todavía que es el astype. 

In [49]:
# como antes, lo primero que hacemos es crear una función que reciba un string en el que tiene que cambiar las "," por "."

def cambiar_comas(cadena):
    """
    Convierte una cadena que representa un número decimal en formato internacional 
    (con comas como separador de miles y punto como separador decimal) a su 
    equivalente en formato de número flotante.

    Args:
        cadena (str): Una cadena que representa el número decimal en formato 
                      internacional.

    Returns:
        float: El número decimal equivalente en formato de número flotante.
    """
    return float(cadena.replace(",", "."))

In [50]:
# aplicamos la función a una de las columnas que nos interesa, por ejemplo 'conspriceidx'
df["conspriceidx"].apply(cambiar_comas)

AttributeError: 'float' object has no attribute 'replace'

In [51]:
# vaya ... nos ha devuelto error. El error nos dice que no puede aplicar el método replace a un float, y es que en estas columnas tenemos nulos, y los nulos para Pandas son de tipo float, 
# por lo que tendremos que modificar un poco la función para que nos funcione

def cambiar_comas(cadena):
    """
    Reemplaza las comas por puntos en una cadena dada que representa un número decimal
    en formato internacional (con comas como separador de miles y punto como separador decimal).

    Args:
        cadena (str): Una cadena que representa el número decimal en formato 
                      internacional.

    Returns:
        float: El número decimal equivalente en formato de número flotante.

    Note:
        Si ocurre algún error durante el proceso de reemplazo (por ejemplo, si el 
        argumento no es una cadena), la función devolverá np.nan (valor Not a Number) 
        para indicar un valor inválido o no disponible.
    """

    try:
        # Reemplazar las comas por puntos en la cadena
        return float(cadena.replace(",", "."))
    
    except:
        # Si ocurre algún error (por ejemplo, si el argumento no es una cadena),
        # devolver np.nan (valor Not a Number) para indicar un valor inválido o no disponible.
        return np.nan

In [52]:
# aplicamos de nuevo la función y sobreescribimos los resultados de nuestra función en la misma columna
df["conspriceidx"] = df["conspriceidx"].apply(cambiar_comas)

# ya tenemos las comas cambiadas para la columna 'conspriceidx', por lo que podríamos esperar que esta columna ya sea de tipo númerico. Comprobémoslo en la siguiente celda. 
df.head()

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year,age_cat
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,married,basic 4y,0.0,0.0,0.0,telephone,261,1,999,0,nonexistent,1.1,93.994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,agosto,2019.0,Adultos mayores
1,85477,1,1,2012-12-30,7,e9d37224-cb6f-4942-98d7-46672963d097,57.0,services,married,high school,,0.0,0.0,telephone,149,1,999,0,nonexistent,1.1,93.994,-364,,5191,no,14-septiembre-2016,34.601,-83.923,septiembre,2016.0,Mediana edad
2,147233,1,1,2012-02-02,5,3f9f49b5-e410-4948-bf6e-f9244f04918b,37.0,services,married,high school,0.0,1.0,0.0,telephone,226,1,999,0,nonexistent,1.1,93.994,-364,4857.0,5191,no,15-febrero-2019,34.939,-94.847,febrero,2019.0,Adultos jóvenes
3,121393,1,2,2012-12-21,29,9991fafb-4447-451a-8be2-b0df6098d13e,40.0,admin.,married,basic 6y,0.0,0.0,0.0,telephone,151,1,999,0,nonexistent,1.1,93.994,-364,,5191,no,29-noviembre-2015,49.041,-70.308,noviembre,2015.0,Mediana edad
4,63164,1,2,2012-06-20,20,eca60b76-70b6-4077-80ba-bc52e8ebb0eb,56.0,services,married,high school,0.0,0.0,1.0,telephone,307,1,999,0,nonexistent,1.1,93.994,-364,,5191,no,29-enero-2017,38.033,-104.463,enero,2017.0,Mediana edad


In [53]:
# chequeamos los tipos de datos de la columna para confirmar que ya es del tipo correcto. 
df["conspriceidx"].dtypes

dtype('float64')

In [54]:
# hemos hecho el cambio para una de las columnas, pero recordad que había dos columnas más que tenían este formato incorrecto
# vamos a crear una lista con los nombres de las columnas que queremos cambiar

lista_columnas = ['consconfidx', 'euribor3m']

# iteramos por la lista de columnas y a cada una de ellas le aplicamos la función que hemos creado con un '.apply()'
for col in lista_columnas:
    df[col] = df[col].apply(cambiar_comas)

In [55]:
# chequeamos que las columnas ya son del tipo correcto
df.dtypes

income                 int64
kidhome                int64
teenhome               int64
dt_customer           object
numwebvisitsmonth      int64
id                    object
age                  float64
job                   object
marital               object
education             object
default              float64
housing              float64
loan                 float64
contact               object
duration               int64
campaign               int64
pdays                  int64
previous               int64
poutcome              object
empvarrate           float64
conspriceidx         float64
consconfidx          float64
euribor3m            float64
nremployed            object
y                     object
date                  object
latitude             float64
longitude            float64
contact_month         object
contact_year         float64
age_cat               object
dtype: object

In [56]:
df.head()

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year,age_cat
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,married,basic 4y,0.0,0.0,0.0,telephone,261,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191,no,2-agosto-2019,41.495,-71.233,agosto,2019.0,Adultos mayores
1,85477,1,1,2012-12-30,7,e9d37224-cb6f-4942-98d7-46672963d097,57.0,services,married,high school,,0.0,0.0,telephone,149,1,999,0,nonexistent,1.1,93.994,-36.4,,5191,no,14-septiembre-2016,34.601,-83.923,septiembre,2016.0,Mediana edad
2,147233,1,1,2012-02-02,5,3f9f49b5-e410-4948-bf6e-f9244f04918b,37.0,services,married,high school,0.0,1.0,0.0,telephone,226,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191,no,15-febrero-2019,34.939,-94.847,febrero,2019.0,Adultos jóvenes
3,121393,1,2,2012-12-21,29,9991fafb-4447-451a-8be2-b0df6098d13e,40.0,admin.,married,basic 6y,0.0,0.0,0.0,telephone,151,1,999,0,nonexistent,1.1,93.994,-36.4,,5191,no,29-noviembre-2015,49.041,-70.308,noviembre,2015.0,Mediana edad
4,63164,1,2,2012-06-20,20,eca60b76-70b6-4077-80ba-bc52e8ebb0eb,56.0,services,married,high school,0.0,0.0,1.0,telephone,307,1,999,0,nonexistent,1.1,93.994,-36.4,,5191,no,29-enero-2017,38.033,-104.463,enero,2017.0,Mediana edad


In [57]:
# imagina ahora que quieres crear una columna nueva donde tengamos el resultado de sumar el número de hijos adolescentes ('teenhome') y niños ('kidhome'). En este caso la función tiene que recibir dos columnas, es decir, dos parámetros. 
# definir la función

def calcular_hijos_totales(col_niños, col_adolescentes):
    """
    Calcula el número total de hijos dados los números de niños y adolescentes.

    Parameters:
    col_niños (int): Número de niños.
    col_adolescentes (int): Número de adolescentes.

    Returns:
    str: Cadena que representa el número total de hijos junto con el texto "hijos".
    """
    hijos_totales = col_niños + col_adolescentes
    return str(hijos_totales) + " hijos"

# aplicar la función al DataFrame usando un apply y un lambda
df["hijos_totales"] = df.apply(lambda x: calcular_hijos_totales(x["kidhome"], x["teenhome"]), axis = 1)

# mostrar el DataFrame para ver si se creo correctamente la columna
df.head()

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year,age_cat,hijos_totales
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,married,basic 4y,0.0,0.0,0.0,telephone,261,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191,no,2-agosto-2019,41.495,-71.233,agosto,2019.0,Adultos mayores,1 hijos
1,85477,1,1,2012-12-30,7,e9d37224-cb6f-4942-98d7-46672963d097,57.0,services,married,high school,,0.0,0.0,telephone,149,1,999,0,nonexistent,1.1,93.994,-36.4,,5191,no,14-septiembre-2016,34.601,-83.923,septiembre,2016.0,Mediana edad,2 hijos
2,147233,1,1,2012-02-02,5,3f9f49b5-e410-4948-bf6e-f9244f04918b,37.0,services,married,high school,0.0,1.0,0.0,telephone,226,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191,no,15-febrero-2019,34.939,-94.847,febrero,2019.0,Adultos jóvenes,2 hijos
3,121393,1,2,2012-12-21,29,9991fafb-4447-451a-8be2-b0df6098d13e,40.0,admin.,married,basic 6y,0.0,0.0,0.0,telephone,151,1,999,0,nonexistent,1.1,93.994,-36.4,,5191,no,29-noviembre-2015,49.041,-70.308,noviembre,2015.0,Mediana edad,3 hijos
4,63164,1,2,2012-06-20,20,eca60b76-70b6-4077-80ba-bc52e8ebb0eb,56.0,services,married,high school,0.0,0.0,1.0,telephone,307,1,999,0,nonexistent,1.1,93.994,-36.4,,5191,no,29-enero-2017,38.033,-104.463,enero,2017.0,Mediana edad,3 hijos


Entendamos el código. El parámetro `axis=1` indica que se aplicará la función a lo largo de las filas del DataFrame. Por otra parte, dentro de `apply`, se está utilizando una función lambda, la cual recibe un argumento `x`, que representa cada fila del DataFrame. En este caso, se llama a la función `calcular_hijos_totales` con los valores de las columnas "kidhome" y "teenhome" de cada fila específica (`x["kidhome"]` y `x["teenhome"]`).  Si esta sintaxis no la entiendes mucho, no te preocupes, mañana en clase la revisaremos en profundidad para entenderla mejor. 

# Otros métodos de limpieza

- `.map()`:  Se utiliza para aplicar una transformación o reemplazo a cada elemento de una Serie, y devuelve una nueva Serie con los valores transformados o reemplazados.

- `.replace()`: Se utiliza para reemplazar valores en un DataFrame o Serie con otros valores especificados.


## `.map()`

El método `map()` se utiliza para sustituir valores en una Serie (columna) basándose en un mapeo que proporcionamos. Es especialmente útil cuando queremos reemplazar valores específicos en una columna por otros valores o aplicar transformaciones basadas en un diccionario.

La sintaxis básica del `map()` en Pandas es la siguiente:

```python
DataFrame[columna].map(diccionario)
```

Donde:
- `DataFrame`: Es el DataFrame con el que estamos trabajando.

- `columna`: Es la columna en la que deseamos aplicar el mapeo.

- `diccionario`: Puede ser un diccionario de reemplazos o una función que se utilizará para realizar la transformación. Lo usual es que se use un diccionario. 


El método `map()` es una herramienta muy útil y versátil para transformar y manipular datos de manera eficiente y concisa. En este caso usaremos este método para:

- La columna de `loan`,  `housing` y `default` tienen 0 y 1, los cuáles no son intutitivos, los reemplazaremos por valores que sean más entendibles.

    - En el caso de `loan` recuerda que indicaba si el cliente tenía un préstamo o no, siendo 1: Sí y 0: No. 

    - La columna de `housing` indicaba si el cliente tiene un préstamos hipotecario o no, siendo 1: Sí y 0: No. 

    - La columna de `default` indicaba si el cliente tiene un historial de incumplimiento de pagos, siendo 1: Sí y 0: No. 

In [58]:
# lo primero que vamos a hacer es crear un diccionario donde:
# las claves sean los valores que tenemos en la columna sobre la que queremos aplicar el map
# los valores del diccionario serán los valores nuevos que queremos tener en la columna
# En nuestro caso queremos reemplazar los 0 por No y los 1 por Si

diccionario_mapa = {0: "No", 1: "Si"}

In [59]:
# una vez creado el diccionario, vamos a aplicar el map a la columna de 'loan'
# en este caso vamos a sobreescribir los valores de la columna

df["loan"] = df["loan"].map(diccionario_mapa)

# vemos el DataFrame y veremos que ahora la columna de 'loan' ya no tiene 1 y 0, ahora tiene Si y No. 
df.sample(6)

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year,age_cat,hijos_totales
3208,103291,1,1,2012-09-12,29,5c46c810-bd84-4f90-8db8-9beaecfa0f4c,43.0,technician,divorced,professional course,0.0,1.0,No,telephone,193,5,999,0,nonexistent,1.1,93.994,-36.4,,5191,no,5-agosto-2017,48.125,-71.805,agosto,2017.0,Mediana edad,2 hijos
7680,63820,2,0,2012-08-13,18,98e8a3c1-cde5-404b-ac29-d03e1d381dc8,37.0,technician,single,professional course,,,,telephone,51,4,999,0,nonexistent,1.4,94.465,-41.8,,52281,no,18-noviembre-2018,32.606,-67.527,noviembre,2018.0,Adultos jóvenes,2 hijos
25366,82254,2,1,2013-12-12,6,69dd1a9a-381e-4780-88e5-59d6339d6702,45.0,technician,married,professional course,0.0,0.0,No,cellular,193,1,999,0,nonexistent,-0.1,93.2,-42.0,,51958,no,4-marzo-2016,45.213,-79.562,marzo,2016.0,Mediana edad,3 hijos
10640,31208,0,2,2012-02-24,10,f6d75368-c52e-4c7c-abc5-ce30f93c5a04,50.0,housemaid,divorced,basic 4y,,1.0,Si,telephone,273,27,999,0,nonexistent,1.4,94.465,-41.8,4.961,52281,no,19-mayo-2015,38.017,-114.104,mayo,2015.0,Mediana edad,2 hijos
26127,177466,2,2,2013-04-18,26,ad068c8a-151d-498d-b862-32c47fbbf4c3,,entrepreneur,married,high school,,0.0,No,cellular,68,1,999,1,failure,-0.1,93.2,-42.0,4.076,51958,no,23-abril-2017,39.019,-112.588,abril,2017.0,Adultos mayores,4 hijos
19729,132641,1,1,2012-11-11,32,082422ab-4b0b-4fbc-859c-471dd4267e9f,57.0,technician,married,high school,,0.0,No,cellular,784,1,999,0,nonexistent,1.4,93.444,-36.1,4.966,52281,yes,4-julio-2015,38.973,-91.273,julio,2015.0,Mediana edad,2 hijos


In [60]:
# chequeamos los valores únicos para la columna de loan 
df["loan"].unique()

array(['No', 'Si', nan], dtype=object)

In [61]:
# hacemos lo mismo para la columna de 'housing' y 'default', para la cual nos vale el mismo diccionario que hemos creado antes. 
df["housing"] = df["housing"].map(diccionario_mapa)
df["default"] = df["default"].map(diccionario_mapa)


In [62]:
# vemos cuáles son sus valores únicos de la columna 'housing'
df["housing"].unique()

array(['No', 'Si', nan], dtype=object)

In [63]:
# vemos cuáles son sus valores únicos de la columna 'housing'
df["default"].unique()

array(['No', nan, 'Si'], dtype=object)

## `.replace()`


El método `replace()` se utiliza para reemplazar valores en un *DataFrame* o una *Serie* con otros valores específicos que proporcionamos. Puedes utilizar este método para realizar cambios en los datos de manera eficiente y fácil.

La sintaxis básica del `replace()` en Pandas es la siguiente:

```python
DataFrame.replace(to_replace=None, value=None, inplace=False, limit=None, regex=False, method='pad')
```

Donde:
- `to_replace`: Es el valor o la lista de valores que deseamos reemplazar en el DataFrame o Serie.

- `value`: Es el valor que se utilizará para reemplazar los valores encontrados en `to_replace`.

- `inplace` (opcional): Es un valor booleano que indica si se debe modificar el DataFrame o Serie original (True) o si se debe crear una copia con los valores reemplazados (False).

- `limit`(opcional): Especifica el número máximo de valores a reemplazar.

- `regex`(opcional): Es un valor booleano que indica si los valores en `to_replace` y `value` deben interpretarse como expresiones regulares.

- `method` (opcional): Especifica un método de reemplazo en caso de que `to_replace` sea una lista. Puede ser 'pad', 'ffill', 'bfill' u otro método válido de interpolación.

Ejemplos de uso del método `replace()`:

1. Reemplazar un valor específico:
    ```python
    # Reemplazar el valor 2 por 'dos'
    df[columna].replace(to_replace = 2, value = 'dos', inplace = True)
    ```

2. Reemplazar varios valores a la vez:
    ```python
    # Reemplazar los valores 2 y 4 por 'dos' y 'cuatro' respectivamente
    df[columna].replace(to_replace = [2, 4], value = ['dos', 'cuatro'], inplace = True)
    ```

3. Reemplazar utilizando expresiones regulares:
    ```python
    # Reemplazar todas las comas por puntos
    df[columna].replace(to_replace = ',', value = '.', regex = True, inplace = True)
    ```

Para aplicar este método limpiaremos la columna de `pdays`:

- En la columna de `pdays` tenemos valores de 999 que corresponden con valores nulos. Los reemplazaremos por nulos.


In [64]:
df.head(1)

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year,age_cat,hijos_totales
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,married,basic 4y,No,No,No,telephone,261,1,999,0,nonexistent,1.1,93.994,-36.4,4.857,5191,no,2-agosto-2019,41.495,-71.233,agosto,2019.0,Adultos mayores,1 hijos


In [65]:
# aplicamos el método '.replace()' sobre la columna 'pdays' para reemplazar los valores 999 por nulos de numpy (np.nan)
df["pdays"] = df["pdays"].replace(999, np.nan)

# comprobamos que no tenemos valores de 999 en la columna 'pdays' . Perfecto! No nos sale ninguno
df[df["pdays"] == 999]

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year,age_cat,hijos_totales


In [66]:
# guardamos el csv para usarlo en la lección de mañana
df.to_csv("datos/bank-additional_clean.csv")

# Repaso de lo aprendido en el apply y métodos de limpieza

| Método       | Descripción                                       | Ejemplo en Python                                      |
|--------------|---------------------------------------------------|---------------------------------------------------------|
| `max`        | Encuentra el valor máximo en una serie o DataFrame. | `df['columna'].max()`                                 |
| `min`        | Encuentra el valor mínimo en una serie o DataFrame. | `df['columna'].min()`                                 |
| `dtypes`     | Devuelve los tipos de datos de las columnas.      | `df.dtypes`                                           |
| `apply`      | Aplica una función a lo largo de una serie o DataFrame. | `df['columna'].apply(funcion)`                    |
| `map`        | Reemplaza los valores en una serie utilizando un mapeo. | `df['columna'].map(mapeo)`                         |
| `replace`    | Reemplaza valores específicos en una serie o DataFrame. | `df['columna'].replace({valor_original: valor_nuevo})` |


# Ejercicios

En estos usaremos el conjunto de datos que guardamos ayer en los ejercicios de la clase invertida. Los ejercicios que os planteamos hoy son: 


1. Total de unidades vendidas por país de origen del vendedor. Debéis agrupar los datos según el país de origen del vendedor y calcular el total de unidades vendidas para cada país. Esto nos dará una idea de qué países tienen una mayor participación en las ventas totales y cuáles tienen menos. Devuelve los resultados en un DataFrame ordenados de mayor a menor en función de la cantidad de unidades vendidas. 

2. Estadísticas de precio por país de envío. Vamos a explorar el precio promedio y el precio máximo de los productos según el país al que se envían. Al hacer esto, podremos entender cómo varían los precios según el destino del envío y si hay alguna tendencia interesante que valga la pena analizar.  Devuelve los resultados en un DataFrame. 

3. Conteo de productos con y sin distintivo de producto local. Vamos a clasificar los productos según si tienen o no un distintivo de producto local. Luego, calcularemos el conteo de productos en cada categoría para comprender cuántos productos tienen este distintivo y cuántos no. Esto puede proporcionarnos información sobre cómo se promocionan los productos con esta característica. Devuelve los resultados en un DataFrame. 

4. Promedio de unidades vendidas por tipo de envío. Nuestro objetivo es analizar cómo se correlaciona el tipo de envío (columna `shipping_option_name` ) con las unidades vendidas. Vamos a calcular el promedio de unidades vendidas para cada tipo de opción de envío. Esto podría ayudarnos a determinar si ciertos métodos de envío están relacionados con un mayor o menor rendimiento en las ventas. Devuelve los resultados en un DataFrame.  ¿Qué conclusiones puedes sacar de este resultado?

5. Reemplazo de valores. A lo largo del DataFrame tenemos algunas columnas cuyos valores son cero y uno, lo que podría llevar a confusión en su interpretación. Estas columnas son: 

    - `uses_ad_boosts`: La cual indica si la plataforma de comercio electrónico ha utilizado o no la función de impulso de anuncios.  Si el valor de uses_ad_boosts es 1, indica que el vendedor ha invertido en publicidad adicional para resaltar el producto. Si el valor es 0, no ha sido promocionado a través de anuncios adicionales.

    - `badge_local_product`: Indica que el producto se produce, fabrica o se envía desde la misma región o país en el que se realiza la transacción de compra. Si el valor es 1, significa que el producto tiene un distintivo que lo califica como un producto local. Si el valor es 0, indica que el producto no tiene este distintivo.

    - `badge_product_quality`: Indica que el producto cumple con ciertos estándares de calidad, características o evaluaciones positivas por parte de los consumidores. Si el valor es 1, significa que el producto tiene un distintivo que lo califica como un producto de alta calidad. Si el valor es 0, indica que el producto no tiene este distintivo de calidad.

    - `badge_fast_shipping`: Indica que el producto se enviará y entregará en un plazo más corto en comparación con otras opciones de envío estándar. Si el valor es 1, significa que el producto tiene un distintivo que indica un envío rápido. Si el valor es 0, indica que el producto no tiene este distintivo de envío rápido.

    - `shipping_is_express`: Se refiere a si una opción de envío para un producto en una plataforma de comercio electrónico se considera como "envío exprés" o "envío rápido". Si el valor es 1, significa que la opción de envío asociada se considera como una entrega rápida o exprés. Si el valor es 0, indica que la opción de envío no se considera como envío exprés.

    Todas estas columnas cumplen un patrón, y es que los 0 corresponden con 'No' y los 1 con 'Si'. Por esto, en este ejercicio deberéis reemplazar los 0: No y los 1: Si. 


6. Calificación de la calidad del producto. Sobreescribe la columna `badge_product_quality`  utilizando `apply()` para asignar "Buena" a las filas donde 'badge_product_quality' sea "No" y "Excelente" donde sea "Si".


7. Cálculo de descuento. Crea una nueva columna `discount_percentage` utilizando `apply()` que calcule el porcentaje de descuento  basado en las columnas 'price' y 'retail_price', redondea los decimales a 2. Después elimina las columnas de `average_discount` y `mean_discount` 

8. Evaluación de la valoración del vendedor. Utiliza `apply()` para crear una nueva columna 'seller_reputation' donde los valores sean "Buena" si 'merchant_rating' es mayor o igual a 4, y "Regular" si es menor a 4. Después elimina la columna `merchant_rating`. 

9. Guarda los resultados en un DataFrame para usarlo en la próxima lección. 
