<a href="https://colab.research.google.com/github/LGLV-Ciencia-de-Datos/Curso_python_Ciencia_de_Datos/blob/main/3.%20Pandas/Summary%20Functions%20and%20Maps.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Summary Functions and Maps**

Extrae información de tus datos.

# **Introducción**

En el tutorial anterior, aprendimos a seleccionar datos relevantes de un DataFrame o Series. Como demostramos en los ejercicios, extraer los datos correctos de nuestra representación es fundamental para realizar el trabajo.

Sin embargo, los datos no siempre salen de la memoria en el formato que deseamos desde el primer momento. A veces, tenemos que trabajar más para reformatearlos para la tarea en cuestión. Este tutorial cubrirá las diferentes operaciones que podemos aplicar a nuestros datos para obtener la entrada "justo como la necesitamos".

Usaremos los datos de la revista Wine Magazine para la demostración.

In [None]:
import pandas as pd
# pd.set_option('max_rows', 5)

In [None]:
reviews = pd.read_csv('https://raw.githubusercontent.com/davestroud/Wine/refs/heads/master/winemag-data-130k-v2.csv', index_col = 0)
reviews

### **Funciones de resumen**

Pandas proporciona muchas "funciones de resumen" simples (no es un nombre oficial) que reestructuran los datos de una manera útil. Por ejemplo, considera el método `describe()`:

In [None]:
reviews.describe()

Este método genera un resumen de alto nivel de los atributos de la columna dada. Es sensible al tipo, lo que significa que su salida cambia según el tipo de dato de la entrada. La salida anterior solo tiene sentido para datos numéricos; para datos de tipo cadena, esto es lo que obtenemos:

In [None]:
reviews.taster_name.describe()

Si quieres obtener una estadística de resumen simple de una columna en un DataFrame o una Serie, normalmente hay una función útil de pandas para lograrlo.

Por ejemplo, para ver la media de los puntos asignados (es decir, qué tan bien se desempeña un vino con una calificación promedio), podemos usar la función `mean()`:

In [None]:
reviews.points.mean()

Para ver una lista de valores únicos podemos usar la función `unique()`.

In [None]:
reviews.taster_name.unique()

Para ver una lista de valores únicos y con qué frecuencia aparecen en el conjunto de datos, podemos usar el método `value_counts()`.

In [None]:
reviews.taster_name.value_counts()


### **Maps**

Los mapas (o mapeos) son un término tomado de las matemáticas que se refiere a una función que toma un conjunto de valores y los "mapea" a otro conjunto de valores. En la ciencia de datos, a menudo necesitamos crear nuevas representaciones a partir de datos existentes o transformar los datos de su formato actual al formato que queremos que tengan más adelante. Los mapas son los que realizan este trabajo, lo que los hace extremadamente importantes.

Existen dos métodos de mapeo que se usan con frecuencia.

`map()` es el primero y el más sencillo. Por ejemplo, supongamos que queremos volver a centrar las puntuaciones de los vinos para que la media sea 0. Podemos hacerlo de la siguiente manera:

In [None]:
reviews_points_mean = reviews.points.mean()
reviews.points.map(lambda p: p - reviews_points_mean)

La función que pasas a `map()` debe esperar un único valor de la Serie (un "punto" en el ejemplo anterior) y devolver una versión transformada de ese valor. `map()` retorna una nueva Serie donde todos los valores han sido transformados por tu función.



`apply()` es el método equivalente si queremos transformar un DataFrame completo al llamar a un método personalizado en cada fila.

In [None]:
def remean_points(row):
    row.points = row.points - reviews_points_mean
    return row

reviews.apply(remean_points, axis='columns')

Si hubiéramos llamado a `reviews.apply()` con `axis='index'`, en lugar de pasar una función para transformar cada fila, necesitaríamos dar una función para transformar cada columna.

Ten en cuenta que `map()` y `apply()` devuelven nuevas Series y DataFrames transformados, respectivamente. No modifican los datos originales sobre los que se llaman. Si observamos la primera fila de reviews, podemos ver que aún conserva su valor de puntos original.

Pandas ofrece muchas operaciones de mapeo comunes como funciones integradas. Por ejemplo, aquí hay una forma más rápida de volver a nombrar nuestra columna de puntos:

In [None]:
review_points_mean = reviews.points.mean()
reviews.points - review_points_mean

En este código estamos realizando una operación entre una gran cantidad de valores del lado izquierdo (todo en la Serie) y un solo valor del lado derecho (el valor de la media). Pandas interpreta esta expresión y deduce que debemos sustraer ese valor de la media de cada valor en el conjunto de datos.

Pandas también entenderá qué hacer si realizamos estas operaciones entre Series de igual longitud. Por ejemplo, una forma sencilla de combinar la información de país y región en el conjunto de datos sería hacer lo siguiente:

In [None]:
reviews['country_reg_1'] = reviews.country + '-' + reviews.region_1

In [None]:
reviews['country_reg_1']

Estos operadores son más rápidos que `map()` o `apply()` porque usan optimizaciones integradas en pandas. Todos los operadores estándar de Python (>, <, ==, y demás) funcionan de esta manera.

Sin embargo, no son tan flexibles como `map()` o `apply()`, que pueden hacer cosas más avanzadas, como aplicar lógica condicional, lo que no se puede hacer solo con sumas y restas.