# **INTRODUCCIÓN AL PREPROCESAMIENTO DE DATOS Y AL ANÁLISIS INICIAL**

Como profesional de los datos, probablemente pasarás la mayor parte de tu tiempo trabajando con datos en las fases de preprocesamiento y exploración. La limpieza adecuada de los datos es fundamental para sacar conclusiones fiables de ellos.

Después de estudiar este capítulo, serás capaz de utilizar diferentes métodos para:

- Cambiar el nombre de las columnas.
- Procesar valores ausentes.
- Trabajar con duplicados.
- Entender la agrupación.
- Identificar las etapas de la agrupación.
- Agrupar datos en pandas.
- Ordenar datos para hallar valores atípicos.
- Utilizar las características de los datos tales como valores máximos y mínimos, mediana y media.

### **Problemas con los datos: entra basura, sale basura**

Los valores ausentes son valores en filas que no tenemos disponibles por alguna razón. Esto podría deberse a que la persona no respondió a una de las preguntas en una consulta, ya sea por problemas técnicos o cualquier otra razón. En los DataFrames de pandas, estos valores suelen indicarse con NaN. NaN significa "not a number" ("no es un número") y es una forma común de marcar valores ausentes.

### **Errores de presentación**

Es difícil determinar la cantidad de espacios visualmente, por lo que generalmente es mejor evitar usar espacios en los nombres de las columnas. Si el nombre de una columna consta de varias palabras, lo mejor es usar snake_case.

Snake case (estilizado como snakecase) se refiere al estilo de escritura en el que cada espacio se reemplaza por un guion bajo () y la primera letra de cada palabra se escribe en minúsculas.

Los caracteres no deseados, como los espacios, se pueden introducir de forma inesperada en los procesos de importación o exportación de datos. Esto es exactamente lo que pasó con el nombre de nuestra columna ' user_id'.

Todos los temas tratados en esta lección requieren nuestra atención. Debemos abordarlos antes de proceder al análisis en sí. ¡Te enseñaremos cómo hacerlo en las próximas lecciones!

### **Renombrar columnas**

**Por dónde empezar**

El primer paso es comprobar si realmente tienes en tus columnas un problema con la asignación de nombres. Recomendamos empezar con el método info() para obtener una idea general sobre el dataset.

Recordemos cómo usarlo:


In [None]:
print(df.info())

Este método muestra no solo los nombres de las columnas, sino también información sobre los tipos de datos en la tabla y la cantidad de objetos no nulos en cada columna. Es un excelente punto de partida.

Como alternativa, puedes usar el atributo .columns que solo muestra los nombres de las columnas y nada más.

Para ilustrar cómo funciona el atributo .columns, creemos una tabla que contenga las distancias entre la Tierra y varios cuerpos celestes. Crearemos un DataFrame a partir de estos datos.

In [1]:
import pandas as pd

# las medidas se almacenan en una lista de listas
measurements = [['Sun', 146, 152],
                                ['Moon', 0.36, 0.41], 
                                ['Mercury', 82, 217], 
                                ['Venus', 38, 261],
                                ['Mars', 56, 401],
                                ['Jupiter', 588, 968],
                                ['Saturn', 1195, 1660],
                                ['Uranus', 2750, 3150],
                                ['Neptune', 4300, 4700],
                                ['Halley\'s comet', 6, 5400]]

# los nombres de las columnas se almacenan en la variable header
header = ['Celestial bodies ','MIN', 'MAX'] 

# guardar el DataFrame en la variable celestial
celestial = pd.DataFrame(data=measurements, columns=header)

Para revisar los nombres de las columnas, vamos a mostrar el atributo columns del DataFrame.


In [2]:
print(celestial.columns)


Index(['Celestial bodies ', 'MIN', 'MAX'], dtype='object')


Aquí tenemos tres problemas:

- 'Celestial bodies ' contiene dos espacios: entre las palabras y al final.
- 'MIN' y 'MAX' se escriben en mayúsculas, mientras que en 'Celestial bodies ' solo se escribe con mayúscula el primer carácter. Este tipo de inconsistencia puede causar problemas.
- Los nombres 'MIN' y 'MAX' no son muy descriptivos. Necesitamos nombres más explícitos para transmitir con claridad su significado.

Para cambiar el nombre de las columnas, llama al método rename() con un diccionario como parámetro de columns. Las claves del diccionario deben ser los nombres anteriores de las columnas, y los valores correspondientes deben ser los nuevos nombres. De este modo:

In [4]:
# Declara un diccionario con el nombre anterior de la columna como claves
# y los nombres nuevos de la columna como los valores
columns_new ={
    "Celestial bodies ": "celestial_bodies",
    "MIN": "min_distance",
    "MAX": "max_distance",
    }

# Llama al método rename y pasa
# el diccionario como un argumento al parámetro columns
celestial = celestial.rename(columns = columns_new)
print(celestial.columns)
print(celestial.info())

Index(['celestial_bodies', 'min_distance', 'max_distance'], dtype='object')
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 3 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   celestial_bodies  10 non-null     object 
 1   min_distance      10 non-null     float64
 2   max_distance      10 non-null     float64
dtypes: float64(2), object(1)
memory usage: 372.0+ bytes
None


Antes te mostramos cómo cambiar los nombres de las columnas y reasignar la variable celestial vapara reflejar los cambios. Si no reasignas la variable, los nombres de las columnas no cambiarán.

Sin embargo, hay una forma más elegante de renombrar columnas que no requiere reasignación como hicimos anteriormente. Solo necesitamos especificar el parámetro inplace y establecerlo en True.

In [5]:
# Declara un diccionario con el nombre anterior de la columna como claves
# y los nombres nuevos de la columna como los valores
columns_new ={
    "Celestial bodies ": "celestial_bodies",
    "MIN": "min_distance",
    "MAX": "max_distance",
    }

# Llama al método rename y pasa
# el diccionario como un argumento al parámetro columns
# y True como un argumento al parámetro inplace
celestial.rename(columns = columns_new, inplace = True)
print(celestial.columns)

Index(['celestial_bodies', 'min_distance', 'max_distance'], dtype='object')


## **EJERCICIOS**

Primero, debes ver si algo está mal con los nombres de las columnas y qué es. Así que comienza por mostrar los nombres de columna de la tabla df.

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/music_log_raw.csv')

print(df.columns)
#print(df)
# escribe tu código aquí

Debes identificar tres problemas en los nombres de las columnas '  user_id', 'total play' y 'Artist'. Adelante, corrígelos.

Renombra las siguientes tres columnas en df:

- '  user_id' → 'user_id'
- 'total play' → 'total_play'
- 'Artist' → 'artist'

Crea un diccionario con los nombres antiguos y los nuevos, y después llama al método rename() en df y pasa a este tu diccionario.

En el diccionario, utiliza los nombres de columna anteriores como claves y los nuevos como valores.

Luego, muestra el atributo columns para df para confirmar que los cambios se han aplicado.

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/music_log_raw.csv')

columns_new = {
    "  user_id":"user_id",
    "total play":"total_play",
    "Artist":"artist",
}

df.rename(columns = columns_new , inplace = True)


print(df.columns)

### **Forma automatizada de renombrar columnas**

A veces, la cantidad de columnas en un dataset puede ser grande, por lo que es poco práctico asignar manualmente nuevos valores a los nombres de las columnas. Y de hecho, podría ser difícil ver los problemas en un nombre de columna. En estos casos, los bucles y los métodos de string pueden ser muy útiles.
 
Echa un vistazo al siguiente fragmento de código que itera sobre los antiguos nombres de la columna, cámbialos y guarda los resultados en la lista new_col_names, que más tarde se asigna como los nuevos nombres de columna:

In [None]:
new_col_names = []

for old_name in celestial.columns:
    # Primero, elimina los espacios al principio y al final
    name_stripped = old_name.strip()
    # Luego, pon todas las letras en minúsculas
    name_lowered = name_stripped.lower()
    # Por último, reemplaza los espacios entre palabras por guiones bajos
    name_no_spaces = name_lowered.replace(' ', '_')
    # Agrega el nuevo nombre a la lista de nuevos nombres de columna
    new_col_names.append(name_no_spaces)

# Reemplaza los nombres anteriores por los nuevos
celestial.columns = new_col_names


Como resultado, obtenemos un DataFrame en el que todos los nombres de las columnas se ajustan a nuestro formato deseado.

¡Es muy claro! Recorre los nombres de tus columnas; elimina todos los espacios iniciales y finales usando el método strip(); haz que todo esté en minúsculas con el método lower(); remplaza cualquier espacio entre palabras con guiones bajos aplicando el método replace(); y después agrega el nuevo nombre (más claro) a la nueva lista.

Ahora es tu turno nuevamente. Volvamos a nuestro dataset music_log_raw.csv.

## **EJERCICIOS!!**

Ahora queremos que hagas el mismo cambio de nombre, pero usando 3 métodos de string: strip(), lower() y replace(). Coloca los nuevos nombres de columna en la lista new_col_names.

Luego, muestra el atributo columns para df para confirmar que los cambios se han aplicado.

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/music_log_raw.csv')

new_col_names = []

for i in df:
    stripped = i.strip()
    lower = stripped.lower()
    spaces= lower.replace(" ","_")
    new_col_names.append(spaces)

df.columns = new_col_names
print(df.columns)

### **Procesar valores ausentes**

Ahora que hemos corregido los nombres de las columnas, podemos mostrarte cómo preprocesar los valores ausentes en los propios datos. Al final de esta lección, podrás

comprobar rápidamente qué columnas tienen valores ausentes usando el método **isna()**,
 
completar los valores ausentes con el método ***fillna()** y 

eliminar filas o columnas con valores ausentes utilizando el método **dropna()**.

**Buscar valores ausentes**

Para encontrar todos los valores ausentes en una tabla, puedes utilizar el método 
isna(). Funciona de manera bastante sencilla: si se encuentra un valor ausente, devuelve True; si no, devuelve False.

isna() no es tan útil por sí solo. Generalmente usamos el método isna() junto con el método sum(). La función sum() cuenta todos los valores True y devuelve su suma total:

In [None]:
print(cholera.isna().sum())

**Sustituir valores**

Para conservar todas las filas con datos valiosos, reemplazaremos los valores NaN en la columna 'imported_cases' por ceros.

Podemos lograr esto utilizando el método fillna(), que devuelve una copia de la columna original con todos los valores NaN reemplazados por un valor específico.

In [None]:
cholera['imported_cases'] = cholera['imported_cases'].fillna(0)

print(cholera)

La columna 'imported_cases' ahora tiene todos sus valores ausentes reemplazados por ceros. De manera alternativa, podrías haber establecido el argumento inplace=True para que no tuvieras que asignar una nueva columna en lugar de la antigua.

In [None]:
cholera['imported_cases'].fillna(0, inplace=True)

Por cierto, incluso puedes usar aquí el bucle for para remplazar los valores ausentes. Todo lo que necesitas es crear una lista que contenga todas las columnas en donde quieres hacer el remplazo, y después iterar sobre esos nombres para hacer realmente el cambio.

In [None]:
# recorrer nombres de columna y remplazar los valores ausentes con ceros
columns_to_replace = ['imported_cases']

for col in columns_to_replace:
    cholera[col].fillna(0, inplace=True)

### **EJERCICIOS!**

Escribe código que sume la cantidad de valores ausentes en todas las columnas del dataset. Guarda el resultado en la variable mis_val y muéstralo.

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/music_log_raw.csv')

mis_val = df.isna().sum()

print(mis_val)

### **Eliminar filas**

Para eliminar filas con valores ausentes en un DataFrame de pandas, usa el método dropna(). Este método elimina las filas con al menos un valor ausente. También puedes especificar una lista de columnas en su parámetro subset= para que elimine filas con valores nulos solo en esas columnas.

In [None]:
cholera = cholera.dropna(subset=['total_cases', 'deaths', 'case_fatality_rate'])
print(cholera)

Ahora eliminemos toda la columna 'notes', que consiste casi en su totalidad en valores ausentes.

Usaremos el método dropna() de nuevo, pero esta vez agregaremos otro argumento: axis=. Este argumento nos permite especificar si queremos eliminar filas o columnas. Si pasamos el string 'columns' a axis=, eliminará las columnas que tengan valores ausentes. Dado que 'notes' es la única columna que contiene valores ausentes, podemos usar esta opción de forma segura para eliminarla.

In [None]:
cholera = cholera.dropna(axis='columns')
print(cholera)

Debes saber que si tienes varias columnas con valores ausentes, cholera.dropna(axis='columns') las eliminará todas. No es siempre lo que queremos. En su lugar, puedes usar el método drop() para controlar qué columnas quieres eliminar. Esto es lo que debes hacer si solo quieres eliminar la columna 'notes' utilizando el método drop():

In [None]:
cholera = cholera.drop(labels=['notes'], axis='columns')

### **Ejercicios**
**Ejercicio 2**

Escribe código para recorrer las columnas genre, Artist y track del DataFrame df y reemplaza cualquier valor ausente con el string 'no_info'. La lista de columnas a reemplazar se almacena en la variable columns_to_replace.

Después de realizar los reemplazos, comprueba la cantidad de valores ausentes nuevamente usando isna().sum()

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/music_log_raw.csv')

columns_to_replace = ['genre', 'Artist', 'track']

for col in columns_to_replace:
    df[col].fillna("no_info", inplace = True)
	

print(df.isna().sum())

**Ejercicio 3**

Ahora, eliminemos los NaNs en la columna total play remplazándolos con 0.
Después de realizar los reemplazos, comprueba la cantidad de valores ausentes nuevamente usando isna().sum()

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/music_log_raw.csv')

df["total play"].fillna(0,inplace = True)


print(df.isna().sum())

### **PROCESAMIENTO DE VALORES DUPLICADOS**

**duplicated()** ---> devuelve True si se duplica un valor y False en caso contrario.

**drop_duplicates()** ----> Para eliminar filas completamente duplicadas

In [None]:
import pandas as pd
df = pd.read_csv('/datasets/music_log_raw.csv')

print(df.duplicated().sum())

### Ejercicios


**Ejercicio 1**

En el fragmento de código a continuación, encontrarás la variable pop que almacena un DataFrame filtrado que contiene solo canciones pop. Tu objetivo es determinar la cantidad de duplicados en este DataFrame y almacenar este valor en la variable duplicates. Por último, muestra esta variable.

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/music_log_raw.csv')

pop = df[df['genre'] == 'pop']

duplicates = pop.duplicated().sum()

print(duplicates)

### **Eliminación de duplicados**



In [None]:

df = df.drop_duplicates()

print(df.duplicated().sum())

Alternativamente, podemos volver a especificar inplace=True para que no haya necesidad de reasignación:

In [None]:

df.drop_duplicates(inplace=True)

print(df.duplicated().sum())

Cuando eliminas filas, a menudo también es importante actualizar el índice. Para hacerlo, llama al método reset_index(). Esto creará un nuevo DataFrame en el que:

- Los índices del DataFrame original se ubicarán en una nueva columna llamada 'index'.
- Los nuevos índices se establecerán en orden para todas las filas en el DataFrame.

Así es como restablecemos los índices:


In [None]:
df = df.drop_duplicates().reset_index()

print(df.head())

In [None]:
#RESULTADO

#     index   user_id  total play                                  Artist   
#0      0  BF6EA5AF   92.851388                              Marina Rei  \
#1      1  FB1E568E  282.981000                            Stive Morgan   
#2      3  EF15C7BA    8.966000                                 no_info   
#3      4  82F52E69  193.776327                                  Rixton   
#4      5  4166D680    3.007000  Henry Hall & His Gleneagles Hotel Band   

#     genre                   track  
#0      pop                  Musica  
#1  ambient             Love Planet  
#2    dance     Loving Every Minute  
#3      pop  Me And My Broken Heart  
#4     jazz                    Home

Como resultado, obtuvimos la enumeración correcta para nuestras filas y también para la columna 'index', que básicamente almacena los índices anteriores. Por lo general, queremos eliminar esta columna 'index'. Para ello, necesitamos establecer el parámetro drop= en True:

In [None]:
df = df.drop_duplicates().reset_index(drop=True)

In [1]:
#RESULTADO


#    user_id   total play                                  Artist    genre   
#0  BF6EA5AF   92.851388                              Marina Rei      pop  \
#1  FB1E568E  282.981000                            Stive Morgan  ambient   
#2  EF15C7BA    8.966000                                     NaN    dance   
#3  82F52E69  193.776327                                  Rixton      pop   
#4  4166D680    3.007000  Henry Hall & His Gleneagles Hotel Band     jazz   

#                    track  
#0                  Musica  
#1             Love Planet  
#2     Loving Every Minute  
#3  Me And My Broken Heart  
#4                    Home

**Ejercicio 2**

Partiendo de nuestro ejercicio anterior, debemos eliminar las filas duplicadas del DataFrame pop con el que estamos trabajando. El DataFrame resultante debe almacenarse en la misma variable pop como antes. Después de la eliminación, vuelve a comprobar el número de duplicados e imprime este número.

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/music_log_raw.csv')

pop = df[df['genre'] == 'pop']

pop.drop_duplicates(inplace=True)


print(pop.duplicated().sum())

### **Detección de duplicados implícitos**

Para ver todos los valores únicos en una columna, utiliza el método unique(). Este método devuelve todos los valores únicos en una columna especificada. Así es como lo usamos:

In [5]:
import pandas as pd

rating = ['date', 'name', 'points']
players = [
        ['2018.01.01',  'Rafael Nadal', 10645],
                ['2018.01.08',  'Rafael Nadal', 10600],
                ['2018.01.29',  'Rafael Nadal', 9760],
                ['2018.02.19',  'Roger Federer', 10105], 
                ['2018.03.05',  'Roger Federer', 10060],
                ['2018.03.19',  'Roger Federerr', 9660],
                ['2018.04.02',  'Rafael Nadal Parera', 8770],
                ['2018.06.18',  'Roger Fedrer', 8920],
                ['2018.06.25',  'Rafael Nadal Parera', 8770],
                ['2018.07.16',  'Rafael Nadal Parera', 9310],
                ['2018.08.13',  'Rafael Nadal Parera', 10220],
                ['2018.08.20',  'Rafael Nadal Parera', 10040],
                ['2018.09.10',  'Rafael Nadal Parera', 8760],
                ['2018.10.08',  'Rafael Nadal Parera', 8260],
                ['2018.10.15',  'Rafael Nadal Parera', 7660],
                ['2018.11.05',  'Novak Djokovic', 8045],
                ['2018.11.19',  'Novak Djokovic', 9045]
]
tennis = pd.DataFrame(data=players, columns=rating)
print(tennis)

          date                 name  points
0   2018.01.01         Rafael Nadal   10645
1   2018.01.08         Rafael Nadal   10600
2   2018.01.29         Rafael Nadal    9760
3   2018.02.19        Roger Federer   10105
4   2018.03.05        Roger Federer   10060
5   2018.03.19       Roger Federerr    9660
6   2018.04.02  Rafael Nadal Parera    8770
7   2018.06.18         Roger Fedrer    8920
8   2018.06.25  Rafael Nadal Parera    8770
9   2018.07.16  Rafael Nadal Parera    9310
10  2018.08.13  Rafael Nadal Parera   10220
11  2018.08.20  Rafael Nadal Parera   10040
12  2018.09.10  Rafael Nadal Parera    8760
13  2018.10.08  Rafael Nadal Parera    8260
14  2018.10.15  Rafael Nadal Parera    7660
15  2018.11.05       Novak Djokovic    8045
16  2018.11.19       Novak Djokovic    9045


A veces, solo queremos saber el número de valores únicos en una columna en lugar de los valores en sí. En ese caso, podemos usar el método nunique():

In [7]:
print(tennis['name'].unique())

['Rafael Nadal' 'Roger Federer' 'Roger Federerr' 'Rafael Nadal Parera'
 'Roger Fedrer' 'Novak Djokovic']


In [2]:
print(tennis['name'].nunique())

6


### **Eliminación de duplicados implícitos**

Utiliza el método replace() para corregir la ortografía incorrecta o alternativa. Pasa el valor no deseado de la tabla como primer argumento y el valor correcto como segundo:

In [8]:
tennis['name'] = tennis['name'].replace('Roger Federerr', 'Roger Federer')
tennis['name'] = tennis['name'].replace('Roger Fedrer', 'Roger Federer')
tennis['name'] = tennis['name'].replace('Rafael Nadal', 'Rafael Nadal Parera')

print(tennis)

          date                 name  points
0   2018.01.01  Rafael Nadal Parera   10645
1   2018.01.08  Rafael Nadal Parera   10600
2   2018.01.29  Rafael Nadal Parera    9760
3   2018.02.19        Roger Federer   10105
4   2018.03.05        Roger Federer   10060
5   2018.03.19        Roger Federer    9660
6   2018.04.02  Rafael Nadal Parera    8770
7   2018.06.18        Roger Federer    8920
8   2018.06.25  Rafael Nadal Parera    8770
9   2018.07.16  Rafael Nadal Parera    9310
10  2018.08.13  Rafael Nadal Parera   10220
11  2018.08.20  Rafael Nadal Parera   10040
12  2018.09.10  Rafael Nadal Parera    8760
13  2018.10.08  Rafael Nadal Parera    8260
14  2018.10.15  Rafael Nadal Parera    7660
15  2018.11.05       Novak Djokovic    8045
16  2018.11.19       Novak Djokovic    9045


Tuvimos que llamar al método replace() dos veces. Si hubiéramos tenido más faltas de ortografía, habríamos tenido que volver a llamarlo.

Como siempre, pasar inplace=True produce el mismo resultado sin necesidad de reasignación.

In [9]:
tennis['name'].replace('Roger Federerr', 'Roger Federer', inplace = True)
tennis['name'].replace('Roger Fedrer', 'Roger Federer', inplace = True)
tennis['name'].replace('Rafael Nadal', 'Rafael Nadal Parera', inplace = True)

print(tennis)

          date                 name  points
0   2018.01.01  Rafael Nadal Parera   10645
1   2018.01.08  Rafael Nadal Parera   10600
2   2018.01.29  Rafael Nadal Parera    9760
3   2018.02.19        Roger Federer   10105
4   2018.03.05        Roger Federer   10060
5   2018.03.19        Roger Federer    9660
6   2018.04.02  Rafael Nadal Parera    8770
7   2018.06.18        Roger Federer    8920
8   2018.06.25  Rafael Nadal Parera    8770
9   2018.07.16  Rafael Nadal Parera    9310
10  2018.08.13  Rafael Nadal Parera   10220
11  2018.08.20  Rafael Nadal Parera   10040
12  2018.09.10  Rafael Nadal Parera    8760
13  2018.10.08  Rafael Nadal Parera    8260
14  2018.10.15  Rafael Nadal Parera    7660
15  2018.11.05       Novak Djokovic    8045
16  2018.11.19       Novak Djokovic    9045


### **Automatización con funciones personalizadas**

Para evitar repetir el mismo código varias veces, los profesionales de los datos suelen escribir sus propias funciones. Vamos a crear una función que tome cuatro argumentos:

- el DataFrame;
- el nombre de la columna donde queremos realizar el reemplazo;
- una lista de valores incorrectos;
- el valor correcto.

La función reemplazará todos los valores incorrectos por el correcto en la columna seleccionada.

In [10]:
def replace_wrong_values(df, column, wrong_values, correct_value): # pasar una lista de valores incorrectos y un string con el valor correcto en la entrada de la función
    for wrong_value in wrong_values: # looping over misspelled names
        df[column] = df[column].replace(wrong_value, correct_value) # llamar a replace() para cada nombre incorrecto
    return df # devolver el DataFrame modificado

duplicates = ['Roger Federerr', 'Roger Fedrer'] # una lista de nombres mal escritos
name = 'Roger Federer' # el nombre correcto
tennis = replace_wrong_values(tennis, 'name', duplicates, name) # llamar a la función, replace() se llamará dos veces
print(tennis) # el nuevo DataFrame sin duplicados

          date                 name  points
0   2018.01.01  Rafael Nadal Parera   10645
1   2018.01.08  Rafael Nadal Parera   10600
2   2018.01.29  Rafael Nadal Parera    9760
3   2018.02.19        Roger Federer   10105
4   2018.03.05        Roger Federer   10060
5   2018.03.19        Roger Federer    9660
6   2018.04.02  Rafael Nadal Parera    8770
7   2018.06.18        Roger Federer    8920
8   2018.06.25  Rafael Nadal Parera    8770
9   2018.07.16  Rafael Nadal Parera    9310
10  2018.08.13  Rafael Nadal Parera   10220
11  2018.08.20  Rafael Nadal Parera   10040
12  2018.09.10  Rafael Nadal Parera    8760
13  2018.10.08  Rafael Nadal Parera    8260
14  2018.10.15  Rafael Nadal Parera    7660
15  2018.11.05       Novak Djokovic    8045
16  2018.11.19       Novak Djokovic    9045


**Ejercicio 3**

Y finalmente, verifica el número de valores únicos en la columna 'Artist'. Guarda los valores únicos en la variable pop_artists. El número de artistas únicos debe almacenarse en la variable n_artists. Muestra ambas variables.

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/music_log_raw.csv')

pop = df[df['genre'] == 'pop']

pop_artists = pop['Artist'].unique()  # Obteniendo los artistas únicos
n_artists = pop['Artist'].nunique()  # Calculando la cantidad de artistas únicos usando nunique()

print(pop_artists)  # Muestra los artistas únicos
print("Número de artistas únicos en la columna 'Artist':", n_artists)  # Muestra la cantidad de artistas únicos


### **AGRUPACIÓN DE DATOS**

La agrupación se justifica cuando los datos caen lógicamente en grupos en función de una determinada característica y cuando los grupos son relevantes para la tarea en cuestión.

Por ejemplo, si tenemos datos sobre todos los artículos comprados en una tienda específica, podemos agrupar los datos por hora del día para identificar el tráfico máximo. O podríamos agrupar todas las compras por ID de cliente para calcular el tamaño de compra promedio, que es una métrica clave en el comercio minorista.

**Etapas de la agrupación**

- Dividir. Primero, divide los datos en grupos según un criterio determinado.
- Aplicar. A continuación, aplica métodos de cálculo a cada grupo, por ejemplo, puedes encontrar el número de elementos en un grupo con el método count() o la suma de sus valores con sum().
- Combinar. Finalmente, los resultados son almacenados en una nueva estructura de datos: un DataFrame o un Series.

Estas son las etapas estándar de agrupación y, afortunadamente para nosotros, pandas tiene métodos integrados para ellas.

**EJEMPLO**

Analicemos algunos datos sobre exoplanetas para ver cómo funciona la agrupación en la práctica.
Los científicos y las científicas ya han encontrado miles de estos planetas fuera de nuestro sistema solar utilizando telescopios en el espacio para enviar imágenes que luego son estudiadas por analistas de datos. Te mostraremos cómo encuentran planetas similares a la Tierra.
La tabla exoplanet almacena datos sobre miles de exoplanetas. Echa un vistazo a las primeras 30 filas:


In [None]:
import pandas as pd

df = pd.read_csv('/datasets/exoplanets.csv')

print(exoplanet.head(30))

#RESULTADO

#            name      mass  radius  discovered
#0    1RXS 1609 b  14.00000  1.7000        2008
#1   2M 0122-24 b  20.00000  1.0000        2013
#2   2M 2140+16 b  20.00000  0.9200        2010
#3   2M 2206-20 b  30.00000  1.3000        2010
#4       51 Peg b   0.47000  1.9000        1995
#5       55 Cnc e   0.02703  0.1737        2004
#6       CT Cha b  17.00000  2.2000        2008
#7      CoRoT-1 b   1.03000  1.4900        2007
#8     CoRoT-10 b   2.75000  0.9700        2010
#9     CoRoT-11 b   2.33000  1.4300        2010
#10    CoRoT-12 b   0.91700  1.4400        2010
#11    CoRoT-13 b   1.30800  0.8850        2010
#12    CoRoT-14 b   7.60000  1.0900        2010
#13    CoRoT-15 b  63.40000  1.1200        2010
#14    CoRoT-16 b   0.53500  1.1700        2010
#15    CoRoT-17 b   2.43000  1.0200        2010
#16    CoRoT-18 b   3.47000  1.3100        2011
#17    CoRoT-19 b   1.11000  1.2900        2011
#18     CoRoT-2 b   3.31000  1.4650        2007
#19    CoRoT-20 b   4.24000  0.8400        2011
#20    CoRoT-21 b   2.26000  1.3000        2011
#21    CoRoT-22 b   0.06000  0.4354        2011
#22    CoRoT-23 b   2.80000  1.0800        2011
#23    CoRoT-24 b   0.01800  0.3300        2011
#24    CoRoT-24 c   0.08800  0.4400        2011
#25    CoRoT-25 b   0.27000  1.0800        2012
#26    CoRoT-26 b   0.52000  1.2600        2012
#27    CoRoT-27 b  10.39000  1.0070        2012
#28    CoRoT-29 b   0.85000  0.9000        2012
#29     CoRoT-3 b  21.66000  1.1900        2008

- Primero, dividimos los datos en grupos por año.
- Luego, aplicamos el método count() para encontrar el número de elementos en cada grupo.
- Por último, guardamos el resultado como una nueva tabla en la que cada fila contiene un año y el número de exoplanetas descubiertos.

A continuación, verás cómo se ve esto en el código.

### **Agrupación en pandas**

En pandas, agrupamos los datos utilizando el método groupby(), que hace lo siguiente:

- Toma el nombre de una columna en la que se deben agrupar los datos como argumento. Este argumento se llama by=. En nuestro caso, vamos a agrupar los datos por año de descubrimiento.
- Devuelve un objeto de un tipo especial: DataFrameGroupBy. Son datos agrupados. Si les aplicas un método de pandas, se convertirán en una nueva estructura de datos de tipo DataFrame o Series.

Encontremos el número de exoplanetas agrupados por año utilizando el método 

In [None]:
print(exoplanet.groupby(by='discovered'))
print() # nos dará una línea vacía entre dos impresiones
print(exoplanet.groupby(by='discovered').count())

In [None]:
# <pandas.core.groupby.DataFrameGroupBy object at 0x7fc1e1ca3400>

#           name  mass  radius
#discovered                    
#1995           1     1       1
#1996           1     1       1
#1999           1     1       1
#2000           2     2       2
#2001           1     1       1
#2002           1     1       1
#2004           7     7       7
#2005           4     4       4
#2006          10    10      10
#2007          19    19      19
#2008          23    23      23
#2009          15    15      15
#2010          57    57      57
#2011          95    95      95
#2012          73    73      73
#2013          96    96      96
#2014         105   105     105

No siempre es necesario especificar el argumento by=. Pasar el nombre de la columna funcionará exactamente de la misma manera:


In [None]:
print(exoplanet.groupby('discovered'))
print() # nos dará una línea vacía entre dos impresiones
print(exoplanet.groupby('discovered').count())

In [None]:
# <pandas.core.groupby.DataFrameGroupBy object at 0x7fc1e1ca3400>

#           name  mass  radius
#discovered                    
#1995           1     1       1
#1996           1     1       1
#1999           1     1       1
#2000           2     2       2
#2001           1     1       1
#2002           1     1       1
#2004           7     7       7
#2005           4     4       4
#2006          10    10      10
#2007          19    19      19
#2008          23    23      23
#2009          15    15      15
#2010          57    57      57
#2011          95    95      95
#2012          73    73      73
#2013          96    96      96
#2014         105   105     105

Si necesitas comparar observaciones usando un solo parámetro, aplica el método al objeto DataFrameGroupBy e indica la columna en cuestión, por ejemplo 'radius' .


In [None]:
exo_number = exoplanet.groupby('discovered')['radius'].count()
print(exo_number)
print()
print(type(exo_number))

In [None]:
#discovered
#1995      1
#1996      1
#1999      1
#2000      2
#2001      1
#2002      1
#2004      7
#2005      4
#2006     10
#2007     19
#2008     23
#2009     15
#2010     57
#2011     95
#2012     73
#2013     96
#2014    105
#Name: radius, dtype: int64#

#<class 'pandas.core.series.Series'>

Ahora que agrupamos nuestros datos, podemos comprobar cómo, por ejemplo, ha cambiado con el tiempo el radio promedio de los exoplanetas descubiertos.

Para calcular el promedio, encontraremos la suma de los radios de los exoplanetas descubiertos en un año determinado y la dividiremos entre el número de planetas, es decir, el valor que encontramos en el paso anterior.

Primero, para encontrar la suma de los radios utiliza el método sum():

In [None]:
exo_radius_sum = exoplanet.groupby('discovered')['radius'].sum()
print(exo_radius_sum)

In [None]:
#discovered
#1995     1.900000
#1996     1.060000
#1999     1.380000
#2000     2.007000
#2001     0.921000
#2002     1.200000
#2004     6.789700
#2005     4.789000
#2006    20.355000
#2007    24.334600
#2008    31.329000
#2009    15.366794
#2010    56.828660
#2011    77.738974
#2012    50.074507
#2013    69.372100
#2014    55.268000
#Name: radius, dtype: float64

Luego, debemos dividirla entre la cantidad de exoplanetas descubiertos cada año. Los objetos Series se pueden dividir entre sí:

In [None]:
exo_radius_mean = exo_radius_sum / exo_number
print(exo_radius_mean)

In [None]:
#discovered
#1995    1.900000
#1996    1.060000
#1999    1.380000
#2000    1.003500
#2001    0.921000
#2002    1.200000
#2004    0.969957
#2005    1.197250
#2006    2.035500
#2007    1.280768
#2008    1.362130
#2009    1.024453
#2010    0.996994
#2011    0.818305
#2012    0.685952
#2013    0.722626
#2014    0.526362
#Name: radius, dtype: float64

### **Ejercicios**

**Ejercicio 1**

Revisemos nuestro conjunto de datos de música y agrupémoslo de manera similar a como lo hicimos con los exoplanetas. Es importante tener en cuenta que la agrupación generalmente se realiza en un dataset procesado que no contiene valores NaN, duplicados o nombres de columna sin formato. Por lo tanto, no usaremos el conjunto de datos music_log_raw.csv original, sino que usaremos el dataset preprocesado con todos los problemas eliminados.

Nuestro primer paso es agrupar el conjunto de datos por 'genre'. Cuando se aplique el agrupamiento, guárdalo en la variable genre_groups y muestra su tipo.

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/music_log_processed.csv')

genre_groups = df.groupby("genre")

print(type(genre_groups))
#print(genre_groups)

**Ejercicio 2**

Ahora pasemos a la etapa de aplicación y apliquemos métodos de cálculo a cada grupo. Queremos calcular el tiempo total que nuestros oyentes pasaron escuchando cada género. Cuando hablamos del tiempo total, el método que debemos aplicar es sumar los valores de tiempo para cada género. Escríbelo en el precódigo a continuación y activa la variable genre_groups.

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/music_log_processed.csv')

genre_groups = df.groupby('genre').sum() # escribe tu código aquí

print(genre_groups)

**Ejercicio 3**

Nuestro paso final es combinar los resultados. Por si acaso, te recordamos que queremos calcular el tiempo total que nuestros oyentes pasaron escuchando cada género. Tenemos una columna 'total_play' en nuestro dataset que contiene exactamente lo que necesitamos. Necesitamos pasar esto a nuestro flujo de agrupación: primero, selecciona la columna y luego aplica un método que calcule el tiempo total.
Hazlo e imprime el resultado final.

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/music_log_processed.csv')

genre_groups = df.groupby('genre')["total_play"].sum() # escribe tu código aquí

print(genre_groups)

### **Ordenar datos**

El método **sort_values()** en pandas es una poderosa herramienta para ordenar valores. Puede ordenar la tabla completa o grupos de filas dentro de ella.

Este método se aplica a un DataFrame y tiene dos parámetros:

- **by=**: el nombre o nombres de la columna cuyos valores se usan para ordenar las filas del DataFrame.
- **ascending=** indica el orden al realizar el ordenamiento. Su valor predeterminado es True. Para ordenar los datos en orden descendente, establece este parámetro en False.

Por ejemplo:

```python
exoplanet.sort_values(by="radius",ascending=False)
```
donde: 
- exoplanet es el nombre de la tabla
- radius ---> ordenar la columna
- ascending ---> clave de ordenacion

### **Ordenar los datos de nuestros exoplanetas**

Digamos que tenemos un gran interés en los exoplanetas que son similares en tamaño a la Tierra. Ordenemos los datos por radio en orden ascendente. Primero vendrán los planetas más pequeños:


In [None]:
print(exoplanet.sort_values(by='radius').head(10))

```python
             name     mass    radius  discovered
253   Kepler-37 b  0.01000  0.291431        2013
137  Kepler-102 b  0.01353  0.470774        2014
175  Kepler-138 b  0.00021  0.526818        2014
327   Kepler-62 c  0.01300  0.538027        2013
281   Kepler-42 d  0.00300  0.571654        2011
138  Kepler-102 c  0.00944  0.582863        2014
280   Kepler-42 c  0.00600  0.728579        2011
254   Kepler-37 c  0.03776  0.750996        2013
128      KOI-55 b  0.00140  0.762205        2011
279   Kepler-42 b  0.00900  0.784623        2011
```

Este es el código que ordena únicamente la columna radius y muestra los primeros 10 resultados:


In [None]:
print(exoplanet['radius'].sort_values().head(10))

```python
253    0.291431
137    0.470774
175    0.526818
327    0.538027
281    0.571654
138    0.582863
280    0.728579
254    0.750996
128    0.762205
279    0.784623
Name: radius, dtype: float64
```

Recuerda que un valor de 1 significa que el radio es igual al de la Tierra. Parece que tenemos muchos exoplanetas que son más pequeños.

Podemos recuperar todos los exoplanetas con radios más pequeños que el de la Tierra usando la indexación lógica:


```python
print(exoplanet[exoplanet['radius'] < 1])

             name     mass    radius  discovered
128      KOI-55 b  0.00140  0.762205        2011
129      KOI-55 c  0.00210  0.863085        2011
137  Kepler-102 b  0.01353  0.470774        2014
138  Kepler-102 c  0.00944  0.582863        2014
141  Kepler-102 f  0.01636  0.885503        2014
146  Kepler-106 b  0.01668  0.818250        2014
148  Kepler-106 d  0.02549  0.952757        2014
152  Kepler-107 d  0.01196  0.863085        2014
174  Kepler-131 c  0.02600  0.840668        2014
175  Kepler-138 b  0.00021  0.526818        2014
194   Kepler-20 e  0.00970  0.863085        2011
195   Kepler-20 f  0.04500  0.997592        2011
253   Kepler-37 b  0.01000  0.291431        2013
254   Kepler-37 c  0.03776  0.750996        2013
264  Kepler-406 c  0.00900  0.851876        2014
266  Kepler-408 b  0.01573  0.818250        2014
279   Kepler-42 b  0.00900  0.784623        2011
280   Kepler-42 c  0.00600  0.728579        2011
281   Kepler-42 d  0.00300  0.571654        2011
327   Kepler-62 c  0.01300  0.538027        2013
336   Kepler-68 c  0.00642  0.926976        2013
```

===================================================================================
Ahora, digamos que solo nos interesan los valores para el 2014, podemos nuevamente usar la indexación lógica para extraerlos:

```python
print(exoplanet[exoplanet['discovered'] == 2014])

#Resultado

            name    mass     radius  discovered
42      GU Psc b  11.000  15.132015        2014
84    HAT-P-49 b   1.730  15.838176        2014
86    HAT-P-54 b   0.760  10.581202        2014
92     HATS-15 b   2.170  12.385834        2014
95      HATS-4 b   1.323  11.433078        2014
..           ...     ...        ...         ...
478    WASP-74 b   0.826  13.988707        2014
487    WASP-83 b   0.300  11.657256        2014
489  WASP-87 A b   2.210  15.524326        2014
491    WASP-89 b   5.900  11.657256        2014
493  WASP-94 A b   0.452  19.279308        2014

[105 rows x 4 columns]
```

============================================================
Ordenemos el resultado por radio en orden descendente.

```python
print(exo_small_14.sort_values(by='radius', ascending=False))

#Resultado

             name     mass    radius  discovered
148  Kepler-106 d  0.02549  0.952757        2014
141  Kepler-102 f  0.01636  0.885503        2014
152  Kepler-107 d  0.01196  0.863085        2014
264  Kepler-406 c  0.00900  0.851876        2014
174  Kepler-131 c  0.02600  0.840668        2014
146  Kepler-106 b  0.01668  0.818250        2014
266  Kepler-408 b  0.01573  0.818250        2014
138  Kepler-102 c  0.00944  0.582863        2014
175  Kepler-138 b  0.00021  0.526818        2014
137  Kepler-102 b  0.01353  0.470774        2014
```

El método sort_values() devuelve un nuevo objeto en vez de modificarlo localmente. Por lo tanto, si deseas seguir trabajando con el DataFrame ordenado, deberás almacenar el resultado en una variable. Puedes guardarla nuevamente en la misma:

In [None]:
exo_small_14 = exo_small_14.sort_values(by='radius', ascending=False)

### Ejercicios
**Ejercicio 1**

En la lección anterior, agrupaste nuestros datos music_log_processed.csv por 'genre' y calculaste el tiempo total que nuestros oyentes pasaron escuchando cada género. Como resultado, obtuvimos un objeto Series en el que tenemos el tiempo de escucha total para cada 'genre'. Ahora, ordenemos el objeto Series resultante en orden descendente y veamos los 10 géneros principales que nuestros oyentes escucharon más.

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/music_log_processed.csv')

time_by_genre = df.groupby('genre')['total_play'].sum()

time_by_genre_sort = time_by_genre.sort_values(ascending=False)

print(time_by_genre_sort.head(10))