## Solucionar problemas con archivos csv
---

CSV significa **valores separados por comas**. Sin embargo, un archivo CSV no tiene que usar solo una coma como **delimitador**; se puede usar cualquier carácter. 

A veces pueden aparecer como archivos `.tsv` o `.tab` (también conocidos como archivos TSV) además de `.csv`.

Existen formas de lidiar con estos problemas: 
1. Usar el argumento `sep`. 
2. Indicar nombre de encabezados con `header = None` y `name=`. 
3. Renombrar encabezados con `header = None`y `rename()`. 
4. Indicar tipo de decimales con el argumento `decimal = `. 

In [1]:
import pandas as pd

In [2]:
## Uso de tipo de separador, por defecto ","
data = pd.read_csv('/datasets/gpp_modified.csv', sep='|')

FileNotFoundError: [Errno 2] No such file or directory: '/datasets/gpp_modified.csv'

In [None]:
## Indicar nombre de encabezados 
column_names = [
    'country',
    'name',
    'capacity_mw',
    'latitude',
    'longitude',
    'primary_fuel',
    'owner'
    ]

data = pd.read_csv('/datasets/gpp_modified.csv', header=None, names=column_names)

In [None]:
## Renombrar encabezado
data = pd.read_csv('/datasets/gpp_modified.csv', header=None)

data = data.rename(columns = {0: "country",1: "name", 2:"capacity_mw"})

In [None]:
## Indicar el tipo de decimal 
data = pd.read_csv('/datasets/gpp_modified.csv', decimal=',')

## Leer archivos excel
---

Pandas proporciona la función `read_excel()` para leer archivos Excel 

Por defecto, esta función carga la primera hoja, pero un archivo Excel puede contener varias hojas. Para tal caso utilizar el parámetro `sheet_name=` y especificar el nombre o el número de la hoja que queremos seleccionar. 

In [None]:
## Abrir archivo excel
### Con nombre de la hoja de cálculo 
df = pd.read_excel('/datasets/product_reviews.xlsx', sheet_name='reviewers')

### Con número de la hoja de cálculo 
df = pd.read_excel('/datasets/product_reviews.xlsx', sheet_name=1)



## Inspección de los datos
---

Echar un vistazo a tus datos es útil cuando empiezas a trabajar con un nuevo dataset porque te ayudan a plantear las primeras preguntas que debes explorar. Algunos de los atributos y métodos incluyen: 

- `info()`. Imprime información general sobre el DataFrame
- `shape()`. Devuelve tanto el número de filas como el número de columnas en el dataset. 
- `sample()`. Selecciona filas aleatorias del DataFrame en lugar de filas consecutivas del principio o del final del DataFrame. 
- `describe()`. 

In [None]:
## Estructura del dataframe
df.info()

Obtenemos la siguiente información: 

- El número de filas (RangeIndex: __ entries);
- El número de columnas (total __ columns);
- El nombre de cada columna (Column);
- El número de valores de cada columna que no están ausentes (Non-Null Count);
- El tipo de datos de cada columna (Dtype).

In [None]:
## Almacenar número de filas y columnas como variables
n_rows, n_cols = df.shape

print(f" El dataframe tiene {n_rows} filas y {n_cols} columnas")

La función `shape` devuelve una **tupla** como salida. 

Una tupla es un tipo de datos similar a una lista de Python en términos de indexación, objetos anidados y repetición. Sin embargo, la principal diferencia entre ambas es que una tupla Python es inmutable (no puede modificarse), mientras que una lista Python es mutable.

Para poder tener una mejor visión del dataframe, podemos combinar el método `info()` y otro métodos como `head()` o `tail()`. Sin embargo,para poder observar una mejor muestra de los datos que se encuentran en el dataframe y no solo los encabezados y la última parte se puede usar el método `sample()`. Si quiero que haya repetibilidad en mi aleatoriedad agregar el argumento `random_satet()` y establecer y algún valor entero de tu elección (cualquier número entero entre 0 y 4294967295).

In [None]:
## Encabezados
print(data.head(10))

## Parte final 
print(data.tail(10))

## Aleatorio
print(data.sample(10))

## Aleatoriedad establecida
print(data.sample(10, random_state= 1989))

El método `describe()` es muy útil para obtener información sobre las columnas numéricas de tus datos. La salida incluye estadísticas de resumen.   

Es aconsejable que además, el análisis se acompañe de visualizaciones de datos para obtener una imagen completa, , ya que es posible que sus estructuras sean muy diferentes aunque tengan estadísticas resumidas similares (como el cuarteto de Anscombe). 

In [None]:
## Método describe()
print(data.describe())

De manera predeterminada, se ignoran las columnas no numéricas. Para poder incluir otro tipo de columnas no numéricas se utiliza el parámetro `include =` con el tipo de datos que queremos añadir p.e, `object` u añadir todas las columnas `all`. 

## Trabajar con valores ausentes y duplicados
---

### Contar valores ausentes
Una buena manera de empezar a comprobar los valores ausentes es llamar al método `info()` de tu DataFrame. Los valores nulos son valores ausentes, mientras que los no nulos son valores no ausentes. 

Una vez identificado el número de observaciones podemos determinar el número de valores ausentes con `isna()`.

In [None]:
## Determinar la información del dataframe
data.info()

## Contar el número de valores ausentes de cada columna
data.isna().sum()

## Contar el número de valores ausentes totales
data.isna().sum().sum()

Otra opción es con el método `value_counts()`, que devuelve la cantidad de veces que cada valor único aparece en esa columna. Este método es conveniente utilizarlo sobre una solo columna o *series*. 

In [None]:
## Conocer el número de valores únicos para la columna source
print(df_logs['source'].value_counts(dropna=False)) # drop_na=False permite contar el número de Nas en la columna

La salida se ordena en orden descendente según el recuento de cada valor. Alternativamente, podemos ordenar la salida alfabéticamente según los nombres de los valores. Para hacerlo, podemos utilizar el método `sort_index()`.

In [None]:
## Ordenar el resultado de acuerdo con el index y no de acuerdo con los valores de la columna
print(df_logs['source'].value_counts(dropna=False).sort_index())

### Filtrar Dataframes con NaNs

Para examinar las filas auseentes del dataframe, una de las maneras es utilizar el método `is.na()`.  El resultado genera una serie con los valores ausente `True`. 

In [None]:
## Filtra los valores con NaNs
print(df_logs[df_logs['source'].isna()]) 


Sin embargo, a veces no es eso lo que nos convien. Para ello resulta más útil combinar `~ `con `isna()` para filtrar las filas con valores ausentes. La adición del símbolo de tilde (~), invierte el resultado.

In [None]:
## Filtra los valores sin NaNs
print(df_logs[~df_logs['source'].isna()])

Es posible filtrar un dataframe a partir de **múltiples condiciones de filtrado**. 

In [None]:
# Filtrar el df donde no haya valores ausentes en la columna "email" 
# y que solo sean valores de email de la columna source
print(df_logs[(~df_logs['email'].isna()) & (df_logs['source'] == 'email')])

El código de filtrado anterior consta de dos partes:

1. `(~df_logs['email'].isna())` devuelve una serie de booleanos donde `True` indica que no falta ningún valor en la columna `'email'`.

2. `(df_logs['source'] == 'email')` devuelve una serie de booleanos, donde `True` indica que `'source'` tiene `'email'` como valor, y `False` indica lo contrario.

3. Comprobamos dos series de booleanos para ver dónde ambas condiciones devuelven `True`. Utilizamos el símbolo `&` para representar el operador lógico `and`. Las filas que cumplen ambas condiciones (es decir, que cumplen la primera condición y la segunda) se incluyen en el resultado final.

### Rellenar los valores categóricos ausentes

Como recordatorio, las **variables categóricas** o **cualitativas** representan un conjunto de valores posibles que puede tener una observación particular. Es posible que tengan un orden en particular, por lo que serían **ordinales** o pueden no tener un orden en particular, por lo que serían **nominales**. 

Podemos sustituir los valores ausentes de las columnas con **valores por defecto** por ejemplo, una cadena vacía `''` . Esto lo podemos realizar con el método `fillna()`. 

In [None]:
## Sustituir valores ausentes
df_logs['email'] = df_logs["email"].fillna(value= "")

Usar `fillna()` no es la única forma en que podemos rellenar los valores ausentes con cadenas vacías. También podemos hacerlo directamente al leer los datos mediante `read_csv()` utilizando el parámetro `keep_default_na = False`. 

In [None]:
## Cargar el dataset haciendo que en vez de que sean NaN = TRUE sea FALSE
df_logs = pd.read_csv('/datasets/visit_log.csv', keep_default_na=False)

print(df_logs.head())

<div class="alert alert-block alert-warning">
<b>Nota:</b> <a class="tocSkip"></a>

Ten en cuenta que establecer `keep_default_na=False` convierte todos los valores ausentes **en cadenas vacías**, incluso para columnas numéricas. Esto hace que las columnas numéricas se lean como cadenas cuando tienen valores ausentes.   

Así que asegúrate de usar solo `keep_default_na=False` cuando desees que todos los valores ausentes en cada columna se lean como cadenas vacías.
</div>

Es posible que, querramos sustituir los valores de defecto por algún otro valor. En tal caso es útil emplear el método `replace()`.

In [None]:
## Remplazar el valor de defecto "" por otro valor
df_logs['source'] = df_logs["source"].replace("", "email")

### Rellenar los valores ausentes cualitativos 

Como recordatorio, las variables **cuantitativas** tienen valores numéricos que podemos usar para cálculos aritméticos, por ejemplo, la altura, el peso, la edad y los ingresos. En Python, estos valores tienden a almacenarse como números enteros o flotantes.

Debido a que queremos hacer cálculos numéricos con estas columnas, no podemos rellenar esos valores con cadenas como `'Unknown'` o `''`. En su lugar, debemos rellenarlos con valores representativos apropiados. Para estos valores se suele utilizar la **media** o la **mediana** del conjunto de datos.

La elección entre media o mediana dependerá de la uniformidad de los valores, es decir, de su **distribución**. 


Para rellenar los valores ausentes, podemos seguir estos pasos:

1. Determina la distribución de los datos.

2. Si no hay valores atípicos significativos, calcula la media utilizando el método `mean()`.

3. Si tus datos tienen valores atípicos significativos, calcula la mediana utilizando el método `median()`.

4. Reemplaza los valores ausentes con la media o la mediana utilizando el método `fillna()`.

In [None]:
## Remplazar el promedio 
### Determinar el promedio 
age_avg = analytics_data['age'].mean()
print("Mean age:", age_avg)

### Remplazar la columna con los valores promedio
analytics_data['age'] = analytics_data['age'].fillna(age_avg)

<div class="alert alert-block alert-warning">
<b>Nota:</b> <a class="tocSkip"></a>

También vale la pena señalar que a veces no necesitamos rellenar los valores ausentes en absoluto.  Por ejemplo, si solo falta una pequeña parte de tus datos, y los datos ausentes son aleatorios, podría ser buena idea dejar los valores como NaN, en cuyo caso simplemente no se incluirían en ningún cálculo numérico.
</div>

### Gestión de duplicados

Otro de los problemas comunes en la etapa de procesamiento de datos en las bases de datos son los valores duplicados. 

Hay dos técnicas que funcionan para encontrar datos duplicados:

1. Podemos utilizar el método `duplicated()` junto con `sum()` para obtener el número de valores duplicados en una sola columna o filas duplicadas en un DataFrame. 

In [None]:
## Columna booleana con False si no es duplicada y True si lo es 
print(df.duplicated())

## Conteo de las filas duplicadas
print(df.duplicated().sum())

## Conocer las filas duplicadas
print(df[df.duplicated()])

2. Podemos utilizar el método `value_counts()`. Este método identifica todos los valores unívocos en una columna y calcula cuántas veces aparece cada uno. Podemos aplicar este método a los Series para obtener los pares valor-frecuencia en orden descendente.

In [None]:
## Conocer el número de veces que determinada fila es similar
print(df['col_1'].value_counts())

Es importante notar que mediante este método solo se inspecciona la columna seleccionada, puede que no sea un **duplicado explicito** y solo se repita el valor de dicha columna y no de las subsecuentes. 

Para el caso de que existan **filas completamente duplicadas**, se pueden tratar utilizando el método `drop_duplicates()`. 

In [None]:
## Eliminar filas duplicadas explícitas
print(df.drop_duplicates())

Si solo deseas considerar duplicados en una (o algunas) de las columnas en lugar de filas completamente duplicadas, puedes usar el parámetro `subset=`. Pásale el nombre de la columna (o la lista de nombres de columna) donde deseas buscar duplicados. 

In [None]:
## Eliminar filas seleccionadas 
print(df.drop_duplicates(subset='col_1'))

Esto eliminará las columnas con valores similares, pero puede eliminar otras columnas donde los valores sean diferentes. 

Recuerda que después de eliminar los duplicados, tenemos que llamar al método `reset_index()` con el parámetro `drop=True`. Esto nos permite arreglar la indexación y eliminar el índice antiguo.

Existen casos en donde existan **duplicados implícitos** y puedan existir *typos*. Para ello, la forma más sencilla de manejar entradas duplicadas como estas es homogeneizar los términos de acuerdo con las buenas prácticas de programación. 

Por ejemplo, hacer que todas las letras de cadenas estén en minúsculas, utilizando el método `lower()`. 

In [None]:
## Convertie los strings en mínusculas
print(df['col_1'].str.lower())

Después de `df['col_1']`, tenemos `.str`, que nos permite aplicar métodos de cadena directamente a la columna. Esto es necesario para poder aplicar el método `lower()` en el paso siguiente. 

Para que el cambio se preserve, ten en cuenta que se debe **sustituir** la columna original. 

In [None]:
## Sustituir la columna col_1
df['col_1'] = df['col_1'].str.lower()
print(df)

Otra opción para cambiar duplicados, sin necesidad de cambiar mayúsculas por minúsculas, es cambiar todas las apariciones específicas de una columnas por otro string, utilizando el método `replace()`. 

In [None]:
## Remplazar un string por otro
df['category_modified'] = df['category'].str.replace('tbc', 'baby care')
print(df)

Si no estás seguro de cuál es el mejor enfoque, siempre puedes conservar la columna original y crear una nueva columna adicional, con las cadenas modificadas. Por ejemplo, podrías guardar el resultado de la sustitución en la columna `'item'` en una nueva columna llamada `'item_modified'`. 

In [None]:
## Creación de nueva columa 
df['category_modified'] = df['category'].str.replace('tbc', 'baby care')
print(df)

Finalmente otra aproximación para poder cambiar un valor específico es utilizar el método `loc[]`. Para ello: 

1. Buscamos la fila que contiene el valor que queremos sustituir. 
2. Pasamos el índice y el nombre de columna adecuados a `loc[]`, y utiliza el signo `=` para establecer el valor deseado.

In [None]:
# Ejemplo en conjunto

## Determinar el promedio
avg_per_category = df.groupby('category')['price'].mean()

## Extraer del dataframe
mean_val = avg_per_category[2]

## Sustituir mediante loc[]
df.loc[7,"price"] = mean_val# escribe tu código aquí

print(df)

## Filtrado de datos
---

### Atributo index
Los objetos Series y DataFrame en pandas siempre tienen índices que se almacenan en el atributo index. Cada vez que creas un Series o un DataFrame, su atributo de index se crea automáticamente con valores por defecto si no especificas los valores del índice.

Existen dos maneras de establecer valores de índice:

- Pasar los valores del índice al parámetro `index=` al crear un DataFrame o un Series.
- Asignar los valores del índice al atributo `index` de un DataFrame o Series existente.

In [None]:
## Manera 1: Pasar los valores al parámetro index
oceans = pd.Series(['Pacific', 'Atlantic', 'Indian', 'Southern', 'Arctic'],
                   index=['A', 'B', 'C', 'D', 'E'])

print(oceans)
print()

## Manera 2: Asignar los valores al atributo index
oceans = pd.Series(['Pacific', 'Atlantic', 'Indian', 'Southern', 'Arctic'])

oceans.index = [1, 2, 3, 4, 5]
print(oceans)

A     Pacific
B    Atlantic
C      Indian
D    Southern
E      Arctic
dtype: object

1     Pacific
2    Atlantic
3      Indian
4    Southern
5      Arctic
dtype: object


En el caso de los DataFrames, existe otra forma de establecer los valores del índice mediante el método `set_index()`. 

In [None]:
states  = ['Alabama', 'Alaska', 'Arizona', 'Arkansas']
flowers = ['Camellia', 'Forget-me-not', 'Saguaro cactus blossom', 'Apple blossom']
insects = ['Monarch butterfly', 'Four-spotted skimmer dragonfly', 'Two-tailed swallowtail', 'European honey bee']
index   = ['state 1', 'state 2', 'state 3', 'state 4']

df = pd.DataFrame({'state': states, 'flower': flowers, 'insect': insects}, index=index)
df = df.set_index('state') # reemplazar el índice

print(df)
print()
print(df.index)

                          flower                          insect
state                                                           
Alabama                 Camellia               Monarch butterfly
Alaska             Forget-me-not  Four-spotted skimmer dragonfly
Arizona   Saguaro cactus blossom          Two-tailed swallowtail
Arkansas           Apple blossom              European honey bee

Index(['Alabama', 'Alaska', 'Arizona', 'Arkansas'], dtype='object', name='state')


Originalmente, nuestros índices eran números de estado: 'state 1', 'state 2' etc. Después, los sustituimos por los valores de la columna 'state'.

Si no quieres que el índice tenga un nombre, puedes eliminarlo estableciendo el atributo index_name de un DataFrame a None. Así es como puedes hacerlo:

In [None]:
states  = ['Alabama', 'Alaska', 'Arizona', 'Arkansas']
flowers = ['Camellia', 'Forget-me-not', 'Saguaro cactus blossom', 'Apple blossom']
insects = ['Monarch butterfly', 'Four-spotted skimmer dragonfly', 'Two-tailed swallowtail', 'European honey bee']
index   = ['state 1', 'state 2', 'state 3', 'state 4']

df = pd.DataFrame({'state': states, 'flower': flowers, 'insect': insects}, index=index)
df = df.set_index('state')

df.index.name = None
print(df)
print()
print(df.index)

                          flower                          insect
Alabama                 Camellia               Monarch butterfly
Alaska             Forget-me-not  Four-spotted skimmer dragonfly
Arizona   Saguaro cactus blossom          Two-tailed swallowtail
Arkansas           Apple blossom              European honey bee

Index(['Alabama', 'Alaska', 'Arizona', 'Arkansas'], dtype='object')


### Indexación 
Ahora vamos a hablar de **indexación**. La terminología puede ser confusa, así que ten en cuenta estas definiciones:

- Index (índice): un componente de un Series o DataFrame, accesible mediante el atributo `index`.
- Indexing (indexación): el proceso de acceder a los valores de un Series o DataFrame utilizando sus índices.
  
Es posible utilizar el atributo `loc[]` para acceder a los elementos del DataFrame utilizando los valores de los índices y los nombres de las columnas:

In [None]:
# Filtrado mediante uso de índices
## Creación listas para dataframe
states  = ['Alabama', 'Alaska', 'Arizona', 'Arkansas']
flowers = ['Camellia', 'Forget-me-not', 'Saguaro cactus blossom', 'Apple blossom']
insects = ['Monarch butterfly', 'Four-spotted skimmer dragonfly', 'Two-tailed swallowtail', 'European honey bee']
index   = ['state 1', 'state 2', 'state 3', 'state 4']

df = pd.DataFrame({'state': states, 'flower': flowers, 'insect': insects}, index=index)

## Filtrado
filtered_df = df.loc[['state 1', 'state 3'], ['flower', 'insect']]
print(filtered_df)

                         flower                  insect
state 1                Camellia       Monarch butterfly
state 3  Saguaro cactus blossom  Two-tailed swallowtail


Para obtener un rango de índices para una **única columna o fila**, solo hay que especificar el primer y el último índice separados por un `:`. 

In [None]:
## Indexar una sola solumna
print(df.loc['state 1': 'state 3', 'flower'])
print() 

## Indexar una sola fila
print(df.loc["state 1", "flower":"insect"])

state 1                  Camellia
state 2             Forget-me-not
state 3    Saguaro cactus blossom
Name: flower, dtype: object

flower             Camellia
insect    Monarch butterfly
Name: state 1, dtype: object


De la misma manera, puedes seleccionar **múltiples columnas así como índices**:

In [None]:
print(df.loc["state 1": "state 3", "flower": "insect"])

                         flower                          insect
state 1                Camellia               Monarch butterfly
state 2           Forget-me-not  Four-spotted skimmer dragonfly
state 3  Saguaro cactus blossom          Two-tailed swallowtail


Para utilizar el método `iloc[]` es muy similar. La principal diferencia entre métodos, es que `loc[]` utiliza el índice y las _etiquetas_ de columnas para acceder a los elementos, mientras que `iloc[]` utiliza _enteros_ para designar las posiciones de los elementos que necesitas obtener.

In [None]:
## Uso de iloc para seleccionar el elemento de la fila 4 y la columna 3
print(df.iloc[3, 2])

European honey bee


De la misma manera que con `loc[]`, podemos acceder a múltiples filas y/o columnas con `iloc[]` pasándole listas de sus posiciones o utilizando el slicing.

In [None]:
## Indexación utilizando celdas específicas
print(df.iloc[[1,3], [1,2]])
print()

## Indexación utilizando rangos
print(df.iloc[0:2, 1:3])

                flower                          insect
state 2  Forget-me-not  Four-spotted skimmer dragonfly
state 4  Apple blossom              European honey bee

                flower                          insect
state 1       Camellia               Monarch butterfly
state 2  Forget-me-not  Four-spotted skimmer dragonfly


Como podemos observar al utilizar rangos no es necesario poner los índices entre corchetes `[]`. En cambio si vamos a definir celdas específicas se necesita definirlas con los corchetes. 

- Usar `iloc[]` puede ser más conveniente si sabes que solo quieres ver las primeras filas o columnas, o cuando sabes el número exacto de fila o columna que necesitas. `iloc[]` también puede ser útil como un atajo para ahorrar tiempo al escribir nombres de columnas o etiquetas de índices.

- Usar `loc[]` puede lograr una mejor legibilidad y comprensión de lo que tu código está haciendo, tanto para tus colegas que leen tu código como para tu yo del futuro.

### Filtrado personalizado mediante query()

Para filtrar DataFrames utilizando operadores lógicos para crear una serie de Booleanos que llamaremos **máscara booleana** a partir de ahora. Esta máscara nos permitirá accesar a la condición que queremos al implementarla sobre el df original. 

In [None]:
## Establesco la condición y creo el df booleano (máscara)
mask = df['jp_sales'] >= 1

## Pongo al df la máscara booleana y selecciona aquellas columnas que em interesan
print(df[mask][['name', 'jp_sales']])


Podemos realizar este mismo filtrado utilizando el método `query()`. Todo lo que se tiene que hacer es uestablecer la condición que queríamos filtrar.

In [None]:
## LA misma condición establecida previamente
print(df.query("jp_sales > 1")[['name', 'jp_sales']])

Para filtrar con `query()` basándose en comparaciones de cadenas, es necesario poner comillas alrededor de la cadena.

### Filtrado mediante método isin()

En lugar de utilizar los operadores lógicos conocidos, `isin()` comprueba si los valores de una columna coinciden con alguno de los valores de otra matriz, como una lista o un diccionario.

In [None]:
## Lista de interés 
handhelds = ['3DS', 'DS', 'GB', 'GBA', 'PSP']

## Filtrado de la lista d einterés
print(df[df['platform'].isin(handhelds)][['name', 'platform']])

También podemos utilizar la tilde (`~`) para extraer sólo las filas en las que los valores de la columna `'platform'` **no estén** en la lista `handhelds`. 

In [None]:
## Lista de interés 
handhelds = ['3DS', 'DS', 'GB', 'GBA', 'PSP']

## Exclusión de valores en la lista de interés
print(df[~df['platform'].isin(handhelds)][['name', 'platform']])

También podemos comprobar la presencia utilizando el método query() con la palabra clave in en nuestra cadena de consulta.

In [None]:
## Lista de interés
handhelds = ['3DS', 'DS', 'GB', 'GBA', 'PSP']

print(df.query("platform in @handhelds")[['name', 'platform']])

Alternativamente, puedes invertirlo con la palabra clave `not in`:

In [None]:
## Lista de exclusión 
handhelds = ['3DS', 'DS', 'GB', 'GBA', 'PSP']

## Exclusión mediante método query
print(df.query("platform not in @handhelds")[['name', 'platform']])

### Uso de estructuras de datos para el filtro de dataframes

Además de utilizar índices y cadenas para filtrar datos con `query()`, también es posible filtrar utilizando **estructuras de datos** como diccionarios, Series e incluso otros DataFrames.

- **Con un diccionario**. Para comprobar la presencia de valores de la columna 'a' entre los valores del diccionario, tenemos que utilizar el método `values()` del diccionario en nuestra consulta `"a in @our_dict.values()"`:

In [None]:
# Filtro con diccionario 
## Creación del diccionario 
our_dict = {0: 10, 3: 11, 12: 12}

## Creación del df
df = pd.DataFrame(
    {
        'a': [2, 3, 10, 11, 12],
        'b': [5, 4, 3, 2, 1],
        'c': ['X', 'Y', 'Y', 'Y', 'Z'],
    }
)
print(df)
print()
print(our_dict)
print()

## Filtrado de los valores, por defecto es `.keys()`
print(df.query("a in @our_dict.values()"))

    a  b  c
0   2  5  X
1   3  4  Y
2  10  3  Y
3  11  2  Y
4  12  1  Z

{0: 10, 3: 11, 12: 12}

    a  b  c
2  10  3  Y
3  11  2  Y
4  12  1  Z


Para comprobar las claves y no los valores, necesitamos utilizar el query `a in @our_dict.keys()` o solo `"a in @our_dict"` ya que se comprueban las claves por defecto. 

In [None]:
## Comprobar claves en lugar de valores
print(df.query("a in @our_dict"))

    a  b  c
1   3  4  Y
4  12  1  Z


- **Con un series**. Tal y como los diccionarios almacenan pares clave-valor, los objetos Series almacenan pares índice-valor. Sin embargo, en el caso de los objetos Series, los valores se comprueban por defecto.

In [None]:
# Filtro con series 
## Creación de la serie 
our_series = pd.Series([10, 11, 12], index=['X', 'Y', 'T'])

## Creación del dataframe
df = pd.DataFrame(
    {
        'a': [2, 3, 10, 11, 12],
        'b': [5, 4, 3, 2, 1],
        'c': ['X', 'Y', 'Y', 'Y', 'Z'],
    }
)
print(df)
print()
print(our_series)
print()

## Filtrado de la series
print(df.query("a in @our_series"))

    a  b  c
0   2  5  X
1   3  4  Y
2  10  3  Y
3  11  2  Y
4  12  1  Z

X    10
Y    11
T    12
dtype: int64

    a  b  c
2  10  3  Y
3  11  2  Y
4  12  1  Z


Para comprobar si en vez de los valores son los índices utilizamos query agregando los índices `a in "our_series.index`

In [None]:
## Filtrado por índice y no por valor
print(df.query("c in @our_series.index"))

    a  b  c
0   2  5  X
1   3  4  Y
2  10  3  Y
3  11  2  Y


- **Con un dataframe**. PTambién podemos utilizar un DataFrame externo para filtrar nuestros datos de dos maneras:    
  
   1. Filtrado utilizando sus valores índice
   2. Filtrado utilizando valores de columnas específicas 

Para el pirmer caso, basándonos en la inclusión entre los valores del índice de un DataFrame externo, simplemente lo tenemos que comprobar de la misma manera que lo hicimos para un índice de Series: accedemos al atributo `index` en nuestra consulta.

In [None]:
# Filtado utilizando otra dataframe
## Creación df a filtrar (df1)
df = pd.DataFrame(
    {
        'a': [2, 3, 10, 11, 12],
        'b': [5, 4, 3, 2, 1],
        'c': ['X', 'Y', 'Y', 'Y', 'Z'],
    }
)

## Creación dataframe que usaremos para filtrar (df2)
our_df = pd.DataFrame(
    {
        'a1': [2, 4, 6],
        'b1': [3, 2, 2],
        'c1': ['A', 'B', 'C'],
    },
    index=['Z', 'X', 'P']
)

print(df)
print()
print(our_df)
print()

## Filtro df1 de acuerdo con df2
print(df.query("c in @our_df.index"))

Para comprobar si los valores de la columna del DataFrame que queremos filtrar (df en este caso) también están presentes en la columna de un DataFrame externo (our_df), tenemos que especificar la columna externa en nuestra consulta utilizando la **notación de puntos**.

La consulta `"a in @our_df.b1"` comprueba si algunos valores de la columna `'a'` de df están presentes en la columna `'b1'` de `our_df`.

In [None]:
# Filtrado de df con notación de puntos
## Creación df a filtrar (df1)
df = pd.DataFrame(
    {
        'a': [2, 3, 10, 11, 12],
        'b': [5, 4, 3, 2, 1],
        'c': ['X', 'Y', 'Y', 'Y', 'Z'],
    }
)

## Creación dataframe que usaremos para filtrar (df2)
our_df = pd.DataFrame(
    {
        'a1': [2, 4, 6],
        'b1': [3, 2, 2],
        'c1': ['A', 'B', 'C'],
    },
    index=['Z', 'X', 'P']
)
print(df)
print() 
print(our_df)
print()
print(df.query("a in @our_df.b1"))


    a  b  c
0   2  5  X
1   3  4  Y
2  10  3  Y
3  11  2  Y
4  12  1  Z

   a1  b1 c1
Z   2   3  A
X   4   2  B
P   6   2  C

   a  b  c
0  2  5  X
1  3  4  Y


### Filtrado por condiciones múltiples

Es posible utilizar múltiples condiciones de manera tradicional. Para ello, podemos filtrar los DataFrames de pandas utilizando los signos  `&`, `|` y `~`. 

In [None]:
## Importar el df
df = pd.read_csv('/datasets/vg_sales.csv')

## Manipulación
df['user_score'] = pd.to_numeric(df['user_score'], errors='coerce')

## Filtrado
df_filtered = df[(df["year_of_release"] >= 1980) & (df["year_of_release"]< 1990)]# escribe tu código aquí
print(df_filtered.head(5))

También es posible utilizar el método de ``query()` escribiendo las cadenas de consulta.

In [None]:
## Filtrado múltiple con querys
developers = ['SquareSoft', 'Enix Corporation', 'Square Enix']
cols = ['name', 'developer', 'na_sales', 'eu_sales', 'jp_sales']

## Tres condiciones diferentes
q_string = "(na_sales > 0 and eu_sales > 0 and jp_sales >0) and (jp_sales > na_sales + eu_sales) and (developer in @developers)"
df_filtered = df.query(q_string)[cols]
print(df_filtered)

### Remplazo de valores con where()

Es posible que cuando estemos realizando nuestros análisis exploratorios de datos (EDA), a menudo como parte del filtro de datos, implica modificación de los valores de las columnas. En esos casos podemos utilizar el mátodo `where()` para filtrar y modificaral mismo tiempo. 

El método `where()` en Pandas se puede entender como una manera de mantener ciertos valores en una columna que cumplen con una condición, y cambiar los valores que no la cumplen. En otras palabras, `where` se usa para cambiar **solo los valores que no cumplen** con la condición especificada, manteniendo los demás intactos

In [None]:
## Vector de variables a cambiar 
genres = ['Puzzle', 'Strategy']

## Cambio de 
df['genre'] = df['genre'].where(~df['genre'].isin(genres), 'Misc')

print(df['genre'].value_counts(ascending=True))

Aquí, where está haciendo lo siguiente:

- `~df['genre'].isin(genres)` es la condición. El símbolo ~ invierte la condición, es decir, selecciona todos los géneros que no están en la lista genres (en este caso, 'Puzzle' y 'Strategy').
- Si el género no está en la lista `genres`, `where` deja el valor de `genre` tal cual está.
- Si el género sí está en la lista `genres`, `where` lo reemplaza por `'Misc'`.

**Consideraciones especiales** 

1. **Para rellenar valores ausentes**, se puede usar el método where, pero una forma más sencilla es utilizar fillna().

2. **Para reemplazar una palabra específica** en una columna o vector, también se puede hacer con where, pero el método replace() es más directo y fácil de usar.

## Trabajar con tipos de datos
--

### Datos strings y numéricos
Cuando pandas lee datos de un archivo de texto, automáticamente convierte los datos sin procesar al tipo de datos pandas.

Por lo general, la conversión es directa: una columna que contenga solo números se leerá en automático como un tipo de datos `float` o `int`. Si una columna solo contiene palabras, se lee como un tipo de datos `object`. 

A veces, pandas no puede inferir el tipo de datos correcto o podría no ser lo que queremos. Cuando esto pasa, necesitamos intervenir y convertir por nuestra cuenta los valores al tipo correcto. Para poder convertir a un **tipo de dato específico** utilizamos el método `astype()`. 


In [None]:
# Creación del dataframe a utilizar
d = {'col1': [1.0, 2.0], 'col2': [3, 4]}
df = pd.DataFrame(data=d)
print(df)
print()
df.info()

   col1  col2
0   1.0     3
1   2.0     4

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   col1    2 non-null      float64
 1   col2    2 non-null      int64  
dtypes: float64(1), int64(1)
memory usage: 164.0 bytes


In [None]:
# Conversión de flotantes a strings u objects
df_as_string = df.astype("str")
print(df_as_string)
print()
df_as_string.info()

  col1 col2
0  1.0    3
1  2.0    4

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   col1    2 non-null      object
 1   col2    2 non-null      object
dtypes: object(2)
memory usage: 164.0+ bytes


La impresión del DataFrame se ve igual, pero si observamos la información de la df nos damos cuenta que se realizó la conversión numérica a tipo string u object. También podemos usar el método `astype()` en columnas individuales: 

In [None]:
## Conversión de float a entero 
df["col1"] = df["col1"]. astype("int")
print(df)
print()

print(df.dtypes)

   col1  col2
0     1     3
1     2     4

col1    int64
col2    int64
dtype: object


Es necesario ser precavido al convertir entre tipos de datos, una buena práctica es evaluar si la operación de conversión podría llevar a cambios significativos en tus datos. Esto puede realizarse mediante la librería `numpy`utilizando la función `arrray_equal()`. 

In [None]:
## Importación de numpy
import numpy as np

## Creación de la df
d = {'col1': [1.0, 2.0, 3.0, 4.0], 'col2': [5.0, 6.01, 7.0, 8.0]}
df = pd.DataFrame(data=d)

## Comprobar si es seguro convertir 'col2'
np.array_equal(df['col2'], df['col2'].astype('int'))

False

### Strings a valores numéricos
A veces queremos conservar los valores del string que parecen números como tipos de datos string, algunos ejemplos incluyen IDs, códigos postales. Para ello es posible hacer la manipulación utilizando nuevamente `astype()`. 

In [None]:
d = {'col1': ['1.0', '2.0'], 'col2': ['3', '4']}
df = pd.DataFrame(data=d)

# Convertir string a entero
df['col2'] = df['col2'].astype('int')
print(df.dtypes)
print() 

## Convertir string a entero
df['col1'] = df['col1'].astype('int') 

col1    object
col2     int64
dtype: object



ValueError: invalid literal for int() with base 10: '1.0'

Sin embargo, en algunos caos no se puede convertir los strings en números de esta forma. El problema es que queremos convertir un string a números enteros cuando los valores presentan decimales. Para forzar el cambio es necesario utilizar el método `to numeric`. 

In [None]:
## Conversión forzada a numérico
df['col1'] = pd.to_numeric(df['col1'])
print(df.dtypes)

col1    float64
col2      int64
dtype: object


De forma predeterminada, `to_numeric()` no puede convertir strings con caracteres no numéricos o decimales en números. En cambio, devuelve un error. Es posible utilizar el parámetro `errors=` que sirve para determinar la acción implementada si encuentra un valor no válido: 

- `errors='raise'`: argumento predeterminado por el cual los valores inválidos generan errores, bloqueando la conversión a números para toda la columna.
- `errors='coerce'`: los valores inválidos se reemplazan por NaN.
- `errors='ignore'`: los valores inválidos simplemente se ignoran y se dejan sin cambios.

### Trabajar con fechas y horas
Otro tipo de datos que se puede manipular son los de fecha y hora. Esto se debe a que en el mundo se usan muchos formatos diferentes de fecha. En pandas es posible convertir strings a formatos de fecha utilizando el método `to_datetime()`, especificando el parámetro `format=`. Los códigos de formato señalados por el símbolo `%` se utilizan para especificar el formato.

In [None]:
## Objeto en tipo string
string_date = '2010-12-17T12:38:00Z'

## Conversión a tipo de fecha especificando el formato que tiene
datetime_date = pd.to_datetime(string_date, format='%Y-%m-%dT%H:%M:%SZ')

## Comprobación del cambio
print(type(string_date))
print(type(datetime_date))
print(datetime_date)

<class 'str'>
<class 'pandas._libs.tslibs.timestamps.Timestamp'>
2010-12-17 12:38:00


Existen muchos símbolos de formato, pero solamente unos cuantos los usarás con regularidad. Por ejemplo:

- `%d`: día del mes (01 a 31).
- `%m`: mes (01 a 12).
- `%Y`: año en cuatro dígitos (2019).
- `%y`: año en dos dígitos (19).
- `%H`: hora en formato de 24 horas.
- `%I`: hora en formato de 12 horas.
- `%M`: minutos (00 a 59).
- `%S`: segundos (00 a 59).

Cuando trabajamos con formatos de tipo `datetime`, en el fondo Python y pandas los siguen categorizando como estructuras de tipo series, por lo que al momento de querer acceder a sus valores individuales genera error. 

Para obtener atributos en las columnas de datos tipo `datetime`, se usa el objeto accesor `.dt`.

In [None]:
## Conversión de string a formato datetime
df['InvoiceDate'] = pd.to_datetime(df['InvoiceDate'], format='%Y-%m-%dT%H:%M:%SZ')

## Obtener los valores específicos de dia dentro del formato datetime
df_days = df['InvoiceDate'].dt.day
print(df_days.sample(5, random_state=42))

### Trabajar con husos horarios
Existen escenarios que tienen que ver con las zonas horarias al trabajar con datos `datetime`. Ejemplos de estos escenarios incluyen: 

- Datos provenientes de distintas zonas geográficas dependiendo de la ubicación rdonde se registran estos datos usando su hora local.
- Trabajar con valores datetime de tu zona horaria, pero los interesados se encuentran en otra. 

En cualquier caso, debes saber cómo convertir entre distintas zonas horarias sin confundirte. Es ahí donde nos son útiles `.dt.tz_localize()` y `.dt.tz_convert()`.

- **`.dt.tz_localize()`**. Permite asignar una zona horaria a una columna datetime para que tus datos "tengan conocimiento" de su zona horaria. 
- **`.dt.tz_convert()`**. Permite convertir una columna "con conocimiento de su zona horaria" en una zona horaria distinta.


In [None]:
## Ejemplo del uso `dt.tz_localize` para asignar el huso horario UTC a la columna 
df['InvoiceDate'] = df['InvoiceDate'].dt.tz_localize('UTC')

## Ejemplo uso de `dt.tz_convert` pensando en que los valores ahora se encuentran en huso horario UTC
df['InvoiceDate_NYC'] = df['InvoiceDate'].dt.tz_convert('America/New_York')

## Ingeniería de características
---
Al proceso de crear nuevas columnas mediante las columnas originales en el conjunto de datos se le llama **ingeniería de características** y es de mucha utilidad en el machine learning. 

### Transformaciones utilizando operadres aritméticos
Es posible crear nuevas columnas a partir de operadores aritméticos como la suma, porque la mayoría de las funciones matemáticas trabajan de forma vectorial: se aplican a columnas enteras a la vez, en lugar de recorrer cada valor de una columna. Esto proporciona un código más eficiente y conciso. 

In [None]:
# Crear la columna total_ventas y rellenarla
df['total_sales'] = df['na_sales'] + df['eu_sales'] + df['jp_sales']

# Crear la columna eu_sales_share y rellenarla
df['eu_sales_share'] = df['eu_sales'] / df['total_sales']
print(df['eu_sales_share'].head())

### Columnas booleanas
También es posible crear columnas que comprueben cierta condición. 

In [None]:
# Crear la columna is_nintendo y rellenarla
df['is_nintendo'] = df['publisher'] == 'Nintendo'
print(df['is_nintendo'].head())

KeyError: 'publisher'

### Columnas categóricas
Si la columna de string representa un conjunto de categorías, es mucho mejor tratar esos valores directamente como **categorías**. La ventaja de trabajar con datos categóricos en vez de strings es que podemos ahorrar memoria y agilizar el análisis, sobre todo en el caso de grandes conjuntos de datos. Y esto se puede hacer con el tipo de datos `categorical`.  

### Crear columnas con apply()
Es muy común que en los análisis de datos necesitemos categorizar o segmentar a nuestras observaciones. es decir agrupar los datos en nuevas categorías que creamos. 

Para crear una columna de categoría es útil utilizar crear una función con bucles `elif` y posteriormente utilizar lel método `apply`, el cual toma valores de una columna DataFrame y les aplica una función.

In [None]:
## Creación de la función `era_group`
def era_group(year):

    ## Descripción de la función
    """
    La función devuelve el grupo de época de los juegos de acuerdo con el año de lanzamiento usando estas reglas:
    —'retro'   para año < 2000
    —'modern'  para 2000 <= año < 2010
    —'recent'  para año >= 2010
    —'unknown' para buscar valores año (NaN)
    """

## Bucle de la función
    if year < 2000:
        return 'retro'
    elif year < 2010:
        return 'modern'
    elif year >= 2010:
        return 'recent'
    else:
        return 'unknown'

## Aplicación de apply para que a cada valor de la columna `year_of_release` lo etiquueta
df['era_group'] = df['year_of_release'].apply(era_group)
print(df.head())

El método apply trabaja muy bien con una sola columna, pero si necesitamos que o haga en filas es necesario agregar el parámetro `axis=1`.

In [None]:
## Creación de la función 

def era_sales_group(row):

## Descripción de la función 
    """
    La función devuelve una categoría de juegos según el año de lanzamiento y las ventas totales mediante las siguientes reglas:
    —'retro'   para año < 2000 y las ventas totales < $1 million
    —'modern'  para 2000 <= año < 2010 y las ventas totales < $1 million
    —'recent'  para año >= 2010 y las ventas totales < $1 million
    —'classic' para año < 2010 y las ventas totales >= $1 million
    —'big hit' para año >= 2010 y las ventas totales >= $1 million
    """

## Definición de las columnas a utilizar
    year = row['year_of_release']
    na_sales = row['na_sales']
    eu_sales = row['eu_sales']
    jp_sales = row['jp_sales']
    
    ## Operación que se utilizará después para el bucle
    total_sales = na_sales + eu_sales + jp_sales
    
    ## Bucle
    if year < 2000:
        if total_sales < 1:
            return 'retro'
        else:
            return 'classic'
    if year < 2010:
        if total_sales < 1:
            return 'modern'
        else:
            return 'classic'
    if year >= 2010:
        if total_sales < 1:
            return 'recent'
        else:
            return 'big hit'

## Aplicar el método apply por columna
df['game_category'] = df.apply(era_sales_group, axis=1)
print(df.sample(5, random_state=321))

## Transformación de datos
---
Cuando se crean objetos con `groupby` el resultado es un series. Si es una tabla cruzada, estos será con distintos índices para cada columna. Este objeto se denomina "objeto en espera" y se mostrará en forma de texto 

In [None]:
grp = df.groupby(['platform', 'genre'])
print(grp)

Es por ello que este tipo de objetos `DataFrameGroupby`, necesitan formar parte de un *framework* de procesamiento de datos llamado **dividir-aplicar-combinar**, que consta de lo siguiente: 

1. **Dividir** los datos en grupos.
2. **Aplicar** una función de agregación estadística a cada grupo.
3. **Combinar** los resultados para cada grupo.

In [None]:
# En tres paso sería 
## Dividir el conjunto en grupos
grp = df.groupby(['platform', 'genre'])

## Aplicamos el método mean y  combinamos el resultado en un objeto Series grp['critic_score'].mean()
mean_scores = grp['critic_score'].mean()
print(mean_scores)

## En un solo paso 
print(df.groupby(['platform', 'genre'])['critic_score'].mean())

### Procesamiento de datos agrupados con agg() 

En estos casos solo se ha podido realizar una sola fufunción, pero a veces es necesario conocer más de una función de agregación. Para poder obtener más de una función es necesario utilizar el método `agg()`

El método `agg()` usa un diccionario como entrada donde las claves son los nombres de columnas y los valores correspondientes son las funciones de agregación que quieres aplicarles:

In [None]:
## Declaración de los agregados que queremos conocer en diccionario
agg_dict = {'critic_score': 'mean', 'jp_sales': 'sum'}

## Agrupación de las variables
grp = df.groupby(['platform', 'genre'])

## Agregación
print(grp.agg(agg_dict))

Incluso puedes aplicar tus propias funciones personalizadas con `agg()`

In [None]:
## Definición de la función 
def double_it(sales):
    sales = sales.sum() * 2 # multiplica la suma anterior por 2
    return sales

## Creación del diccionario
agg_dict = {'jp_sales': double_it}

## Agrupación 
grp = df.groupby(['platform', 'genre'])

## Agregación
print(grp.agg(agg_dict))

### Tablas dinámicas 

Las **tablas dinámicas** son una gran herramienta para sintetizar conjuntos de datos y explorar sus diferentes dimensiones.

El método para crear este tipo de tablas es mediante el método `pivot_table`. Los parámetros que utilizamos fueron:

- `index=`: la columna cuyos valores se convierten en índices en la tabla dinámica;
- `columns=`: la columna cuyos valores se convierten en columnas en la tabla dinámica;
- `values=`: la columna cuyos valores queremos agregar en la tabla dinámica;
- `aggfunc=`: la función de agregación que queremos aplicar a los valores en cada grupo de filas y columnas.


In [None]:
## Generación de la pivot table
pivot_data = df.pivot_table(index='genre',
                            columns='platform',
                            values='eu_sales',
                            aggfunc='sum'
                           )
print(pivot_data)

El uso de una tabla dinámica aquí es conveniente porque nos permite fácilmente excluir todas las columnas de df que no nos interesan para nuestro análisis. Además, puede ser más fácil de leer que el resultado equivalente de `groupby()`. 

El resultado de `groupby()` devuelve un objeto Series, mientras que `pivot_table()` devuelve un DataFrame. Ya sea que elijas usar `groupby()` o `pivot_table()` depende de lo que sea más conveniente para la tarea en cuestión.

### Combinar Dataframes con concat()

En algunas ocasiones tendremos bases de datos o dataframes **relacionales**, esto significa que tendrán columnas relacionadas.

En la práctica por ejemplo, si deseamos utilizar el método `groupby` para obtener la suma y aparte el promedio de la misma variable, un `concat()` puede sr útil para unir ambas columnas. 

In [None]:
## Obtenemos el promedio de la valoración del público por distribuidor
mean_score = df.groupby('publisher')['critic_score'].mean()

## Obtenemos la suma del total de ventas por distribuidor
df['total_sales'] = df['na_sales'] + df['eu_sales'] + df['jp_sales']
num_sales = df.groupby('publisher')['total_sales'].sum()

## Cmbinamos los dataframes de ambos mediante la misma columna que es el distribuidor
df_concat = pd.concat([mean_score, num_sales], axis='columns')

## Renombrar columnas
df_concat.columns = ['avg_critic_score', 'total_sales']
print(df_concat)

En general, `concat()` espera una lista de objetos de tipo Series y/o DataFrame. Para obtener nuestro resultado, pasamos una lista de variables de Series a `concat()` y configuramos `axis='columns'` para asegurarnos de que se combinaran como columnas. Podemos utilizarlo para concatenar DataFrames:

- Por filas, suponiendo que tengan el **mismo número de columnas**;
- Por columnas si tienen el **mismo número de filas**.

Para concatenar filas de DataFrames separados, podemos utilizar números enteros para el argumento `index=`, donde `index=0` concatenará filas e i`ndex=1` concatenará columnas.

Debido a que los nombres de las columnas se conservan, una buena práctica es volver más descriptivos los nombres, para ello es util el uso del método `columns= []` 

In [4]:
## Creación de las bases de datos

first_pupil_df = pd.DataFrame(
    {
        'author': ['Alcott', 'Fitzgerald', 'Steinbeck', 'Twain', 'Hemingway'],
        'title': ['Little Women',
                  'The Great Gatsby',
                  'Of Mice and Men',
                  'The Adventures of Tom Sawyer',
                  'The Old Man and the Sea'
                 ],
    }
)
second_pupil_df = pd.DataFrame(
    {
        'author': ['Steinbeck', 'Twain', 'Hemingway', 'Salinger', 'Hawthorne'],
        'title': ['East of Eden',
                  'The Adventures of Huckleberry Finn',
                  'For Whom the Bell Tolls',
                  'The Catcher in the Rye',
                  'The Scarlett Letter'
                 ],
    }
)


print(first_pupil_df)
print()
print(second_pupil_df)

       author                         title
0      Alcott                  Little Women
1  Fitzgerald              The Great Gatsby
2   Steinbeck               Of Mice and Men
3       Twain  The Adventures of Tom Sawyer
4   Hemingway       The Old Man and the Sea

      author                               title
0  Steinbeck                        East of Eden
1      Twain  The Adventures of Huckleberry Finn
2  Hemingway             For Whom the Bell Tolls
3   Salinger              The Catcher in the Rye
4  Hawthorne                 The Scarlett Letter


El método `merge()` permite realizar diferentes tipos de combinaciones dependiendo de cómo se desee alinear los datos: 

1. **Inner Join**. Combina solo las filas que tienen **claves coincidentes** en ambos DataFrames. Útil cuando solo deseas los registros que tienen datos correspondientes en ambos DataFrames. Uso: `pd.merge(df1, df2, on='columna_común')`

In [5]:
## Unión interna o interesección
both_pupils = first_pupil_df.merge(second_pupil_df, on='author')
print(both_pupils)

      author                       title_x                             title_y
0  Steinbeck               Of Mice and Men                        East of Eden
1      Twain  The Adventures of Tom Sawyer  The Adventures of Huckleberry Finn
2  Hemingway       The Old Man and the Sea             For Whom the Bell Tolls


2. **Left Join**. Devuelve todas las filas del **DataFrame izquierdo** (`df1`) y las filas coincidentes del DataFrame derecho (`df2`). Si no hay coincidencia, los valores en el DataFrame derecho serán `NaN`. Útil cuando deseas mantener todos los registros del DataFrame izquierdo y agregar información del DataFrame derecho si está disponible. Uso: `pd.merge(df1, df2, on='columna_común', how='left')`

In [6]:
## Unión izquierda
both_pupils = first_pupil_df.merge(second_pupil_df, on='author', how='left')
print(both_pupils)

       author                       title_x  \
0      Alcott                  Little Women   
1  Fitzgerald              The Great Gatsby   
2   Steinbeck               Of Mice and Men   
3       Twain  The Adventures of Tom Sawyer   
4   Hemingway       The Old Man and the Sea   

                              title_y  
0                                 NaN  
1                                 NaN  
2                        East of Eden  
3  The Adventures of Huckleberry Finn  
4             For Whom the Bell Tolls  


3. **Right Join**. Devuelve todas las filas del **DataFrame derecho** (`df2`) y las filas coincidentes del DataFrame izquierdo (`df1`). Si no hay coincidencia, los valores en el DataFrame izquierdo serán `NaN`. Útil cuando deseas mantener todos los registros del DataFrame derecho y agregar información del DataFrame izquierdo si está disponible. Uso: `pd.merge(df1, df2, on='columna_común', how='right')`


In [7]:
## Unión derecha
both_pupils = first_pupil_df.merge(second_pupil_df, on='author', how='right')
print(both_pupils)

      author                       title_x                             title_y
0  Steinbeck               Of Mice and Men                        East of Eden
1      Twain  The Adventures of Tom Sawyer  The Adventures of Huckleberry Finn
2  Hemingway       The Old Man and the Sea             For Whom the Bell Tolls
3   Salinger                           NaN              The Catcher in the Rye
4  Hawthorne                           NaN                 The Scarlett Letter


4. **Outer Join**. Devuelve **todas las filas** cuando hay una coincidencia en cualquiera de los DataFrames. Las filas sin coincidencia en uno de los DataFrames tendrán valores `NaN`. Útil cuando deseas obtener todas las filas de ambos DataFrames, sin importar si tienen coincidencias o no. Uso: `pd.merge(df1, df2, on='columna_común', how='outer')`

In [8]:
## Unión externa
both_pupils = first_pupil_df.merge(second_pupil_df, on='author', how='outer')
print(both_pupils)

       author                       title_x  \
0      Alcott                  Little Women   
1  Fitzgerald              The Great Gatsby   
2   Hawthorne                           NaN   
3   Hemingway       The Old Man and the Sea   
4    Salinger                           NaN   
5   Steinbeck               Of Mice and Men   
6       Twain  The Adventures of Tom Sawyer   

                              title_y  
0                                 NaN  
1                                 NaN  
2                 The Scarlett Letter  
3             For Whom the Bell Tolls  
4              The Catcher in the Rye  
5                        East of Eden  
6  The Adventures of Huckleberry Finn  


Como podemos notar, 