# **Contar Valores ausentes**

En las próximas lecciones, trabajaremos con un conjunto de datos de marketing de una empresa de comercio electrónico. Los datos están en un archivo CSV llamado visit_log.csv y cada fila representa una visita al sitio web de una empresa. Hay cuatro columnas:

- 'user_id': identificador único para cada persona que visita el sitio web.
- 'source': fuente de tráfico de la visita al sitio web. Aquí nos interesan tres categorías para la fuente:
Visitas desde enlaces de marketing por correo electrónico: 'email'

Visitas de anuncios contextuales en línea: 'context'

Visitas de cualquier otra fuente: 'other'
- 'email': dirección de correo electrónico encriptada asociada con la persona que visita el sitio.
- 'purchase': indica si la persona compró algo en esa visita (1 en caso afirmativo, 0 en caso negativo).

Tu objetivo es determinar la tasa de conversión para cada fuente, que es la proporción de visitas en las que se realizó una compra con respecto al número total de visitas en general. Comparar la tasa de conversión para cada fuente te permitirá determinar cuál de ellas genera la mayor cantidad de ventas.

Pero antes de profundizar en los cálculos, necesitamos revisar el conjunto de datos para buscar valores ausentes y decidir qué hacer con ellos.


### **BUSCAR VALORES AUSENTES**

- **USAR EL MÉTODO INFO YA QUE TE DA LA INFORMACIÓN DE LOS NO SON AUSENTES, POR LO TANTO, TENDRÁS POR DESCARTE LOS AUSENTES**

```python
import pandas as pd

df_logs = pd.read_csv('/datasets/visit_log.csv')

print(df_logs.info())

# RESULTADO =============================

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200000 entries, 0 to 199999
Data columns (total 4 columns):
 #   Column    Non-Null Count   Dtype 
---  ------    --------------   ----- 
 0   user_id   200000 non-null  int64 
 1   source    198326 non-null  object
 2   email     13953 non-null   object
 3   purchase  200000 non-null  int64 
dtypes: int64(2), object(2)
memory usage: 6.1+ MB
None
```

- **PERO TAMBIEN PUEDES UTILIZAR ISNULL().SUM()**

```python
import pandas as pd

df_logs = pd.read_csv('/datasets/visit_log.csv')
print(df_logs.isnull().sum())

#RESULTADO====================================================

user_id          0
source        1674
email       186047
purchase         0
dtype: int64
```

### **Contar los valores ausentes con value_counts()**

En vez de sumar los valores obtenidos con isna(), podemos contar los valores ausentes con el método value_counts(). Al llamarlo en una sola columna (es decir, un Series), devuelve la cantidad de veces que cada valor único aparece en esa columna.

Este método tiene un parámetro llamado dropna=, que se establece por defecto en True. Esto significa que value_counts() excluirá los valores None o NaN a menos que establezcas dropna=False.

Utilicémoslo en la columna 'source' de nuestro DataFrame, asegurándonos de incluir los valores ausentes:

```python
import pandas as pd

df_logs = pd.read_csv('/datasets/visit_log.csv')
print(df_logs['source'].value_counts(dropna = False))

#Resultado===================================================
other      133834
context     52032
email       12279
NaN          1674
undef         181
Name: source, dtype: int64

#Ahora tenemos un recuento de todos esos valores de NaN.
```

Como puedes ver, cuando imprimimos df_logs['source'].value_counts(dropna=False), la salida se ordena en orden descendente según el recuento de cada valor. Alternativamente, podemos ordenar la salida alfabéticamente según los nombres de los valores. Para hacerlo, podemos utilizar el método sort_index().

```python
import pandas as pd

df_logs = pd.read_csv('/datasets/visit_log.csv')
print(df_logs['source'].value_counts(dropna=False).sort_index())

#RESULTADO =================================
source
context     52032
email       12279
other      133834
undef         181
NaN          1674
Name: count, dtype: int64

```


## **Resumen**

Hay muchas formas de encontrar y contar valores ausentes en pandas. En esta lección aprendiste tres maneras:
- Llamar a info() en un DataFrame.
- Llamar a isna().sum() en un DataFrame o un Series.
- Llamar a value_counts(dropna=False) en un Series.

### Ejercicios

**Ejercicio 1**

Ahora aplica el método value_counts() a la columna 'email' y almacena el resultado en la variable email_values. Esta vez, no incluyas los valores ausentes en la salida. Imprime el resultado.

```python
import pandas as pd

df_logs = pd.read_csv('/datasets/visit_log.csv')

email_values = df_logs['email'].value_counts()

print(email_values)

#Resultado============================

4526cc437a    9
410a2a3c23    9
17c4fb26f9    8
5a4c033120    7
33f8a3d521    7
             ..
05d06bf263    1
5e66f8634e    1
35264deaa4    1
fad76d6955    1
7516495ced    1
Name: email, Length: 6062, dtype: int64

#Ahora vemos cómo quedan los valores de la columna 'email'. ¡Hay muchos! Parece que no es el mejor enfoque para examinar los valores ausentes en esta columna. Y sin embargo, ¡no está de más saberlo!
```

**Ejercicio 2**

Ahora intentemos ordenar los resultados por índice en lugar de valores para ver si se añade algún significado a los valores de la columna 'email'. Vuelve a escribir la variable email_values utilizando la ordenación e imprime el resultado.

```python
import pandas as pd

df_logs = pd.read_csv('/datasets/visit_log.csv')

email_values = df_logs['email'].value_counts()
email_values = email_values.sort_index()

print(email_values)

#Resultado====================================
000b6d0fb5    3
000eb3c3df    4
0017c0065d    4
001c287e32    6
002020511f    1
             ..
ff953ec581    1
ffa51139e7    2
ffcef1ce43    2
ffe64c4d89    5
fffc7f0482    1
Name: email, Length: 6062, dtype: int64

#Hasta ahora nada de información valiosa. Somos detectives de los datos. Es mejor intentarlo y fallar que no intentarlo del todo.

```

## **FILTRAR DATAFRAMES CON NaNs**

```python
print(df_logs[df_logs['source'].isna()]) 

#Resultado
                     user_id source       email  purchase
22      1397217221    NaN  79ac569f0b         0
49      5062457902    NaN  9ddce3a861         0
171     6724868284    NaN  c0e48c7cf8         0
258     3221384063    NaN  7fe8da1823         0
379     7515782311    NaN  462462af10         0
...            ...    ...         ...       ...
199342  3439213943    NaN  7edda4e2a4         0
199661  9473123762    NaN  3535509f51         0
199689   722485056    NaN  470ffa3800         0
199709  5950023506    NaN  0fb749d485         0
199758  3747926428    NaN  604850216f         0

[1674 rows x 4 columns]
```

Vamos a desglosar esta línea de código:

- Extraemos la columna 'source' utilizando df_logs['source']
- A continuación, le aplicamos el método isna() para obtener una serie de booleanos que indican la ausencia de valores: df_logs['source'].isna()
- Utilizamos esta serie de booleanos para filtrar el DataFrame original, extrayendo solamente las filas en las que 'source' no tiene valores ausentes.
- Por último, imprimimos la tabla resultante.

Otra opción es filtrar el DataFrame y extraer sólo las filas en las que no falte 'source'. El enfoque que utilizamos anteriormente funcionará con una única modificación menor:

### **Múltiples condiciones de filtrado**

Podemos filtrar un DataFrame a partir de múltiples condiciones. Por ejemplo, para crear un DataFrame que no tenga valores ausentes en la columna 'email' y solo el valor 'email' en la columna 'source', podemos emplear el siguiente código:


```python
 print(df_logs[(~df_logs['email'].isna()) & (df_logs['source'] == 'email')])

 #Resultado ============================================
                      user_id source       email  purchase
1       5644686960  email  c129aa540a         0
11      8623045648  email  d6d19c571c         0
18      5739438900  email  19379ee49c         0
19      7486955288  email  09c27794fa         0
33      7298923004  email  1fe184ed73         0
...            ...    ...         ...       ...
199922  4075894991  email  2c9a202435         0
199958  9794381984  email  85712b433a         0
199970  3396355438  email  4bba3fde78         0
199979  5008169696  email  e5128e15fd         0
199989  9470921783  email  3977de6aaa         0

[12279 rows x 4 columns]
```

El código de filtrado anterior consta de dos partes:

- (~df_logs['email'].isna()) devuelve una serie de booleanos donde True indica que no falta ningún valor en la columna 'email'.
- (df_logs['source'] == 'email') devuelve una serie de booleanos, donde True indica que 'source' tiene 'email' como valor, y False indica lo contrario.
- Comprobamos dos series de booleanos para ver dónde ambas condiciones devuelven True. Utilizamos el símbolo & para representar el operador lógico and. Las filas que cumplen ambas condiciones (es decir, que cumplen la primera condición y la segunda) se incluyen en el resultado final.

## **EJERCICIOS**

**Ejercicio 1**

Anteriormente determinamos que la columna 'email' tiene 13 953 valores no ausentes. ¡Eso significa que más del 90% de los datos están ausentes! Filtra el DataFrame df_logs para que solo contenga filas donde no haya valores ausentes en la columna 'email'. Asigna el resultado filtrado a una variable llamada df_emails, luego imprime las primeras 10 filas.

Para comprobar si una condición no es verdadera al filtrar un DataFrame, precede la condición con el carácter ~ (por ejemplo, df[~df.method()]).

```python
import pandas as pd

df_logs = pd.read_csv('/datasets/visit_log.csv')

df_emails = df_logs[~df_logs['email'].isna()]
print(df_emails.head(10))

#RESULTADO ======================================

       user_id source       email  purchase
1   5644686960  email  c129aa540a         0
11  8623045648  email  d6d19c571c         0
18  5739438900  email  19379ee49c         0
19  7486955288  email  09c27794fa         0
22  1397217221    NaN  79ac569f0b         0
33  7298923004  email  1fe184ed73         0
43  6034222291  email  fb58a27f03         0
49  5062457902    NaN  9ddce3a861         0
56  5690036640  email  a088a48182         0
66  9963049355  email  9cc43ebd15         0 

#Ahora solo tienes filas donde hay una dirección de correo electrónico asociada con la visita. ¡Combinar ~ con isna() es una excelente manera de filtrar las filas con valores ausentes!
```

**Ejercicio 2**

La columna 'source' muestra que muchas de estas visitas procedían de enlaces de correo electrónico de marketing. Pero también hay algunos valores NaN. Es posible que las visitas con una dirección de correo electrónico, pero sin un valor 'source', también provengan de enlaces de marketing por correo electrónico, pero que la fuente no se haya registrado.

Comprueba si hay filas con valores ausentes en las columnas 'source' y 'email'. Si no hay ninguna fila en la que ambas condiciones sean verdaderas, entonces es una buena señal de que los valores ausentes en la columna 'source' deberían ser 'email'.

Filtra df_logs en la condición donde las columnas 'email' y 'source' tienen valores ausentes. Asigna el resultado a una variable llamada df_emails y luego imprímelo.

```python
import pandas as pd

df_logs = pd.read_csv('/datasets/visit_log.csv')

df_emails = df_logs[df_logs['email'].isna() & df_logs['source'].isna()]
print(df_emails)

#Resultado =======================================

Empty DataFrame
Columns: [user_id, source, email, purchase]
Index: []

#¡El DataFrame filtrado está vacío! Eso significa que no hay filas en las que 'source' y 'email' tengan valores ausentes.
```

### **Rellenar los valores categóricos ausentes**

Los valores NaN en la columna 'email' sustituyen a las direcciones de correo electrónico de los usuarios y las usuarias que no se suscribieron al boletín de la tienda. Ya que no hay forma de averiguar sus direcciones de correo electrónico, no podemos rellenar manualmente los valores ausentes con datos significativos.

Pero podemos rellenarlos con un valor por defecto para representar los correos electrónicos ausentes. Sustituyamos los valores ausentes en la columna 'email' por la cadena vacía '' como valor por defecto.

- Utiliza el método fillna() para sustituir los valores ausentes en 'email' por cadenas vacías.
- Imprime las cinco primeras filas del DataFrame.

```python
import pandas as pd

df_logs = pd.read_csv('/datasets/visit_log.csv')

# Rellenar NaN en la columna 'email' con espacio en blanco
df_logs['email'].fillna(value='', inplace=True)

# Imprimir la cabecera del DataFrame después de reemplazar
print(df_logs.head())

#Resultado ========================

      user_id   source       email  purchase
0  7141786820    other                     0
1  5644686960    email  c129aa540a         0
2  1914055396  context                     0
3  4099355752    other                     0
4  6032477554  context                     1
```

## **El parámetro keep_default_na=**

Si observas los datos de texto sin procesar en el archivo visit_log.csv, encontrarás que los valores ausentes están representados por la ausencia de texto. En otras palabras, la ausencia de texto en visit_log.csv se interpreta como NaN. Consulta el archivo CSV en la pestaña de la lección.

Pero podemos hacer que read_csv() lea la ausencia de texto como cadenas vacías en lugar de NaN, configurando el parámetro keep_default_na= en False. Probémoslo en nuestro conjunto de datos:

```python
import pandas as pd

df_logs = pd.read_csv('/datasets/visit_log.csv', keep_default_na=False)

print(df_logs.head())
print()
df_logs.info()

#Resultado ==========================

      user_id   source       email  purchase
0  7141786820    other                     0
1  5644686960    email  c129aa540a         0
2  1914055396  context                     0
3  4099355752    other                     0
4  6032477554  context                     1

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200000 entries, 0 to 199999
Data columns (total 4 columns):
 #   Column    Non-Null Count   Dtype 
---  ------    --------------   ----- 
 0   user_id   200000 non-null  int64 
 1   source    200000 non-null  object
 2   email     200000 non-null  object
 3   purchase  200000 non-null  int64 
dtypes: int64(2), object(2)
memory usage: 6.1+ MB
```

¡Genial! ¡Ahora vamos a arreglar nuestros valores ausentes!
- Utiliza replace() para reemplazar los valores ausentes en la columna 'source' por la cadena 'email'.
- Verifica tu trabajo llamando al método unique() en la columna 'source' e imprime los resultados.

```python
#ANTES EL CÓDIGO ERA ASI

#import pandas as pd

#df_logs = pd.read_csv('/datasets/visit_log.csv', keep_default_na=False)

#df_sources = df_logs['source'].unique()
#print(df_sources)

#Resultado========================
#['other' 'email' 'context' '' 'undef']

```
```python
import pandas as pd

df_logs = pd.read_csv('/datasets/visit_log.csv', keep_default_na=False)

df_logs['source'] = df_logs['source'].replace('','email')

print(df_logs['source'].unique())

Resultado==============
['other' 'email' 'context' 'undef']
```

# **Ejercicios**

**Ejercicio 1**

Para calcular la tasa de conversión de cada fuente de tráfico, primero determina cuántas visitas hubo de cada fuente.

Para encontrar el número total de visitas de cada fuente de tráfico, utiliza groupby() para agrupar los datos por la columna 'source', luego cuenta el número de valores en la columna 'user_id' del DataFrame agrupado. Asigna el resultado en la variable visits y luego imprímelo.

El precódigo ya contiene el trabajo que realizaste para rellenar los valores ausentes.

```python
import pandas as pd

df_logs = pd.read_csv('/datasets/visit_log.csv', keep_default_na=False)
df_logs['source'] = df_logs['source'].replace('', 'email')

visits = df_logs.groupby('source')['user_id'].count()
print(visits)

#Resultado=============
source
context     52032
email       13953
other      133834
undef         181
Name: user_id, dtype: int64

#La mayor fuente de tráfico es aparentemente "other" (otros). Misterioso…
```

**Ejercicio 2**

A continuación, determina el número de visitas en las que se realizó una compra para cada fuente, calculando la suma de la columna 'purchase' para cada grupo de fuente. Posteriormente, asigna los resultados a la variable purchases e imprímelos.

```python
import pandas as pd

df_logs = pd.read_csv('/datasets/visit_log.csv', keep_default_na=False)
df_logs['source'] = df_logs['source'].replace('', 'email')

purchases = df_logs.groupby('source')['purchase'].sum()
print(purchases)

#Resultado======================
source
context    3029
email      1021
other      8041
undef        12
Name: purchase, dtype: int64

#"Otros" también se las arregló para conseguir el mayor número de compras.
```

**Ejercicio 3**

Calcula la tasa de conversión para cada fuente de tráfico, guarda los resultados en conversion, e imprímelos. La tasa de conversión es la proporción de visitas en las que se realizó una compra. El precódigo contiene las visitas y compras de tu trabajo previo.

```python
import pandas as pd

df_logs = pd.read_csv('/datasets/visit_log.csv', keep_default_na=False)
df_logs['source'] = df_logs['source'].replace('', 'email')

visits = df_logs.groupby('source')['user_id'].count()
purchases = df_logs.groupby('source')['purchase'].sum()

conversion = purchases / visits
print(conversion)

#Resultado================
source
context    0.058214
email      0.073174
other      0.060082
undef      0.066298
dtype: float64

#Aunque "otros" tiene más compras en general, parece que el correo electrónico tiene la mejor tasa de conversión. En unas pocas líneas de código, has conseguido calcular la métrica más importante del marketing.
```

# *===========================*

# *===========================*

# *===========================*

# **Rellenar valores ausentes cuantitativos**

En esta lección usarás este conjunto de datos para aprender a tratar los datos cuantitativos ausentes, con el objetivo de comparar el tiempo promedio que pasan en el sitio web los usuarios y las usuarias de dispositivos móviles y de escritorio.

Hemos guardado el archivo en la carpeta /datasets con el nombre web_analytics_data.csv. Carga los datos en la variable analytics_data e imprime las 10 primeras líneas.

```python
import pandas as pd

analytics_data = pd.read_csv('/datasets/web_analytics_data.csv')

print(analytics_data.head(10))
print("=================================")
analytics_data.info()

#Resultado======================================================
      user_id device_type   age    time
0  7141786820     desktop  33.0  2127.0
1  5644686960      mobile  30.0    35.0
2  1914055396     desktop  25.0     NaN
3  4099355752     desktop  25.0  2123.0
4  6032477554     desktop  27.0    59.0
5  5872473344      mobile  27.0     NaN
6  7977025176      mobile   NaN     NaN
7  3512872755     desktop  40.0    65.0
8  1827368713     desktop  37.0     NaN
9  8688870165     desktop  36.0  2124.0
=================================
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 4 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   user_id      100000 non-null  int64  
 1   device_type  100000 non-null  object 
 2   age          94228 non-null   float64
 3   time         75411 non-null   float64
dtypes: float64(2), int64(1), object(1)
memory usage: 3.1+ MB
```

### **Cuándo usar la media o la mediana?**

Para decidir si la media o la mediana es un valor más representativo, podemos seguir estos pasos:
1. Determina si los datos tienen valores atípicos significativos.
2. Si no hay valores atípicos significativos, calcula la media utilizando el método mean().
3. Si tus datos tienen valores atípicos significativos, calcula la mediana utilizando el método median().
4. Reemplaza los valores ausentes con la media o la mediana utilizando el método fillna().

Como no hay valores atípicos importantes en los datos, podemos utilizar la media como valor representativo tanto para 'age' como para 'time'. En el siguiente código, calculamos la edad promedio y la guardamos en una variable llamada age_avg, luego la usamos para completar los valores ausentes de 'age':

```python
import pandas as pd

analytics_data = pd.read_csv('/datasets/web_analytics_data.csv')

age_avg = analytics_data['age'].mean()
print("Mean age:", age_avg)

analytics_data['age'] = analytics_data['age'].fillna(age_avg)

#Resultado ======================
Mean age: 32.48966336969903

```

# **Ejercicios**

**Ejercicio 1**

Recuerda que queremos comparar el tiempo promedio que pasan en el sitio web las personas que utilizan dispositivos móviles y de escritorio, luego usaremos esos tiempos promedio para rellenar los valores ausentes.

Comienza dividiendo los datos en dos DataFrames: uno para visitas desde dispositivos de escritorio y otro para visitas desde dispositivos móviles. Asigna las visitas de escritorio a una variable llamada desktop_data y las visitas móviles a otra variable llamada mobile_data.

El precódigo ya lee los datos y rellena los valores ausentes de 'age'. Este también llama a info() por ti después de crear tus DataFrames filtrados para que puedas ver cuántos valores ausentes hay para cada dispositivo.

```python
import pandas as pd

analytics_data = pd.read_csv('/datasets/web_analytics_data.csv')

age_avg = analytics_data['age'].mean()
analytics_data['age'] = analytics_data['age'].fillna(age_avg)

desktop_data = analytics_data[ analytics_data['device_type'] == 'desktop']
mobile_data = analytics_data[ analytics_data['device_type'] == 'mobile' ]

desktop_data.info()
print()
mobile_data.info()

#Resultado=======================
<class 'pandas.core.frame.DataFrame'>
Int64Index: 73764 entries, 0 to 99999
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   user_id      73764 non-null  int64  
 1   device_type  73764 non-null  object 
 2   age          73764 non-null  float64
 3   time         61588 non-null  float64
dtypes: float64(2), int64(1), object(1)
memory usage: 2.8+ MB

<class 'pandas.core.frame.DataFrame'>
Int64Index: 26236 entries, 1 to 99997
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   user_id      26236 non-null  int64  
 1   device_type  26236 non-null  object 
 2   age          26236 non-null  float64
 3   time         13823 non-null  float64
dtypes: float64(2), int64(1), object(1)
memory usage: 1.0+ MB

#Buen trabajo con la partición exitosa de los datos. De acuerdo con info(), tanto los datos móviles como los de escritorio tienen valores ausentes.
```

**Ejercicio 2**

Ahora que los datos de escritorio y móviles están separados, calcula el tiempo medio de visita para cada dispositivo.

Asigna la media del tiempo de visita de los usuarios de escritorio a una variable llamada desktop_avg y la media de los usuarios móviles a mobile_avg. 

El precódigo ya contiene el código para imprimir tus resultados.

```python
import pandas as pd

analytics_data = pd.read_csv('/datasets/web_analytics_data.csv')

age_avg = analytics_data['age'].mean()
analytics_data['age'] = analytics_data['age'].fillna(age_avg)

desktop_data = analytics_data[analytics_data['device_type'] == 'desktop']
mobile_data =  analytics_data[analytics_data['device_type'] == 'mobile']

desktop_avg = desktop_data['time'].mean()
mobile_avg =  mobile_data['time'].mean()

print(f"Tiempo de escritorio promedio: {desktop_avg:.2f} segundos")
print(f"Tiempo móvil promedio: {mobile_avg:.2f} segundos")

#Resultado==================
Tiempo de escritorio promedio: 1741.87 segundos
Tiempo móvil promedio: 41.16 segundos

#¡Esa es una gran diferencia en el tiempo promedio! Tal vez los usuarios de escritorio tienden a dejar la página web abierta mientras hacen otras cosas, o tal vez los datos no se recopilan correctamente. No podemos decirlo con seguridad solo con la información que tenemos.
```

**Ejercicio 3**

Utiliza el tiempo promedio de visita de escritorio para rellenar los valores ausentes en la columna 'time' de desktop_data y el tiempo promedio de visita móvil para rellenarlos en mobile_data.

El precódigo contiene tu trabajo de las tareas anteriores y llama a info() para que compruebes que los valores ausentes se hayan rellenado.

Es posible que también hayas visto un SettingWithCopyWarning cuando ejecutaste tu código. No hay nada de que preocuparse en este caso, pero si deseas obtener más información al respecto consulta la documentación (materiales en inglés).

```python
import pandas as pd
pd.options.mode.chained_assignment = None
import warnings
warnings.filterwarnings('ignore')

analytics_data = pd.read_csv('/datasets/web_analytics_data.csv')

age_avg = analytics_data['age'].mean()
analytics_data['age'] = analytics_data['age'].fillna(age_avg)

desktop_data = analytics_data[analytics_data['device_type'] == 'desktop']
mobile_data =  analytics_data[analytics_data['device_type'] == 'mobile']

desktop_avg = desktop_data['time'].mean()
mobile_avg = mobile_data['time'].mean()

desktop_data['time']= desktop_data ['time'].fillna(desktop_avg)
mobile_data['time']= mobile_data ['time'].fillna(mobile_avg)

# esto comprobará si tienes algún valor ausente
desktop_data.info()
print()
mobile_data.info()

#Resultado============================
<class 'pandas.core.frame.DataFrame'>
Int64Index: 73764 entries, 0 to 99999
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   user_id      73764 non-null  int64  
 1   device_type  73764 non-null  object 
 2   age          73764 non-null  float64
 3   time         73764 non-null  float64
dtypes: float64(2), int64(1), object(1)
memory usage: 2.8+ MB

<class 'pandas.core.frame.DataFrame'>
Int64Index: 26236 entries, 1 to 99997
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   user_id      26236 non-null  int64  
 1   device_type  26236 non-null  object 
 2   age          26236 non-null  float64
 3   time         26236 non-null  float64
dtypes: float64(2), int64(1), object(1)
memory usage: 1.0+ MB
```

# **========================**

# **========================**

# **Gestión de duplicados**

### **Buscar duplicados a mano**

El análisis que realizaste previamente sobre las fuentes de tráfico para el sitio de comercio electrónico online generó más preguntas en el equipo a cargo de atraer nuevos clientes. Quieren saber si hay una marca popular de teléfonos móviles que no esté suficientemente representada en el sitio web, así como estadísticas que comprueben qué modelos de teléfonos les interesan más a la clientela.

Para empezar, quieren que averigües cuántas tiendas ya están vendiendo ciertos teléfonos en un mercado online.

```python
import pandas as pd

df_stock = pd.read_csv('/datasets/phone_stock.csv')

print(df_stock.head(5))

#Resultado=========================
          id                     item  count
0  100480924     Apple iPhone Xr 64gb     10
1  100480924     Apple iPhone Xr 64GB     19
2  100480959     Xiaomi Redmi 6A 16GB     44
3  100480975          HUAWEI P30 lite     38
4  100480988  Samsung Galaxy A30 32GB     49

#En el caso del iPhone Xr 64 GB de Apple, solo debería haber una fila de datos y el recuento en esa fila debería ser 29. ¿Qué pasa si los datos de algunos de los otros teléfonos también están duplicados en otra parte de la tabla? Necesitamos poder analizar todo el conjunto de datos a la vez, en lugar de esperar encontrar duplicados leyendo una copia impresa de los datos.
```

## **Revisión:** encontrar datos duplicados

Hay dos técnicas que funcionan para encontrar datos duplicados:

## **Técnica 1**

Podemos utilizar el método duplicated() junto con sum() para obtener el número de valores duplicados en una sola columna o filas duplicadas en un DataFrame. Recuerda que si llamas a duplicated() sin utilizar sum(), se imprimirá una serie booleana tan larga como el DataFrame, con True donde hay un duplicado y False donde no lo hay. Ejecuta el siguiente código para ver un ejemplo:

```python
import pandas as pd
df = pd.DataFrame({'col_1': ['A', 'B', 'A', 'A'], 'col_2': [1, 2, 2, 1]})

print('Así es como se ve el dataset:')
print(df)
print('Así es como se ve una serie booleana devuelta:')
print(df.duplicated())
print('Así se ve el resultado de duplicated() con sum():')
print(df.duplicated().sum())

#Resultado ======================================
Así es como se ve el dataset:
    col_1  col_2
0     A      1
1     B      2
2     A      2
3     A      1

Así es como se ve una serie booleana devuelta:
0    False
1    False
```

Por lo tanto, para comprobar la presencia de duplicados, utiliza el método duplicated() seguido del método sum(). Por cierto, puedes visualizar los duplicados mediante un simple filtrado:

```python
import pandas as pd
df = pd.DataFrame({'col_1': ['A', 'B', 'A', 'A'], 'col_2': [1, 2, 2, 1]})

print(df[df.duplicated()])

#Resultado====================================
    col_1  col_2
3     A      1
```

## **Técnica 2**

Llama al método value_counts(). Este método identifica todos los valores unívocos en una columna y calcula cuántas veces aparece cada uno. Podemos aplicar este método a los Series para obtener los pares valor-frecuencia en orden descendente. Las entradas que se duplican con más frecuencia se encuentran en la parte superior de la lista. A continuación te mostramos un ejemplo:

```python
import pandas as pd
df = pd.DataFrame({'col_1': ['A', 'B', 'A', 'A'], 'col_2': [1, 2, 2, 1]})

print('Así es como se ve el dataset:')
print(df)
print()
print('Este es el resultado de la llamada al método value_counts() para col_1:')
print(df['col_1'].value_counts())

#Resultado=================================
Así es como se ve el dataset:
  col_1  col_2
0     A      1
1     B      2
2     A      2
3     A      1

Este es el resultado de la llamada al método value_counts() para col_1:
A    3
B    1
Name: col_1, dtype: int64

```

## Gestión de duplicados

Como ya aprendimos en el sprint de Python Básico, las filas completamente duplicadas, como la primera y la última fila del DataFrame del ejemplo anterior, se pueden tratar utilizando el método drop_duplicates():

```python
import pandas as pd
df = pd.DataFrame({'col_1': ['A', 'B', 'A', 'A'], 'col_2': [1, 2, 2, 1]})

print('Dataset original:')
print(df)
print()
print('Dataset con duplicados eliminados:')
print(df.drop_duplicates())

#Resultado =====================================

Dataset original:
  col_1  col_2
0     A      1
1     B      2
2     A      2
3     A      1

Dataset con duplicados eliminados:
  col_1  col_2
0     A      1
1     B      2
2     A      2
```

Si solo deseas considerar duplicados en una (o algunas) de las columnas en lugar de filas completamente duplicadas, puedes usar el parámetro subset=. Pásale el nombre de la columna (o la lista de nombres de columna) donde deseas buscar duplicados:

In [4]:
import pandas as pd
df = pd.DataFrame({'col_1': ['A', 'B', 'A', 'A'], 'col_2': [1, 2, 2, 1]})

print(df)
print()
print(df.drop_duplicates(subset='col_1'))

  col_1  col_2
0     A      1
1     B      2
2     A      2
3     A      1

  col_1  col_2
0     A      1
1     B      2


Pero la naturaleza de los datos duplicados de nuetra tabla original es distinta. Entonces la analizaremos de la siguiente manera:

```python
import pandas as pd

stock = pd.read_csv('/datasets/phone_stock.csv')
print(stock['item'].value_counts())

#Resultado ===================================
Apple iPhone Xr 64gb       1
Apple iPhone Xr 64GB       1
Xiaomi Redmi 6A 16GB       1
HUAWEI P30 lite            1
Samsung Galaxy A30 32GB    1
Samsung Galaxy A30 32gb    1
Honor 8X 64GB              1
Name: item, dtype: int64
```

Hay dos entradas para el Samsung Galaxy y el iPhone de Apple. La única diferencia entre las dos entradas para ambos teléfonos es gb frente a GB. En realidad son duplicados, pero Python no los reconoce como tales porque las cadenas no son idénticas.

La forma más sencilla de manejar entradas duplicadas como estas es hacer que todas las letras de las cadenas estén en minúsculas, utilizando el método lower(). A continuación te mostramos un ejemplo:

In [5]:
import pandas as pd

df = pd.DataFrame({"col_1": ["A", "B", "A", "A"], "col_2": [1, 2, 2, 1]})

print("Col_1 original en el dataset:")
print(df["col_1"])
print()
print("Dataset con valores reducidos en col_1")
print(df["col_1"].str.lower())

Col_1 original en el dataset:
0    A
1    B
2    A
3    A
Name: col_1, dtype: object

Dataset con valores reducidos en col_1
0    a
1    b
2    a
3    a
Name: col_1, dtype: object


Observa que después de df['col_1'], tenemos .str, que nos permite aplicar métodos de cadena directamente a la columna. Esto es exactamente lo que hay que hacer para poder aplicar el método lower() en el siguiente paso.

Ten en cuenta que si quieres sustituir la columna original por una nueva en la que todas las letras estén en minúsculas, tendrás que volver a hacer la asignación.

In [6]:
import pandas as pd

df = pd.DataFrame({"col_1": ["A", "B", "A", "A"], "col_2": [1, 2, 2, 1]})

# sustituir la columna col_1
df["col_1"] = df["col_1"].str.lower()
print(df)

  col_1  col_2
0     a      1
1     b      2
2     a      2
3     a      1


Es posible que queramos comprobar el número de duplicados verdaderos en la columna 'col_1' después de transformar su contenido a minúsculas::

In [7]:
import pandas as pd

df = pd.DataFrame({"col_1": ["A", "B", "A", "A"], "col_2": [1, 2, 2, 1]})

df["col_1"] = df["col_1"].str.lower()
print(df["col_1"].duplicated().sum())

2


Como se esperaba, obtuvimos 2 como salida. Esto se debe a que la tercera y la cuarta fila son idénticas a la primera.

Si quieres cambiar las mayúsculas y minúsculas en solo una parte de la cadena, puedes usar el método replace() que aprendiste en el sprint de Python Básico. Por ejemplo, podrías cambiar todas las ocurrencias de 'gb' a 'GB' en la columna 'item' de los datos del teléfono:

```python
import pandas as pd

stock = pd.read_csv('/datasets/phone_stock.csv')
stock['item'] = stock['item'].str.replace('GB', 'gb')

print(stock.head())

#Resultado =============================

                    id                     item  count
0  100480924     Apple iPhone Xr 64gb     10
1  100480924     Apple iPhone Xr 64gb     19
2  100480959     Xiaomi Redmi 6A 16gb     44
3  100480975          HUAWEI P30 lite     38
4  100480988  Samsung Galaxy A30 32gb     49
```

Si no estás seguro de cuál es el mejor enfoque, siempre puedes conservar la columna original y crear una nueva columna adicional, con las cadenas modificadas. Por ejemplo, podrías guardar el resultado de la sustitución en la columna 'item' en una nueva columna llamada 'item_modified':

```python
import pandas as pd

stock = pd.read_csv('/datasets/phone_stock.csv')
stock['item_modified'] = stock['item'].str.replace('GB', 'gb')

print(stock.head())

#Resultado ==============================
                    id                     item  count            item_modified
0  100480924     Apple iPhone Xr 64gb     10     Apple iPhone Xr 64gb
1  100480924     Apple iPhone Xr 64gb     19     Apple iPhone Xr 64gb
2  100480959     Xiaomi Redmi 6A 16gb     44     Xiaomi Redmi 6A 16gb
3  100480975          HUAWEI P30 lite     38          HUAWEI P30 lite
4  100480988  Samsung Galaxy A30 32gb     49  Samsung Galaxy A30 32gb
```

# **Ejercicios**

**Ejercicio 1**

1. Cambia los nombres de los modelos de teléfonos a minúsculas usando el método str.lower() y guárdalos en una nueva columna llamada 'item_lowercase', pero conserva también la columna original 'item'.
2. Imprime las primeras filas de la tabla actualizada y mira el resultado.

```python
import pandas as pd

df_stock = pd.read_csv('/datasets/phone_stock.csv')

df_stock['item_lowercase'] = df_stock['item'].str.lower()

print(df_stock.head())

#Resultado================================

          id                     item  count           item_lowercase
0  100480924     Apple iPhone Xr 64gb     10     apple iphone xr 64gb
1  100480924     Apple iPhone Xr 64GB     19     apple iphone xr 64gb
2  100480959     Xiaomi Redmi 6A 16GB     44     xiaomi redmi 6a 16gb
3  100480975          HUAWEI P30 lite     38          huawei p30 lite
4  100480988  Samsung Galaxy A30 32GB     49  samsung galaxy a30 32gb
```

**Ejercicio 2**

Utilizando tu recién creada columna 'item_lowercase' y el método sum(), calcula el número total de dos modelos de teléfono:

1) 'apple iphone xr 64gb'
2) 'samsung galaxy a30 32gb'

Para contar el número de teléfonos Apple, filtra el DataFrame a partir de la columna 'item_lowercase' para incluir solo las filas con 'apple iphone xr 64gb' como valor. A continuación, extrae la columna 'count' del DataFrame filtrado y aplícale el método sum(). Almacena la cantidad total de teléfonos Apple en la variable apple.

Para los teléfonos Samsung, sigue el mismo procedimiento con la única diferencia de que guardes el número total de teléfonos Samsung en la variable samsung.

El precódigo ya contiene el código para imprimir tus resultados, no lo modifiques.

```python
import pandas as pd

df_stock = pd.read_csv('/datasets/phone_stock.csv')
df_stock['item_lowercase'] = df_stock['item'].str.lower()

apple = df_stock[df_stock['item_lowercase'] == 'apple iphone xr 64gb']['count'].sum()
samsung = df_stock[df_stock['item_lowercase'] == 'samsung galaxy a30 32gb']['count'].sum()

print("Número total de teléfonos Apple:", apple)
print("Número total de teléfonos Samsung:", samsung)

#Resultado======================
Número total de teléfonos Apple: 29
Número total de teléfonos Samsung: 60
```

**Ejercicio 3**

Ahora elimina las filas con teléfonos duplicados llamando a drop_duplicates() en df_stock. Necesitamos eliminar filas únicamente en función de la columna item_lowercase', así que asegúrate de utilizarla como valor para el parámetro subset=.

Recuerda que después de eliminar los duplicados, tenemos que llamar al método reset_index() con el parámetro drop=True. Esto nos permite arreglar la indexación y eliminar el índice antiguo.

Por cierto, ¡puedes hacer todo esto con una sola línea de código! Puede ser un poco difícil, pero intenta encontrar la manera de hacerlo.

El resultado final debería asignarse de nuevo a df_stock. Imprime las primeras filas del df_stock cuando hayas terminado.

```python
import pandas as pd

df_stock = pd.read_csv('/datasets/phone_stock.csv')
df_stock['item_lowercase'] = df_stock['item'].str.lower()

df_stock = df_stock.drop_duplicates(subset = 'item_lowercase').reset_index(drop = True)
print(df_stock)

#Resultado=====================
          id                     item  count           item_lowercase
0  100480924     Apple iPhone Xr 64gb     10     apple iphone xr 64gb
1  100480959     Xiaomi Redmi 6A 16GB     44     xiaomi redmi 6a 16gb
2  100480975          HUAWEI P30 lite     38          huawei p30 lite
3  100480988  Samsung Galaxy A30 32GB     49  samsung galaxy a30 32gb
4  100481020            Honor 8X 64GB     64            honor 8x 64gb
```

**Ejercicio 4**

El precódigo incluye una línea que escribiste anteriormente para eliminar duplicados, por lo que ahora tenemos el DataFrame df_stock sin duplicados. Tu objetivo es establecer los valores correctos en la columna 'count' para las filas donde 'item' es 'Apple iPhone XR 64GB' y 'Samsung Galaxy A30 32GB'.

Los valores que vas a establecer ya fueron calculados por ti previamente y están almacenados en las variables apple y samsung en el precódigo.

La mejor forma de actualizar los valores de la columna 'count' es utilizar el atributo loc[] que puede reemplazar los valores en un lugar especificado.

Revisemos el df_stock después de eliminar los duplicados para ilustrar cómo loc[] puede ayudarnos a actualizar los valores:

```python
                    id                     item  count           item_lowercase
0  100480924     Apple iPhone Xr 64gb     10     apple iphone xr 64gb
1  100480959     Xiaomi Redmi 6A 16GB     44     xiaomi redmi 6a 16gb
2  100480975          HUAWEI P30 lite     38          huawei p30 lite
3  100480988  Samsung Galaxy A30 32GB     49  samsung galaxy a30 32gb
4  100481020            Honor 8X 64GB     64            honor 8x 64gb
```
Podemos utilizar loc[] para actualizar el valor de la primera fila (índice 0) y la columna 'count' del modelo Apple iPhone. Pasamos dos valores a loc[] para especificar el índice de la fila y el nombre de la columna, y luego utilizamos el signo = para establecer el valor deseado:

```python
df_stock.loc[0,'count'] = 33
```
En el ejemplo anterior, utilizamos el valor 33, pero en realidad queremos establecer el valor de la variable apple que previamente hemos calculado y guardado.

Fue un ejemplo para el iPhone de Apple. El procedimiento para Samsung será el mismo, salvo que le pasaremos valores diferentes al atributo loc[].


```python
import pandas as pd

df_stock = pd.read_csv('/datasets/phone_stock.csv')
df_stock['item_lowercase'] = df_stock['item'].str.lower()

apple = df_stock[df_stock['item_lowercase'] == 'apple iphone xr 64gb']['count'].sum()
samsung = df_stock[df_stock['item_lowercase'] == 'samsung galaxy a30 32gb']['count'].sum()

df_stock = df_stock.drop_duplicates(subset='item_lowercase').reset_index(drop=True)

df_stock.loc[0, 'count'] = apple
df_stock.loc[3, 'count'] = samsung

print(df_stock)

#Resultado===============================================================
          id                     item  count           item_lowercase
0  100480924     Apple iPhone Xr 64gb     10     apple iphone xr 64gb
1  100480959     Xiaomi Redmi 6A 16GB     44     xiaomi redmi 6a 16gb
2  100480975          HUAWEI P30 lite     38          huawei p30 lite
3  100480988  Samsung Galaxy A30 32GB     49  samsung galaxy a30 32gb
4  100481020            Honor 8X 64GB     64            honor 8x 64gb
```

Cargar el DataFrame:


```python
df_stock = pd.read_csv('/datasets/phone_stock.csv')
Aquí se carga el DataFrame desde el archivo CSV proporcionado.
```

Crear una columna en minúsculas:


```python
df_stock['item_lowercase'] = df_stock['item'].str.lower()
```

Se agrega una nueva columna llamada 'item_lowercase', que contiene los nombres de los elementos en minúsculas. Esto facilita la búsqueda y comparación sin distinción entre mayúsculas y minúsculas.

Calcular sumas para 'apple' y 'samsung':

```python

apple = df_stock[df_stock['item_lowercase'] == 'apple iphone xr 64gb']['count'].sum()
samsung = df_stock[df_stock['item_lowercase'] == 'samsung galaxy a30 32gb']['count'].sum()
```

Se calcula la suma de la columna 'count' para los elementos 'apple iphone xr 64gb' y 'samsung galaxy a30 32gb'.

Eliminar duplicados:


```python
df_stock = df_stock.drop_duplicates(subset='item_lowercase').reset_index(drop=True)

```
Los duplicados se eliminan basándose en la columna 'item_lowercase' y se reinician los índices para mantener la integridad del DataFrame.

Asignar valores con loc:


```python
df_stock.loc[0, 'count'] = apple
df_stock.loc[3, 'count'] = samsung
```

Usando loc, se asignan los valores calculados ('apple' y 'samsung') a las celdas específicas en la columna 'count'. En este caso, el índice 0 corresponde a 'apple' y el índice 3 corresponde a 'samsung'.

Imprimir el DataFrame resultante:

```python
print(df_stock)
```

Finalmente, se imprime el DataFrame actualizado con los valores asignados para 'apple' y 'samsung'.

**DE ESTA MANERA SE EXPLICA Y DETALLA EL PROCESO DEL ULTIMO EJERCICIO**

# **Exámen del Capítulo**

**ejercicio 1**

En cuanto al primer paso, vamos a ver las filas con los valores ausentes. Ya los hemos encontrado en la columna 'price' creando una serie de booleanos y guardándola en la variable mis_booleans.

Ahora utiliza esta variable para filtrar el DataFrame original, extrayendo las filas con valores ausentes, y guarda el resultado del filtrado en la variable mis_rows. Muéstralo en la pantalla.

```python
import pandas as pd

df = pd.read_csv('/datasets/products_data.csv')
mis_booleans = df['price'].isna()

mis_rows = df[mis_booleans]
print(mis_rows)

#Resultado========================================
    category      product  price
7  hair care  conditioner    NaN
```

A continuación, vamos a rellenar un único valor ausente que hay. Para ello te pedimos:
1. Agrupar por la columna 'category' y extraer la columna 'price'.
2. Aplicar un método adecuado para calcular el valor del precio promedio de cada categoría y guardarlo en la variable avg_per_category.

En la siguiente tarea, utilizarás este valor para sustituir el único valor ausente.

```python
import pandas as pd

df = pd.read_csv('/datasets/products_data.csv')

avg_per_category = df.groupby('category')['price'].mean()

print(avg_per_category)

#Resultado=====================
category
baby care    34.000000
cosmetics    22.666667
hair care    16.500000
tbc           9.000000
Name: price, dtype: float64
```

Estamos casi listos para completar un único valor ausente que hay. Para ello te pedimos:

1. Extrae el precio promedio para la categoría de nuestro interés (aquella a la que pertenece una fila con un valor ausente.) Es 'hair care'). Para hacerlo, indexa un Series a través de un número de índice y guárdalo en la variable mean_val. Nota: Si quieres encontrar un índice necesario, consulta el resultado del ejercicio anterior.

2. Muestra mean_val.

```python
import pandas as pd

df = pd.read_csv('/datasets/products_data.csv')
avg_per_category = df.groupby('category')['price'].mean()

# Utiliza el índice conocido de 'hair care' para extraer el precio promedio
mean_val = avg_per_category[2]

print(mean_val)

Resultado
16.5
```

Ahora hay que sustituir un valor único por un promedio de su categoría. Para hacerlo, puedes utilizar el atributo loc[] de Python. Para empezar, busca la fila que contiene el valor que quieres sustituir,

    category      product  price
7  hair care  conditioner    NaN

A continuación, pasa el índice y el nombre de columna adecuados a loc[], y utiliza el signo = para establecer el valor deseado.
Se puede obtener el índice y el nombre de columna a utilizar en loc[] examinando las filas que contienen el valor ausente.
Muestra la variable df al final.

```python
import pandas as pd

df = pd.read_csv('/datasets/products_data.csv')
avg_per_category = df.groupby('category')['price'].mean()

mean_val = avg_per_category[2]

df.loc[7, 'price'] = mean_val

print(df)

# Resultado===============================================
    category      product  price
0  cosmetics      lipstic   25.0
1  cosmetics      LIPSTIC   25.0
2        tbc     pacifier    9.0
3  hair care      shampoo   12.0
4  baby care      diapers   34.0
5  cosmetics       lotion   18.0
6  hair care     hair gel   21.0
7  hair care  conditioner   16.5
```

Inmediatamente observamos que 'lipstic' y 'LIPSTIC' aparecen en la columna como valores distintos. Para solucionarlo, recomendamos crear una nueva columna en la que todos los valores estén en minúsculas, para garantizar la coherencia. 

```python
import pandas as pd

df = pd.read_csv('/datasets/products_data_no_nans.csv')

df['product'] = df['product'].str.lower()

print(df['product'])

#Resultado==================
0        lipstic
1        lipstic
2       pacifier
3        shampoo
4        diapers
5         lotion
6       hair gel
7    conditioner
Name: product, dtype: object
```

Por último, hemos observado anteriormente que existe el valor 'tbc' en la columna 'category'. Así es como se ve esta fila:


```python
category    product     price
1       tbc    pacifier     9.0
```


Vamos a utilizar el método replace() para establecer un valor adecuado. Está claro que 'pacifier' (chupete) como producto pertenece a la categoría 'baby care' que tenemos en nuestro conjunto de datos. Después del reemplazo, imprime el DataFrame.

```python
import pandas as pd

df = pd.read_csv('/datasets/products_data_no_nans_and_dupl.csv')

df['category'] = df['category'].str.replace('tbc','baby care')
print(df)

#Resultado====================
    category      product  price
0  cosmetics      lipstic   25.0
1  baby care     pacifier    9.0
2  hair care      shampoo   12.0
3  baby care      diapers   34.0
4  cosmetics       lotion   18.0
5  hair care     hair gel   21.0
6  hair care  conditioner   16.5
```

# **=======================**

# **FILTRADO DE DATOS**

## **Indices en DataFrames y Series**

### **Atributo index**

In [1]:
import pandas as pd

oceans = pd.Series(["Pacific", "Atlantic", "Indian", "Southern", "Arctic"])

print(oceans.index)
print(type(oceans.index))

RangeIndex(start=0, stop=5, step=1)
<class 'pandas.core.indexes.range.RangeIndex'>


También podemos establecer el índice que queramos. Por ejemplo, vamos a establecer los valores de índice utilizando una lista de números enteros del 1 al 5 asignando esta lista de números al atributo index de oceans:

In [2]:
import pandas as pd

oceans = pd.Series(["Pacific", "Atlantic", "Indian", "Southern", "Arctic"])

oceans.index = [1, 2, 3, 4, 5]

print(oceans.index)
print(type(oceans.index))

Index([1, 2, 3, 4, 5], dtype='int64')
<class 'pandas.core.indexes.base.Index'>


n este caso, nuestro índice es del tipo de datos Int64Index, que es un tipo general para un índice de valores enteros que no se generan a partir de un objeto range. No te preocupes sobre la gran cantidad de nuevos tipos de datos. No son más que tipos de índice que puedes mantener por defecto o establecer por tu cuenta.

También podemos establecer el atributo index utilizando el parámetro index= en la llamada a Series(), lo cual es preferible si no queremos el índice predeterminado y no planeamos modificar el índice posteriormente:

In [3]:
import pandas as pd

oceans = pd.Series(
    ["Pacific", "Atlantic", "Indian", "Southern", "Arctic"], index=[1, 2, 3, 4, 5]
)

print(oceans.index)
print(type(oceans.index))

Index([1, 2, 3, 4, 5], dtype='int64')
<class 'pandas.core.indexes.base.Index'>


Por último, vamos a configurar nuestros valores de índice como cadenas y a comprobar qué tipo de datos obtenemos para el índice:


In [4]:
import pandas as pd

oceans = pd.Series(
    ["Pacific", "Atlantic", "Indian", "Southern", "Arctic"],
    index=["A", "B", "C", "D", "E"],
)

print(oceans)
print()
print(oceans.index)
print(type(oceans.index))

A     Pacific
B    Atlantic
C      Indian
D    Southern
E      Arctic
dtype: object

Index(['A', 'B', 'C', 'D', 'E'], dtype='object')
<class 'pandas.core.indexes.base.Index'>


### **Indexación mediante loc[]**

- **Index (índice)**: un componente de un Series o DataFrame, accesible mediante el atributo index.
- **Indexing (indexación)**: el proceso de acceder a los valores de un Series o DataFrame utilizando sus índices.

In [10]:
import pandas as pd

states = ["Alabama", "Alaska", "Arizona", "Arkansas"]
flowers = ["Camellia", "Forget-me-not", "Saguaro cactus blossom", "Apple blossom"]
insects = [
    "Monarch butterfly",
    "Four-spotted skimmer dragonfly",
    "Two-tailed swallowtail",
    "European honey bee",
]
index = ["state 1", "state 2", "state 3", "state 4"]

df = pd.DataFrame({"state": states, "flower": flowers, "insect": insects}, index=index)
prueba = df.loc['state 2', 'flower']

print(prueba)
print(df)

Forget-me-not
            state                  flower                          insect
state 1   Alabama                Camellia               Monarch butterfly
state 2    Alaska           Forget-me-not  Four-spotted skimmer dragonfly
state 3   Arizona  Saguaro cactus blossom          Two-tailed swallowtail
state 4  Arkansas           Apple blossom              European honey bee


In [11]:
import pandas as pd

states = ["Alabama", "Alaska", "Arizona", "Arkansas"]
flowers = ["Camellia", "Forget-me-not", "Saguaro cactus blossom", "Apple blossom"]
insects = [
    "Monarch butterfly",
    "Four-spotted skimmer dragonfly",
    "Two-tailed swallowtail",
    "European honey bee",
]
index = ["state 1", "state 2", "state 3", "state 4"]

df = pd.DataFrame({"state": states, "flower": flowers, "insect": insects}, index=index)

print(df.loc["state 4", "insect"])

European honey bee


In [15]:
import pandas as pd

states = ["Alabama", "Alaska", "Arizona", "Arkansas"]
flowers = ["Camellia", "Forget-me-not", "Saguaro cactus blossom", "Apple blossom"]
insects = [
    "Monarch butterfly",
    "Four-spotted skimmer dragonfly",
    "Two-tailed swallowtail",
    "European honey bee",
]
index = ["state 1", "state 2", "state 3", "state 4"]

df = pd.DataFrame({"state": states, "flower": flowers, "insect": insects}, index=index)


prueba2 = df.loc[["state 3", "state 4", "state 2"], ["flower", "insect", "state"]]

print(prueba2)

                         flower                          insect     state
state 3  Saguaro cactus blossom          Two-tailed swallowtail   Arizona
state 4           Apple blossom              European honey bee  Arkansas
state 2           Forget-me-not  Four-spotted skimmer dragonfly    Alaska


practicar esta manera de utilizar loc[] para obtener solo las columnas 'flower' e 'insect' para Alabama y Arizona. Guarda el resultado en la variable filtered_df. Para obtener el índice que tienen Alabama y Arizona, consulta el DataFrame:

```python
            state                  flower                          insect
state 1   Alabama                Camellia               Monarch butterfly
state 2    Alaska           Forget-me-not  Four-spotted skimmer dragonfly
state 3   Arizona  Saguaro cactus blossom          Two-tailed swallowtail
state 4  Arkansas           Apple blossom              European honey bee

```
Tu código debería devolver otro DataFrame. Muestra filtered_df.

In [16]:
import pandas as pd

states = ["Alabama", "Alaska", "Arizona", "Arkansas"]
flowers = ["Camellia", "Forget-me-not", "Saguaro cactus blossom", "Apple blossom"]
insects = [
    "Monarch butterfly",
    "Four-spotted skimmer dragonfly",
    "Two-tailed swallowtail",
    "European honey bee",
]
index = ["state 1", "state 2", "state 3", "state 4"]

df = pd.DataFrame({"state": states, "flower": flowers, "insect": insects}, index=index)

filtered_df = df.loc[["state 1", "state 3"], ["flower", "insect"]]
print(filtered_df)

                         flower                  insect
state 1                Camellia       Monarch butterfly
state 3  Saguaro cactus blossom  Two-tailed swallowtail


In [17]:
import pandas as pd

states = ["Alabama", "Alaska", "Arizona", "Arkansas"]
flowers = ["Camellia", "Forget-me-not", "Saguaro cactus blossom", "Apple blossom"]
insects = [
    "Monarch butterfly",
    "Four-spotted skimmer dragonfly",
    "Two-tailed swallowtail",
    "European honey bee",
]
index = ["state 1", "state 2", "state 3", "state 4"]

df = pd.DataFrame({"state": states, "flower": flowers, "insect": insects}, index=index)

print(df.loc["state 1":"state 3", "flower"])

#CON RANGO

state 1                  Camellia
state 2             Forget-me-not
state 3    Saguaro cactus blossom
Name: flower, dtype: object


De la misma manera, puedes seleccionar múltiples columnas así como índices:

In [18]:
import pandas as pd

states = ["Alabama", "Alaska", "Arizona", "Arkansas"]
flowers = ["Camellia", "Forget-me-not", "Saguaro cactus blossom", "Apple blossom"]
insects = [
    "Monarch butterfly",
    "Four-spotted skimmer dragonfly",
    "Two-tailed swallowtail",
    "European honey bee",
]
index = ["state 1", "state 2", "state 3", "state 4"]

df = pd.DataFrame({"state": states, "flower": flowers, "insect": insects}, index=index)

print(df.loc["state 1":"state 3", "flower":"insect"])

                         flower                          insect
state 1                Camellia               Monarch butterfly
state 2           Forget-me-not  Four-spotted skimmer dragonfly
state 3  Saguaro cactus blossom          Two-tailed swallowtail


Ahora, a practicar. Esta vez, utiliza loc[] para obtener solo la columna 'insect' para todos los estados, excepto Alabama. Tu código debería devolver un Series. Imprime el resultado.

In [19]:
import pandas as pd

states = ["Alabama", "Alaska", "Arizona", "Arkansas"]
flowers = ["Camellia", "Forget-me-not", "Saguaro cactus blossom", "Apple blossom"]
insects = [
    "Monarch butterfly",
    "Four-spotted skimmer dragonfly",
    "Two-tailed swallowtail",
    "European honey bee",
]
index = ["state 1", "state 2", "state 3", "state 4"]

df = pd.DataFrame({"state": states, "flower": flowers, "insect": insects}, index=index)

df_modified = df.loc["state 2":"state 4", "insect"]
print(df_modified)

state 2    Four-spotted skimmer dragonfly
state 3            Two-tailed swallowtail
state 4                European honey bee
Name: insect, dtype: object


### **Indexación mediante iloc[]**

Mientras que loc[] utiliza el índice y las etiquetas de columnas para acceder a los elementos, iloc[] utiliza enteros para designar las posiciones de los elementos que necesitas obtener.

In [20]:
import pandas as pd

states = ["Alabama", "Alaska", "Arizona", "Arkansas"]
flowers = ["Camellia", "Forget-me-not", "Saguaro cactus blossom", "Apple blossom"]
insects = [
    "Monarch butterfly",
    "Four-spotted skimmer dragonfly",
    "Two-tailed swallowtail",
    "European honey bee",
]
index = ["state 1", "state 2", "state 3", "state 4"]

df = pd.DataFrame({"state": states, "flower": flowers, "insect": insects}, index=index)

print(df)
print()
print(df.iloc[3, 2])

            state                  flower                          insect
state 1   Alabama                Camellia               Monarch butterfly
state 2    Alaska           Forget-me-not  Four-spotted skimmer dragonfly
state 3   Arizona  Saguaro cactus blossom          Two-tailed swallowtail
state 4  Arkansas           Apple blossom              European honey bee

European honey bee


De la misma manera que con loc[], podemos acceder a múltiples filas y/o columnas con iloc[] pasándole listas de sus posiciones o utilizando el slicing. Así es como podemos conseguir el mismo resultado que obtenemos con

df.loc[['state 1', 'state 3'], ['flower', 'insect']] utilizando iloc[]:

In [21]:
import pandas as pd

states = ["Alabama", "Alaska", "Arizona", "Arkansas"]
flowers = ["Camellia", "Forget-me-not", "Saguaro cactus blossom", "Apple blossom"]
insects = [
    "Monarch butterfly",
    "Four-spotted skimmer dragonfly",
    "Two-tailed swallowtail",
    "European honey bee",
]
index = ["state 1", "state 2", "state 3", "state 4"]

df = pd.DataFrame({"state": states, "flower": flowers, "insect": insects}, index=index)

print(df)
print()
print(df.iloc[[0, 2], 1:])

            state                  flower                          insect
state 1   Alabama                Camellia               Monarch butterfly
state 2    Alaska           Forget-me-not  Four-spotted skimmer dragonfly
state 3   Arizona  Saguaro cactus blossom          Two-tailed swallowtail
state 4  Arkansas           Apple blossom              European honey bee

                         flower                  insect
state 1                Camellia       Monarch butterfly
state 3  Saguaro cactus blossom  Two-tailed swallowtail


Por cierto, también se puede utilizar la indexación negativa. Aquí tienes un ejemplo en el que se selecciona la última columna (que tiene un índice de Python -1) y las filas 1ª y 3ª (índices de Python 0 y 2):

In [22]:
import pandas as pd

states = ["Alabama", "Alaska", "Arizona", "Arkansas"]
flowers = ["Camellia", "Forget-me-not", "Saguaro cactus blossom", "Apple blossom"]
insects = [
    "Monarch butterfly",
    "Four-spotted skimmer dragonfly",
    "Two-tailed swallowtail",
    "European honey bee",
]
index = ["state 1", "state 2", "state 3", "state 4"]

df = pd.DataFrame({"state": states, "flower": flowers, "insect": insects}, index=index)

print(df.iloc[[0, 2], -1])

state 1         Monarch butterfly
state 3    Two-tailed swallowtail
Name: insect, dtype: object


### **Cambiar el índice de un DataFrame con el método set_index()**

Dos maneras de establecer valores de índice:

- Pasar los valores del índice al parámetro index= al crear un DataFrame o un Series.
- Asignar los valores del índice al atributo index de un DataFrame o Series existente.

En el caso de los DataFrames, existe otra forma de establecer los valores del índice mediante el método set_index(). Este método toma una columna existente de un DataFrame y reemplaza el índice con los valores de esa columna:

In [24]:
import pandas as pd

states = ["Alabama", "Alaska", "Arizona", "Arkansas"]
flowers = ["Camellia", "Forget-me-not", "Saguaro cactus blossom", "Apple blossom"]
insects = [
    "Monarch butterfly",
    "Four-spotted skimmer dragonfly",
    "Two-tailed swallowtail",
    "European honey bee",
]
index = ["state 1", "state 2", "state 3", "state 4"]

df = pd.DataFrame({"state": states, "flower": flowers, "insect": insects}, index=index)
df = df.set_index("flower")  # reemplazar el índice

print(df)
print()
print(df.index)

                           state                          insect
flower                                                          
Camellia                 Alabama               Monarch butterfly
Forget-me-not             Alaska  Four-spotted skimmer dragonfly
Saguaro cactus blossom   Arizona          Two-tailed swallowtail
Apple blossom           Arkansas              European honey bee

Index(['Camellia', 'Forget-me-not', 'Saguaro cactus blossom', 'Apple blossom'], dtype='object', name='flower')


Si no quieres que el índice tenga un nombre, puedes eliminarlo estableciendo el atributo index_name de un DataFrame a None. Así es como puedes hacerlo:

In [25]:
import pandas as pd

states = ["Alabama", "Alaska", "Arizona", "Arkansas"]
flowers = ["Camellia", "Forget-me-not", "Saguaro cactus blossom", "Apple blossom"]
insects = [
    "Monarch butterfly",
    "Four-spotted skimmer dragonfly",
    "Two-tailed swallowtail",
    "European honey bee",
]
index = ["state 1", "state 2", "state 3", "state 4"]

df = pd.DataFrame({"state": states, "flower": flowers, "insect": insects}, index=index)
df = df.set_index("state")

df.index.name = None
print(df)
print()
print(df.index)

                          flower                          insect
Alabama                 Camellia               Monarch butterfly
Alaska             Forget-me-not  Four-spotted skimmer dragonfly
Arizona   Saguaro cactus blossom          Two-tailed swallowtail
Arkansas           Apple blossom              European honey bee

Index(['Alabama', 'Alaska', 'Arizona', 'Arkansas'], dtype='object')


# **Ejercicios**

**Ejercicio 1**

Utiliza loc[] para extraer las flores de Alabama, Alaska y Arizona, y guarda el resultado en la variable flowers. Luego, muestra esta variable.

El precódigo ya crea el DataFrame por ti y establece la columna 'state' como índice, así que asegúrate de usar los nombres de los estados como valores del índice en loc[].

In [26]:
import pandas as pd

states = ["Alabama", "Alaska", "Arizona", "Arkansas"]
flowers = ["Camellia", "Forget-me-not", "Saguaro cactus blossom", "Apple blossom"]
insects = [
    "Monarch butterfly",
    "Four-spotted skimmer dragonfly",
    "Two-tailed swallowtail",
    "European honey bee",
]
index = ["state 1", "state 2", "state 3", "state 4"]

df = pd.DataFrame({"state": states, "flower": flowers, "insect": insects}, index=index)
df = df.set_index("state")


flowers = df.loc["Alabama":"Arizona", "flower"]
print(flowers)

state
Alabama                  Camellia
Alaska              Forget-me-not
Arizona    Saguaro cactus blossom
Name: flower, dtype: object


**Ejercicio 2**

Ahora utiliza iloc[] para indexar exactamente la misma parte del DataFrame que usaste en la última tarea. Igual que hicimos antes, guarda el resultado en la variable flowers e imprímela.

In [27]:
import pandas as pd

states = ["Alabama", "Alaska", "Arizona", "Arkansas"]
flowers = ["Camellia", "Forget-me-not", "Saguaro cactus blossom", "Apple blossom"]
insects = [
    "Monarch butterfly",
    "Four-spotted skimmer dragonfly",
    "Two-tailed swallowtail",
    "European honey bee",
]
index = ["state 1", "state 2", "state 3", "state 4"]

df = pd.DataFrame({"state": states, "flower": flowers, "insect": insects}, index=index)
df = df.set_index("state")

flowers = df.iloc[0:3, 0]
print(flowers)

state
Alabama                  Camellia
Alaska              Forget-me-not
Arizona    Saguaro cactus blossom
Name: flower, dtype: object


# **=========================**

### **Cambiar el índice de un DataFrame con el método set_index()**

Filtrar utilizando dos nuevos métodos de pandas:

- isin(), que comprueba la presencia.
- query(), que te permite filtrar mediante consultas de cadena personalizadas.

**Exploracion dataset**

```python
df = pd.read_csv('/datasets/vg_sales.csv')
print(df.head())
print()
print(df.info())

# Resultado ==========================================

                       name platform  year_of_release         genre publisher  \
0                Wii Sports      Wii           2006.0        Sports  Nintendo   
1         Super Mario Bros.      NES           1985.0      Platform  Nintendo   
2            Mario Kart Wii      Wii           2008.0        Racing  Nintendo   
3         Wii Sports Resort      Wii           2009.0        Sports  Nintendo   
4  Pokemon Red/Pokemon Blue       GB           1996.0  Role-Playing  Nintendo   

  developer  na_sales  eu_sales  jp_sales  critic_score  user_score  
0  Nintendo     41.36     28.96      3.77          76.0         8.0  
1       NaN     29.08      3.58      6.81           NaN         NaN  
2  Nintendo     15.68     12.76      3.79          82.0         8.3  
3  Nintendo     15.61     10.93      3.28          80.0         8.0  
4       NaN     11.27      8.89     10.22           NaN         NaN  

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16717 entries, 0 to 16716
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   name             16717 non-null  object 
 1   platform         16717 non-null  object 
 2   year_of_release  16448 non-null  float64
 3   genre            16717 non-null  object 
 4   publisher        16663 non-null  object 
 5   developer        10096 non-null  object 
 6   na_sales         16717 non-null  float64
 7   eu_sales         16717 non-null  float64
 8   jp_sales         16717 non-null  float64
 9   critic_score     8137 non-null   float64
 10  user_score       7590 non-null   float64
dtypes: float64(6), object(5)
memory usage: 1.4+ MB
```

## **Filtrado con consultas de cadena y el método query()**

```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')

mask = df['jp_sales'] >= 1
print(df[mask][['name', 'jp_sales']])

#RESULTADO =======================================

                                             name  jp_sales
0                                      Wii Sports      3.77
1                               Super Mario Bros.      6.81
2                                  Mario Kart Wii      3.79
3                               Wii Sports Resort      3.28
4                        Pokemon Red/Pokemon Blue     10.22
...                                           ...       ...
1970                  Tag Team Match M.U.S.C.L.E.      1.05
1971                            Derby Stallion 96      1.04
1972                             Adventure Island      1.05
2051    Oshare Majo Love and Berry: DS Collection      1.01
2065  Jissen Pachi-Slot Hisshouhou: Hokuto no Ken      1.00

[243 rows x 2 columns]
```

En el código anterior, la variable mask contiene una serie con valores True y False. True indica que un valor dado de la columna 'jp_sales' tiene unas ventas iguales o superiores a un millón de dólares, mientras que False corresponde a unas ventas inferiores a un millón de dólares.

A continuación, utilizamos esta máscara para filtrar el DataFrame original con df[mask] y seleccionar dos columnas de nuestro interés: ['name', 'jp_sales'].

Resulta que hay más de 16 000 juegos en el conjunto de datos y solo 243 alcanzaron un millón en ventas en Japón. A efectos de la brevedad, solo veremos las columnas 'name' y 'jp_sales'. Por supuesto, podríamos haber omitido la creación de la variable mask y simplemente poner la expresión de máscara directamente en nuestra línea de código de filtrado.

Podemos realizar este mismo filtrado utilizando el método query().

Este método es llamado en un DataFrame y requiere una cadena como entrada. La cadena representa la consulta que quieres hacer en tu DataFrame, lo que básicamente significa que le dice a Python qué filas debe filtrar:

```python
import pandas as pd

df = pd.read_csv("/datasets/vg_sales.csv")

print(df.query("jp_sales > 1")[["name", "jp_sales"]])

#RESULTADO =============================

                                           name  jp_sales
0                                    Wii Sports      3.77
1                             Super Mario Bros.      6.81
2                                Mario Kart Wii      3.79
3                             Wii Sports Resort      3.28
4                      Pokemon Red/Pokemon Blue     10.22
...                                         ...       ...
1885                              Densha De Go!      1.02
1970                Tag Team Match M.U.S.C.L.E.      1.05
1971                          Derby Stallion 96      1.04
1972                           Adventure Island      1.05
2051  Oshare Majo Love and Berry: DS Collection      1.01

[239 rows x 2 columns]
```

**OTRO EJEMPLO**

```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')

print(df.query("publisher == 'Nintendo'")[['name', 'publisher']].head())

#RESULTADO===============================

                       name publisher
0                Wii Sports  Nintendo
1         Super Mario Bros.  Nintendo
2            Mario Kart Wii  Nintendo
3         Wii Sports Resort  Nintendo
4  Pokemon Red/Pokemon Blue  Nintendo
```

Ahora intenta usar query() para filtrar los datos. Guarda únicamente las filas en las que las columnas 'publisher' y 'developer' tengan los mismos valores. Tu objetivo es comprobar si las dos columnas son iguales. Para ello, selecciona el operador lógico que lo haga.

La variable cols, que ya está presente en el precódigo, especifica las columnas que queremos seleccionar del resultado de la consulta. Para seleccionar solamente las columnas que nos interesan, utiliza la variable cols inmediatamente después del método query(). Esta es la sintaxis: df.query(...)[cols].

Por último, asigna el resultado a una variable llamada df_filtered, luego imprime las primeras 5 filas.

```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')

cols = ['name', 'publisher', 'developer']

df_filtered = df.query("publisher==developer")[cols]
print(df_filtered.head())

#Resultado=============================
                    name publisher developer
0             Wii Sports  Nintendo  Nintendo
2         Mario Kart Wii  Nintendo  Nintendo
3      Wii Sports Resort  Nintendo  Nintendo
6  New Super Mario Bros.  Nintendo  Nintendo
7               Wii Play  Nintendo  Nintendo
```

## **Filtrado mediante el método isin()**

El método que podemos utilizar para filtrar los datos se llama isin(). En lugar de utilizar los operadores lógicos conocidos, isin() comprueba si los valores de una columna coinciden con alguno de los valores de otra matriz, como una lista o un diccionario.

```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')

handhelds = ['3DS', 'DS', 'GB', 'GBA', 'PSP']
print(df[df['platform'].isin(handhelds)][['name', 'platform']])

#resultado ======================================

                                                    name platform
4                               Pokemon Red/Pokemon Blue       GB
5                                                 Tetris       GB
6                                  New Super Mario Bros.       DS
10                                            Nintendogs       DS
11                                         Mario Kart DS       DS
...                                                  ...      ...
16702                           Mezase!! Tsuri Master DS       DS
16703  Eiyuu Densetsu: Sora no Kiseki Material Collec...      PSP
16706                                           Plushees       DS
16710                 Woody Woodpecker in Crazy Castle 5      GBA
16715                                   Spirits & Spells      GBA

[4801 rows x 2 columns]
```

**AHORA CON EL RESULTADO INVERTIDO POR EL SIMBOLO DE ~**

```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')

handhelds = ['3DS', 'DS', 'GB', 'GBA', 'PSP']
print(df[~df['platform'].isin(handhelds)][['name', 'platform']])

#RESULTADO ==============================

                                                                                                    name platform
0                                            Wii Sports      Wii
1                                     Super Mario Bros.      NES
2                                        Mario Kart Wii      Wii
3                                     Wii Sports Resort      Wii
7                                              Wii Play      Wii
...                                                 ...      ...
16711  SCORE International Baja 1000: The Official Game      PS2
16712                     Samurai Warriors: Sanada Maru      PS3
16713                                  LMA Manager 2007     X360
16714                           Haitaka no Psychedelica      PSV
16716                               Winning Post 8 2016      PSV

[11916 rows x 2 columns] 
```

**INCLUYENDO "IN" EN UN METODO QUERY**


```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')

handhelds = ['3DS', 'DS', 'GB', 'GBA', 'PSP']
print(df.query("platform in @handhelds")[['name', 'platform']])

#RESULTADO =================================

                                                    name platform
4                               Pokemon Red/Pokemon Blue       GB
5                                                 Tetris       GB
6                                  New Super Mario Bros.       DS
10                                            Nintendogs       DS
11                                         Mario Kart DS       DS
...                                                  ...      ...
16702                           Mezase!! Tsuri Master DS       DS
16703  Eiyuu Densetsu: Sora no Kiseki Material Collec...      PSP
16706                                           Plushees       DS
16710                 Woody Woodpecker in Crazy Castle 5      GBA
16715                                   Spirits & Spells      GBA

[4801 rows x 2 columns]
```

**Alternativamente, puedes invertirlo con la palabra clave not in:**

```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')

handhelds = ['3DS', 'DS', 'GB', 'GBA', 'PSP']
print(df.query("platform not in @handhelds")[['name', 'platform']])

#resultado =================================

                                                                                                    name platform
0                                            Wii Sports      Wii
1                                     Super Mario Bros.      NES
2                                        Mario Kart Wii      Wii
3                                     Wii Sports Resort      Wii
7                                              Wii Play      Wii
...                                                 ...      ...
16711  SCORE International Baja 1000: The Official Game      PS2
16712                     Samurai Warriors: Sanada Maru      PS3
16713                                  LMA Manager 2007     X360
16714                           Haitaka no Psychedelica      PSV
16716                               Winning Post 8 2016      PSV

[11916 rows x 2 columns]


#Como la variable handhelds es externa al DataFrame, tenemos que precederla con el símbolo @ en nuestra cadena de consulta, de lo contrario pandas intentará encontrar una columna llamada 'handhelds' y nos arrojará un error cuando no la encuentre.
```

# **Ejercicios**

**Ejercicio 1**

Imprime una lista de todos los géneros únicos en el conjunto de datos llamando al método unique() en la columna 'genre'.

```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')

df_mod = df["genre"].unique()

print(df_mod)

#Resultado =========================================
['Sports' 'Platform' 'Racing' 'Role-Playing' 'Puzzle' 'Misc' 'Shooter'
 'Simulation' 'Action' 'Fighting' 'Adventure' 'Strategy']
```

**Ejercicio 2**

Tenemos dos variables en el precódigo:

- cols, que contiene las columnas de nuestro interés: 'name' y 'genre'
- s_genres que es una lista de géneros que empiezan por la letra "S".

Tu objetivo es utilizar el método isin() con la lista proporcionada s_genres para filtrar el DataFrame df de forma que solo se mantengan las filas en las que el género del juego no empiece por la letra "S".

Cuando se filtran, utiliza la variable cols para seleccionar solo las columnas 'name' y 'genre' y asigna el resultado a una variable llamada df_filtered. Después muéstralo.

```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')

cols = ['name', 'genre']
s_genres = ['Shooter', 'Simulation', 'Sports', 'Strategy']

df_filtered = df[~df['genre'].isin(s_genres)][cols]
print( df_filtered )

#Resultado===============================================
                                                   name         genre
1                                     Super Mario Bros.      Platform
2                                        Mario Kart Wii        Racing
4                              Pokemon Red/Pokemon Blue  Role-Playing
5                                                Tetris        Puzzle
6                                 New Super Mario Bros.      Platform
...                                                 ...           ...
16710                Woody Woodpecker in Crazy Castle 5      Platform
16711  SCORE International Baja 1000: The Official Game        Racing
16712                     Samurai Warriors: Sanada Maru        Action
16714                           Haitaka no Psychedelica     Adventure
16715                                  Spirits & Spells      Platform

[11489 rows x 2 columns]
```

**Ejercicio 3**

Vuelve a filtrar todos los géneros que no empiezan por "S", pero esta vez hazlo con el método query(). Para hacerlo, tendrás que utilizar la palabra clave not in en tu cadena de consulta. Utiliza cols para seleccionar solo las columnas 'name' y 'genre' y asigna el resultado a una variable llamada df_filtered. Después muéstralo.

```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')

cols = ['name', 'genre']
s_genres = ['Shooter', 'Simulation', 'Sports', 'Strategy']

df_filtered= df.query('genre not in @s_genres')[['name','genre']]

print(df_filtered)

#Resultado======================
                                                   name         genre
1                                     Super Mario Bros.      Platform
2                                        Mario Kart Wii        Racing
4                              Pokemon Red/Pokemon Blue  Role-Playing
5                                                Tetris        Puzzle
6                                 New Super Mario Bros.      Platform
...                                                 ...           ...
16710                Woody Woodpecker in Crazy Castle 5      Platform
16711  SCORE International Baja 1000: The Official Game        Racing
16712                     Samurai Warriors: Sanada Maru        Action
16714                           Haitaka no Psychedelica     Adventure
16715                                  Spirits & Spells      Platform

[11489 rows x 2 columns]
```

# **=======================**

## **Uso de estructuras de datos externas para filtrar DataFrames**

filtrar utilizando diccionarios, Series e incluso otros DataFrames.

In [2]:
import pandas as pd

our_list = [2, 5, 10]
df = pd.DataFrame(
    {
        "a": [2, 3, 10, 11, 12],
        "b": [5, 4, 3, 2, 1],
        "c": ["X", "Y", "Y", "Y", "Z"],
    }
)
print(df)
print()
print(our_list)
print()
print(df.query("a in @our_list"))

#Como podemos ver, query() devolvió todas las filas de df donde los valores de la columna 'a' están presentes en our_list. Esos valores son 2 y 10; la columna 'a' no contiene el valor 5.
#Ten en cuenta que los valores del índice en el DataFrame filtrado no cambian respecto a sus valores originales, 0 y 2 en este caso.

    a  b  c
0   2  5  X
1   3  4  Y
2  10  3  Y
3  11  2  Y
4  12  1  Z

[2, 5, 10]

    a  b  c
0   2  5  X
2  10  3  Y


## **Filtrado con un diccionario**

Qué pasa si la variable almacena un diccionario en vez de una lista? Recuerda que los diccionarios se componen de pares clave-valor.

Vamos a crear un diccionario y asignarlo a la variable our_dict. Para comprobar la presencia de valores de la columna 'a' entre los valores del diccionario, tenemos que utilizar el método values() del diccionario en nuestra consulta "a in @our_dict.values()":

In [3]:
import pandas as pd

our_dict = {0: 10, 3: 11, 12: 12}
df = pd.DataFrame(
    {
        "a": [2, 3, 10, 11, 12],
        "b": [5, 4, 3, 2, 1],
        "c": ["X", "Y", "Y", "Y", "Z"],
    }
)
print(df)
print()
print(our_dict)
print()
print(df.query("a in @our_dict.values()"))

    a  b  c
0   2  5  X
1   3  4  Y
2  10  3  Y
3  11  2  Y
4  12  1  Z

{0: 10, 3: 11, 12: 12}

    a  b  c
2  10  3  Y
3  11  2  Y
4  12  1  Z


Cada uno de los valores del diccionario (10, 11 y 12) aparece en la columna 'a' una vez, por lo que obtenemos tres filas de query(). Los valores del índice en el DataFrame filtrado no han cambiado. Filtrar con valores de diccionario es igual que filtrar con listas.

Sin embargo, para comprobar la presencia de los valores de la columna 'a' entre las claves del diccionario (0, 3 y 12), necesitamos utilizar el query "a in @our_dict.keys()". La consulta más corta "a in @our_dict" también funcionará porque comprueba las claves por defecto:

In [7]:
import pandas as pd

our_dict = {0: 10, 3: 11, 12: 12}
df = pd.DataFrame(
    {
        "a": [2, 3, 10, 11, 12],
        "b": [5, 4, 3, 2, 1],
        "c": ["X", "Y", "Y", "Y", "Z"],
    }
)
print(df)
print()
print(our_dict)
print()
print(df.query("a in @our_dict")) #por defecto, pero tambien puedes usar "a in @our_dict.keys()"

    a  b  c
0   2  5  X
1   3  4  Y
2  10  3  Y
3  11  2  Y
4  12  1  Z

{0: 10, 3: 11, 12: 12}

    a  b  c
1   3  4  Y
4  12  1  Z


## **Filtrado con un Series**

Ahora veamos un ejemplo en el que la estructura de datos externa es un objeto Series. Tal y como los diccionarios almacenan pares clave-valor, los objetos Series almacenan pares índice-valor. Sin embargo, en el caso de los objetos Series, los valores se comprueban por defecto.

La consulta "a in @our_series" comprobará la presencia de valores en la columna 'a' entre los valores de our_series en lugar de su índice:


In [17]:
import pandas as pd

our_series = pd.Series([10, 11, 12])
df = pd.DataFrame(
    {
        "a": [2, 3, 10, 11, 12],
        "b": [5, 4, 3, 2, 1],
        "c": ["X", "Y", "Y", "Y", "Z"],
    }
)
print(df)
print()
print(our_series)
print()
print(df.query("a in @our_series"))

    a  b  c
0   2  5  X
1   3  4  Y
2  10  3  Y
3  11  2  Y
4  12  1  Z

0    10
1    11
2    12
dtype: int64

    a  b  c
2  10  3  Y
3  11  2  Y
4  12  1  Z


Utiliza el atributo index de our_series de abajo para escribir una consulta que filtre a df para mantener solo las filas cuyos valores de la columna 'c' están también presentes en el índice de our_series. Imprime el resultado.

In [10]:
import pandas as pd

our_series = pd.Series([10, 11, 12], index=["X", "Y", "T"])
df = pd.DataFrame(
    {
        "a": [2, 3, 10, 11, 12],
        "b": [5, 4, 3, 2, 1],
        "c": ["X", "Y", "Y", "Y", "Z"],
    }
)

print(df.query("c in @our_series.index"))


    a  b  c
0   2  5  X
1   3  4  Y
2  10  3  Y
3  11  2  Y


## **Filtrado con un DataFrame**

También podemos utilizar un DataFrame externo para filtrar nuestros datos de dos maneras:

- Filtrar utilizando sus valores de índice.
- Filtrar utilizando valores de columnas específicas.

Para filtrar basándonos en la inclusión entre los valores del índice de un DataFrame externo, simplemente lo tenemos que comprobar de la misma manera que lo hicimos para un índice de Series: accedemos al atributo index en nuestra consulta.

Vamos a crear un DataFrame externo llamado our_df con valores de índice establecidos por la lista ['Z', 'X', 'P']. A continuación, podemos comprobar los valores de la columna 'c' para incluirlos en el índice de our_df:

In [18]:
import pandas as pd

df = pd.DataFrame(
    {
        "a": [2, 3, 10, 11, 12],
        "b": [5, 4, 3, 2, 1],
        "c": ["X", "Y", "Y", "Y", "Z"],
    }
)
our_df = pd.DataFrame(
    {
        "a1": [2, 4, 6],
        "b1": [3, 2, 2],
        "c1": ["A", "B", "C"],
    },
    index=["Z", "X", "P"],
)

print(df)
print()
print(our_df)
print()
print(df.query("c in @our_df.index"))

    a  b  c
0   2  5  X
1   3  4  Y
2  10  3  Y
3  11  2  Y
4  12  1  Z

   a1  b1 c1
Z   2   3  A
X   4   2  B
P   6   2  C

    a  b  c
0   2  5  X
4  12  1  Z


Para comprobar si los valores de la columna del DataFrame que queremos filtrar (df en este caso) también están presentes en la columna de un DataFrame externo (our_df), tenemos que especificar la columna externa en nuestra consulta utilizando la notación de puntos.

La consulta "a in @our_df.a1" comprueba si algunos valores de la columna 'a' de df están presentes en la columna 'a1' de our_df.

Podemos utilizar como atributos la notación de puntos para acceder a las columnas de un DataFrame en lugar de la notación de corchetes, por lo que our_df['a1'] es equivalente a our_df.a1. Pero en las cadenas de consulta, solo funcionará la notación de puntos.

Utiliza lo que acabas de aprender para filtrar df de forma que solo mantengas las filas en las que los valores de la columna 'a' estén también presentes en la columna 'b1' del DataFrame externo our_df. Imprime el resultado.

In [19]:
import pandas as pd

df = pd.DataFrame(
    {
        "a": [2, 3, 10, 11, 12],
        "b": [5, 4, 3, 2, 1],
        "c": ["X", "Y", "Y", "Y", "Z"],
    }
)
our_df = pd.DataFrame(
    {
        "a1": [2, 4, 6],
        "b1": [3, 2, 2],
        "c1": ["A", "B", "C"],
    },
    index=["Z", "X", "P"],
)

print(df.query("a in @our_df.b1"))

   a  b  c
0  2  5  X
1  3  4  Y


# **=====================**
## **Filtrado por condiciones múltiples**

Filtraremos de manera mas compleja basado en más de una condicion lógica

```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
df['user_score'] = pd.to_numeric(df['user_score'], errors='coerce')

print(df[(df['platform'] == 'Wii') & ~(df['genre'] == 'Sports')].head())

#Resultado =================================

                         name platform  year_of_release     genre publisher  \
2              Mario Kart Wii      Wii           2008.0    Racing  Nintendo   
7                    Wii Play      Wii           2006.0      Misc  Nintendo   
8   New Super Mario Bros. Wii      Wii           2009.0  Platform  Nintendo   
39    Super Smash Bros. Brawl      Wii           2008.0  Fighting  Nintendo   
49         Super Mario Galaxy      Wii           2007.0  Platform  Nintendo   

    developer  na_sales  eu_sales  jp_sales  critic_score  user_score  
2    Nintendo     15.68     12.76      3.79          82.0         8.3  
7    Nintendo     13.96      9.18      2.93          58.0         6.6  
8    Nintendo     14.44      6.94      4.70          87.0         8.4  
39  Game Arts      6.62      2.55      2.66          93.0         8.9  
49   Nintendo      6.06      3.35      1.20          97.0         8.9
```

```python
Ahora exploremos una condición “or” obteniendo todos los juegos que superaron el millón de dólares en ventas en al menos una de las tres regiones:

import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
df['user_score'] = pd.to_numeric(df['user_score'], errors='coerce')

print(df[(df['na_sales'] >= 1) | (df['eu_sales'] >= 1) | (df['jp_sales'] >= 1)].head())

#resultado =======================

                       name platform  year_of_release         genre publisher  \
0                Wii Sports      Wii           2006.0        Sports  Nintendo   
1         Super Mario Bros.      NES           1985.0      Platform  Nintendo   
2            Mario Kart Wii      Wii           2008.0        Racing  Nintendo   
3         Wii Sports Resort      Wii           2009.0        Sports  Nintendo   
4  Pokemon Red/Pokemon Blue       GB           1996.0  Role-Playing  Nintendo   

  developer  na_sales  eu_sales  jp_sales  critic_score  user_score  
0  Nintendo     41.36     28.96      3.77          76.0         8.0  
1       NaN     29.08      3.58      6.81           NaN         NaN  
2  Nintendo     15.68     12.76      3.79          82.0         8.3  
3  Nintendo     15.61     10.93      3.28          80.0         8.0  
4       NaN     11.27      8.89     10.22           NaN         NaN
```

Filtra el df para que solo salgan los juegos que salieron en la década de los 80. Asigna el resultado a una variable llamada df_filtered y luego imprime las primeras 5 filas.

```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
df['user_score'] = pd.to_numeric(df['user_score'], errors='coerce')

df_filtered = df[(df['year_of_release']>=1980) & (df['year_of_release']<1990)]
print(df_filtered.head(5) )

#resultado =======================

                   name platform  ...  critic_score user_score
1     Super Mario Bros.      NES  ...           NaN        NaN
5                Tetris       GB  ...           NaN        NaN
9             Duck Hunt      NES  ...           NaN        NaN
21     Super Mario Land       GB  ...           NaN        NaN
22  Super Mario Bros. 3      NES  ...           NaN        NaN

[5 rows x 11 columns]
```

## **CONDICIONES MÚLTIPLES CON query()**

También podemos filtrar por múltiples condiciones escribiendo cadenas de consulta para el método query(). Vamos a filtrar para obtener solo los juegos de Wii que no sean deportivos, pero esta vez con una cadena de consulta:


```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
df['user_score'] = pd.to_numeric(df['user_score'], errors='coerce')

print(df.query("platform == 'Wii' and genre != 'Sports'").head())

#Resultado ============================================

                         name platform  year_of_release     genre publisher  \
2              Mario Kart Wii      Wii           2008.0    Racing  Nintendo   
7                    Wii Play      Wii           2006.0      Misc  Nintendo   
8   New Super Mario Bros. Wii      Wii           2009.0  Platform  Nintendo   
39    Super Smash Bros. Brawl      Wii           2008.0  Fighting  Nintendo   
49         Super Mario Galaxy      Wii           2007.0  Platform  Nintendo   

    developer  na_sales  eu_sales  jp_sales  critic_score  user_score  
2    Nintendo     15.68     12.76      3.79          82.0         8.3  
7    Nintendo     13.96      9.18      2.93          58.0         6.6  
8    Nintendo     14.44      6.94      4.70          87.0         8.4  
39  Game Arts      6.62      2.55      2.66          93.0         8.9  
49   Nintendo      6.06      3.35      1.20          97.0         8.9
```

solo tomamos las filas que superaban el millón de dólares en ventas en al menos una de las tres regiones. Realiza el mismo filtrado abajo, pero esta vez utilizando query(). 

Asigna tu cadena de consulta a una variable llamada q_string, luego imprime las primeras 5 filas del resultado de llamar a query() en df con q_string como entrada.


```python
import pandas as pd

df = pd.read_csv('/datasets/vg_sales.csv')
df['user_score'] = pd.to_numeric(df['user_score'], errors='coerce')

q_string = "na_sales >= 1 or eu_sales >= 1 or jp_sales >= 1"
df.query(q_string) #atencion a esta parte
print(df.query(q_string).head(5)) 

#Resultado================
                       name platform  ...  critic_score user_score
0                Wii Sports      Wii  ...          76.0        8.0
1         Super Mario Bros.      NES  ...           NaN        NaN
2            Mario Kart Wii      Wii  ...          82.0        8.3
3         Wii Sports Resort      Wii  ...          80.0        8.0
4  Pokemon Red/Pokemon Blue       GB  ...           NaN        NaN

[5 rows x 11 columns]

#recordar y revisar la parte en la que tienes string y la pasas a query
```