## Filtrado de datos


In [74]:
# nuestras librerias a utilizar
import pandas as pd
import numpy as np


# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

In [2]:
# traemos los datos que guardamos en el tema anterior.

df_final = pd.read_csv("df_final_limpieza.csv")

In [3]:
# recordemos el DataFrame
df_final.head(2)

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,married,basic 4y,0.0,0.0,0.0,telephone,261,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,agosto,2019.0
1,85477,1,1,2012-12-30,7,e9d37224-cb6f-4942-98d7-46672963d097,57.0,services,married,high school,,0.0,0.0,telephone,149,1,999,0,nonexistent,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923,septiembre,2016.0


In [4]:
# imaginemos que queremos quedarnos solo con aquellos clientes que están casados 
# primero establecemos la condición de filtrado que queremos, en este caso que la columna de 'marital' sea igual a 'married'
condicion_casados = df_final["marital"] == "married"

# ahora aplicamos la condicion definida previamente a todo el DataFrame, esto lo haremos usando la sintaxis con corchetes
# vamos a almancenar los resultados en una variable que se llame 'df_casados'
df_casados = df_final[condicion_casados]

# comprobamos que el filtrado se hizo correctamente, en este caso, la columna 'marital' deberá tener un único valor  ('married')
df_casados["marital"].unique()

array(['married'], dtype=object)

In [5]:
# visualizamos el DataFrame
df_casados.head()

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,married,basic 4y,0.0,0.0,0.0,telephone,261,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,agosto,2019.0
1,85477,1,1,2012-12-30,7,e9d37224-cb6f-4942-98d7-46672963d097,57.0,services,married,high school,,0.0,0.0,telephone,149,1,999,0,nonexistent,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923,septiembre,2016.0
2,147233,1,1,2012-02-02,5,3f9f49b5-e410-4948-bf6e-f9244f04918b,37.0,services,married,high school,0.0,1.0,0.0,telephone,226,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,15-febrero-2019,34.939,-94.847,febrero,2019.0
3,121393,1,2,2012-12-21,29,9991fafb-4447-451a-8be2-b0df6098d13e,40.0,admin.,married,basic 6y,0.0,0.0,0.0,telephone,151,1,999,0,nonexistent,1.1,93994,-364,,5191,no,29-noviembre-2015,49.041,-70.308,noviembre,2015.0
4,63164,1,2,2012-06-20,20,eca60b76-70b6-4077-80ba-bc52e8ebb0eb,56.0,services,married,high school,0.0,0.0,1.0,telephone,307,1,999,0,nonexistent,1.1,93994,-364,,5191,no,29-enero-2017,38.033,-104.463,enero,2017.0


In [6]:
# podríamos filtrar también con operadores de comparación, por ejemplo imaginemos que queremos quedarnos solo con los datos de aquellos clientes que tienen un 'income' mayor de 150000
condicion_income = df_final["income"] > 150000

# aplicamos el filtro al DataFrame
df_income_150 = df_final[condicion_income]

# comprobamos que el filtrado se hizo correctamente, en este caso el valor mínimo que tengamos para esta columna deberá ser mayor que 150000, para eso vamos a usar el método '.min()' de Pandas
df_income_150["income"].min()

150008

In [7]:
df_income_150.head()

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,married,basic 4y,0.0,0.0,0.0,telephone,261,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,agosto,2019.0
7,159686,1,1,2012-12-10,21,87fdc08b-30ae-4dab-803f-561ecdf27ff0,,blue-collar,married,,,0.0,0.0,telephone,217,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,25-septiembre-2017,46.871,-122.235,septiembre,2017.0
8,179933,0,0,2012-08-22,18,87b79988-2be5-419d-88f4-56655852c565,24.0,technician,single,professional course,0.0,1.0,0.0,telephone,380,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,18-enero-2018,44.632,-85.811,enero,2018.0
19,173275,2,0,2012-04-17,26,74bf1569-4bdb-49e4-98ba-c1c607d90596,39.0,management,single,basic 9y,,0.0,0.0,telephone,195,1,999,0,nonexistent,1.1,93994,-364,,5191,no,1-julio-2017,27.284,-69.955,julio,2017.0
21,158116,0,2,2012-10-08,21,47591c83-e88b-40c2-bb8e-de40b94a44cb,55.0,blue-collar,married,basic 4y,,1.0,0.0,telephone,262,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,11-agosto-2016,25.892,-92.643,agosto,2016.0


In [8]:
# ¿y si quisieramos juntar dos condiciones? Tendríamos que utilizar el operador "&" (si queremos un and) o el operador "|" (si queremos un or)
# en este caso vamos a buscar aquellos clientes que están casado Y que tienen un 'income' mayor que 150000

df_income_casados = df_final[condicion_casados & condicion_income]
df_income_casados.head(2)

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,married,basic 4y,0.0,0.0,0.0,telephone,261,1,999,0,nonexistent,1.1,93994,-364,4857,5191,no,2-agosto-2019,41.495,-71.233,agosto,2019.0
7,159686,1,1,2012-12-10,21,87fdc08b-30ae-4dab-803f-561ecdf27ff0,,blue-collar,married,,,0.0,0.0,telephone,217,1,999,0,nonexistent,1.1,93994,-364,4857,5191,no,25-septiembre-2017,46.871,-122.235,septiembre,2017.0


### Método `.isin()`

In [9]:
df_final.head()

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,married,basic 4y,0.0,0.0,0.0,telephone,261,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,agosto,2019.0
1,85477,1,1,2012-12-30,7,e9d37224-cb6f-4942-98d7-46672963d097,57.0,services,married,high school,,0.0,0.0,telephone,149,1,999,0,nonexistent,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923,septiembre,2016.0
2,147233,1,1,2012-02-02,5,3f9f49b5-e410-4948-bf6e-f9244f04918b,37.0,services,married,high school,0.0,1.0,0.0,telephone,226,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,15-febrero-2019,34.939,-94.847,febrero,2019.0
3,121393,1,2,2012-12-21,29,9991fafb-4447-451a-8be2-b0df6098d13e,40.0,admin.,married,basic 6y,0.0,0.0,0.0,telephone,151,1,999,0,nonexistent,1.1,93994,-364,,5191,no,29-noviembre-2015,49.041,-70.308,noviembre,2015.0
4,63164,1,2,2012-06-20,20,eca60b76-70b6-4077-80ba-bc52e8ebb0eb,56.0,services,married,high school,0.0,0.0,1.0,telephone,307,1,999,0,nonexistent,1.1,93994,-364,,5191,no,29-enero-2017,38.033,-104.463,enero,2017.0


In [10]:
df_final["education"].unique()

array(['basic 4y', 'high school', 'basic 6y', 'basic 9y',
       'professional course', nan, 'university degree', 'illiterate'],
      dtype=object)

In [11]:
# imaginemos que nos interesan solo los clientes que tienen un nivel de educación de 'basic 6y', 'basic 9y'. 
# podríamos usar lo métodos aprendidos previamente, pero la realidad es que cuantas más condiciones pongamos más probabilidad hay en equivocarnos. 
# para eso usaremos el método 'isin()' 

# primero definimos una lista con los valores que queremos filtrar
filtro_educacion = ['basic 6y', 'basic 9y']

# aplicamos el método 'isin()' pasando la lista
df_educacion = df_final[df_final["education"].isin(filtro_educacion)]

# comprobamos que ahora solo tenemos dos valores únicos para la columna ' education'
df_educacion["education"].unique()

array(['basic 6y', 'basic 9y'], dtype=object)

### Método `.between()`



In [12]:
df_final.head(1)

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,married,basic 4y,0.0,0.0,0.0,telephone,261,1,999,0,nonexistent,1.1,93994,-364,4857,5191,no,2-agosto-2019,41.495,-71.233,agosto,2019.0


In [13]:
# imaginemos que queremos saber que clientes han visitado nuestra página web entre 15 y 25 veces (inclusive), lo podríamos hacer con cualquiera de los métodos aprendidos hasta ahora, pero sería muy tedioso
# veamos como hacerlo con el método '.between()'

df_web = df_final[df_final["numwebvisitsmonth"].between(15, 25, inclusive = "both" )]
df_web.head()

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year
4,63164,1,2,2012-06-20,20,eca60b76-70b6-4077-80ba-bc52e8ebb0eb,56.0,services,married,high school,0.0,0.0,1.0,telephone,307,1,999,0,nonexistent,1.1,93994,-364,,5191,no,29-enero-2017,38.033,-104.463,enero,2017.0
7,159686,1,1,2012-12-10,21,87fdc08b-30ae-4dab-803f-561ecdf27ff0,,blue-collar,married,,,0.0,0.0,telephone,217,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,25-septiembre-2017,46.871,-122.235,septiembre,2017.0
8,179933,0,0,2012-08-22,18,87b79988-2be5-419d-88f4-56655852c565,24.0,technician,single,professional course,0.0,1.0,0.0,telephone,380,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,18-enero-2018,44.632,-85.811,enero,2018.0
9,77504,1,0,2012-02-09,18,ea6b7d04-9271-4c0a-a01f-07795d164aba,25.0,services,single,high school,0.0,1.0,0.0,telephone,50,1,999,0,nonexistent,1.1,93994,-364,,5191,no,2-noviembre-2016,30.297,-117.382,noviembre,2016.0
12,102006,0,1,2012-03-24,18,66a752e2-b2f1-440c-9a8f-cc3b10d74dd0,29.0,blue-collar,single,high school,0.0,0.0,1.0,telephone,137,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,14-junio-2016,30.047,-112.472,junio,2016.0


In [14]:
# veamos como estan compuestas nuestras columnas, es decir de que tipo son sus valores
df_final.dtypes

income                 int64
kidhome                int64
teenhome               int64
dt_customer           object
numwebvisitsmonth      int64
id                    object
age                  float64
job                   object
marital               object
education             object
default              float64
housing              float64
loan                 float64
contact               object
duration               int64
campaign               int64
pdays                  int64
previous               int64
poutcome              object
empvarrate           float64
conspriceidx          object
consconfidx           object
euribor3m             object
nremployed            object
y                     object
date                  object
latitude             float64
longitude            float64
contact_month         object
contact_year         float64
dtype: object

In [15]:
# si nos fijamos la columna 'dt_customer' es de tipo object y nosotros nos guataria que sea del tipo datetime, por lo que usaremos el metodo to_datetime para especificar la columna a convertir.
df_final['dt_customer'] = pd.to_datetime(df_final['dt_customer'])

# nuevamente usamos dtypes sobre el dataframe para corroborar de que tipo es cada columna.
df_final.dtypes

income                        int64
kidhome                       int64
teenhome                      int64
dt_customer          datetime64[ns]
numwebvisitsmonth             int64
id                           object
age                         float64
job                          object
marital                      object
education                    object
default                     float64
housing                     float64
loan                        float64
contact                      object
duration                      int64
campaign                      int64
pdays                         int64
previous                      int64
poutcome                     object
empvarrate                  float64
conspriceidx                 object
consconfidx                  object
euribor3m                    object
nremployed                   object
y                            object
date                         object
latitude                    float64
longitude                   

In [16]:
# imaginemos que queremos saber que clientes entraron en el banco en enero del 2013. 
# lo primero que tendremos que hacer es generar dos objetos de tipo datetime con las fechas de inicio y fin de nuestro filtro
# para eso usaremos el método 'pd.to_datetime()' el cual necesita que le pasemos las fechas en formato string
inicio = pd.to_datetime('2013-01-01')
fin = pd.to_datetime('2013-01-31')

# después le pasaremos esas dos variables creadas al método '.between()' 
df_fechas = df_final[df_final["dt_customer"].between(inicio, fin, inclusive = "both")]
df_fechas.head(2)

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year
20021,113859,1,1,2013-01-06,12,f8aaf334-949d-4943-a214-b64fe9c088b4,52.0,services,married,high school,,1.0,0.0,cellular,99,1,999,0,nonexistent,1.4,93444,-361,,52281,no,15-septiembre-2016,32.499,-115.779,septiembre,2016.0
20028,169825,2,2,2013-01-01,10,9df0599f-1bc9-4772-9289-b6f9a8178714,51.0,technician,married,professional course,,1.0,1.0,cellular,273,1,999,0,nonexistent,1.4,93444,-361,4965.0,52281,no,6-noviembre-2015,48.691,-73.914,noviembre,2015.0


### Método `.str.contains()`




In [17]:
df_final.head(2)

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,married,basic 4y,0.0,0.0,0.0,telephone,261,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,agosto,2019.0
1,85477,1,1,2012-12-30,7,e9d37224-cb6f-4942-98d7-46672963d097,57.0,services,married,high school,,0.0,0.0,telephone,149,1,999,0,nonexistent,1.1,93994,-364,,5191,no,14-septiembre-2016,34.601,-83.923,septiembre,2016.0


In [18]:
df_final.isnull().sum()

income                  0
kidhome                 0
teenhome                0
dt_customer             0
numwebvisitsmonth       0
id                      0
age                  5120
job                   345
marital                85
education            1807
default              8981
housing              1026
loan                 1026
contact                 0
duration                0
campaign                0
pdays                   0
previous                0
poutcome                0
empvarrate              0
conspriceidx          471
consconfidx             0
euribor3m            9256
nremployed              0
y                       0
date                  248
latitude                0
longitude               0
contact_month         248
contact_year          248
dtype: int64

In [19]:
# imaginemos que queremos trabajar con la columna de 'education' y quisieramos sacar todos aquellos clientes que en su educación aparece un dígito
# lo primero que debemos hacer es sacar el patrón de regex
patron_regex = "\d+"

df_numeros = df_final[df_final["education"].str.contains(patron_regex, regex = True, na = False)]
df_numeros.head()

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,married,basic 4y,0.0,0.0,0.0,telephone,261,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,agosto,2019.0
3,121393,1,2,2012-12-21,29,9991fafb-4447-451a-8be2-b0df6098d13e,40.0,admin.,married,basic 6y,0.0,0.0,0.0,telephone,151,1,999,0,nonexistent,1.1,93994,-364,,5191,no,29-noviembre-2015,49.041,-70.308,noviembre,2015.0
5,143854,0,1,2012-01-24,26,d63ede72-0b6d-45b1-8872-385ac6897f65,45.0,services,married,basic 9y,,0.0,0.0,telephone,198,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,26-septiembre-2015,24.689,-101.643,septiembre,2015.0
13,140801,2,1,2012-02-11,32,54b1ea8a-a909-45d9-9562-775b64ac9c29,57.0,housemaid,divorced,basic 4y,0.0,1.0,0.0,telephone,293,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,25-agosto-2015,28.873,-70.852,agosto,2015.0
14,73262,2,2,2012-09-10,27,3a7b7570-aba9-40bc-9f80-3433d064b5b7,35.0,blue-collar,married,basic 6y,0.0,1.0,0.0,telephone,146,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,19-septiembre-2016,36.188,-109.835,septiembre,2016.0


In [20]:
# para entender que hace bien el parámetro 'na', ejecutemos de nuevo el código cambiando el valor de 'na = True'
# en este caso vemos que tenemos algunas filas más, como la que tiene índice 7 que no aparecía en el ejercicio anterior. 
df_numeros = df_final[df_final["education"].str.contains(patron_regex, regex = True, na = True)]
df_numeros.head()

Unnamed: 0,income,kidhome,teenhome,dt_customer,numwebvisitsmonth,id,age,job,marital,education,default,housing,loan,contact,duration,campaign,pdays,previous,poutcome,empvarrate,conspriceidx,consconfidx,euribor3m,nremployed,y,date,latitude,longitude,contact_month,contact_year
0,161770,1,0,2012-04-04,29,089b39d8-e4d0-461b-87d4-814d71e0e079,,housemaid,married,basic 4y,0.0,0.0,0.0,telephone,261,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,2-agosto-2019,41.495,-71.233,agosto,2019.0
3,121393,1,2,2012-12-21,29,9991fafb-4447-451a-8be2-b0df6098d13e,40.0,admin.,married,basic 6y,0.0,0.0,0.0,telephone,151,1,999,0,nonexistent,1.1,93994,-364,,5191,no,29-noviembre-2015,49.041,-70.308,noviembre,2015.0
5,143854,0,1,2012-01-24,26,d63ede72-0b6d-45b1-8872-385ac6897f65,45.0,services,married,basic 9y,,0.0,0.0,telephone,198,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,26-septiembre-2015,24.689,-101.643,septiembre,2015.0
7,159686,1,1,2012-12-10,21,87fdc08b-30ae-4dab-803f-561ecdf27ff0,,blue-collar,married,,,0.0,0.0,telephone,217,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,25-septiembre-2017,46.871,-122.235,septiembre,2017.0
10,92882,1,1,2012-01-05,9,8d700df5-0c33-4517-8cf8-92e1c92c9c12,41.0,blue-collar,married,,,0.0,0.0,telephone,55,1,999,0,nonexistent,1.1,93994,-364,4857.0,5191,no,31-noviembre-2015,43.616,-90.902,noviembre,2015.0


In [21]:
# antes de terminar la lección vamos a guardar este DataFrame que hemos hemos creado a lo largo de la lección para usarlo en la lección de mañana
# para eso usaremos el método 'pd.to_csv()' 

df_final.to_csv("bank-additional_full.csv",index=False)


# Ejercicios

Vamos a seguir trabajando con el *csv* de `rating-and-performance`, pero vamos a añadir un *csv* más para completar la información de nuestro *e-commerce*. En concreto, vamos a incluir: 

- `insights.csv`: Tenemos datos sobre el éxito de vendedores activos. Sus columnas son: 



    | Nombre de columna         | Descripción                                                                                            |
    |---------------------------|--------------------------------------------------------------------------------------------------------|
    | rating                    | La calificación del producto. (Float)                                                                  |
    | listedproducts            | El número de productos listados en la plataforma de comercio electrónico Wish. (Integer)                |
    | totalunitssold            | El número total de unidades vendidas del producto. (Integer)                                           |
    | meanunitssoldperproduct   | El número promedio de unidades vendidas por producto. (Float)                                         |
    | merchantratingscount      | El número de calificaciones para el vendedor. (Integer)                                                |
    | meanproductprices         | El precio promedio del producto. (Float)                                                               |
    | meanretailprices          | El precio minorista promedio del producto. (Float)                                                     |
    | averagediscount           | El descuento promedio aplicado al producto. (Float)                                                    |
    | meandiscount              | El descuento medio aplicado al producto. (Float)                                                       |
    | meanproductratingscount   | El número promedio de calificaciones para el producto. (Float)                                         |
    | totalurgencycount         | El número total de recuentos de urgencia para el producto. (Integer)                                   |
    | urgencytextrate           | La tasa de ofertas de texto de urgencia para el producto. (Float)                                      |



**Los ejercicios que os planteamos son:**

1. Unid los dos DataFrames en uno solo, usando el método que considereis más correcto. Querremos quedarnos con todos los productos que estén en los dos conjuntos de datos. 

2. Explorad el nombre de las columnas, ¿hay alguna que este repetida o que no nos aporte información de valor? ¿Hay alguna columna que solo tenga un valor? En caso de ser así, eliminadlas. **NOTA** Hay tres columnas que cuando exploramos sus valores únicos y sus frecuencias ayer, nos deberíamos haber dado cuenta que solo tiene un valor.  


3. Algunas de las columnas tienen `.` en sus nombres y en otras tenemos `_`.  Unifica el nombre de las columnas para que todas tengan "_". Además, todas deben estar en minúsculas. 

4. En la columna de `merchant_info_subtitle`, si nos fijamos hay algunas celdas donde tenemos entre paréntesis el número total de calificaciones para el comerciante (que es la misma información que la que tenemos en la columna "merchant_rating_count"). Eliminad de la columna "merchant_info_subtitle" la parte del *string* de los paréntesis. Guardar el resultado de vuestra limpieza en una columna que se llame igual, es decir, "merchant_info_subtitle". 


5. Si nos fijamos, en la primera fila antes solo teníamos un paréntesis, pero los hemos eliminado en el paso anterior, y ahora tenemos un *string* vacío, lo cual no tiene mucho sentido. En este ejercicio debereis reemplazar esos *strings* vacios por nulos de Pandas (**NOTA** estos deben ser indicados de la siguiente forma `np.nan`, y deberéis importar numpy). 

6. Hay ciertas columnas que no vamos a necesitar para nuestro análisis. En concreto, vamos a eliminar las columnas de `badges_count`, `product_variation_inventory`, `urgency_text`, `merchant_title`, `merchant_has_profile_picture`, `merchant_profile_picture`, `product_picture`, `total_urgency_count`, `has_urgency_banner` y `urgency_text_rate`. Guardad los cambios realizados hasta este punto en un csv para usarlo en los ejercicios de la lección de mañana. 

7. Pongamos en práctica el filtrado de datos en Pandas: 

    - Seleccionad aquellos productos cuyo color es verde. ¿Cuántos productos tenemos?

    - Seleccionad aquellos productos cuyo color es verde y rojo. ¿Cuántos productos tenemos de cada tipo de color?

    - Seleccionad aquellos productos de la talla M, que valgan más de 15. ¿Cuántos productos tenemos?

    - Seleccionad aquellos productos cuyo precio este entre 1 y 2 (ambos inclusive). ¿Cuántos productos tenemos?

    - Filtrad los datos, para extraer solo aquellos productos que tengan uno o más dígitos en su titulo. ¿Cuántos productos hay?




In [29]:
# Ejercicio 1
df_rat = pd.read_csv('rating-and-performance.csv')
df_insi = pd.read_csv('insight.csv')

In [30]:
df_rat.head(2)

Unnamed: 0,index,title,title_orig,price,retail_price,currency_buyer,units_sold,uses_ad_boosts,rating,rating_count,rating_five_count,rating_four_count,rating_three_count,rating_two_count,rating_one_count,badges_count,badge_local_product,badge_product_quality,badge_fast_shipping,tags,product_color,product_variation_size_id,product_variation_inventory,shipping_option_name,shipping_option_price,shipping_is_express,countries_shipped_to,inventory_total,has_urgency_banner,urgency_text,origin_country,merchant_title,merchant_name,merchant_info_subtitle,merchant_rating_count,merchant_rating,merchant_id,merchant_has_profile_picture,merchant_profile_picture,product_url,product_picture,product_id,theme,crawl_month
0,0,2020 Summer Vintage Flamingo Print Pajamas Se...,2020 Summer Vintage Flamingo Print Pajamas Se...,16.0,14,EUR,100,0,3.76,54,26.0,8.0,10.0,1.0,9.0,0,0,0,0,"Summer,Fashion,womenunderwearsuit,printedpajam...",white,M,50,Livraison standard,4,0,34,50,1.0,Quantité limitée !,CN,zgrdejia,zgrdejia,(568 notes),568,4.128521,595097d6a26f6e070cb878d1,0,,https://www.wish.com/c/5e9ae51d43d6a96e303acdb0,https://contestimg.wish.com/api/webimage/5e9ae...,5e9ae51d43d6a96e303acdb0,summer,2020-08
1,1,SSHOUSE Summer Casual Sleeveless Soirée Party ...,Women's Casual Summer Sleeveless Sexy Mini Dress,8.0,22,EUR,20000,1,3.45,6135,2269.0,1027.0,1118.0,644.0,1077.0,0,0,0,0,"Mini,womens dresses,Summer,Patchwork,fashion d...",green,XS,50,Livraison standard,2,0,41,50,1.0,Quantité limitée !,CN,SaraHouse,sarahouse,"83 % avis positifs (17,752 notes)",17752,3.899673,56458aa03a698c35c9050988,0,,https://www.wish.com/c/58940d436a0d3d5da4e95a38,https://contestimg.wish.com/api/webimage/58940...,58940d436a0d3d5da4e95a38,summer,2020-08


In [31]:
df_insi.head(2)

Unnamed: 0,index,merchant.id,listed.products,total.units.sold,mean.units.sold.per.product,rating,merchant.ratings.count,mean.product.prices,mean.retail.prices,average.discount,mean.discount,mean.product.ratings.count,total.urgency.count,urgency.text.rate
0,0,5357bcf2bb72c5504882e889,2,120000,60000.0,4.219,320031.0,9.0,20.0,54.0,54.0,8836.0,1.0,50.0
1,1,5708773c3c02161b3f8c7900,5,107100,21420.0,3.934,139223.0,7.76,34.2,61.0,61.0,4010.0,3.0,60.0


In [33]:
df_rat.shape

(1573, 44)

In [34]:
df_insi.shape

(958, 14)

In [51]:
df_combinado = pd.merge(df_rat, df_insi, left_on='merchant_id', right_on='merchant.id', how='inner')
df_combinado.shape

(1573, 58)

In [52]:
df_combinado.head(2)

Unnamed: 0,index_x,title,title_orig,price,retail_price,currency_buyer,units_sold,uses_ad_boosts,rating_x,rating_count,rating_five_count,rating_four_count,rating_three_count,rating_two_count,rating_one_count,badges_count,badge_local_product,badge_product_quality,badge_fast_shipping,tags,product_color,product_variation_size_id,product_variation_inventory,shipping_option_name,shipping_option_price,shipping_is_express,countries_shipped_to,inventory_total,has_urgency_banner,urgency_text,origin_country,merchant_title,merchant_name,merchant_info_subtitle,merchant_rating_count,merchant_rating,merchant_id,merchant_has_profile_picture,merchant_profile_picture,product_url,product_picture,product_id,theme,crawl_month,index_y,merchant.id,listed.products,total.units.sold,mean.units.sold.per.product,rating_y,merchant.ratings.count,mean.product.prices,mean.retail.prices,average.discount,mean.discount,mean.product.ratings.count,total.urgency.count,urgency.text.rate
0,0,2020 Summer Vintage Flamingo Print Pajamas Se...,2020 Summer Vintage Flamingo Print Pajamas Se...,16.0,14,EUR,100,0,3.76,54,26.0,8.0,10.0,1.0,9.0,0,0,0,0,"Summer,Fashion,womenunderwearsuit,printedpajam...",white,M,50,Livraison standard,4,0,34,50,1.0,Quantité limitée !,CN,zgrdejia,zgrdejia,(568 notes),568,4.128521,595097d6a26f6e070cb878d1,0,,https://www.wish.com/c/5e9ae51d43d6a96e303acdb0,https://contestimg.wish.com/api/webimage/5e9ae...,5e9ae51d43d6a96e303acdb0,summer,2020-08,822,595097d6a26f6e070cb878d1,1,100,100.0,4.129,568.0,16.0,14.0,-14.0,-14.0,54.0,1.0,100.0
1,1,SSHOUSE Summer Casual Sleeveless Soirée Party ...,Women's Casual Summer Sleeveless Sexy Mini Dress,8.0,22,EUR,20000,1,3.45,6135,2269.0,1027.0,1118.0,644.0,1077.0,0,0,0,0,"Mini,womens dresses,Summer,Patchwork,fashion d...",green,XS,50,Livraison standard,2,0,41,50,1.0,Quantité limitée !,CN,SaraHouse,sarahouse,"83 % avis positifs (17,752 notes)",17752,3.899673,56458aa03a698c35c9050988,0,,https://www.wish.com/c/58940d436a0d3d5da4e95a38,https://contestimg.wish.com/api/webimage/58940...,58940d436a0d3d5da4e95a38,summer,2020-08,65,56458aa03a698c35c9050988,6,21400,3567.0,3.9,17752.0,5.68,10.33,38.0,37.83,1057.0,3.0,50.0


In [53]:
df_combinado.shape # Eliminar title, currency_buyer, theme, crawl_month

(1573, 58)

In [54]:
# Ejercicio 2
df_combinado.drop(columns=['title', 'currency_buyer', 'theme', 'crawl_month'], axis=1, inplace=True)
df_combinado.shape

(1573, 54)

In [68]:
# Ejercicio 3
# vamos a iterar por todas las columnas del DataFrame y a cada una de ellas la pondremos en minúsula y le aplicaremos un replace para quitar los puntos. 
nuevas_columnas = {columna: columna.lower().replace(".", "_") for columna in df_combinado.columns}

# comprobamos que hemos creado el diccionario correctamente
nuevas_columnas

{'index_x': 'index_x',
 'title_orig': 'title_orig',
 'price': 'price',
 'retail_price': 'retail_price',
 'units_sold': 'units_sold',
 'uses_ad_boosts': 'uses_ad_boosts',
 'rating_x': 'rating_x',
 'rating_count': 'rating_count',
 'rating_five_count': 'rating_five_count',
 'rating_four_count': 'rating_four_count',
 'rating_three_count': 'rating_three_count',
 'rating_two_count': 'rating_two_count',
 'rating_one_count': 'rating_one_count',
 'badges_count': 'badges_count',
 'badge_local_product': 'badge_local_product',
 'badge_product_quality': 'badge_product_quality',
 'badge_fast_shipping': 'badge_fast_shipping',
 'tags': 'tags',
 'product_color': 'product_color',
 'product_variation_size_id': 'product_variation_size_id',
 'product_variation_inventory': 'product_variation_inventory',
 'shipping_option_name': 'shipping_option_name',
 'shipping_option_price': 'shipping_option_price',
 'shipping_is_express': 'shipping_is_express',
 'countries_shipped_to': 'countries_shipped_to',
 'inventory

In [69]:
# una vez que tenemos el diccionario vamos a aplicar el método rename
df_combinado.rename(columns = nuevas_columnas, inplace = True)

# comprobamos que se han cambiado los nombres de las columnas
df_combinado.columns

Index(['index_x', 'title_orig', 'price', 'retail_price', 'units_sold',
       'uses_ad_boosts', 'rating_x', 'rating_count', 'rating_five_count',
       'rating_four_count', 'rating_three_count', 'rating_two_count',
       'rating_one_count', 'badges_count', 'badge_local_product',
       'badge_product_quality', 'badge_fast_shipping', 'tags', 'product_color',
       'product_variation_size_id', 'product_variation_inventory',
       'shipping_option_name', 'shipping_option_price', 'shipping_is_express',
       'countries_shipped_to', 'inventory_total', 'has_urgency_banner',
       'urgency_text', 'origin_country', 'merchant_title', 'merchant_name',
       'merchant_info_subtitle', 'merchant_rating_count', 'merchant_rating',
       'merchant_id', 'merchant_has_profile_picture',
       'merchant_profile_picture', 'product_url', 'product_picture',
       'product_id', 'index_y', 'merchant_id', 'listed_products',
       'total_units_sold', 'mean_units_sold_per_product', 'rating_y',
       'm

In [70]:
# Ejercicio 4

# 4. En la columna de `merchant_info_subtitle`, si nos fijamos hay algunas celdas donde tenemos entre paréntesis el número total de calificaciones para el comerciante (que es la misma información que la que tenemos en la columna "merchant_rating_count"). Eliminad de la columna "merchant_info_subtitle" la parte del *string* de los paréntesis. Guardar el resultado de vuestra limpieza en una columna que se llame igual, es decir, "merchant_info_subtitle". 

df_combinado['merchant_info_subtitle']

0                                  (568 notes)
1            83 % avis positifs (17,752 notes)
2            83 % avis positifs (17,752 notes)
3       83% Positive Feedback (17,752 ratings)
4            83 % avis positifs (17,752 notes)
                         ...                  
1568                            (14,502 notes)
1569         89 % avis positifs (11,680 notes)
1570            75 % avis positifs (265 notes)
1571            86 % avis positifs (210 notes)
1572          90 % avis positifs (7,023 notes)
Name: merchant_info_subtitle, Length: 1573, dtype: object

In [72]:
patron_regex = r'\([^()]*\)' # "\(.*\)"
df_combinado['merchant_info_subtitle'] = df_combinado["merchant_info_subtitle"].str.replace(patron_regex, '', regex = True).str.strip()

In [None]:
# df_combinado["merchant_info_subtitle3"] = df_combinado["merchant_info_subtitle"].str.split("(", expand=True).get(0) # Otra opción

In [73]:
df_combinado['merchant_info_subtitle']

0                            
1          83 % avis positifs
2          83 % avis positifs
3       83% Positive Feedback
4          83 % avis positifs
                ...          
1568                         
1569       89 % avis positifs
1570       75 % avis positifs
1571       86 % avis positifs
1572       90 % avis positifs
Name: merchant_info_subtitle, Length: 1573, dtype: object

In [75]:
# Ejercicio 5
# 5. Si nos fijamos, en la primera fila antes solo teníamos un paréntesis, pero los hemos eliminado en el paso anterior, y ahora tenemos un *string* vacío, lo cual no tiene mucho sentido. En este ejercicio debereis reemplazar esos *strings* vacios por nulos de Pandas (**NOTA** estos deben ser indicados de la siguiente forma `np.nan`, y deberéis importar numpy). 
df_combinado.loc[0, 'merchant_info_subtitle']

''

In [79]:
df_combinado['merchant_info_subtitle'] = df_combinado["merchant_info_subtitle"].replace('', np.NaN)

In [80]:
df_combinado['merchant_info_subtitle']

0                         NaN
1          83 % avis positifs
2          83 % avis positifs
3       83% Positive Feedback
4          83 % avis positifs
                ...          
1568                      NaN
1569       89 % avis positifs
1570       75 % avis positifs
1571       86 % avis positifs
1572       90 % avis positifs
Name: merchant_info_subtitle, Length: 1573, dtype: object

In [81]:
# Ejercicio 6
# 6. Hay ciertas columnas que no vamos a necesitar para nuestro análisis. En concreto, vamos a eliminar las columnas de `badges_count`, `product_variation_inventory`, `urgency_text`, `merchant_title`, `merchant_has_profile_picture`, `merchant_profile_picture`, `product_picture`, `total_urgency_count`, `has_urgency_banner` y `urgency_text_rate`. Guardad los cambios realizados hasta este punto en un csv para usarlo en los ejercicios de la lección de mañana. 
df_combinado.drop(columns=['badges_count', 'product_variation_inventory', 'urgency_text', 'merchant_title', 'merchant_has_profile_picture', 'merchant_profile_picture', 'product_picture', 'total_urgency_count', 'has_urgency_banner', 'urgency_text_rate'], axis=1, inplace=True)

In [82]:
df_combinado.to_csv('df_combinado_alterado.csv')

In [83]:
# Ejercicio 7
# 7. Pongamos en práctica el filtrado de datos en Pandas: 
#     - Seleccionad aquellos productos cuyo color es verde. ¿Cuántos productos tenemos?
#     - Seleccionad aquellos productos cuyo color es verde y rojo. ¿Cuántos productos tenemos de cada tipo de color?
#     - Seleccionad aquellos productos de la talla M, que valgan más de 15. ¿Cuántos productos tenemos?
#     - Seleccionad aquellos productos cuyo precio este entre 1 y 2 (ambos inclusive). ¿Cuántos productos tenemos?
#     - Filtrad los datos, para extraer solo aquellos productos que tengan uno o más dígitos en su titulo. ¿Cuántos productos hay?

df_combinado.columns


Index(['index_x', 'title_orig', 'price', 'retail_price', 'units_sold',
       'uses_ad_boosts', 'rating_x', 'rating_count', 'rating_five_count',
       'rating_four_count', 'rating_three_count', 'rating_two_count',
       'rating_one_count', 'badge_local_product', 'badge_product_quality',
       'badge_fast_shipping', 'tags', 'product_color',
       'product_variation_size_id', 'shipping_option_name',
       'shipping_option_price', 'shipping_is_express', 'countries_shipped_to',
       'inventory_total', 'origin_country', 'merchant_name',
       'merchant_info_subtitle', 'merchant_rating_count', 'merchant_rating',
       'merchant_id', 'product_url', 'product_id', 'index_y', 'merchant_id',
       'listed_products', 'total_units_sold', 'mean_units_sold_per_product',
       'rating_y', 'merchant_ratings_count', 'mean_product_prices',
       'mean_retail_prices', 'average_discount', 'mean_discount',
       'mean_product_ratings_count'],
      dtype='object')

In [95]:
df_combinado[df_combinado['product_color'] == 'green'].shape[0]

90

In [102]:
filtrado = df_combinado[df_combinado['product_color'].isin(['green', 'red'])]
filtrado['product_color'].value_counts()

product_color
red      93
green    90
Name: count, dtype: int64

In [101]:
filtrado1 = df_combinado[(df_combinado['product_variation_size_id'] == 'M') & (df_combinado['price'] > 15)]
filtrado1.shape[0]

17

In [104]:
filtrado2 = df_combinado[df_combinado["price"].between(1, 2, inclusive = "both")]
filtrado2.shape[0]

77

In [106]:
filtrado3 = df_combinado[df_combinado['title_orig'].str.contains(r'\d', regex=True)]
filtrado3.shape[0]

581