#### 1. Import pandas library

In [1]:
import pandas as pd

#### 2. Load data (users.csv, posts.csv)

In [2]:
# Importo os para saber el cwd y poder enrutar el read_csv
import os
cwd = os.getcwd()

In [3]:
# guardo los datos del archivo users en un DataFrame que se llamará user
users = pd.read_csv(cwd + '\\users.csv', index_col=[0])

In [4]:
# guardo los datos del archivo posts en un DataFrame que se llamará posts
posts = pd.read_csv(cwd + '\\posts.csv')

#### 3. Rename id column to user_id

In [5]:
# Para renombrar debemos indicar las columnas como un diccionario donde la clave es el antiguo nombre y el valor el nuevo nombre
users.rename(columns={"id": "user_id"}, inplace = True)

#### 4. Rename id column to post_id and owner_user_id to user_id

In [6]:
# Ídem de la anterior
posts.rename(columns={"id": "post_id", "owner_user_id":"user_id"}, inplace = True)

#### 5. Define new dataframes for users and posts with the following selected columns:
    **users columns**: user_id, reputation,views,up_votes,down_votes
    **posts columns**: post_id, score,user_id,view_count,comment_count

In [7]:
# definimos las nuevas columnas como listas para introducirlas en un nuevo dataframe
users_cols = ['user_id', 'reputation','views','up_votes','down_votes']
posts_cols = ['post_id', 'score','user_id','view_count','comment_count']

In [8]:
users2 = users[users_cols]

In [9]:
posts2 = posts[posts_cols]

#### 6. Merge both dataframes, users and posts. 
You will need to make a [merge](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.merge.html) of posts and users dataframes.

In [10]:
# Nuevo dataframe con un merge de los dos dataframes, un inner.join, en la columna user_id que es la que coincide
mrge = pd.merge(users2, posts2, how='inner', on='user_id', )

In [11]:
mrge.head()

Unnamed: 0,user_id,reputation,views,up_votes,down_votes,post_id,score,view_count,comment_count
0,450456,7746,3598,256,50,34989087,0,19,0
1,450456,7746,3598,256,50,4142174,0,15,0
2,1517244,4172,224,1362,32,37211628,2,18,0
3,1870509,897,105,86,2,30260248,1,11,4
4,101719,4055,332,174,16,34528617,0,18,0


#### 7. How many missing values do you have in your merged dataframe? 

In [12]:
# con la función isna() nos indica como True los valores NA
# con .any() identificamos si hay True en las columnas
mrge.isna().any()

user_id          False
reputation       False
views            False
up_votes         False
down_votes       False
post_id          False
score            False
view_count       False
comment_count    False
dtype: bool

In [13]:
# con la función isna() nos indica como True los valores NA
# con .sum() obtendríamos el número de True por columnas, hay 0.
mrge.isna().sum()

user_id          0
reputation       0
views            0
up_votes         0
down_votes       0
post_id          0
score            0
view_count       0
comment_count    0
dtype: int64

There are no missing values

#### Bonus: Identify extreme values in your merged dataframe, create a dataframe called outliers with the same columns as our data set and calculate the bounds. The values of the outliers dataframe will be the values of the merged_df that fall outside that bounds. You will need to save your outliers dataframe to a csv file on your-code folder. Hint: post_id cannot have outliers!

In [14]:
# Creo un nuevo Dataframe sin user_id ni post_id ya que no son relevantes para avlores extremos
df1 = mrge.drop(columns = ['user_id','post_id'])

In [15]:
# Determino como valores extremos aquellos que son mayores que la media + 3 veces la std
# Determino como valores extremos aquellos que son menores que la media - 3 veces la std
# actualizamos el dataframe con un apply para tener los valores extremos como True
for col in df1:
    df1[col] = df1[col].apply(lambda x: True if x > df1[col].mean()+3*df1[col].std() else True if x < df1[col].mean()-3*df1[col].std() else False)

In [16]:
# Cada columna tiene varios valores extremos
for col in df1:
    display(df1[col].value_counts())

False    1051
True       14
Name: reputation, dtype: int64

False    1049
True       16
Name: views, dtype: int64

False    1040
True       25
Name: up_votes, dtype: int64

False    1038
True       27
Name: down_votes, dtype: int64

False    1038
True       27
Name: score, dtype: int64

False    1062
True        3
Name: view_count, dtype: int64

False    1037
True       28
Name: comment_count, dtype: int64

In [17]:
# Creo una nueva columna que devuelve True en su fila si algún valor de esa fila es True
df1['outlier'] = df1.apply(lambda row: any(list(row)), axis = 1)

In [18]:
# Hay 114 valores extremos, probablemente demasiados
df1['outlier'].value_counts()

False    951
True     114
Name: outlier, dtype: int64

In [19]:
# En el dataframe borro todas las columnas menos outliers para hacer un concat
df1.drop(columns=['reputation','views','up_votes','down_votes','score','view_count','comment_count'], inplace = True)

In [20]:
# Hago un concat del dataframe base para añadirle una columna outliers
df = pd.concat([mrge, df1], axis=1)

In [21]:
# Creo un nuevo dataframe solamente con los valores extremos filtrando en la columna outlier = True
df_outlier = df[df['outlier']==True]

In [22]:
# Guardo el dataframe en un archivo .csv
df_outlier.to_csv('outliers.csv', sep=',')