# Ejercicio 1
Buscamos un dataset en kaggle y encontramos un csv con los 50 libros más vendidos por Amazon entre 2009 - 2019.
Nuestro csv elegido se llama 'books.csv'

In [1]:
import pandas as pd
import numpy as np
from scipy import stats

Abrimos nuestro dataset

In [2]:
df = pd.read_csv("./books.csv", index_col = 0).reset_index()
df

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction
...,...,...,...,...,...,...,...
545,Wrecking Ball (Diary of a Wimpy Kid Book 14),Jeff Kinney,4.9,9413,8,2019,Fiction
546,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2016,Non Fiction
547,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2017,Non Fiction
548,You Are a Badass: How to Stop Doubting Your Gr...,Jen Sincero,4.7,14331,8,2018,Non Fiction


Observamos cuales variables son categóricas y cuales numéricas

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 550 entries, 0 to 549
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Name         550 non-null    object 
 1   Author       550 non-null    object 
 2   User Rating  550 non-null    float64
 3   Reviews      550 non-null    int64  
 4   Price        550 non-null    int64  
 5   Year         550 non-null    int64  
 6   Genre        550 non-null    object 
dtypes: float64(1), int64(3), object(3)
memory usage: 30.2+ KB


Separamos el DF en columnas numéricas y categóricas, ya que necesitamos diferentes análisis para las variables categóricas y para las numéricas.

In [18]:
df_numericas = df[["User Rating", "Reviews", "Price"]]
df_numericas.head(3)

Unnamed: 0,User Rating,Reviews,Price
0,4.7,17350,8
1,4.6,2052,22
2,4.7,18979,15


In [16]:
df["Year"] = df["Year"].astype("object")

Cambiamos el tipo de dato de la columna `Year`porque no tiene sentido que sea numérico para nosotras

In [17]:
df_categoricas = df[["Name", "Author", "Genre", "Year"]]
df_categoricas.head(3)

Unnamed: 0,Name,Author,Genre,Year
0,10-Day Green Smoothie Cleanse,JJ Smith,Non Fiction,2016
1,11/22/63: A Novel,Stephen King,Fiction,2011
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,Non Fiction,2018


## Ejercicio 2

**MEDIA**

In [19]:
media = np.mean(df_numericas)                     
df_media = pd.DataFrame(media, columns = ['Media'])                              #convertimos a df para mejorar la legibilidad
df_media

Unnamed: 0,Media
User Rating,4.618364
Reviews,11953.281818
Price,13.1


Valores medios de valoraciones de Usuarios están en torno a 4.6. Los libros tienen una media de alrededor de 12000 opiniones y un precio de 13.10.

**DESVIACION CON RESPECTO A LA MEDIA**

In [13]:
desv_media = np.abs(df_numericas-media)
desv_media.head(15)

Unnamed: 0,User Rating,Reviews,Price
0,0.081636,5396.718182,5.1
1,0.018364,9901.281818,8.9
2,0.081636,7025.718182,1.9
3,0.081636,9470.718182,7.1
4,0.181636,4288.281818,1.1
5,0.218364,689.718182,2.1
6,0.081636,7781.718182,16.9
7,0.081636,7745.718182,1.9
8,0.081636,5970.281818,10.1
9,0.018364,11894.718182,5.1


La desviación con respecto a la media nos dice cuánto se aleja cada valor de la media, es decir, la media aritmética de los valores absolutos de las desviaciones respecto a la media. 
Este analisis es explotario por lo que necesitaremos también el valor de la varianza para decidir si lo alejado que está de la media es "mucho" o es "poco". Si el resultado estuviese muy alejado de la media, podrían ser candidatos para limpiarlos.
Si el resultado es positivo el valor está por encima de la media y si el valor es negativo por debajo.

**VARIANZA**

In [24]:
var = np.var(df_numericas, axis = 0)
var

User Rating    5.142641e-02
Reviews        1.373692e+08
Price          1.173409e+02
dtype: float64

Cuanto mayor es la varianza, mayor es la dispersión de los datos. Por lo que vemos en nuestro DF la columna *Reviews* es el que más dispersión de datos tiene.

Como la varianza de la columna *User Rating* es 0,051 podemos afirmar que la dispersión de datos es menor. Por lo tanto todas las valoraciones de los usuarios (de Amazon) han sido muy parecidas.

**DESVIACIÓN TÍPICA**

In [25]:
std = np.std(df_numericas)
std

User Rating        0.226774
Reviews        11720.462500
Price             10.832401
dtype: float64

Indica qué tan dispersos están los datos alrededor de la media. Debido a que la desviación típica utiliza las mismas unidades que los datos, generalmente es más fácil de interpretar que la varianza.

Un valor de desviación estándar más alto indica una mayor dispersión de los datos. Por lo tanto sin duda la columna con mayor dispersión de nuestro DF es *Reviews*.

**MODA**

In [24]:
df.head(10)

Unnamed: 0,Name,Author,User Rating,Reviews,Price,Year,Genre
0,10-Day Green Smoothie Cleanse,JJ Smith,4.7,17350,8,2016,Non Fiction
1,11/22/63: A Novel,Stephen King,4.6,2052,22,2011,Fiction
2,12 Rules for Life: An Antidote to Chaos,Jordan B. Peterson,4.7,18979,15,2018,Non Fiction
3,1984 (Signet Classics),George Orwell,4.7,21424,6,2017,Fiction
4,"5,000 Awesome Facts (About Everything!) (Natio...",National Geographic Kids,4.8,7665,12,2019,Non Fiction
5,A Dance with Dragons (A Song of Ice and Fire),George R. R. Martin,4.4,12643,11,2011,Fiction
6,A Game of Thrones / A Clash of Kings / A Storm...,George R. R. Martin,4.7,19735,30,2014,Fiction
7,A Gentleman in Moscow: A Novel,Amor Towles,4.7,19699,15,2017,Fiction
8,"A Higher Loyalty: Truth, Lies, and Leadership",James Comey,4.7,5983,3,2018,Non Fiction
9,A Man Called Ove: A Novel,Fredrik Backman,4.6,23848,8,2016,Fiction


Vamos a descartar la col *Name* y *Reviews* para calcular la moda porque creemos que no tendrán valores repetidos, por lo que no nos aportará mucha información.

In [26]:
moda, frecuencia = stats.mode(df[["Author", "User Rating", "Reviews", "Price", "Genre"]])
moda

array([['Jeff Kinney', 4.8, 8580, 8, 'Non Fiction']], dtype=object)

In [28]:
frecuencia

array([[ 12, 127,  10,  52, 310]])

El array 'moda' nos dice los valores que más se repiten. El array 'frecuencia' nos indica el nº de veces que se repite cada uno de los valores que aparecen en el primer array.
- **moda -- frecuencia** 
- 'Jeff Kinney' = 12 --> Indica que este autor se repite 12 veces y así sucesivamente...

**MEDIANA**

In [29]:
md = np.median(df_numericas, axis = 0)          # Mediana por columna
md

array([4.70e+00, 8.58e+03, 1.10e+01])

In [30]:
md = np.median(df_numericas)          # Mediana total
md

11.0

El valor de la mediana es el punto en el cual encontramos la mitad de los datos está por encima de ese valor valor y la otra mitad está por debajo del valor (similar a un percentil 50)

**MEDIA PONDERADA**

In [35]:
df_numericas.head(2)

Unnamed: 0,User Rating,Reviews,Price
0,4.7,17350,8
1,4.6,2052,22


In [36]:
len(df_numericas)

550

In [80]:
df_numericas.head(2)

550

In [82]:
w = np.random.random_sample(df_numericas.shape[0])

Creamos un array con pesos para cada uno de los elementos de la columna y así calcular la media ponderada de nuestra column a `User Rating`

In [84]:
media_pond = np.average(df_numericas["User Rating"], weights= w, axis = 0)
media_pond

4.621490441332774

La media ponderada tiene en cuenta los pesos de cada una de las variables, es decir, cómo de importante es cada una de ellas y cuánto va a influir al calcularla. En este caso hemos creado los pesos con valores aleatorios.

**ROBUSTEZ**

La robustez es la capacidad que tiene un estadístico de verse influenciado por valores inusuales. Si un estadístico tiene algunos valores inusuales y ese estadístico sigue siendo útil y representativo del conjunto de datos, decimos que es robusto. En el caso contrario, un estadístico poco robusto se vería influenciado por esos valores inusuales, dejando de dar información confiable de nuestros datos.

In [47]:
# df_numericas.describe()
df_numericas.mean()

User Rating        4.618364
Reviews        11953.281818
Price             13.100000
dtype: float64

In [48]:
df_copia = df_numericas.copy()

In [49]:
df_copia["User Rating"][0] = df_copia["User Rating"][0]*5000

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_copia["User Rating"][0] = df_copia["User Rating"][0]*5000


Modificamos un valor del df para investigar si la media es un estadístico robusto. Hemos multiplicado el primer valor de la colummna **User Rating** por 5000 para ver cómo hace variar a la media. 

In [50]:
df_copia.head(2)

Unnamed: 0,User Rating,Reviews,Price
0,23500.0,17350,8
1,4.6,2052,22


Comprobamos que el primer valor de la columna User Rating ha cambiado

In [51]:
df_copia.mean()

User Rating       47.337091
Reviews        11953.281818
Price             13.100000
dtype: float64

In [53]:
df_numericas.mean()

User Rating        4.618364
Reviews        11953.281818
Price             13.100000
dtype: float64

Comparamos el valor de la media del df modificado (df_copia) con  la media del df original (df_numericas). Observamos que con tan solo la influencia de un único valor la media varía mucho, por lo que podemos afirmar que la media no es un estadístico robusto.

**COEFICIENTE DE VARIACIÓN**

In [54]:
df_numericas

Unnamed: 0,User Rating,Reviews,Price
0,4.7,17350,8
1,4.6,2052,22
2,4.7,18979,15
3,4.7,21424,6
4,4.8,7665,12
...,...,...,...
545,4.9,9413,8
546,4.7,14331,8
547,4.7,14331,8
548,4.7,14331,8


In [55]:
coef_var = np.std(df_numericas)/np.abs(np.mean(df_numericas))
coef_var

User Rating    0.049103
Reviews        0.980523
Price          0.826901
dtype: float64

Mientras mayor sea el coeficiente de variación, mayor será la dispersión en los datos en relación con la media. Y como vemos en nuestro DF en la columna *Reviews y Price* los datos son los más dispersos.

El coeficiente de variación toma valores entre 0 (menos dispersión) y 1 (mucha dispersión). En nuestro ejemplo, observamos que todas las valoraciones de los libros han sido muy similares entre sí, es decir, tod@s los usuarios le han dado una puntuación muy parecida: de ahí que  *User Rating* sea muy cercano a 0.

También vemos que *Reviews* y *Price* tienen un coef. de variación muy alto, así que a algunos libros han sido valorado muchas veces yotros muy pocas (los datos son muy dispersos). Para *Price* observamos que hay precios muy dispares entre sí ya que tienen unos valores muy heterogéneos.