# Manejo básico de datos en Python

Para este caso usaremos la base de datos `Growth and Value.xlsx`. Por facilidad conviene guardarla en la carpeta `content` que es de caracter temporal.

## Base de datos Growth and Value

Se plantea el caso de dos enfoques posibles para invertir en fondos mutuos: inversión en crecimiento frente a inversión en valor. Los fondos de crecimiento invierten en empresas con acciones cuyos precios se espera que crezcan a un ritmo más rápido, en relación con el mercado de valores en general. Los fondos de valor, por otro lado, invierten en empresas con acciones cuyos precios están por debajo de su valor real. El principal componente de la rentabilidad de la inversión es la revalorización del capital en los fondos de crecimiento y los ingresos por dividendos en los fondos de valor.

La base de datos contiene los datos de rendimiento anual del fondo mutuo *Fidelity's Growth Index (Growth)* y el fondo mutuo *Fidelity's Value Index (Value)*. En la tabla se muestra una parte del rendimiento anual (en %) de estos dos fondos mutuos desde 1984 hasta 2019

In [None]:
#librerías necesarias para la carga de datos
import pandas as pd

#cargamos la base de datos en la variable growth_value
growth_value = pd.read_excel("/content/Growth and Value.xlsx")

#observamos las 5 primeros registros para asegurarnos que la base
#de datos esté correctamente cargada
growth_value.head()

Unnamed: 0,Year,Growth,Value
0,1984,-5.5,-8.59
1,1985,39.91,22.1
2,1986,13.03,14.74
3,1987,-1.7,-8.58
4,1988,16.05,29.05


In [None]:
#cálculo de las medidas de tendencia central
media_growth = growth_value['Growth'].mean()
media_value = growth_value['Value'].mean()

print("Las medias del rendimiento anual porcentual para el fondo de cremimiento y el  \
fondo de valor respectivamente, son: ", media_growth, ", ", media_value)

mediana_growth = growth_value['Growth'].median()
mediana_value = growth_value['Value'].median()

print("\nLas medianas del rendimiento anual porcentual para el fondo de cremimiento y el  \
fondo de valor respectivamente, son: ", mediana_growth, ", ", mediana_value)

Las medias del rendimiento anual porcentual para el fondo de cremimiento y el  fondo de valor respectivamente, son:  15.754999999999999 ,  12.005000000000003

Las medianas del rendimiento anual porcentual para el fondo de cremimiento y el  fondo de valor respectivamente, son:  15.245000000000001 ,  15.379999999999999


Para el caso del fondo por valor, la media es menor que la mediana, por lo cuál la distribución se puede considerar sesgada a la izquierda

In [None]:
#Otra forma de visualizar las dos medidas es
growth_value.agg(['mean', 'median'])

Unnamed: 0,Year,Growth,Value
mean,2001.5,15.755,12.005
median,2001.5,15.245,15.38


In [None]:
#cálculo de las medidas de posición

percentil_75_growth = growth_value.Growth.quantile(.75)
print(percentil_75)

36.9725


In [None]:
#Podemos sintetizar las medias de posición con la función describe

growth_value.describe()

Unnamed: 0,Year,Growth,Value
count,36.0,36.0,36.0
mean,2001.5,15.755,12.005
std,10.535654,23.799285,17.979187
min,1984.0,-40.9,-46.52
25%,1992.75,2.86,1.7025
50%,2001.5,15.245,15.38
75%,2010.25,36.9725,22.4375
max,2019.0,79.48,44.08


In [None]:
#cálculo de las medidas de dispersión

#rango
rango_growth = growth_value.Growth.max() - growth_value.Growth.min()
rango_value = growth_value.Value.max() - growth_value.Value.min()
print("El rango de la serie de crecimiento es: ", rango_growth,
      " y el de la serie de valor es: ", rango_value)

#rango intercuartílico. Para el IQR  calculamos los percentiles 75 y 25 (Q3,Q1)

IQR_growth = growth_value.Growth.quantile(.75) - growth_value.Growth.quantile(0.25)
IQR_value = growth_value.Value.quantile(.75) - growth_value.Value.quantile(0.25)
print("El IQR para el crecimiento es: ", IQR_growth, " y el del valor es: ", IQR_value)

#Para el MAD tenemos la aplicación de la función directa (pandas), para varianza
# y desviación estándar podemos usar las funciones de pandas o de numpy

mad_growth = growth_value.Growth.mad()
print('MAD:', mad_growth)

var_growth = growth_value.Growth.var()
print('\nVarianza: ', var_growth)

std_growth = growth_value.Growth.std()
print('\nDesviación estándar: ', std_growth)

#En el caso de los coeficientes de variación tendremos:

cv_growth = var_growth/media_growth
print("\nEl coeficiente de variación para el crecimiento es ", cv_growth)


El rango de la serie de crecimiento es:  120.38  y el de la serie de valor es:  90.6
El IQR para el crecimiento es:  34.1125  y el del valor es:  20.735
MAD: 17.490555555555556

Varianza:  566.4059857142859

Desviación estándar:  23.799285403437764

El coeficiente de variación para el crecimiento es  35.95087183207146


  mad_growth = growth_value.Growth.mad()


In [None]:
#En las medidas de forma podemos encontrar el sesgo y la curtosis

#cargamos la librería scipy
import scipy

#calculamos el sesgo. Es importante tener en cuenta que:
#skewness = 0 : normalmente distribuido
#skewness > 0 : más pesos en la cola izquierda de la distribución
#skewness < 0 : más pesos en la cola derecha de la distribución
skewness_growth = scipy.stats.skew(growth_value.Growth, axis=0)

#calculamos la curtosis.
curtosis_growth = scipy.stats.kurtosis(growth_value.Growth, axis=0)

print("\nSesgo ", skewness_growth)
print("\nCurtosis ", curtosis_growth)



Sesgo  -0.02772927391798238

Curtosis  0.6814627389984445


In [None]:
#En las medidas de asociación tendremos

#covarianza
growth_value.cov()

Unnamed: 0,Year,Growth,Value
Year,111.0,-7.485143,-4.020571
Growth,-7.485143,566.405986,285.605449
Value,-4.020571,285.605449,323.251174


In [None]:
#coeficiente de correlación
growth_value.corr()

Unnamed: 0,Year,Growth,Value
Year,1.0,-0.029852,-0.021225
Growth,-0.029852,1.0,0.667471
Value,-0.021225,0.667471,1.0


De estos dos valores de asociación, podemos concluir que hay una correlación relativamente fuerte entre ambas series, en el sentido positivo.