# Analisis descriptivo multivariado

**Universidad Central**

*Nelson Alirio Cruz*

In [None]:
from pydoc import help 
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

## Cereal

Vamos a cargar la base de datos de Cereal, que contiene información nutricional de diferentes cereales.

In [None]:
url="https://raw.githubusercontent.com/Cruzalirio/Ucentral/master/Bases/Cereal.csv"
datos=pd.read_csv(url, sep=";", decimal=",", index_col=0)
datos.dtypes
datos.columns

In [None]:
cuanti=datos[['Calorias', 'Proteina', 'Grasa', 'Sodio', 'Fibra',
       'Carbohidratos', 'Azucares', 'Potasio']]
cuanti.dtypes

# Matriz de covarianzas y de correlación

Cuando se tiene un conjunto de variables cuantitativas, por cada par de ellas se calcula la covarianza:
$Cov(X,Y)=\frac{1}{n-1}\sum_{i=1}^n (X_i-\bar{X})(Y_i-\bar{Y})$
Estos valores conformaran la matriz de covarianzas.
EL coeficiente de correlación lineal se define como:
$\rho_{XY}=\frac{Cov(X;Y)}{sd(X)sd(Y)}$


In [None]:
covarianza=cuanti.cov()
covarianza

In [None]:
corre=cuanti.corr()
corre

In [None]:
sns.heatmap(corre)

In [None]:
sns.heatmap(corre, annot=True)

# Diagramas de dispersión
El diagrama de dispersión sirve para visualizar relaciones entre un par de variables cuantitativas.



In [None]:
pd.plotting.scatter_matrix(cuanti,  figsize=(10, 10))
plt.show()

In [None]:
pd.plotting.scatter_matrix(cuanti,  figsize=(10, 10), diagonal="kde")
plt.show()


# Tablas de contingencia

Una tabla de contingencia contiene los conteos de una o más variables cualitativas.

In [None]:
url="https://raw.githubusercontent.com/Cruzalirio/Ucentral/master/Bases/ICFES/PruebaSaber1.csv"
datos1=pd.read_csv(url, sep=";", encoding="latin1")
datos1.shape

In [None]:
datos1.shape
tabla=pd.crosstab(datos1.FAMI_CUARTOSHOGAR, datos1.FAMI_NIVEL_SISBEN)
print(tabla)

In [None]:
sns.heatmap(tabla)

# Otros gráficos multivariados


In [None]:
tabla=datos1.groupby(["FAMI_CUARTOSHOGAR", "FAMI_NIVEL_SISBEN"]).size()
print(tabla)

In [None]:
tabla=datos1.groupby(["FAMI_CUARTOSHOGAR", "FAMI_NIVEL_SISBEN"]).size()
tabla=tabla.reset_index(name="Conteo")
print(tabla)

In [None]:
fig = px.bar(tabla, x="FAMI_CUARTOSHOGAR", y="Conteo", color="FAMI_NIVEL_SISBEN")
fig.show()

In [None]:
url="https://raw.githubusercontent.com/Cruzalirio/Ucentral/master/Bases/ICFES/PruebaSaber1.csv"
datos1=pd.read_csv(url, sep=";", encoding="latin1")
for i in range(11):
 j=i+2
 x=["https://raw.githubusercontent.com/Cruzalirio/Ucentral/master/Bases/ICFES/PruebaSaber",j, ".csv"]
 x[1]=str(x[1])
 url="".join(x)
 print(url)
 datosd=pd.read_csv(url, sep=";", encoding="latin1")
 datos1=pd.concat([datos1, datosd])



In [None]:
corre=datos1.corr()
sns.heatmap(corre)

In [None]:
tabla=datos1.groupby(["FAMI_CUARTOSHOGAR", "FAMI_NIVEL_SISBEN"]).size()
tabla=tabla.reset_index(name="Conteo")
fig = px.bar(tabla, x="FAMI_CUARTOSHOGAR", y="Conteo", color="FAMI_NIVEL_SISBEN")
fig.show()

In [None]:
fig = px.scatter(datos1, x="MOD_RAZONA_CUANTITAT_PUNT", 
                 y="MOD_LECTURA_CRITICA_PUNT")
fig.show()

In [None]:
tabla=datos1.groupby([datos1.ESTU_GENERO, datos1.ESTU_INST_DEPARTAMENTO]).mean()
tabla=tabla.reset_index()
print(tabla)

In [None]:
fig = px.scatter(tabla, x="MOD_RAZONA_CUANTITAT_PUNT", 
                 y="MOD_LECTURA_CRITICA_PUNT", color="ESTU_GENERO")
fig.show()

In [None]:
tabla1=datos1.groupby([datos1.ESTU_GENERO, datos1.ESTU_INST_DEPARTAMENTO]).size()
tabla1=tabla1.reset_index(name="Conteo")
tabla["Conteo"]=tabla1.Conteo
fig = px.scatter(tabla, x="MOD_RAZONA_CUANTITAT_PUNT", 
                 y="MOD_LECTURA_CRITICA_PUNT", color="ESTU_GENERO", size="Conteo", hover_name="ESTU_INST_DEPARTAMENTO")
fig.show()

In [None]:
fig = px.density_contour(datos1, x=datos1.MOD_LECTURA_CRITICA_PUNT,
                         y=datos1.MOD_RAZONA_CUANTITAT_PUNT)
fig.update_traces(contours_coloring="fill", contours_showlabels = True)
fig.show()

In [None]:
fig = px.density_contour(datos1,x=datos1.MOD_RAZONA_CUANTITAT_PUNT,
                         y=datos1.MOD_COMPETEN_CIUDADA_PUNT)
fig.update_traces(contours_coloring="fill", contours_showlabels = True)
fig.show()

In [None]:
df = px.data.wind()
fig = px.bar_polar(tabla, r=tabla.MOD_COMUNI_ESCRITA_PUNT, theta=tabla.ESTU_INST_DEPARTAMENTO,
                   color=tabla.ESTU_GENERO, template="plotly_dark",
                   color_discrete_sequence= px.colors.sequential.Plasma_r)
fig.show()

In [None]:
tabla2=tabla[tabla["Conteo"]>2]
fig = px.bar_polar(tabla2, r=tabla.MOD_COMUNI_ESCRITA_PUNT, theta=tabla.ESTU_INST_DEPARTAMENTO,
                   color=tabla.ESTU_GENERO, template="plotly_dark",
                   color_discrete_sequence= px.colors.sequential.Plasma_r)
fig.show()

Sí desea mas información de gráficos con [plotly](https://plotly.com/python/)


Vamos a ejecutar instrucciones del software [R](https://www.r-project.org/) a traves del paquete [rpy2](https://rpy2.readthedocs.io/en/latest/overview.html) en Python.
 Iniciaremos importando el paquete en python.

 El codigo completo está en [R](https://github.com/Cruzalirio/Ucentral/blob/master/CodigosR/IntroduccionMultivariado.R)

In [None]:
import rpy2
%load_ext rpy2.ipython

In [None]:
%%R
Datos=read.csv2("/content/Cereal.csv")

str(Datos)


cuanti=subset(Datos, select=c(3:10))
### Matriz de covarianzas

cov(cuanti)


cor(cuanti)
library(reshape2)
library(ggplot2)
matriz=cor(cuanti)
matriz=melt(matriz)
ggplot(matriz,aes(x=Var1, y=Var2, fill=value)) + 
  geom_tile()

plot(cuanti)


p=ggplot(Datos, aes(x=Fibra, y=Potasio))
p+geom_point()+geom_smooth(method="lm")


p=ggplot(Datos, aes(x=Fibra, y=Potasio))
p+geom_point()+geom_smooth()


v <- ggplot(Datos, aes(Fibra, Potasio))
v + geom_density_2d()


### COntingencia

library(readxl)
Hepatitis=read_excel("/content/Hepatitis.xls")


cuali=subset(Hepatitis, select=-c(2,15:19))

str(cuali)
table(cuali$Sexo, cuali$Esteroides)

table(cuali$Sexo, cuali$Esteroides, cuali$Histologia)


ggplot(Hepatitis, aes(x=Sexo, fill=Esteroides))+geom_bar()

ggplot(Hepatitis, aes(x=Sexo, y=Albumina))+geom_boxplot()+facet_grid(.~Histologia)
ggplot(Hepatitis, aes(x=Albumina, fill=Sexo, alpha=0.5))+geom_density()+facet_grid(.~Histologia)
