# <img style="float: left; padding-right: 20px; width: 200px" src="attachment:logo.jpg">  IMT 2200 - Introducción a Ciencia de Datos
**Pontificia Universidad Católica de Chile**<br>
**Instituto de Ingeniería Matemática y Computacional**<br>
**Semestre 2023-1**<br>
**Profesor:** Rodrigo A. Carrasco <br>
---

# <h1><center>Actividad 07: Actividad de Integración</center></h1>

Esta actividad busca que conecten el trabajo de agrupación y resumen, junto con el poder resumir estadísticas y visualización básica.

## Instrucciones

Esto Notebook contiene las instrucciones a realizar para la actividad. 

Al finalizarla, deben subir el Notebook y los archivos generados a su repositorio personal, en una carpeta nueva llamada "Actividad 07". Asegúrese que ambas ayudantes tienen acceso a su repositorio para que puedan corregir. 
    
**La actividad debe ser subida antes del final de la clase. Actualizaciones de su repositorio posteriores a esa fecha serán evaluadas con nota 1.0.**

**Conteste las preguntas en forma precisa y usando celdas de Markdown cuando sea necesario para dejar clara la respuesta.**

## Actividad

Para esta actividad usaremos una base de datos de calidad de vino generada por Crtex et al. para su paper "Modeling wine preferences by data mining from physicochemical properties". Pueden encontrar el paper acá: https://www.sciencedirect.com/science/article/abs/pii/S0167923609001377?via%3Dihub.

En la carpeta `data` están los dos archivos de datos, que fueron donados al repositorio de datos para Machine Learning de UC Irvine (https://archive.ics.uci.edu/dataset/186/wine+quality), además de un archivo de texto que explica algunos detalles de los datos disponibles en los archivos `.csv`.

## Rúbrica

- Si han logrado el punto 1: 3.0
- Si han logrado hasta el punto 2: 5.0
- Si han logrado hasta el punto 3 en forma parcial: 6.0
- Si han logrado todo: 7.0

In [37]:
# librerías necesarias para el ejercicio
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## 1. Base de datos unificada

### 1.1 Lectura
Lea cada uno de los dos archivos `.csv` de la carpeta, dejando la información en un DataFrame para cada uno. Antes de hacer esto no olvide revisar el archivo CSV para ver el tipo de separador que se usa.

### 1.2 Revisión inicial
Revise qué tipos de datos tiene cada columna y asegúrese que sea el tipo adecuado. ¿Hay datos faltantes o nulos?

### 1.3 Base unificada
Junte ambos DataFrames en un único DataFrame llamado `datos_vino` que permita identificar el tipo de vino al que corresponde cada fila.

In [38]:
data1 = pd.read_csv('data/winequality-red.csv', sep=';')
data2 = pd.read_csv('data/winequality-white.csv', sep=';')
data1['tipo'] = 'rojo'
data2['tipo'] = 'blanco'
data_vino = pd.concat([data1, data2], ignore_index=True)
data_vino


Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality,tipo
0,7.4,0.70,0.00,1.9,0.076,11.0,34.0,0.99780,3.51,0.56,9.4,5,rojo
1,7.8,0.88,0.00,2.6,0.098,25.0,67.0,0.99680,3.20,0.68,9.8,5,rojo
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.99700,3.26,0.65,9.8,5,rojo
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.99800,3.16,0.58,9.8,6,rojo
4,7.4,0.70,0.00,1.9,0.076,11.0,34.0,0.99780,3.51,0.56,9.4,5,rojo
...,...,...,...,...,...,...,...,...,...,...,...,...,...
6492,6.2,0.21,0.29,1.6,0.039,24.0,92.0,0.99114,3.27,0.50,11.2,6,blanco
6493,6.6,0.32,0.36,8.0,0.047,57.0,168.0,0.99490,3.15,0.46,9.6,5,blanco
6494,6.5,0.24,0.19,1.2,0.041,30.0,111.0,0.99254,2.99,0.46,9.4,6,blanco
6495,5.5,0.29,0.30,1.1,0.022,20.0,110.0,0.98869,3.34,0.38,12.8,7,blanco


## 2. Revisión de la base

Las siguientes actividades debe realizarlas sobre el DataFrame `datos_vino`.

### 2.1 Análisis de la base compelta
Realice las siguientes actividades:
- a. Conteste: ¿Cuántos datos en total tiene la base?
- b. Calcule el valor promedio y desviación estándar de todas las columnas con datos numéricos.
- c. Conteste: ¿Cuántos valores diferentes de `calidad` hay en la base?

### 2.2 Agrupaciones
Usando algún método de agrupación, como tablas pivote o agrupaciones, conteste:
- a. ¿Hay diferencia en el pH promedio de los vinos rojos y blancos?
- b. ¿Hay diferencia en el valor promedio y la varianza del nivel de alcohol que tienen los vinos rojos y blancos?

In [39]:
print("2.1 a")
print("cantidad de datos:","6497")

2.1 a
cantidad de datos: 6497


In [44]:
promedio = data_vino.mean()
desviacion_estandar = data_vino.std()
estadisticas = pd.DataFrame({'Promedio': promedio, 'Desviación Estándar': desviacion_estandar})
estadisticas = estadisticas.sort_values(by='Promedio', ascending=False)
estadisticas

  promedio = data_vino.mean()
  desviacion_estandar = data_vino.std()


Unnamed: 0,Promedio,Desviación Estándar
total sulfur dioxide,115.744574,56.521855
free sulfur dioxide,30.525319,17.7494
alcohol,10.491801,1.192712
fixed acidity,7.215307,1.296434
quality,5.818378,0.873255
residual sugar,5.443235,4.757804
pH,3.218501,0.160787
density,0.994697,0.002999
sulphates,0.531268,0.148806
volatile acidity,0.339666,0.164636


In [45]:

print("2.1 c")
valores_diferentes_calidad = data_vino['quality'].nunique()
print("Número de valores diferentes de calidad:", valores_diferentes_calidad)


2.1 c
Número de valores diferentes de calidad: 7


## 3. Análisis exploratorio

Las siguientes actividades debe realizarlas sobre el DataFrame `datos_vino`.

### 3.1 Estadísticas de resumen
Conteste las siguientes preguntas para los vinos rojos:
- a. ¿Cuál es la varianza de la cantidad residual de azúcar que tiene ese tipo de vino?
- b. ¿Cual es el valor mínimo de pH que tiene el decil más alto? (el decil más alto es lo mismo que el percentil 90).
- c. ¿Cuál es el coefficiente de correlación entre la calidad del vino y el nivel de alcohol?
- d. ¿Qué implica ese valor de correlación?

### 3.2 Visualización
Para los vinos blancos, realice las siguientes actividades de visualización. No olvide poner nombres en los ejes.

- a. Grafique la distribución de valores de calidad de los vinos en la base de datos.
- b. Haga un `scatter plot` que permita ver la relación entre el nivel de alcohol de los vinos blancos y su puntaje de caldiad. ¿Observa alguna relación? ¿Hay algún dato que podría considerar como `outlier`?