# **Python para Ciencia de Datos**
###**Módulo de Nivelación**
###Minor Ciencia de Datos/Minor Ciencia de Datos Avanzado

El objetivo de este Colab es presentar situaciones problamaticas clásicas al iniciar un proyecto de Ciencia de Datos.

A continuación se deja una lectura recomendada:

https://towardsdatascience.com/8-guidelines-to-create-professional-data-science-notebooks-97572894b2e5


##Siempre el primer paso será leer algún conjunto de datos. En este caso se trabaja con la base de datos de calidad del vino. Este problema contiene dos conjuntos de datos, uno para variantes de vino tinto y otras para vino blanco.

##Según se indica en la descripción del conjunto de datos, los datos se pueden usar para tareas de clasificación o regresión. Las clases están ordenadas y no equilibradas (por ejemplo, hay muchos más vinos normales que excelentes o malos). Los algoritmos de detección de valores atípicos podrían usarse para detectar los pocos vinos excelentes o malos. Además, no estamos seguros de si todas las variables de entrada son relevantes. Por lo que podría ser interesante probar métodos de selección de características.

# **Información de atributos**:

##Para obtener más información, lea [Cortez et al., 2009].
##Variables de entrada (basadas en pruebas fisicoquímicas):
##1 - acidez fija
##2 - acidez volátil
##3 - ácido cítrico
##4 - azúcar residual
##5 - cloruros
##6 - anhídrido sulfuroso libre
##7 - anhídrido sulfuroso total
##8 - densidad
##9 - pH
##10 - sulfatos
##11 - alcohol
##Variable de salida (basada en datos sensoriales):
##12 - calidad (puntuación entre 0 y 10)

##Link para descargar el conjunto de datos:

https://archive.ics.uci.edu/ml/datasets/wine+quality

##En este caso, se va a trabajar especificamente con "winequality-red.csv". Notar que este archivo se deja en una carpeta en Drive, se conecta Google Colab con Google Drive y se carga el conjunto de datos con las funciones tradicionales de Panda

In [1]:
# Para acceder a los archivos del gdrive
from google.colab import drive
drive.mount('/content/gdrive')

Drive already mounted at /content/gdrive; to attempt to forcibly remount, call drive.mount("/content/gdrive", force_remount=True).


##A continuación, se utiliza el comando "cd", que corresponde a Change Directory, por lo que luego del comando "cd" se debe pegar la ruta en donde se dejó la base de datos en Google Drive. Todos deben pegar una ruta distinta, la cual debe ser encontrada en el simbolo de carpeta que se presenta a la izquierda (abajo del simbolo "{X}"). Deben presionar sobre el simbolo de carpeta, entrar a "gdrive", luego "MyDrive" y luego llegar a la carpeta donde guardó su archivo, cuando encuentre la carpeta donde está la base de datos que quiere cargar, seleccione los tres puntos y luego la opción "copiar la ruta de acceso". Finalmente, donde se ejecuta el comando cd, borren la ruta antigua y peguen su ruta.

In [5]:
cd /content/gdrive/MyDrive/2022/Universidad/TIC I 1-2022/Clases/Laboratorio/Semana 3

/content/gdrive/MyDrive/2022/Universidad/TIC I 1-2022/Clases/Laboratorio/Semana 3


In [4]:
#Se importan los módulos pandas, numpy y matplotlib
#Pandas es utilizado para leer los set de datos
import pandas as pd
#Numpy es utilizado para generar las series de datos a graficar
import numpy as np

## Primer intento de lectura, se falla porque no se usa el seperador correcto

In [6]:
df=pd.read_csv('winequality-red.csv')
df.head()

Unnamed: 0,"fixed acidity;""volatile acidity"";""citric acid"";""residual sugar"";""chlorides"";""free sulfur dioxide"";""total sulfur dioxide"";""density"";""pH"";""sulphates"";""alcohol"";""quality"""
0,7.4;0.7;0;1.9;0.076;11;34;0.9978;3.51;0.56;9.4;5
1,7.8;0.88;0;2.6;0.098;25;67;0.9968;3.2;0.68;9.8;5
2,7.8;0.76;0.04;2.3;0.092;15;54;0.997;3.26;0.65;...
3,11.2;0.28;0.56;1.9;0.075;17;60;0.998;3.16;0.58...
4,7.4;0.7;0;1.9;0.076;11;34;0.9978;3.51;0.56;9.4;5


##Documentación de la función "read_csv"

https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

## Segundo intento exitoso, se utiliza ";" como separador

In [7]:
df=pd.read_csv('winequality-red.csv',sep=';')
df.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


#Suponga que se quiere calcular el promedio de las calidades del vino

In [8]:
df.loc[:,'quality'].unique()

array([5, 6, 7, 4, 8, 3])

In [10]:
df.shape

(1599, 12)

In [11]:
df.shape[0]

1599

In [11]:
len(df.loc[:,'quality'].unique())

6

In [14]:
lista_promedios = []
lista_sumas = []
lista_unicos_clase = df.loc[:,'quality'].unique()
for i in range(len(lista_unicos_clase)):
    elemento_buscado = lista_unicos_clase[i]
    lista_sumas.append(0)
    for j in range(df.shape[0]):
        if elemento_buscado == df.iloc[j,11]:#La columna 11 es la columna donde esta quality
            lista_sumas[i] = lista_sumas[i] + 1
    promedio = lista_sumas[i]/df.shape[0]
    lista_promedios.append(promedio)

print(lista_sumas)
print(lista_promedios)

[681, 638, 199, 53, 18, 10]
[0.425891181988743, 0.3989993746091307, 0.12445278298936835, 0.03314571607254534, 0.01125703564727955, 0.006253908692933083]


In [15]:
df.loc[:,'quality'].value_counts()

5    681
6    638
7    199
4     53
8     18
3     10
Name: quality, dtype: int64

In [12]:
print(df['quality'].value_counts('%'))

5    0.425891
6    0.398999
7    0.124453
4    0.033146
8    0.011257
3    0.006254
Name: quality, dtype: float64


In [14]:
df.groupby('quality').size().sort_values(ascending=False)

quality
5    681
6    638
7    199
4     53
8     18
3     10
dtype: int64

In [15]:
print(df['quality'].value_counts('%')*100)

5    42.589118
6    39.899937
7    12.445278
4     3.314572
8     1.125704
3     0.625391
Name: quality, dtype: float64


##Ahora suponga que luego de un análisis se decide eliminar la columna "citric acid"

In [None]:
df_sin_citric_acid = df.drop(columns=['citric acid'])
df_sin_citric_acid.head()

Unnamed: 0,fixed acidity,volatile acidity,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


##Suponga además que queremos generar un conjunto de datos que corresponde a un subgrupo del conjunto de datos original, particularmente nos interesan las variables "free sulfur dioxide"	"total sulfur dioxide" y "pH".

In [None]:
df_subset = df.loc[:,['free sulfur dioxide','total sulfur dioxide', 'pH']]
df_subset.head()

Unnamed: 0,free sulfur dioxide,total sulfur dioxide,pH
0,11.0,34.0,3.51
1,25.0,67.0,3.2
2,15.0,54.0,3.26
3,17.0,60.0,3.16
4,11.0,34.0,3.51


In [None]:
df_subset['pH'].describe()

count    1599.000000
mean        3.311113
std         0.154386
min         2.740000
25%         3.210000
50%         3.310000
75%         3.400000
max         4.010000
Name: pH, dtype: float64

##Veamos como se comporta la variable PH

In [None]:
df_subset['pH'].describe()

count    1599.000000
mean        3.311113
std         0.154386
min         2.740000
25%         3.210000
50%         3.310000
75%         3.400000
max         4.010000
Name: pH, dtype: float64

##Supongamos ahora que nos interesa manejar un conjunto de datos que solo tenga las observaciones con un PH menor a 3.3

In [None]:
# making boolean series for a team name
filter = df_subset["pH"] < 3.3
  
# filtering data
df_filter = df_subset.where(filter, inplace = False)
#Notar que si usamos "inplace" en "False", 
#los cambios al filtrar no son guardados en el dataframe original
#Por lo que es necesario crear otra variable para guardar el retorno
df_filter.describe()

Unnamed: 0,free sulfur dioxide,total sulfur dioxide,pH
count,726.0,726.0,726.0
mean,14.865702,48.782369,3.180152
std,10.438896,37.784965,0.089919
min,3.0,6.0,2.74
25%,6.0,21.0,3.14
50%,12.0,36.5,3.2
75%,20.0,67.0,3.25
max,66.0,289.0,3.29


In [None]:
df_subset['pH'].describe()

count    1599.000000
mean        3.311113
std         0.154386
min         2.740000
25%         3.210000
50%         3.310000
75%         3.400000
max         4.010000
Name: pH, dtype: float64

In [None]:
# making boolean series for a team name
filter = df_subset["pH"] < 3.3
  
# filtering data
df_subset.where(filter, inplace = True)
#Notar que si usamos "inplace" en "True", 
#los cambios al filtrar son guardados automaticamante en el dataframe original
#Por lo que NO es necesario crear otra variable para guardar el retorno
df_subset.describe()

Unnamed: 0,free sulfur dioxide,total sulfur dioxide,pH
count,726.0,726.0,726.0
mean,14.865702,48.782369,3.180152
std,10.438896,37.784965,0.089919
min,3.0,6.0,2.74
25%,6.0,21.0,3.14
50%,12.0,36.5,3.2
75%,20.0,67.0,3.25
max,66.0,289.0,3.29


##Supongamos ahora que queremos hacer un filtro con más de una condición, por lo las condiciones que aplicaremos serán:

##1.- Solo las observaciones con "free sulfur dioxide" mayor a 10

##2.- Solo las observaciones con "total sulfur dioxide" mayor a 100

In [None]:
# making boolean series for a team name
filter1 = df_subset["free sulfur dioxide"] > 10
  
# making boolean series for age
filter2 = df_subset["total sulfur dioxide"] > 100
  
# filtering data on basis of both filters
df_subset.where(filter1 & filter2, inplace = True)
df_subset.describe()

Unnamed: 0,free sulfur dioxide,total sulfur dioxide,pH
count,81.0,81.0,81.0
mean,28.179012,128.777778,3.177531
std,10.043128,29.616718,0.100704
min,11.0,101.0,2.89
25%,21.0,110.0,3.13
50%,26.0,122.0,3.21
75%,34.0,141.0,3.25
max,66.0,289.0,3.29


In [None]:
df_subset.loc[(df_subset['pH'] < 0), 'pH'] = np.nan
df_subset.loc[(df_subset['pH'] > 14), 'pH'] = np.nan

#Actividad propuesta:

#Realice las mismas operaciones vistas con .where pero utilizando la función .query

