# Práctico 1

## Librerías

<img src="https://numpy.org/images/content_images/ds-landscape.png" width=600 alt='Image from numpy website.'>

In [None]:
# Importar librerias
# !pip install libreria
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats.mstats import winsorize
# from google.colab import drive, files
import io

[Documentación Pandas](https://pandas.pydata.org/docs/reference/index.html)  

## Carga y preparación de los datos

Carga de los datos

In [None]:
# Drive
#drive.mount('/content/drive', force_remount=True)
#df=pd.read_csv("/content/drive/My Drive/data/credit_data.csv", sep = ",")

# Local (o Kaggle)
df=pd.read_csv("credit_data.csv", sep = ",")

Comando desde consola para ver que tengo en esta sesión Drive

In [None]:
!ls -ltrh drive/

Tipo de objeto creado

In [None]:
type(df)

Número de filas en el data frame

In [None]:
print(f"El dataset tiene {df.shape[0]} filas (cantidad de observaciones) y {df.shape[1]} columnas (variables)")

Visualización del data frame

In [None]:
df

Primeras filas del data frame

In [None]:
df.head(5)

Últimas filas del data frame

In [None]:
df.tail(3)

Selección de filas con índice 2, 3 y 4

In [None]:
df.loc[2:4]

Selección de filas con index par, callback function

In [None]:
def pares(x):
  return x.index % 2 == 0

In [None]:
df.loc[pares]

Selección de filas con index par, lambda expression

In [None]:
df.loc[lambda x: x.index % 2 == 0]

Selección de columnas por el nombre

In [None]:
df[['Age','Risk']]

Identificamos las variables del data frame y sus características

In [None]:
df.info()

### Medidas estadísticas

#### Media

In [None]:
age_mean = df['Age'].mean()
print(f"La media de la edad es {age_mean}")


#### Mediana

In [None]:
age_median = df['Age'].median()
print(f"La mediana de la edad es {age_median}")

#### Varianza

In [None]:
age_var = df['Age'].var()
print(f"La varianza de la edad es {age_var}")

#### Desviación estándar

In [None]:
age_std = df['Age'].std()
print(f"La desviación estándar de la edad es {age_std}")

### Valores nulos

In [None]:
df.isnull()

Porcentaje de valores nulos

In [None]:
df.isnull().mean()

In [None]:
# En este caso nos interesa manternerlos, pero podríamos:

# Reemplazar valores nulos numéricos por la media
#df['Age'] = df['Age'].fillna(df['Age'].mean())

# Reemplazar valores nulos categóricos por otro valor
#df['Saving accounts'] = df['Saving accounts'].fillna('unknown')

# Eliminar valores nulos (como última opción)
print(f'El dataset tiene {len(df)} filas')
df_drop = df.dropna()
print(f'El dataset tiene {len(df_drop)} filas después de eliminar los nulos')

Conversión variable categórica

In [None]:
# Obtener los valores únicos de la columna 'Sex' del DataFrame 
sex_list = df['Sex'].unique()

# Enumerar la lista de valores únicos de 'Sex' para crear tuplas con un índice y el valor
tuple_list = enumerate(sex_list)
# Recorrer las tuplas creadas con enumerate para imprimir el índice y la categoría de 'Sex'
for idx, category in tuple_list:
  print(idx, category)
  
# Crear un diccionario de mapeo donde cada categoría de 'Sex' es la clave y su índice es el valor
sex_mapping = {category: idx for idx, category in enumerate(sex_list)}

# Reemplazar los valores de la columna 'Sex' en el DataFrame con sus respectivos índices del mapeo
df['Sex'] = df['Sex'].map(sex_mapping)
df['Sex']

Conversión variable continua

In [None]:
print(type(df['Duration'].iloc[0]))

df['Duration_float'] = df['Duration'].astype('float64')
df['Duration_float']

Nuevas variables

In [None]:
df['Credit per year'] = df['Credit amount'] / df['Duration']

In [None]:
df['Older than 40'] = df['Age'] > 40

In [None]:
df

## Análisis exploratorio de los datos y estadísticas

Estadísticas descriptivas

In [None]:
df.describe()

### Análisis univariado

[Documentación Matplotlib](https://matplotlib.org/stable/api/index.html)  
[Documentación SeaBorn](https://seaborn.pydata.org/api.html)

Histograma

In [None]:
plt.hist(df['Age'], color='orange', edgecolor='black', alpha=0.7)  
sns.set(style="whitegrid")
plt.xlabel('Age', fontsize=11)
plt.ylabel('Frequency', fontsize=11)
plt.title('Age Distribution', fontsize=12, fontweight='bold')
sns.despine()



Selección de filas en base a condición

In [None]:
df.loc[df['Age'] > 35]

Plot de Frecuencia, condicionado

In [None]:
sns.set(style="whitegrid")

plt.figure(figsize=(20, 5))
sns.countplot(data=df.loc[(df['Age'] > 35) & (df.Age != 49)], 
              x='Age', hue='Age', palette="Blues", edgecolor='black', alpha=0.8, legend=False)

plt.xlabel('Age', fontsize=14, fontweight='bold')
plt.ylabel('Count', fontsize=14, fontweight='bold')
plt.title('Count of Ages > 35 (Excluding 49)', fontsize=16, fontweight='bold')

sns.despine()

plt.show()

Boxplot por edad

In [None]:
plt.figure(figsize=(3,5))
sns.boxplot(y = 'Age', data = df)

Distribución de la edad

In [None]:
sns.histplot(df["Age"], kde=True)
plt.title("Age distribution")

In [None]:
sns.set(style="whitegrid")

fig, ax = plt.subplots(2, 1, figsize=(8, 8), gridspec_kw={'height_ratios': [1, 4]})

sns.boxplot(x=df["Age"], ax=ax[0], color='skyblue')

sns.histplot(df["Age"], kde=True, ax=ax[1], color='blue', bins=20)

ax[0].set(title='Boxplot of Age')
ax[1].set(title='Age Distribution with KDE')

plt.tight_layout()

plt.show()


Valores únicos de las variables categóricas

In [None]:
df['Saving accounts'].unique()

Frecuencia de los valores de las variables categóricas

In [None]:
df['Saving accounts'].value_counts()

Plot de frecuencia

In [None]:
sns.set(style="whitegrid")

plt.figure(figsize=(8, 5)) 
sns.countplot(data=df, x='Saving accounts', hue='Saving accounts', palette='coolwarm', edgecolor='black', dodge=False, legend=False)

plt.xlabel('Saving Accounts', fontsize=14)
plt.ylabel('Count', fontsize=14)
plt.title('Distribution of Saving Accounts', fontsize=16, fontweight='bold')


sns.despine()

plt.show()


In [None]:
sns.set(style="whitegrid")

plt.figure(figsize=(8, 5))  

data_normalized = df['Saving accounts'].value_counts(normalize=True)

sns.barplot(x=data_normalized.index, y=data_normalized.values, palette='viridis', edgecolor='black')

plt.xlabel('Saving Accounts', fontsize=14)
plt.ylabel('Proportion', fontsize=14)
plt.title('Proportion of Saving Accounts', fontsize=16, fontweight='bold')

sns.despine()

plt.show()


### Outliers

#### Boxplot por duración

In [None]:
plt.figure(figsize=(3,5))
sns.boxplot(y = 'Duration', data = df)

#### Winsorize

Winsorize para manejar outliers. Este caso, lo que hace es llevar todos los outliers del percentil 95 o más, al valor del percentil 95 real.

In [None]:
df['Duration2'] = winsorize(df['Duration'], limits=[None, 0.05])
plt.figure(figsize=(3,5))
sns.boxplot(y = 'Duration2', data = df)

#### Comparativa

In [None]:
df[['Duration','Duration2']].mean()

In [None]:
df[['Duration','Duration2']].std()

In [None]:
df[['Duration','Duration2']].max()

### Análisis bivariado (EXTRA)

Tabla de frecuencia cruzada

In [None]:
pd.crosstab(df['Saving accounts'], df.Risk)

Tabla de frecuencia normalizada, con márgenes

In [None]:
pd.crosstab(df['Saving accounts'], df['Risk'], margins=True, normalize=True)

Scatter plot

In [None]:
# Correlación entre dos variables numéricas
df.plot.scatter(x='Age',y='Credit amount')

Media de edad agrupado por propósito

In [None]:
df.groupby('Purpose')['Age'].mean().sort_values(ascending=False)

Estadísticas de edad según propósito

In [None]:
df.groupby('Purpose')['Age'].describe()

Boxplot

In [None]:
plt.figure(figsize=(18,8))
sns.boxplot(y = 'Age', x = 'Purpose', data = df)

Plot de edad para los que tienen casa propia

In [None]:
plt.figure(figsize=(20,8))
df[df['Housing'] == 'own']['Age'].value_counts().plot(kind='bar')

Plot de duración para los de edad 30

In [None]:
sns.countplot(data=df[df['Age'] == 30], x='Duration')

In [None]:
# Plot de Housing según riesgo
# Discreta vs algo
sns.catplot(x="Housing", col="Risk",data= df,kind="count")

In [None]:
sns.catplot(x="Age", col="Risk",data=df, kind="count")

### Análisis multivariado (EXTRA)

In [None]:
sns.catplot(data=df, x="Risk", y="Age", hue="Sex", kind="swarm")

In [None]:
sns.scatterplot(data=df, x='Duration',y='Credit amount', hue='Risk')

In [None]:
sns.boxplot(data=df, x="Sex", y="Duration", hue="Risk")

## Ejercicios

### Cargue el dataset houses_data.csv

In [None]:
#drive.mount('/content/drive', force_remount=True)

#df_houses=pd.read_csv("/content/drive/My Drive/data/houses_data.csv", sep = ",")
df_house = pd.read_csv("houses_data.csv", sep = ",")

### ¿Cuántas observaciones tiene el dataset?

In [None]:
# Su código

### ¿Qué variables tiene el dataset?

In [None]:
# Su código

### Crear un nuevo df seleccionando columnas bedrooms, bathrooms, square_footage_living, floors, waterfront, condition, square_footage_above, square_footage_basement, year_built, year_renovated, price

In [None]:
# Su código

### Observar el tipo de los datos y realizar las modificaciones que crea adecuadas

In [None]:
# Su código

### Cree una nueva columna booleana llamada 'was_renewed' que indique true si y solo si la casa fue renovada en algún momento

In [None]:
# Su código

### Grafique la distribución de bedrooms

In [None]:
# Su código

### ¿Cuáles son los valores de bedrooms y la frecuencia de cada uno?

In [None]:
# Su código

### Grafique mediante un boxplot la variable price

In [None]:
# Su código

### ¿Cual es la media de price? ¿Qué pasa con la mediana, por qué? ¿Y la desviación estándar?

In [None]:
# Su código

### Trabaje los valores atípicos (outliers) de price, ajustando el 5% superior y vuelva a revisar la media de price, ¿se acerca a la mediana?

In [None]:
# Su código

### Gráfique mediante un scatter plot la relación entre bedrooms y bathrooms

In [None]:
# Su código

### ¿Cuántas casas renovadas tienen 3 bedrooms?
Puede ayudarse mediante una tabla de frecuencia

In [None]:
# Su código

### Calcule la media de bedrooms por was_renewed

In [None]:
# Su código