In [None]:
!wget --no-cache -O init.py -q https://raw.githubusercontent.com/acubillosde/Analitica_Sabana_Completo/main/init.py
import init; init.init(force_download=False); 

## **Preparando los datos**

Con algunas líneas de código, debemos ser capaces de dejar nuestros datos listos para el análisis

### **Limpiando datos**

Para ser útil para la mayoría de las tareas de analítica, los datos deben estar limpios. Esto significa que debe ser coherente, relevante y estandarizado. Para ello se recomienda
* Remover los outliers (datos atípicos);
* Remover valores inapropiados;
* Remover valores duplicados;
* Remover puntuación;
* Remover espacios en blanco;
* Estandarizar datos; y 
* Estandarizar texto.

### **Calculando y removiendo outliers**

Encontrar los valores atípicos le permite eliminar los valores que son tan altos o tan bajos que sesgan la vista general de los datos.

Vamos a considerar dos formas principales de detectar outliers:

### **1. Desviación Estándar**: 
Si los datos están normalmente distribuidos, entonces el 95% de los datos están dentro de 1.96 desviaciones estándar de la media. Entonces podemos eliminar los valores por encima o por debajo de ese rango.

### **2. Rango Intercuartílico ($IQR$, por sus siglas en inglés)**:
 El IQR es la diferencia entre el cuartíl $Q_1$ y el cuartíl $Q_3$, cualquier valor que esté por debajo de $Q_1 - 1.5IQR$ o mayor que $Q_3 + 1.5IQR$ son tratados como outliers y son removidos.






### **Método 1. Desviación Estándar**

In [None]:
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 
import seaborn as sns

In [None]:
df = pd.read_csv('local/data/gradedata.csv')
df.head()

In [None]:
df.shape

In [None]:
sns.histplot(x = df['grade'], data= df)

In [None]:
meangrade = df['grade'].mean() #Calculamos la media de la columna 'grade'
stdgrade = df['grade'].std() #Calculamos la desviación estándar de la columna 'grade'
toprange = meangrade + 1.96*stdgrade #El máximo del rango intercuartílico
botrange = meangrade - 1.96*stdgrade #El míximo del rango intercuartílico
copydf = df #Se genera un nuevo DataFrame
copydf = copydf.drop(copydf[copydf['grade']> toprange].index) #Se eliminan los datos que cumplen la condición (oputliers por arriba)
copydf = copydf.drop(copydf[copydf['grade']< botrange].index)
copydf.shape #Se eliminan los datos que cumplen la condición (outliers por abajo)
copydf.head()

In [None]:
copydf.shape

In [None]:
sns.histplot(x = copydf['grade'], data= copydf)

### **Metodo 2. Rango Intercuartílico**

In [None]:
q1 = df['grade'].quantile(.25)
q3 = df['grade'].quantile(.75)
iqr = q3 - q1
toprange_q = q3 + iqr*1.5
botrange_q = q1 - iqr*1.5
copydf_q = df
copydf_q = copydf_q.drop(copydf_q[copydf_q['grade']>toprange_q].index)
copydf_q = copydf_q.drop(copydf_q[copydf_q['grade']<botrange_q].index)
copydf_q.head()

In [None]:
copydf_q.shape

In [None]:
sns.histplot(x = copydf_q['grade'], data= copydf_q)

## **Datos faltantes en DataFrames de Pandas**

Una de las cosas que más incomoda al trabajar con grandes volumenes de datos es encontrar el dato que falta. Puede hacer que sea imposible o impredecible de calcular la mayoría de las estadísticas agregadas o generar tablas dinámicas.

Pandas posee funciones que ayudan a hallar, borrar y cambiar los datos faltantes.

In [None]:
df1 = pd.read_csv('local/data/gradedatamissing.csv')
df1.head()

In [None]:
df1.shape

Primero determinamos si exisen datos NAN en el DataFrame

In [None]:
df1.isna().sum().sum()

Para eliminar todas las columnas con datos faltantes (NaN), usamos las siguiente función

In [None]:
df1_no_missing = df1.dropna()
df1_no_missing

In [None]:
df1_no_missing.shape

In [None]:
df1.dropna(axis= 1, how= 'all')

In [None]:
df1.fillna(0)

In [None]:
df1['grade'].fillna(df1['grade'].mean(), inplace=True)
df1

In [None]:
df1['grade'].fillna(df1.groupby('gender')['grade'].transform('mean'), inplace= True)
df1.head()

In [None]:
df1[df1['age'].notnull() & df1['gender'].notnull()]

# **Responder las siguientes preguntas**

Se desea registrar nuevos datos a la base de datos original, se proporcionan a continuación:

In [None]:
fname = ['Bob','Jessica','Mary','John','Mel']
lname = ['Smith', 'Pitt', 'Parker', 'Cage', 'Lynch']
gender = ['male', 'female', 'female', 'male', 'male']
age = [18.0, 16.0, 17.0, 19.0, 17.0]
exercise = [2.0, 1.0, 4.0, 3.0, 1.0]
hours = [1.0, 8.0, 17.0, 14.0, 9.0]
grades = [76,-2,77,78,101]
address = ['8839 Marshall St., Miami, FL 35125', '33 Spring Dr., Taunton, MA 02710',
            '30 Glenridge Rd., Bountiful, UT 84510', '942 West Street, Alexandria, VA 22304',
            '85 Homestead Drive, Voorhees, NJ 08043']

In [None]:
data1 = {'fname' : ['Bob','Jessica','Mary','John','Mel'], 
         'lname' : ['Smith', 'Pitt', 'Parker', 'Cage', 'Lynch'], 
         'gender' : ['male', 'female', 'female', 'male', 'male'],
         'age' : [18.0, 16.0, 17.0, 19.0, 17.0],
         'exercise' : [2.0, 1.0, 4.0, 3.0, 1.0],
         'hours' : [1.0, 8.0, 17.0, 14.0, 9.0],
         'grade' : [76.0,-2.0,77.0,78.0,101.0],
         'address' : ['8839 Marshall St., Miami, FL 35125', '33 Spring Dr., Taunton, MA 02710',
            '30 Glenridge Rd., Bountiful, UT 84510', '942 West Street, Alexandria, VA 22304',
            '85 Homestead Drive, Voorhees, NJ 08043']
         }

Genere un nuevo DataFrame con los nuevos datos y los originales.

¿Hay datos que no tienen sentido en el nuevo DataFrame, si se sabe que el rango de notas es de 0 a 100? Si es así filtre la base de datos para inidcar dichos valores.

Modifique los datos extraños de tal manera que tengan sentido en el rango de notas estipulado. Justifique su elección.

¿Cuál es el procentaje de hombres y mujeres que respondieron los ejercicios?

¿Cuál es la edad predominante en el grupo de estudiantes que presentaron los ejercicios?

Realice un estudio de los puntos atípos de las columnas 'age', 'exercise' y 'hours'. ¿Qué puede concluir?

Determine si hay una relación entre los ejercicios respondidos y las calificaciones

¿En base a los datos se podría indicar si los hombres o las mujeres tienen mejores notas?