![Logo SENA](https://certificadossena.net/wp-content/uploads/2022/10/logo-sena-verde-svg-2022.svg)

<img src="https://certificadossena.net/wp-content/uploads/2022/10/logo-sena-verde-svg-2022.svg" width="300" height="300">


# Dataset

<b>Precios de casas:</b>
La plataforma Kaggle nos muestra una data de los precios de las casas, en este nos dan las propiedades de muchas casas y nos dan su precio de mercado o el precio tentativo.

Tenemos varias columnas, por ejemplo, el tamaño del terreno en pies al cuadrado, tenemos el tipo de calle que está enfrente del terreno, tenemos, por ejemplo, el año en que fue construida, el tipo de techo. Entonces vienen todas estas propiedades de las diferentes casas y al principio tenemos el costo de la casa. Este es un costo dado en dólares.

Este conjunto de datos nos ofrece cuatro archivos: train.csv, test.csv, data_description.txt y samples_submission.csv. Los que vamos a utilizar por el momento son train.csv y data_description, este porque tiene, de los dos archivos train y
test, el conjunto más grande de datos, y data_description es una descripción de todas las columnas.


https://www.kaggle.com/c/house-prices-advanced-regression-techniques

#### Favor abrir el archivo data_description.txt, para comprender los datos suministrados

In [None]:
import pandas as pd # Importar pandas
import numpy as np # Importar Numpy

### Numpy es el paquete más básico pero poderoso para la computación científica y la manipulación de datos en Python. Nos permite trabajar con matrices y matrices multidimensionales.

Página oficial: https://numpy.org/

In [None]:
df = pd.read_csv('data/house-prices-advanced-regression-techniques/train.csv',index_col=0) # Se lee el archivo

In [None]:
df.shape # Analizar la forma que tiene el conjunto de datos. Filas y columnas

In [None]:
df.head() # Nos muestra algunas filas (5) y las columnas

In [None]:
df.describe() # Datos generales del conjunto de datos

## Drop duplicates

In [None]:
df = df.drop_duplicates() # Va a buscar si hay registros que están repetidos y si los hay los elimina.
df.shape # verificar cuantos registros quedaron, si es el mismo de antes indica que no hay registros duplicados.

## El objetivo de la limpieza de datos es eliminar todos los elementos que no nos sirvan y los elementos faltantes. ¿Por qué? Porque esto nos puede traer problemas a la hora de modelar y tratar de hacer predicciones.

## Drop NA

### La función "Drop NA" permite eliminar los valores faltantes.

In [None]:
# Borra todas las filas con NaN
df.dropna() # ¿Analizar por qué da 0 filas?

In [None]:
df.head() # Nos muestra algunas filas (5) y las columnas

In [None]:
df.isna() # Realiza una matriz indicando donde hay datos y donde no hay

In [None]:
# Sume los elementos que faltan por columna y ordenelos
columnas_na = df.isna().sum().sort_values(ascending = False)
round((columnas_na[columnas_na > 0 ] / len(df)) * 100 , 2) # Se multiplica por 100 para dar el valor en %

Todas las filas tienen al menos un valor nulo, por lo tanto se borra todo el dataframe.<br>
Intentemos borrar columnas

In [None]:
df_drop_1 = df.dropna(axis = 1) # axis= 0 busca por filas, axis=1 busca por columnas y borra las Null

In [None]:
df_drop_1.shape

### ¿Cuántas columnas se borraron?

In [None]:
df_drop_1.head()

In [None]:
# la variable dfPiscina Se crea de tipo DataFrame
dfPiscina = pd.DataFrame()

In [None]:
dfPiscina

In [None]:
# dfPiscina va a tener una columna 'calidad_Piscina' que es de otro data frame (df)
dfPiscina['calidad_Piscina'] = df['PoolQC']

In [None]:
dfPiscina # Se imprime la variable dfPiscina

<hr>

## ¿Y qué eliminamos de esa columna?
### Analizando la columna **PoolQC**

Según **data_description.txt**


PoolQC: Pool quality

       Ex	Excellent
       Gd	Good
       TA	Average/Typical
       Fa	Fair
       NA	No Pool
       
Borramos información vital en el DataFrame.

En lugar de borrarla la podemos convertir en  una columna de datos  ordinales.

In [None]:
df['PoolQC'].unique() # Retorna los valores únicos en la columna

In [None]:
dfPiscina['calidad_Piscina'].unique() # Retorna los valores únicos en la columna

In [None]:
# Se hace una conversión Ex va a ser 4, Gd va a ser 3.. nan a a ser 0
poolQCvalues={'Ex':4,'Gd':3,'TA':2,'Fa':1,np.nan:0}

# Se hace un mapeo donde el mapa es el que se acaba de definir
df['PoolQC'] = df['PoolQC'].map(poolQCvalues)

In [None]:
# Para la columna QC buscar los nulos y sumarlos
print('Número de NaN en la columna:', df['PoolQC'].isna().sum())

In [None]:
# Sample significa que va a traer 11 valores aleatorios. Recordar que el 99% eran nulos, ahora son 0
df['PoolQC'].sample(11)

In [None]:
# Se traen de nuevo los valores únicos, esta vez son números (ordinales: Aumenta el valor, aumenta la calidad)
df['PoolQC'].unique()

### Analizando la columna **CentralAir**

CentralAir: Central air conditioning (La casa tiene aire acondicionado central)

       N	No
       Y	Yes
En los datos estan los valores como N y Y, estas letras no son buenas a la hora de hacer modelado los algorítmos no trabajan correctamente.

In [None]:
df['CentralAir'].unique()

In [None]:
# Se mapean los valores donde N=0 y la Y=1
centralAirvalues={'N' : 0,'Y':1}

# La columna CentralAir va a tomar el valor del mapa definido en el diccionario
df['CentralAir'] = df['CentralAir'].map(centralAirvalues)

In [None]:
df['CentralAir'].sample(13) # Tomar 13 valores al azar para verificar

### Electrical

Electrical: Electrical system

       SBrkr	Standard Circuit Breakers & Romex
       FuseA	Fuse Box over 60 AMP and all Romex wiring (Average)	
       FuseF	60 AMP Fuse Box and mostly Romex wiring (Fair)
       FuseP	60 AMP Fuse Box and mostly knob & tube wiring (poor)
       Mix	Mixed

In [None]:
df['Electrical'].unique() # Los valores unicos de la columna

In [None]:
print('Número de NaN en la columna:', df['Electrical'].isna().sum()) # ¿Cuántos datos faltan?

### Solo un dato falta, se puede eliminar la fila o buscar por qué valor reemplazarlo.

In [None]:
moda = df['Electrical'].mode()[0] # Calcular la moda de la columna Electrical
print(moda) # Imprime el valor

In [None]:
df['Electrical'] = df['Electrical'].fillna(moda) # fillna: reemplazar por

In [None]:
print('Número de NaN en la columna:', df['Electrical'].isna().sum()) # Se verifica cuantos valores faltan

In [None]:
df['Electrical'].unique() # Los valores unicos de la columna

In [None]:
df['Electrical'].head()

In [None]:
df['Electrical'].sample(11) # 

### astype convierte una columna de texto a categoria osea asignar un valor númerico, pero lo malo es que no se sabe que números se asignan. Es otra manera de hacerlo y no usar mapeos

In [None]:
df['Electrical'] = df['Electrical'].astype('category').cat.codes

In [None]:
df['Electrical'].head() # El resultado indica que a Sbrkr asigno un valor de ...

No existe una relación de orden en la columna **Electrical**, por lo tanto estas  categorias no tiene mucho sentido analizarlo como una variable ordinal, deberiamos mejor convertirlas a **Dummy Variables**.

# Cuartiles y  datos atípicos

### Limpieza por cuartiles

Los cuartiles son valores que dividen una muestra de datos en cuatro partes iguales. Con los cuartiles se puede evaluar rápidamente la dispersión y la tendencia central de los datos.

### Para crear los cuartiles:
https://youtu.be/24Uz1mBksL4?si=mIr77lv_LshlOlfF

El recuadro se extiende desde los valores de cuartil Q1 a Q3 de los datos, con una línea en la mediana (Q2). Los **bigotes** se extienden desde los bordes de la **caja** para mostrar el rango de los datos. 
La posición de los **bigotes** se establece de forma predeterminada en 1.5 * IQR (IQR = Q3 - Q1) desde los bordes de la caja. (IQR: Rango intercuartílico)

Los puntos atípicos son aquellos que se encuentran más allá del final de los bigotes.

### Construyendo la caja:
https://youtu.be/lefGOMFbI90?si=Et-q020NZqaJe2aF

In [None]:
#En versiones anteriores primero va esta linea de código
#%matplotlib inline
df.boxplot('SalePrice') # Gráfica de Caja para la columna o varible SalePrice

#### Lo que nos dice la gráfica es que la mayoría de los datos se encuentran entre 120 mil dólares a 210 mil dólares por dar un estimado, esto es lo que se encuentra dentro de la caja.
#### Del bigote superior al bigote de abajo representa el grueso de nuestros datos.
#### Es decir, 1.5 veces el rango inter cuartil.
#### Lo que se encuentre fuera de ese rango son datos que podemos considerar aislados, entonces todos estos datos es posible que requieran limpieza.

In [None]:
# obtener el precio de venta y guardarlo en una variable.
sP = df['SalePrice']
IQR = 1.5*(sP.quantile(.75)-sP.quantile(.25)) # Rango inter cuartil
lim_sup = sP.quantile(.75)+IQR # Hasta donde llega el primer bigote
lim_inf = sP.quantile(.25)-IQR # Hasta donde llega el bigote de abajo o limite inferior

In [None]:
# Listar los valores que esten por encima del límite o los que esten por debajo
sP_clean = sP[(sP >= lim_sup) | (sP <= lim_inf)]
sP_clean

In [None]:
df.drop(sP_clean.index) # Se eliminan los valores atípicos por el ID (index)

## Limpieza por desviación estandar

La desviación estándar es una de las medidas de estadística más populares y de mayor uso. Esta medida indica el grado de dispersión alrededor de la media. Una desviación grande indica datos muy dispersos y una desviación pequeña indica un menor grado de dispersión.

El puntaje Z (**Z -score**) es el número de desviaciones estándar por las cuales el valor de una observación está por encima del valor medio de lo que se está observando.

In [None]:
# stats nos da un conjunto de medidas estaditicas para ser usadas desde python
from scipy import stats
sP = df['SalePrice'] # Trabajar con la columna Precio de Venta
z = np.abs(stats.zscore(sP)) # zscore: Distribución normal
z # Imprime los valores que estan por arriba o abajo de la media arítmetica

In [None]:
sP_clean = sP[(z>3) | (z<-3)] # Tomar las medidas que esten 3 ditribuciones normales arriba o abajo
df.drop(sP_clean.index)

### Observar que aquí quedaron con 1,438 rows, o filas, mientras que en el anterior quedó con 1,460. En cada una de las diferentes formas de eliminar los valores atípicos funciona de forma diferente por lo tanto no van a quedar los mismos conjuntos.

### Esta decisión de cuál utilizar, uno u otro, dependera del modelo de estudio que estemos haciendo. Dependerá mucho de los resultados que nos den nuestros modelos predictivos y ese sera uno de los posibles ajustes que podemos hacer en caso que queremos mejorar o empeorar un poquito la calidad para estar ajustandolo.

<hr>

### Taller:

Contexto: Dado que el surf nació en la costa oeste de EEUU, se plantea que el mayor número de ataques de tiburones a surfistas se ha producido en la costa oeste de EEUU.


In [25]:
#Importar módulos

import pandas as pd
import numpy as np
import re
import sys

In [None]:
#Creación de la base de datos
# Solucionar el error de UTF8b

df = pd.read_csv("data/GSAF5.csv")
#df.head()

# Despues de buscar varias soluciones para intentar corregir el archivo
Pude encontrar que todos los registros se encontraban en una sola linea 
la primera opcion que tome en cuenta fue crear un script en python que hiciera el trabajo de limpieza y realizara los complementos de los complementos de los registros o almacenara en un area de stagin los registros que no estuvieran de acuerdo con los encabezados.

Pero luego teniendo en cuenta de que el problema era por la organizacion del archivo que pandas no me lo dejaba leer me surgio la idea de convertir el archivo a HTML para poder verlo como un archivo de tipo json, entonces transforme el archivo a HTML y puede ver que todos los registros estaban en una sola linea y esto era lo que entorpecia el pandas

# Use el siguiente recurso para realizar la conversion
https://tableconvert.com/csv-to-html


In [47]:
# !pip install lxml
# !pip install html5lib
from io import StringIO
import csv

In [48]:
"""
Despues de identificar que el archivo estaba organizado en una sola fila
entonces accedemos a la unica tabla que tiene el archivo html la cual se encuentra en
la posicion 0
"""
df_init = pd.read_html("data/GSAF5.html")
table_df = df_init[0] 

In [49]:
# Limpieza del archivo
"""
El procedimiento fue sencillo se aplicaron los siguientes metodos
.iloc[:, 0] Se encarga de tomar la primera columna completa 
.dropna() Elimina valores nulos en los registros
.tolist() Se encarga de convertir la columna una lista de string donde
cada fila representa una fila de datos 
"""
rows = table_df.iloc[:, 0].dropna().tolist()

In [50]:
# Funcion para separar los registros  
'''
Luego de poder acceder a los datos de mi db y tener los encabezados listos 
cree una funcion que se encargara de separar los datos para tener los registros
organizados segun las respectivas columnas utilice una expresion regular para evitar
dividir comas que esten dentro de comillas

val.strip().strip('"') Con esto limpio los espacios sobrantes y comillas
re.split(...) Parte el string en cada coma solo si esa coma no esta dentro de comillas 
dobles'''
def smart_split(line):
    f = StringIO(line)
    reader = csv.reader(f)
    for row in reader:
        return row

In [51]:
# Aplicacion de la funcion para todos los registros
parsed = []
for row in rows:
    result = smart_split(row)
    parsed.append(result)    

In [52]:
# Separo encabezados de los datos
headers = parsed[0]
data = parsed[1:]

In [53]:
# Ajusto el numero de columnas 
max_cols = len(headers)
clean_df = []

for row in data:
    recortado = row[:max_cols]
    clean_df.append(recortado)

In [54]:
# Creo Data Frame final 
df = pd.DataFrame(clean_df, columns=headers)

In [56]:
df.head()

Unnamed: 0,Case Number,Date,Year,Type,Country,Area,Location,Activity,Name,Sex,...,Species,Investigator or Source,pdf,href formula,href,Case Number.1,Case Number.2,original order,Unnamed: 20,Unnamed: 21
0,2016.09.18.c,18-Sep-16,2016,Unprovoked,USA,Florida,"New Smyrna Beach, Volusia County",Surfing,male,M,...,,"Orlando Sentinel, 9/19/2016",2016.09.18.c-NSB.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2016.09.18.c,2016.09.18.c,5993,,
1,2016.09.18.b,18-Sep-16,2016,Unprovoked,USA,Florida,"New Smyrna Beach, Volusia County",Surfing,Chucky Luciano,M,...,,"Orlando Sentinel, 9/19/2016",2016.09.18.b-Luciano.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2016.09.18.b,2016.09.18.b,5992,,
2,2016.09.18.a,18-Sep-16,2016,Unprovoked,USA,Florida,"New Smyrna Beach, Volusia County",Surfing,male,M,...,,"Orlando Sentinel, 9/19/2016",2016.09.18.a-NSB.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2016.09.18.a,2016.09.18.a,5991,,
3,2016.09.17,17-Sep-16,2016,Unprovoked,AUSTRALIA,Victoria,Thirteenth Beach,Surfing,Rory Angiolella,M,...,,"The Age, 9/18/2016",2016.09.17-Angiolella.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2016.09.17,2016.09.17,5990,,
4,2016.09.15,16-Sep-16,2016,Unprovoked,AUSTRALIA,Victoria,Bells Beach,Surfing,male,M,...,2 m shark,"The Age, 9/16/2016",2016.09.16-BellsBeach.pdf,http://sharkattackfile.net/spreadsheets/pdf_di...,http://sharkattackfile.net/spreadsheets/pdf_di...,2016.09.16,2016.09.15,5989,,


In [58]:
df['Year'] = pd.to_numeric(df['Year'], errors='coerce')

In [59]:
#Conocer la base de datos shape
df.shape

(5685, 24)

In [60]:
#Conocer cuántos registros nulos hay en cada columna isnull().sum()
df.isnull().sum()

Case Number                  0
Date                         2
Year                        10
Type                         2
Country                      2
Area                         2
Location                     2
Activity                     2
Name                         4
Sex                         15
Age                         15
Injury                      15
Fatal (Y/N)                 79
Time                        79
Species                     79
Investigator or Source      91
pdf                       1403
href formula              1406
href                      1406
Case Number               1406
Case Number               1406
original order            1406
                          1406
                          1406
dtype: int64

In [61]:
#Listar las columnas
columnas = list(df.columns)
print(columnas)

['Case Number', 'Date', 'Year', 'Type', 'Country', 'Area', 'Location', 'Activity', 'Name', 'Sex ', 'Age', 'Injury', 'Fatal (Y/N)', 'Time', 'Species ', 'Investigator or Source', 'pdf', 'href formula', 'href', 'Case Number', 'Case Number', 'original order', '', '']


In [None]:
#Comprobamos que hay columnas que tienen espacio en el nombre. 
#Eliminar el espacio de aquellos con la función str.rstrip()

In [None]:
#Seleccionar las columnas necesarias para el estudio:
#Case Number, Country, Area, Date, Year, Location, Activity, 'Injury', 'Fatal (Y/N)'



In [None]:
#Revisar si existen duplicados en la columna 'Case Number' (duplicated)

In [None]:
#Existen 16 'Case Number' duplicados. BORRARLOS

In [None]:
#Comprobar que no hay registros duplicados

In [None]:
#Filtrar el DataFrame solo por la actividad 'Surfing'

In [None]:
#Conocer cuántos ataques a surfistas ha habido

In [None]:
#Conteo de ataques a surfistas por países

In [None]:
#hacer una gráfica con los 5 países con mayor registro de ataques por tiburón.

%matplotlib inline
#surf_df.Country.value_counts().nlargest(5).plot.pie(labels=['.....

In [None]:
#Seleccionar las regiones de la costa oeste de USA. Areas: Alaska, Hawai, California, Oregon y Washington

#surf_west = surf_df.loc[(surf_df.Area.isin(('Alaska'......
surf_west.shape

In [None]:
#Contar ataques de tiburón a surfistas en el resto del mundo

#surf_out = surf_df.loc
surf_out.shape

In [None]:
#Buscar los áreas donde mayor número de ataques se han producido a surfistas

### Florida es el área donde mayor número de ataques a surfistas se han producido.

In [None]:
#Gráfico para saber en qué áreas se producen más ataques a surfistas (graficar lo anterior)

In [None]:
# Guardar los siguientes dataframes en archivos CSV
surf_df.to_
surf_west.to_

In [None]:
#Revisar los ataques que tengan una 'Activity' no registrada (actividad isnull)

### Cerca de 527 ataques no indican cuál fue la 'Activity'

In [None]:
# Comente la siguinete liena de código
shark_df[(shark_df['Activity'] == 'Surfing')]['Injury'].value_counts()

In [None]:
# Interprete los datos anteriores:
#FATAL
#Foot bitten
#Left foot bitten
#No injury, board bitten
#....

In [None]:
# Basados en el grafico de ataques por países, filtrar por costa oeste y costa este,
#cual de las dos presenta menor numero de ataques a surfistas.