Vamos a aplicar el [checklist del Banco Mundial](https://dimewiki.worldbank.org/wiki/Checklist:_Data_Cleaning) en Python usando el [SciPy stack](https://www.scipy.org/stackspec.html), principalmente pandas

## 0. Prerequisitos

Aclaración: La próxima celda es para compatilibidad con Colab, NO ES RECOMENDADO realizar pip install desde un notebook.

In [1]:
import sys
in_colab = 'google.colab' in sys.modules

if in_colab:
  BASE_DIR = "https://github.com/DiploDatos/AnalisisYCuracion/raw/master/"
else:
  BASE_DIR = ".."
if 'ftfy' not in sys.modules:
    !pip install 'ftfy<5.6'

The system cannot find the file specified.


# 1. Importando los datos

# 1.1. Verificar que no hay problemas en la importación

In [2]:
import pandas as pd
pd.options.display.float_format = '{:.2f}'.format

# 1.2. Asegurar de tener ids/claves únicas

Pandas soporta índices en los DataFrames vamos a recargar el conjunto de datos

In [3]:
kickstarter_2018 = pd.read_csv(BASE_DIR + "/input/kickstarter-projects/ks-projects-201801.csv", 
                               parse_dates=["deadline","launched"],
                               index_col=['ID'])

#### Ejercicio 1:

Armar una tabla con todos los proyectos con nombres duplicados, ordenados para revisar agrupados. 

In [4]:
duplicated = kickstarter_2018[kickstarter_2018.name.duplicated(keep=False)].sort_values(['name'])
duplicated

Unnamed: 0_level_0,name,category,main_category,currency,deadline,goal,launched,pledged,state,backers,country,usd pledged,usd_pledged_real,usd_goal_real
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
816998285,"""...The Last shall be first..."" LODB Lifestyle...",Fashion,Fashion,USD,2014-02-09,6500.00,2013-12-19 21:51:50,0.00,canceled,0,US,0.00,0.00,6500.00
815783250,"""...The Last shall be first..."" LODB Lifestyle...",Fashion,Fashion,USD,2014-03-01,6500.00,2014-01-03 20:39:16,37.00,failed,3,US,37.00,37.00,6500.00
1010584633,"""A Fresh Start""",Shorts,Film & Video,USD,2011-09-25,3000.00,2011-08-28 21:27:52,3000.00,successful,24,US,3000.00,3000.00,3000.00
713417995,"""A Fresh Start""",Documentary,Film & Video,USD,2013-03-27,5000.00,2013-01-26 03:51:47,1417.00,failed,26,US,1417.00,1417.00,5000.00
1880084695,"""American Sports Stories"" - An Athletic Quest",Shorts,Film & Video,USD,2015-08-26,100000.00,2015-06-27 02:02:00,100.00,failed,1,US,100.00,100.00,100000.00
422509694,"""American Sports Stories"" - An Athletic Quest",Television,Film & Video,USD,2017-05-14,100000.00,2017-04-14 00:08:52,1.00,failed,1,US,25.00,1.00,100000.00
866225086,"""City of Mercy"" (Canceled)",Film & Video,Film & Video,USD,2015-02-26,20000.00,2015-01-27 19:30:43,7248.00,canceled,9,US,7248.00,7248.00,20000.00
1760892298,"""City of Mercy"" (Canceled)",Television,Film & Video,USD,2014-08-28,15000.00,2014-07-29 13:12:21,11260.00,canceled,7,US,11260.00,11260.00,15000.00
1999958521,"""Color"" Music Video",Film & Video,Film & Video,USD,2016-06-06,5000.00,2016-05-07 01:56:36,0.00,canceled,0,"N,0""",,0.00,5000.00
870322805,"""Color"" Music Video",Music,Music,USD,2015-09-16,1100.00,2015-09-02 00:03:02,1100.00,undefined,0,"N,0""",,1100.00,1100.00


# 1.3. Despersonalizar datos y guardarlos en un nuevo archivo

#### Ejercicio 2:

Verificar que los proyectos que tienen nombres duplicados también tienen el hash de nombre duplicado

In [5]:
from hashlib import md5
kickstarter_2018['name']=str(kickstarter_2018['name'])
def hashit(val):
    return md5(val.encode('utf-8'))

kickstarter_2018['name'].apply(hashit)
duplicated = kickstarter_2018[kickstarter_2018.name.duplicated(keep=False)].sort_values(['name'])

In [6]:
original_count = duplicated.shape[0]
duplicated['name_hash']=duplicated['name'].apply(hashit)
duplicated_count=duplicated[['name', 'name_hash']].duplicated().shape[0]
original_count, duplicated_count

(378661, 378661)

# 1.4. Nunca modificar los datos crudos u originales


In [7]:
import os
if not os.path.exists(BASE_DIR + "/output/"):
    os.makedirs(BASE_DIR + "/output/")

In [8]:
if not in_colab:
  kickstarter_2018.to_csv(BASE_DIR + "/output/ks-projects-201801-for-pandas.csv")


# 2. Pasos necesarios


In [9]:
#import pandas as pd
if not in_colab:
  kickstarter_2018 = pd.read_csv(BASE_DIR + "/output/ks-projects-201801-for-pandas.csv",
                        index_col='ID',
                        parse_dates=['deadline','launched'])

In [10]:
kickstarter_2018.describe(include='all')

Unnamed: 0,name,category,main_category,currency,deadline,goal,launched,pledged,state,backers,country,usd pledged,usd_pledged_real,usd_goal_real
count,378661,378661,378661,378661,378661,378661.0,378661,378661.0,378661,378661.0,378661,374864.0,378661.0,378661.0
unique,1,159,15,14,3164,,378089,,6,,23,,,
top,ID\n1000002330 The Songs ...,Product Design,Film & Video,USD,2014-08-08 00:00:00,,1970-01-01 01:00:00,,failed,,US,,,
freq,378661,22314,63585,295365,705,,7,,197719,,292627,,,
first,,,,,2009-05-03 00:00:00,,1970-01-01 01:00:00,,,,,,,
last,,,,,2018-03-03 00:00:00,,2018-01-02 15:02:31,,,,,,,
mean,,,,,,49080.79,,9682.98,,105.62,,7036.73,9058.92,45454.4
std,,,,,,1183391.26,,95636.01,,907.19,,78639.75,90973.34,1152950.06
min,,,,,,0.01,,0.0,,0.0,,0.0,0.0,0.01
25%,,,,,,2000.0,,30.0,,2.0,,16.98,31.0,2000.0


## 2.1. Etiquetas de variables/columnas: no usar caracteres especiales



In [11]:
# helpful character encoding module
import chardet

¿Por qué? Por que aun hay limitaciones para trabajar con estos caracteres.

¿Cúales son los caracteres "normales"? 

In [12]:
import string

string.ascii_letters + string.digits

'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789'

#### Ejercicio 3

Comparar la cantidad de nombres raros en kickstarter_2018 con la que obtenemos al cargar 'ks-projects-201801.csv' con encoding iso-8859-1.

In [13]:
import ftfy.badness as bad

def weird(val):
    if isinstance(val, float): 
        return 0
    return bad.sequence_weirdness(val)

kickstarter_2018w = pd.read_csv(BASE_DIR + "/input/kickstarter-projects/ks-projects-201801.csv", encoding='iso-8859-1')
kickstarter_2018w['name_weirdness'] = kickstarter_2018w['name'].apply(weird)
kickstarter_2018w[kickstarter_2018w['name_weirdness'] > 1]['name_weirdness'].count()

ModuleNotFoundError: No module named 'ftfy'

## 2.3. Codificar variables

Para trabajar con los algoritmos de aprendizaje automático, las variables categóricas estas deben ser codificadas como variables numéricas, no como cadenas.

Para esta tarea también hay diferentes estrategias, dos comunes son: asociar cadena a número y asociar cadena a columna.

In [None]:
from sklearn import preprocessing

#### Ejercicio 4

Codificar `currency` con ambas estrategias

In [None]:
column='currency'
# Create a label (category) encoder object
le = preprocessing.LabelEncoder()
# Fit the encoder to the pandas column
le.fit(kickstarter_2018[column])
kickstarter_2018['coded_currency'] = le.transform(kickstarter_2018[column]) 
kickstarter_2018.head()

In [None]:
from sklearn.preprocessing import LabelBinarizer
lb = LabelBinarizer()

lb_results = lb.fit_transform(kickstarter_2018[column])
pd.DataFrame(lb_results, columns=((column + '_') + pd.Series(lb.classes_))).head(10)

## 2.4. No cambiar los nombres de las variables de la fuente de origen


## 2.5. Verificar la consistencia de las variables
Aplicar reglas de integridad


#### Ejercicio 5

1. ¿Hay proyecto éxitosos que no consiguieron el objetivo? Si hay, ¿Qué porcentaje sí y cuál no?
2. Calcular una tabla con la cantidad de proyectos por categoría principal y estado.

In [None]:
kickstarter_2018.columns = kickstarter_2018.columns.str.replace(' ', '_')

exitosos = kickstarter_2018[kickstarter_2018['state'] == 'successful']
cant_exitosos = exitosos.shape[0]
no_objetivo = kickstarter_2018[kickstarter_2018['usd_pledged'] < kickstarter_2018['usd_goal_real']]
cant_no_objetivo = no_objetivo.shape[0]
(cant_no_objetivo * 100) / cant_exitosos
"Porcentaje de proyectos exitosos que no alcanzaron el objetivo: {:.1%}".format(cant_exitosos / cant_no_objetivo)
"Porcentaje de proyectos exitosos que alcanzaron el objetivo: {:.1%}".format(1- (cant_exitosos / cant_no_objetivo))

In [None]:
"Porcentaje de proyectos exitosos que alcanzaron el objetivo: {:.1%}".format(1- (cant_exitosos / cant_no_objetivo))

In [None]:
kickstarter_2018.pivot_table(aggfunc=len,index='state',columns='main_category')

## 2.6. Identificar y documentar valores atípicos/outliers


#### Ejercicio 6

Calcular los valores atípicos de 'usd_goal_real' y graficar los boxplots, con y sin estos valores por categoría

In [None]:
import seaborn
import matplotlib.pyplot as plt
plt.figure(figsize=(15,6))
seaborn.boxplot(data=kickstarter_2018, x='main_category', y='usd_goal_real');

In [None]:
filter = kickstarter_2018['usd_goal_real'] < 50000
filtered = kickstarter_2018[filter]
plt.figure(figsize=(15,6))
seaborn.boxplot(data=filtered, x='main_category', y='usd_goal_real');