# 16 • Asking for help
*Cómo preguntar para obtener ayuda en Stack Overflow*

Como *Data Scientists* es común utilizar distintos programas para realizar análisis y modelos, como R y Python.

Durante la programación es común encontrarnos con un problema en el que requiramos ayuda de la comunidad, por ejemplo, cuando utilizamos una librería que no habíamos usado en el pasado.

Ante esta situación, existen páginas en el web como *Stack Overflow* donde podemos buscar una pregunta similar en la que se haya respondido nuestro problema; sin embargo, no siempre nos encontramos con alguna consulta que cumpla con nuestras expectativas y responda a nuestras preguntas, por lo que es importante saber plantear la pregunta adecuada para obtener una respuesta para resolver nuestras dudas.

Ante una comunidad creciente en ciencia de datos, y un número limitado de expertos en el software libre, como Python y R, donde es posible que los mismos desarrolladores de las librerías contesten a sus preguntas, es importante saber cómo estructurar sus preguntas de manera clara y concisa. Se recomienda que en caso de incluir código en sus preguntas éste tenga las siguientes características:

- **mínimo**, usar el menor código posible que sirva para producir el problema,  
- **completo**, comaprtir todas las partes necesarias para reproducir el problema de la pregunta, y
- **reproducible**, probar el código exacto para que el problema sea reproducible por otras personas.

## Contenido
1. Mínimo  
2. Completo  
3. Reproducible  
4. Referencias  

## 1. Mínimo
En una pregunta, entre más código añadas, será más difícil que alguien más pueda detectar el error. Se recomienda crear un programa desde cero, añadiendo lo necesario para reproducir el problema. Tratar de que el ejemplo sea simple, usando nombre descriptivo para las variables y/o funciones. 

⚠️ Es importante tener cuidado en no sacrificar claridad por brevedad.

## 2. Completo
Inlcuir toda la información necesaria para reproducir el problema de nuestra pregunta central.

En la pregunta, el código se deberá poner en bloques que incluyan una descripción sobre su objetivo.

Es importante NO usar imágenes del código, sino copiarlo y pegarlo desde tu editor. Esto servirá a quienes te quieran ayudar para leer y probar el código.

## 3. Reproducible
Para ayudar a otros a resolver el problema:

### 3.1. Descríbelo
En la pregunta se deberá describir el problema lo suficiente para que otras personas puedan entenderlo y saber el resultado que se espera obtener.

Hay que escribir exactamente el error/mensaje que recibimos al correr el código.

Además, el título de la pregunta debe resumir de forma breve y descriptiva el problema.

### 3.2. Elimina lo irrelevante
Elimina cualquier asunto que no sea relevante en el problema.

### 3.3. Que tus datos sean reproducibles
Para que el código sea reproducible, el primer paso es garantizar que los datos sean los mismos para reproducir el ejemplo.

📌Una manera de hacerlo es utilizando una _semilla_ para generar datos aleatorios:

In [1]:
# importar librería `random`
import random

In [3]:
# función que genera números enteros aleatorios entre 0 y 100
def genera_aleatorios(n=3):
    my_list = list()
    for i in range(1,n+1):
        my_list.append(random.randrange(0,101))
    return my_list

In [10]:
# genera cuatro aleatorios
genera_aleatorios(4)

[100, 60, 98, 85]

In [21]:
# genera aleatorios usando una semilla para hacerlo reproducible
random.seed(10_000)
genera_aleatorios(4)

[73, 97, 38, 4]

📌 Una alternativa es utilizando una base de datos existente y utilizada, que se pueda accesar fácilmente. Por ejemplo: `iris`, `mtcars` o `titanic`.

In [22]:
# importar librería `vega_datasets`
from vega_datasets import data

In [29]:
# data
data.iris()

Unnamed: 0,sepalLength,sepalWidth,petalLength,petalWidth,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [30]:
# description of the data
data.iris.description

'This classic dataset contains lengths and widths of petals and sepals for 150 iris flowers, drawn from three species. It was introduced by R.A. Fisher in 1936 [1]_.'

📌 Una tercer opción es buscar la base de datos en algún medio como Kaggle o compartirla nosotros en GitHub o Dropbox, por ejemplo:

In [31]:
# importar librería `pandas`
import pandas as pd

In [32]:
# Consultar base de datos sobre fraudes compartida por Raúl Castro en GitHub
pd.read_csv("https://raw.githubusercontent.com/JoseRaulCastro/EBAC/main/Fraude.csv")

Unnamed: 0,ID,Reembolso,EdoCivil,Ingresos,Fraude
0,1,Sí,Soltero,125000,No
1,2,No,Casado,100000,No
2,3,No,Soltero,70000,No
3,4,Sí,Casado,120000,No
4,5,No,Divorciado,95000,Sí
5,6,No,Casado,60000,No
6,7,Sí,Divorciado,220000,No
7,8,No,Soltero,85000,Sí
8,9,No,Casado,75000,No
9,10,No,Soltero,90000,Sí


### 3.4. Que tu código sea reproducible
Además de conciso, el el código necesita ser reproducible. Como se dijo anteriormente, se deben usar el mínimo número de líneas cuidando que no sacrificar claridad por brevedad, explicando bien el punto donde se reproduce el error para que cualquier persona pueda obtener el mismo error desde su computadora corriendo las mismas líneas.

En este punto es importante incluir las librerías que utilizamos.

Una vez escrita la pregunta, corre el código para verificar que éste reproduce el error. Si se solucionó el problema, querrás saberlo antes de pedir ayuda a alguien más.

🚫 Un **mal** ejemplo de pregunta:

> Hello, I have a table and am trying to subtract two dates, but
it's not working.  
> 
> I tried
>
> ```
> df.Date1 - df.Date2   # nota de profe, es lo mismo que: df["Date1"] - df["Date2"]
> ```
> <br>
> but it doesn't work. Can anyone help? 


✅ Un buen ejemplo sería:

> Hello, 
> I have a pandas dataFrame and am trying to subtract two columns with dates,
> but it's not working.
>
> I am pasting the data of my DataFrame object:
>
> ```
> #My pandas DataFrame
> import numpy as np
> import pandas as pd
>
> myData = {"id":range(1,6),
>           "Date1":("1997-07-14", "1997-10-24", "1997-10-26", "1998-08-21", "1998-12-31"),
>           "Date2":("1997-07-29", "1997-09-21", "1998-05-06", "1998-07-24", "1999-10-22")}
> df = pd.DataFrame(myData)
> ```
> <br>
> Now, when I run the command that I think it should work...
>
> ```
> df.Date1 - df.Date2
> ```
> <br>
> ...I got the following error:
>
> __TypeError: unsupported operand type(s) for -: 'str' and 'str'__
> <br>
> <br>
> What is going on?  

Nota: este ejemplo fue adaptado de R a Python del ejemplo presentado por [Erik (2011)](https://www.r-bloggers.com/2011/01/three-tips-for-posting-good-questions-to-r-help-and-stack-overflow/) en R-bloggers.

In [35]:
# En esta celda reproducimos el ejemplo:

import numpy as np
import pandas as pd

myData = {"id":range(1,6),
          "Date1":("1997-07-14", "1997-10-24", "1997-10-26", "1998-08-21", "1998-12-31"),
          "Date2":("1997-07-29", "1997-09-21", "1998-05-06", "1998-07-24", "1999-10-22")}

myData

{'id': range(1, 6),
 'Date1': ('1997-07-14',
  '1997-10-24',
  '1997-10-26',
  '1998-08-21',
  '1998-12-31'),
 'Date2': ('1997-07-29',
  '1997-09-21',
  '1998-05-06',
  '1998-07-24',
  '1999-10-22')}

In [36]:
# el dataframe
df = pd.DataFrame(myData)
df

Unnamed: 0,id,Date1,Date2
0,1,1997-07-14,1997-07-29
1,2,1997-10-24,1997-09-21
2,3,1997-10-26,1998-05-06
3,4,1998-08-21,1998-07-24
4,5,1998-12-31,1999-10-22


In [37]:
# The command that I think it should work, but return me an error:
df.Date1 - df.Date2

TypeError: unsupported operand type(s) for -: 'str' and 'str'

## 4. Referencias

- Erik. (2011). ["Three tips for posting good questions to R-help and Stack Overflow"](https://www.r-bloggers.com/2011/01/three-tips-for-posting-good-questions-to-r-help-and-stack-overflow/). R-bloggers.

- Stack Overflow. (2022). ["How to create a Minimal, Complete, and Verifiable example"](https://stackoverflow.com/help/minimal-reproducible-example). 

- UBC-MDS. (2019). [DSCI 521: Computing Platforms for Data Science](https://github.com/UBC-MDS/DSCI_521_platforms-dsci). UBC-MDS public material.