In [72]:
import pandas as pd
import plotly.express as px

## Crowdfunding

El *crowdfunding* es un mecanismo para financiar proyectos que consiste en juntar fondos a través de una gran cantidad de personas. Existen diversas formas en las cuales los participantes (o financistas) son compensados, desde un agradecimiento simbólico hasta la posibilidad de disfrutar de los frutos del proyecto. Plataformas online como Kickstarter, Indiegogo y Patreon, entre otras, han popularizado este fenómeno.

En este caso, trabajaremos con datos provenientes de Kickstarter. Esta plataforma usa un modelo de *all-or-nothing*, en donde el creador del proyecto fija una meta (en dinero) y un plazo para cumplirla. Si esta meta se cumple dentro del plazo, el proyecto se queda con el dinero (pagando una comisión a Kickstarter), de lo contrario los participantes o *backers* reciben su dinero de vuelta.

La pregunta que motiva este caso es: ¿Qué proyectos de crowdfunding son más exitosos?

## Base de datos

El archivo `kickstarter.csv` contiene datos de proyectos lanzados en Kickstarter, los cuales fueron recolectados durante el año 2018. Todos estos proyectos tuvieron al menos 50 backers y terminaron en alguno de los siguientes tres estados:

- **Exitoso (successful)**: se llegó la meta antes del plazo.
- **Fallido (failed)**: se cumplió el plazo y no se llegó a la meta.
- **Cancelado (canceled)**: por alguna razón la campaña fue cancelada.

La descripción de las variables en la base de datos es la siguiente:

## `kickstarter.csv`

## Objetivo

El objetivo de cada grupo es proponer qué tipo de campaña de crowdfunding sería conveniente lanzar, a partir de los datos.

Para ello, sigan los siguientes pasos:

1. **Describir la base de datos**. ¿cuántos proyectos hay en la base de datos? ¿qué tipo de variables hay en la base de datos (cuantitativas, cualitativas, ordinales, nominales, de razón, de intervalo)? ¿cómo se distribuyen los datos según las distintas variables? Utilice tablas y/o gráficos.
2. **Definir un criterio**, basado en los datos, para determinar qué hace que un proyecto sea bueno. ¿Cómo cambiaría este criterio si Kickstarter no utilizara el modelo *all-or-nothing*?
3. **Determine el tipo de proyecto para la campaña de crowdfunding que su grupo recomienda**, usando los criterios definidos anteriormente.

In [73]:
#CARGAMOS LA BASE DE DATOS
ks = pd.read_csv("https://github.com/rocarvaj/analitica-descriptiva/raw/main/datos/kickstarter/kickstarter.csv")
ks

Unnamed: 0,ID,name,category,main_category,currency,state,backers,country,usd_pledged_real,usd_goal_real
0,1730140959,Beaconz - The App to Map Everything! (Canceled),Apps,Technology,GBP,canceled,5,GB,8127.18,92424.29
1,1689190720,Character Trait Endorsing Between Friends,Apps,Technology,USD,failed,3,US,35.00,10000.00
2,1719536806,"Project Portal - People helping people, for fr...",Web,Technology,USD,failed,2,US,51.00,1500.00
3,903714362,On the Record - Inside the World of Stenography,Documentary,Film & Video,USD,successful,9,US,15151.10,14900.00
4,166739996,"C Grayson Ponchos, ""Our Fashion is the ART""",Fashion,Fashion,USD,failed,8,US,211.00,30000.00
...,...,...,...,...,...,...,...,...,...,...
95862,313363232,Contour Electric Blue Playing Cards,Playing Cards,Games,USD,successful,106,US,2975.00,2500.00
95863,1863949134,Clash of the Monsters - The Horror Genre Fight...,Video Games,Games,USD,successful,40,US,1722.00,1000.00
95864,1728934253,Dropship Custom LEGO Element Kit,Product Design,Design,USD,successful,67,US,5747.00,3200.00
95865,236314934,Show Dogs: Small business in the Great Lakes r...,Food Trucks,Food,USD,failed,1,US,3.00,9990.00


##1. Describir la base de datos

¿Cuántos proyectos hay en la base de datos?

In [74]:
proyectos= ks['ID'].nunique()
print(f'La cantidad de proyectos en la base de datos es de {proyectos}')

La cantidad de proyectos en la base de datos es de 95867


In [75]:
proyectos= ks['name'].nunique()
print(f'La cantidad de proyectos en la base de datos es de {proyectos}')

La cantidad de proyectos en la base de datos es de 95646


¿Qué tipo de variables hay en la base de datos(cuantitativas, cualitativas, ordinales, nomidales, de razón, de internvalo?

* **ID**: Variable cualitativa nominal, valores numéricos unicos que representan el identificador para cada proyecto.
* **name**: Variable cualitativa nominal, nombre del proyecto.
* **category**: Variable cualitativa nominal, describe la categoría especifica del proyecto o subcategoría.
* **main_category**: Variable cualitativa nominal, describe la categoria global o principal del proyecto.
* **currency**: Variable cualitativa nominal, es la Moneda en la que los fondos fueron recolectados 
* **state**: Variable cualitativa nominal, estado de proyecto.
* **backers**:Variable cuantitativa de razón, es el número de backers o participantes del proyecto.
* **country**: Variable cualitativa nominal, país del proyecto.
* **usd_pledged_real**: Variable cuantitativa de razón, Monto total reunido en USD.
* **usd_goal_real**: Variable cuantitativa de razón, Meta en USD de la campaña.

¿Cómo se distribuyen los datos según las distintas variables? Utilice tablas y/o gráficos.

**Gráfico variable "main_category"**
> Cantidad de proyectos para las 15 categorias globales

> En la siguiente tabla también se puede ver la cantidad de proyectos que hay en cada subcategoría.



In [76]:
proyectos_maincategory= pd.pivot_table(ks, 
               index=["main_category"], 
               values="ID", 
               aggfunc="count")
proyectos_maincategory=proyectos_maincategory.reset_index()
proyectos_maincategory

Unnamed: 0,main_category,ID
0,Art,7122
1,Comics,3074
2,Crafts,2087
3,Dance,996
4,Design,8294
5,Fashion,5517
6,Film & Video,15930
7,Food,6019
8,Games,9695
9,Journalism,1056


In [106]:
fig_proyectos_maincategory = px.bar(proyectos_maincategory,
            x = 'main_category',
            y = 'ID',
            title= 'Cantidad de proyectos para las 15 categorias globales',
            text_auto = True)
fig_proyectos_maincategory = fig_proyectos_maincategory.update_xaxes(categoryorder = 'total descending')
fig_proyectos_maincategory

**Gráfico variable "category"**
> 1. Cantidad de proyectos para las 170 categorias especificas dentro de las 15 categorias globales

> 2. Mayor cantidad de proyectos de cada categoria especifica para cada categoría global.

In [78]:
#1 Cantidad de proyectos para las 170 categorias especificas dentro de las 15 categorias globales
proyectos_categoria=pd.pivot_table(ks, 
               index=["main_category","category"], 
               values="ID", 
               aggfunc="count")
proyectos_categoria=proyectos_categoria.reset_index()
proyectos_categoria

Unnamed: 0,main_category,category,ID
0,Art,Art,2099
1,Art,Ceramics,71
2,Art,Conceptual Art,260
3,Art,Digital Art,315
4,Art,Illustration,852
...,...,...,...
165,Theater,Immersive,83
166,Theater,Musical,236
167,Theater,Plays,370
168,Theater,Spaces,61


In [105]:
fig_proyectos_categoria = px.bar(proyectos_categoria,
            x = 'category',
            y = 'ID',
            color = 'main_category',
            title='Cantidad de proyectos para las categorias especificas dentro de las categorias globales',
            text_auto = True)
fig_proyectos_categoria

In [80]:
#2 Mayor cantidad de proyectos de cada categoria especifica para cada categoría global.
max_category = proyectos_categoria.groupby('main_category')['ID'].idxmax()

In [81]:
category_max = proyectos_categoria.loc[max_category, ['main_category', 'category', 'ID']]
category_max

Unnamed: 0,main_category,category,ID
0,Art,Art,2099
15,Comics,Comics,1447
20,Crafts,Crafts,1130
34,Dance,Dance,636
44,Design,Product Design,6200
50,Fashion,Fashion,2176
58,Film & Video,Documentary,4185
82,Food,Food,2921
94,Games,Tabletop Games,4079
97,Journalism,Journalism,434


In [103]:
fig_proyectos_categoria_max = px.bar(category_max,
            x = 'category',
            y = 'ID',
            color = 'main_category',
            title='Mayor cantidad de proyectos de cada categoria especifica para cada categoría global',
            text_auto = True)
fig_proyectos_categoria_max=fig_proyectos_categoria_max.update_xaxes(categoryorder = 'total descending')
fig_proyectos_categoria_max

**Gráfico variable "country"**
> Distribución de los proyectos por país



In [83]:
proyectos_pais= pd.pivot_table(ks, 
               index=["country"], 
               values="ID", 
               aggfunc="count")
proyectos_pais=proyectos_pais.reset_index()
proyectos_pais

Unnamed: 0,country,ID
0,AT,140
1,AU,1793
2,BE,149
3,CA,3589
4,CH,192
5,DE,1042
6,DK,272
7,ES,503
8,FR,756
9,GB,8534


In [108]:
fig_proyectos_pais = px.bar(proyectos_pais,
            x = 'country',
            y = 'ID',
            title='Cantidad de proyectos por país',
            text_auto = True)
fig_proyectos_pais = fig_proyectos_pais.update_xaxes(categoryorder = 'total descending')
fig_proyectos_pais

**Gráfico variable "currency"**


> Cantidad de proyectos por moneda



In [85]:
proyectos_moneda= pd.pivot_table(ks, 
               index=["currency"], 
               values="ID", 
               aggfunc="count")
proyectos_moneda=proyectos_moneda.reset_index()
proyectos_moneda

Unnamed: 0,currency,ID
0,AUD,1793
1,CAD,3589
2,CHF,192
3,DKK,272
4,EUR,4076
5,GBP,8534
6,HKD,160
7,JPY,11
8,MXN,394
9,NOK,175


In [109]:
fig_proyectos_moneda= px.bar(proyectos_moneda,
       x = 'currency',
       y = 'ID',
       title='Cantidad de proyectos por moneda',
       text_auto = True)
fig_proyectos_moneda = fig_proyectos_moneda.update_xaxes(categoryorder = 'total descending')
fig_proyectos_moneda

**Gráfico variable "state"**


> 1. Cantidad de proyectos según su estado.

> 2. Cantidad de proyectos en cada estado para cada categoría global.





In [112]:
#1. Cantidad de proyectos según su estado
proyectos_estado= pd.pivot_table(ks, 
               index=["state"], 
               values="ID", 
               aggfunc="count")
proyectos_estado=proyectos_estado.reset_index()
proyectos_estado

Unnamed: 0,state,ID
0,canceled,7876
1,failed,47875
2,successful,40116


In [110]:
fig_proyectos_estado = px.bar(proyectos_estado,
            x = 'state',
            y = 'ID',
            title='Cantidad de proyectos según su estado',
            text_auto = True)
fig_proyectos_estado = fig_proyectos_estado.update_xaxes(categoryorder = 'total descending')
fig_proyectos_estado

In [113]:
#2 cantidad de proyectos en cada estado para cada categoría global
proyectos_estado_category= pd.pivot_table(ks, 
               index=["main_category","state"], 
               values="ID", 
               aggfunc="count")
proyectos_estado_category=proyectos_estado_category.reset_index()
proyectos_estado_category

Unnamed: 0,main_category,state,ID
0,Art,canceled,382
1,Art,failed,3312
2,Art,successful,3428
3,Comics,canceled,191
4,Comics,failed,1118
5,Comics,successful,1765
6,Crafts,canceled,147
7,Crafts,failed,1286
8,Crafts,successful,654
9,Dance,canceled,30


In [115]:
fig_proyectos_estado_category = px.bar(proyectos_estado_category,
            x = 'main_category',
            y = 'ID',
            color = 'state',
            title='Cantidad de proyectos en cada estado para cada categoría global',
            text_auto = True)
fig_proyectos_estado_category

In [116]:
fig_proyectos_estado_category_2 = px.histogram(proyectos_estado_category,
            x = 'main_category',
            y = 'ID',
            color = 'state',
            barnorm='fraction',
            title='Cantidad de proyectos en cada estado para cada categoría global',
            text_auto = True)
fig_proyectos_estado_category_2

**Gráfico variable "backers"**


> 1. Cantidad total de participantes en cada categoría global o principal.


> 2. Mayor cantidad de participantes en un proyecto de cada categoría global o principal





In [92]:
suma_participantes= ks['backers'].sum()
suma_participantes


11537465

In [124]:
#1 Cantidad total de participantes en cada categoría global o principal.
participantes = pd.pivot_table(ks, 
               index=["main_category"],
               values="backers", 
               aggfunc="sum")

participantes = participantes.reset_index()
participantes

#se puede ver la cantidad de participantes que hay en cada categoría especifica. 

Unnamed: 0,main_category,backers
0,Art,328606
1,Comics,402623
2,Crafts,82480
3,Dance,45402
4,Design,2013237
5,Fashion,436374
6,Film & Video,1298521
7,Food,365814
8,Games,3131197
9,Journalism,48235


In [118]:
graf_cant_participantes = px.histogram(participantes,
            x = "main_category",
            y = "backers",
            title='Cantidad total de participantes en cada categoría global o principal',
            text_auto = True)
graf_cant_participantes = graf_cant_participantes.update_xaxes(categoryorder = 'total descending')
graf_cant_participantes

In [123]:
#2 Mayor cantidad de participantes en un proyecto de cada categoría global o principal
max_participantes = ks.groupby('main_category')['backers'].idxmax()

In [120]:
participantes_max = ks.loc[max_participantes, ['main_category', 'backers']]
participantes_max

Unnamed: 0,main_category,backers
5973,Art,3290
84768,Comics,6466
66548,Crafts,12705
30350,Dance,863
41875,Design,44949
30657,Fashion,13642
67718,Film & Video,91585
81044,Food,9293
66996,Games,73206
32440,Journalism,1951


In [122]:
fig_max_participantes = px.bar(participantes_max,
            x = 'main_category',
            y = 'backers',
            title='Mayor cantidad de participantes en un proyecto de cada categoría global o principal',
            text_auto = True)
fig_max_participantes=fig_max_participantes.update_xaxes(categoryorder = 'total descending')
fig_max_participantes

**Gráfico variable "usd_pledged_real"**

In [95]:
montoganado_proyecto = pd.pivot_table(ks, 
               index="main_category",
               values="usd_pledged_real", 
               aggfunc="sum")
 
montoganado_proyecto = montoganado_proyecto.reset_index()
montoganado_proyecto

Unnamed: 0,main_category,usd_pledged_real
0,Art,27011270.0
1,Comics,19169940.0
2,Crafts,4721591.0
3,Dance,3823008.0
4,Design,207863800.0
5,Fashion,41612550.0
6,Film & Video,120757400.0
7,Food,35400980.0
8,Games,211199500.0
9,Journalism,3315122.0


In [96]:
graf_montoporproyecto = px.histogram(montoganado_proyecto,
            x = "main_category",
            y = "usd_pledged_real",
            text_auto = True)
graf_montoporproyecto = graf_montoporproyecto.update_xaxes(categoryorder = 'total descending')
graf_montoporproyecto

**Gráfico variable "usd_goal_real"**

In [97]:
ks["monto_meta"] = ks['usd_pledged_real'] - ks['usd_goal_real']

def clasificar_diferencia(monto_meta):
    if monto_meta > 0:
        return 'Sí'
    else:
        return 'No'

ks['clasificacion'] = ks['monto_meta'].apply(clasificar_diferencia)

ks

Unnamed: 0,ID,name,category,main_category,currency,state,backers,country,usd_pledged_real,usd_goal_real,monto_meta,clasificacion
0,1730140959,Beaconz - The App to Map Everything! (Canceled),Apps,Technology,GBP,canceled,5,GB,8127.18,92424.29,-84297.11,No
1,1689190720,Character Trait Endorsing Between Friends,Apps,Technology,USD,failed,3,US,35.00,10000.00,-9965.00,No
2,1719536806,"Project Portal - People helping people, for fr...",Web,Technology,USD,failed,2,US,51.00,1500.00,-1449.00,No
3,903714362,On the Record - Inside the World of Stenography,Documentary,Film & Video,USD,successful,9,US,15151.10,14900.00,251.10,Sí
4,166739996,"C Grayson Ponchos, ""Our Fashion is the ART""",Fashion,Fashion,USD,failed,8,US,211.00,30000.00,-29789.00,No
...,...,...,...,...,...,...,...,...,...,...,...,...
95862,313363232,Contour Electric Blue Playing Cards,Playing Cards,Games,USD,successful,106,US,2975.00,2500.00,475.00,Sí
95863,1863949134,Clash of the Monsters - The Horror Genre Fight...,Video Games,Games,USD,successful,40,US,1722.00,1000.00,722.00,Sí
95864,1728934253,Dropship Custom LEGO Element Kit,Product Design,Design,USD,successful,67,US,5747.00,3200.00,2547.00,Sí
95865,236314934,Show Dogs: Small business in the Great Lakes r...,Food Trucks,Food,USD,failed,1,US,3.00,9990.00,-9987.00,No


In [98]:
meta_real_proyecto= pd.pivot_table(ks, 
               index=["main_category","clasificacion"], 
               values="ID", 
               aggfunc="count")
meta_real_proyecto=meta_real_proyecto.reset_index()
meta_real_proyecto

Unnamed: 0,main_category,clasificacion,ID
0,Art,No,3818
1,Art,Sí,3304
2,Comics,No,1322
3,Comics,Sí,1752
4,Crafts,No,1450
5,Crafts,Sí,637
6,Dance,No,363
7,Dance,Sí,633
8,Design,No,5143
9,Design,Sí,3151


In [99]:
graf_clas_montorealproyecto = px.histogram(meta_real_proyecto,
            x = 'main_category',
            y = 'ID',
            color = 'clasificacion',
            text_auto = True)
graf_clas_montorealproyecto

In [100]:
#Cuantitativas = histograma, box plot. si hay sesgo, etc
#Cualitativas = de barras, conteo.

##2. Definir un criterio

Basado en los datos, para determinar qué hace que un proyecto sea bueno. ¿Cómo cambiaría este criterio si Kickstarter no utilizara el modelo all-or-nothing?

In [101]:
#Criterio basico = si es exitoso es bueno
#Otro criterio = exitoso, proyectos que junten mucha plata
#Otro criterio = juntan mucha plata pero se pusieron una meta mas alta, entonces con respecto a su meta
#Otro criterio = numero de personas que aportan al proyecto (# de buckers)
# cuanta plata pone un bucket en promedio
#Hay algunas personas que no son realistas con la meta de plata, y algunos se llevan la plata.

In [102]:
#Modelo all or nothing = la plata que juntes te la doy, ahí cambia el criterio. 

##3. Determine el tipo de proyecto
Para la campaña de crowdfunding que su grupo recomienda, usando los criterios definidos anteriormente.