# Introducción al Análisis Exploratorio de Datos con Pandas

Es un enfoque que comprende un conjunto de tareas para analizar conjuntos de datos para poder encontrar sus principales caracteristicas.

Estas tareas en general comprenden todo lo que tenemos que hacer desde que se formula una pregunta interesante, se reunen los datos y se desarrolla el proceso necesario para **poder responder esa pregunta**.

Su Objetivo es:

- Entender los datos.
- Ver caracteristicas de los datos.
- Detectar irregularidades (outliers) de los datos.
- Obtener valores estadisticos de los datos.
- Realizar visualizaciones rapidas que faciliten el proceso de exploracion.

Usualmente el resultado del mismo suele ser un reporte o un notebook, que reune codigo y visualizaciones para llegar a ciertas **conclusiones o insights**.

Es un proceso iterativo, que se retroalimenta.

En general realizaremos el análisis del mismo sobre uno o varios Dataframes.

## Temario

Estos son algunos de los temas que intentaremos revisar a lo largo del analisis propuesto

- Carga de informacion en un DataFrame
- Analizando propiedades especificas del set de datos
- Analizando utilizacion de memoria del dataframe
- Conversion de Datos y mejoras en uso de memoria
- Verificacion de Calidad de Datos
- Manejo de valores nulos
- Manipulando el Data Frame
   - Anatomia de un Data Frame
   - Manejo de Indices
   - Joins
   - Agrupamiento (Group By) para: 
       - Agregacion (agg)
       - Filtrado (filter)
       - Transformacion (transform y apply).


- Visualizaciones
    - Examinando la distribucion de una variables
        - Histograma
        - Density Plot
    - Explorando relacion entre variables
        - Overlaid Histogram
        - Scatter Plot
        - Heatmap
    - Comparando Grupos o categorias
        - Bar Plot
        - Grouped Bar Plot
        - Box Plot
    - Recomendaciones generales para visualizacion

In [327]:
# importacion general de librerias y de visualizacion (matplotlib y seaborn)
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

plt.style.use('default') # haciendo los graficos un poco mas bonitos en matplotlib
#plt.rcParams['figure.figsize'] = (20, 10)

sns.set(style="whitegrid") # seteando tipo de grid en seaborn

pd.options.display.float_format = '{:20,.2f}'.format # suprimimos la notacion cientifica en los outputs

import warnings
warnings.filterwarnings('ignore')

## Analisis Exploratorio de Datos: Kickstarter Projects

Para comenzar a trabajar en la distintas operaciones que podemos realizar con un data frame vamos a trabajar con el siguiente set de datos:

[https://www.kaggle.com/kemical/kickstarter-projects/data](https://www.kaggle.com/kemical/kickstarter-projects/data)

Este set de datos posee informacion de unos 300000 proyectos de Kickstarter, la popular plataforma de Crowdsourcing. Nuestro objetivo será realizar un análisis exploratorio sobre esa información, para intentar obtener algunos insights de de la misma.

En particular el dataset tiene dos archivos, uno con informacion parcial recopilada anteriormente y uno con informacion hasta inicios del 2018 (con el que estaremos trabajando).

**Nota:** para aquellos que quieran realizar analisis de los datos anteriores tener en cuenta que el formato de encoding se encuentra en 'Western(windows 1252)' por lo que al realizar la carga con read_csv hay que indicar el encoding como ```encoding='cp1252'```

### Carga de Informacion en un Dataframe

Pandas soporta distintas fuentes de informacion en distintos formatos (desde archivos de csv, excel, hasta fuentes remotas como urls o bases de datos, etc.). En este caso vamos a cargar la informacion desde un CSV que hemos descargado previamente de kaggle. Esto lo podemos hacer con pandas con ```read_csv```. 

Inicialmente podremos ver parte del data frame para tener idea de la estructura del mismo.

In [329]:
# %timeit sirve para evaluar el tiempo de ejecucion
projects_2017 = pd.read_csv('../data/kickstarter-projects/ks-projects-201801.csv')
projects_2017.head()
#projects_2017

Unnamed: 0,ID,name,category,main_category,currency,deadline,goal,launched,pledged,state,backers,country,usd pledged,usd_pledged_real,usd_goal_real
0,1000002330,The Songs of Adelaide & Abullah,Poetry,Publishing,GBP,2015-10-09,1000.0,2015-08-11 12:12:28,0.0,failed,0,GB,0.0,0.0,1533.95
1,1000003930,Greeting From Earth: ZGAC Arts Capsule For ET,Narrative Film,Film & Video,USD,2017-11-01,30000.0,2017-09-02 04:43:57,2421.0,failed,15,US,100.0,2421.0,30000.0
2,1000004038,Where is Hank?,Narrative Film,Film & Video,USD,2013-02-26,45000.0,2013-01-12 00:20:50,220.0,failed,3,US,220.0,220.0,45000.0
3,1000007540,ToshiCapital Rekordz Needs Help to Complete Album,Music,Music,USD,2012-04-16,5000.0,2012-03-17 03:24:11,1.0,failed,1,US,1.0,1.0,5000.0
4,1000011046,Community Film Project: The Art of Neighborhoo...,Film & Video,Film & Video,USD,2015-08-29,19500.0,2015-07-04 08:35:03,1283.0,canceled,14,US,1283.0,1283.0,19500.0


In [330]:
# nos da las dimensiones del data frame (rows x columns)
print(projects_2017.shape)

(378661, 15)


In [331]:
# en caso de ser una serie devuelve el numero de rows
# en caso de ser un dataframe devuelve el numero de rows x el numero de columns 
projects_2017.size

5679915

In [332]:
# podemos contar la cantidad de elementos elementos no nulos en el data frame
projects_2017.count()

ID                  378661
name                378657
category            378661
main_category       378661
currency            378661
deadline            378661
goal                378661
launched            378661
pledged             378661
state               378661
backers             378661
country             378661
usd pledged         374864
usd_pledged_real    378661
usd_goal_real       378661
dtype: int64

In [333]:
type(projects_2017["usd pledged"].count())

numpy.int64

### Analizando propiedades especificas del set de datos

Para poder comenzar a orientar nuestro analisis podemos por ejemplo querer comenzar a analizar algunas variables que nos interesan para aplicar en nuestros analisis.
Podemos por ejemplo comenzar las **categorias disponibles principales**

In [334]:
main_categories = projects_2017['main_category']

In [335]:
type(main_categories)

pandas.core.series.Series

In [340]:
# de esta forma obtenemos la cantidad de valores que hay para cada una de las main_categories 
# contando los proyectos por categoria principal
main_categories.value_counts()

Film & Video    63585
Music           51918
Publishing      39874
Games           35231
Technology      32569
Design          30070
Art             28153
Food            24602
Fashion         22816
Theater         10913
Comics          10819
Photography     10779
Crafts           8809
Journalism       4755
Dance            3768
Name: main_category, dtype: int64

Tambien podemos interesarnos en ver los posibles valores que podemos tener de **estados de un proyectos**

In [341]:
states = projects_2017['state']
states.value_counts()

failed        197719
successful    133956
canceled       38779
undefined       3562
live            2799
suspended       1846
Name: state, dtype: int64

En ambos casos, podemos considerar a las variables como categoricas que podremos usar para nuestro analisis, las cuales podremos utilizar para agrupar o dividir informacion, o filtrar informacion a considerar en el mismo.


por otro lado podemos analizar la columna **launched** para entender su uso en el data set.

In [342]:
projects_2017['launched'].head()

0    2015-08-11 12:12:28
1    2017-09-02 04:43:57
2    2013-01-12 00:20:50
3    2012-03-17 03:24:11
4    2015-07-04 08:35:03
Name: launched, dtype: object

In [343]:
# generamos nuevas columnas seteando el tipo datetime
projects_2017['launched_datetime'] = pd.to_datetime(projects_2017['launched'])
# generamos una nueva columna obteniendo el año, esto los usuaremos en visualizacion.
projects_2017['year'] = projects_2017['launched_datetime'].dt.year


In [344]:
projects_2017.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 378661 entries, 0 to 378660
Data columns (total 17 columns):
ID                   378661 non-null int64
name                 378657 non-null object
category             378661 non-null object
main_category        378661 non-null object
currency             378661 non-null object
deadline             378661 non-null object
goal                 378661 non-null float64
launched             378661 non-null object
pledged              378661 non-null float64
state                378661 non-null object
backers              378661 non-null int64
country              378661 non-null object
usd pledged          374864 non-null float64
usd_pledged_real     378661 non-null float64
usd_goal_real        378661 non-null float64
launched_datetime    378661 non-null datetime64[ns]
year                 378661 non-null int64
dtypes: datetime64[ns](1), float64(5), int64(3), object(8)
memory usage: 49.1+ MB


In [345]:
projects_2017['year'].value_counts()

2015    77300
2014    67745
2016    57184
2017    52200
2013    44851
2012    41165
2011    26237
2010    10519
2009     1329
2018      124
1970        7
Name: year, dtype: int64

La cual podemos ver que nos indica la fecha de lanzamiento del proyecto y que podremos utilizar para desarrollar analisis de series de tiempo.

Haciendo un analisis de algunas de las otras variables podemos tambien llegar a la conclusion de lo que representan las siguientes variables:

- **Goal**: Objetivo a obtener de recaudacion para un proyecto
- **Pledged**: Cantidad recaudada para un proyecto
- **Backers**: Cantidad de personas que invirtieron en el proyecto.

### Analizando utilizacion de memoria del dataframe

Es posible realizar un analisis de utilizacion de memoria del data frame para poder realizar mejoras en el uso de recursos.

In [346]:
# si especificamente queremos saber los datatypes que estamos utilizando.
# y por ejemplo decidir setear algunos especificamente en carga
projects_2017.dtypes

ID                            int64
name                         object
category                     object
main_category                object
currency                     object
deadline                     object
goal                        float64
launched                     object
pledged                     float64
state                        object
backers                       int64
country                      object
usd pledged                 float64
usd_pledged_real            float64
usd_goal_real               float64
launched_datetime    datetime64[ns]
year                          int64
dtype: object

In [348]:
# veamos la informacion general del dataframe con info()
# nos brinda informacion de la cantidad de rows, si tiene campos nulos y el tipo
projects_2017.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 378661 entries, 0 to 378660
Data columns (total 17 columns):
ID                   378661 non-null int64
name                 378657 non-null object
category             378661 non-null object
main_category        378661 non-null object
currency             378661 non-null object
deadline             378661 non-null object
goal                 378661 non-null float64
launched             378661 non-null object
pledged              378661 non-null float64
state                378661 non-null object
backers              378661 non-null int64
country              378661 non-null object
usd pledged          374864 non-null float64
usd_pledged_real     378661 non-null float64
usd_goal_real        378661 non-null float64
launched_datetime    378661 non-null datetime64[ns]
year                 378661 non-null int64
dtypes: datetime64[ns](1), float64(5), int64(3), object(8)
memory usage: 49.1+ MB


In [352]:
# indica el uso en bytes de cada columna en bytes
# la opcion deep no permite analizar en profundidad el uso que se esta haciendo de memoria a nivel sistema
#projects_2017.memory_usage(deep=False)
(projects_2017.memory_usage() / (1024 * 1024)).sum()

49.112342834472656

Al contar con informacion sobre las columnas del dataframe o analizandolas podemos hacer mejoras en el uso de los tipos del dataframe de tal forma de optimizar el uso de memoria. Los dtypes usados por pandas son esencialmente los dtypes de NumPy.

### Conversion de Datos y mejoras en uso de memoria

In [357]:
# por ejemplo podriamos castear especificamente una serie a un tipo categorico y verificar su dtype
# esto reduce mucho la utilizacion de memoria.
#main_categories
main_categories.astype('category').dtypes

CategoricalDtype(categories=['Art', 'Comics', 'Crafts', 'Dance', 'Design', 'Fashion',
                  'Film & Video', 'Food', 'Games', 'Journalism', 'Music',
                  'Photography', 'Publishing', 'Technology', 'Theater'],
                 ordered=False)

In [359]:
# lo realiza sobre una columna del dataframe especifico
# considerar que devuelve una copia, ver el parametro 'copy'
#projects_2017.astype({'main_category':'category'}).dtypes
projects_2017.astype({'main_category':'category'}).memory_usage()

Index                    128
ID                   3029288
name                 3029288
category             3029288
main_category         379421
currency             3029288
deadline             3029288
goal                 3029288
launched             3029288
pledged              3029288
state                3029288
backers              3029288
country              3029288
usd pledged          3029288
usd_pledged_real     3029288
usd_goal_real        3029288
launched_datetime    3029288
year                 3029288
dtype: int64

In [360]:
# otra forma de realizarlo es indicar en lectura de la fuente de datos los tipos
projects = pd.read_csv('../data/kickstarter-projects/ks-projects-201801.csv', \
                            dtype={'main_category':'category','category':'category',\
                                   'country':'category'})

In [361]:
projects.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 378661 entries, 0 to 378660
Data columns (total 15 columns):
ID                  378661 non-null int64
name                378657 non-null object
category            378661 non-null category
main_category       378661 non-null category
currency            378661 non-null object
deadline            378661 non-null object
goal                378661 non-null float64
launched            378661 non-null object
pledged             378661 non-null float64
state               378661 non-null object
backers             378661 non-null int64
country             378661 non-null category
usd pledged         374864 non-null float64
usd_pledged_real    378661 non-null float64
usd_goal_real       378661 non-null float64
dtypes: category(3), float64(5), int64(2), object(5)
memory usage: 36.1+ MB


In [362]:
projects.memory_usage()

Index                   128
ID                  3029288
name                3029288
category             763714
main_category        379421
currency            3029288
deadline            3029288
goal                3029288
launched            3029288
pledged             3029288
state               3029288
backers             3029288
country              379485
usd pledged         3029288
usd_pledged_real    3029288
usd_goal_real       3029288
dtype: int64

In [363]:
# devuelve solo las columnas de tipo numerico
projects.select_dtypes('number')

Unnamed: 0,ID,goal,pledged,backers,usd pledged,usd_pledged_real,usd_goal_real
0,1000002330,1000.00,0.00,0,0.00,0.00,1533.95
1,1000003930,30000.00,2421.00,15,100.00,2421.00,30000.00
2,1000004038,45000.00,220.00,3,220.00,220.00,45000.00
3,1000007540,5000.00,1.00,1,1.00,1.00,5000.00
4,1000011046,19500.00,1283.00,14,1283.00,1283.00,19500.00
...,...,...,...,...,...,...,...
378656,999976400,50000.00,25.00,1,25.00,25.00,50000.00
378657,999977640,1500.00,155.00,5,155.00,155.00,1500.00
378658,999986353,15000.00,20.00,1,20.00,20.00,15000.00
378659,999987933,15000.00,200.00,6,200.00,200.00,15000.00


In [364]:
# devuelve solo las columnas de tipo categorico que inicializamos en el dataframe
projects.select_dtypes('category')

Unnamed: 0,category,main_category,country
0,Poetry,Publishing,GB
1,Narrative Film,Film & Video,US
2,Narrative Film,Film & Video,US
3,Music,Music,US
4,Film & Video,Film & Video,US
...,...,...,...
378656,Documentary,Film & Video,US
378657,Narrative Film,Film & Video,US
378658,Narrative Film,Film & Video,US
378659,Technology,Technology,US


In [365]:
main_categories.value_counts()

Film & Video    63585
Music           51918
Publishing      39874
Games           35231
Technology      32569
Design          30070
Art             28153
Food            24602
Fashion         22816
Theater         10913
Comics          10819
Photography     10779
Crafts           8809
Journalism       4755
Dance            3768
Name: main_category, dtype: int64

In [366]:
# conversion de pd.Series a python list
counts = main_categories.value_counts().tolist()
print(counts)
print(type(counts))

[63585, 51918, 39874, 35231, 32569, 30070, 28153, 24602, 22816, 10913, 10819, 10779, 8809, 4755, 3768]
<class 'list'>


In [368]:
main_categories.value_counts().index

Index(['Film & Video', 'Music', 'Publishing', 'Games', 'Technology', 'Design',
       'Art', 'Food', 'Fashion', 'Theater', 'Comics', 'Photography', 'Crafts',
       'Journalism', 'Dance'],
      dtype='object')

In [371]:
# conversion de pd.Series a pd.DataFrame
main_categories.to_frame()

Unnamed: 0,main_category
0,Publishing
1,Film & Video
2,Film & Video
3,Music
4,Film & Video
...,...
378656,Film & Video
378657,Film & Video
378658,Film & Video
378659,Technology


### Verificacion de Calidad de Datos

Algunas verificaciones que son utiles para ver la consistencia de los datos, en particular si vienen de una fuente de ese tipo.

Podemos verificar las dimensiones del data frame (via ```.shape```), si existen valores nulos (via ```.insnull```) en el mismo y metricas generales de las columnas o features del data frame que podemos analizar via ```.describe```

In [373]:
# por ejemplo de la siguiente forma podemos ver los nulos si existen
projects_2017.isnull().any()

ID                   False
name                  True
category             False
main_category        False
currency             False
deadline             False
goal                 False
launched             False
pledged              False
state                False
backers              False
country              False
usd pledged           True
usd_pledged_real     False
usd_goal_real        False
launched_datetime    False
year                 False
dtype: bool

In [374]:
projects_2017.isnull().sum()

ID                      0
name                    4
category                0
main_category           0
currency                0
deadline                0
goal                    0
launched                0
pledged                 0
state                   0
backers                 0
country                 0
usd pledged          3797
usd_pledged_real        0
usd_goal_real           0
launched_datetime       0
year                    0
dtype: int64

La informacion que podemos considerar en relacion a los nulos nos permite guiarnos sobre la calidad del set de datos que tenemos y casos en los que podemos ver por ejemplo que datos utilizar o no sobre nuestros analisis o si eventualmente tenemos que realizar algun otro tipo de informacion

In [375]:
# metricas generales de las columnas o features numericos del data frame que podemos analizar via .describe
projects_2017.describe()

Unnamed: 0,ID,goal,pledged,backers,usd pledged,usd_pledged_real,usd_goal_real,year
count,378661.0,378661.0,378661.0,378661.0,374864.0,378661.0,378661.0,378661.0
mean,1074731191.99,49080.79,9682.98,105.62,7036.73,9058.92,45454.4,2014.25
std,619086204.32,1183391.26,95636.01,907.19,78639.75,90973.34,1152950.06,1.93
min,5971.0,0.01,0.0,0.0,0.0,0.0,0.01,1970.0
25%,538263516.0,2000.0,30.0,2.0,16.98,31.0,2000.0,2013.0
50%,1075275634.0,5200.0,620.0,12.0,394.72,624.33,5500.0,2014.0
75%,1610148624.0,16000.0,4076.0,56.0,3034.09,4050.0,15500.0,2016.0
max,2147476221.0,100000000.0,20338986.27,219382.0,20338986.27,20338986.27,166361390.71,2018.0


Para nuestros analisis y considerando los valores de media y desviacion podemos ver que hay una gran dispersion tanto en las columnas de goal, pledged y backers. Esto puede darnos algunos problemas para intentar visualizar esas variables.

In [376]:
# para visualizar toda la informacion
projects_2017.describe(include='all')

Unnamed: 0,ID,name,category,main_category,currency,deadline,goal,launched,pledged,state,backers,country,usd pledged,usd_pledged_real,usd_goal_real,launched_datetime,year
count,378661.0,378657,378661,378661,378661,378661,378661.0,378661,378661.0,378661,378661.0,378661,374864.0,378661.0,378661.0,378661,378661.0
unique,,375764,159,15,14,3164,,378089,,6,,23,,,,378089,
top,,New EP/Music Development,Product Design,Film & Video,USD,2014-08-08,,1970-01-01 01:00:00,,failed,,US,,,,1970-01-01 01:00:00,
freq,,41,22314,63585,295365,705,,7,,197719,,292627,,,,7,
first,,,,,,,,,,,,,,,,1970-01-01 01:00:00,
last,,,,,,,,,,,,,,,,2018-01-02 15:02:31,
mean,1074731191.99,,,,,,49080.79,,9682.98,,105.62,,7036.73,9058.92,45454.4,,2014.25
std,619086204.32,,,,,,1183391.26,,95636.01,,907.19,,78639.75,90973.34,1152950.06,,1.93
min,5971.0,,,,,,0.01,,0.0,,0.0,,0.0,0.0,0.01,,1970.0
25%,538263516.0,,,,,,2000.0,,30.0,,2.0,,16.98,31.0,2000.0,,2013.0


In [377]:
#projects_2017['country'].value_counts()
projects_2017 = projects_2017[projects_2017['country'] == 'US']

In [378]:
projects_2017['currency'].value_counts()

USD    292627
Name: currency, dtype: int64

### Manejo de valores nulos

In [379]:
projects_2017.isnull().any()

ID                   False
name                  True
category             False
main_category        False
currency             False
deadline             False
goal                 False
launched             False
pledged              False
state                False
backers              False
country              False
usd pledged          False
usd_pledged_real     False
usd_goal_real        False
launched_datetime    False
year                 False
dtype: bool

In [384]:
# podemos eliminar aquellos proyectos que tienen informacion de nula en su nombre
# tener en cuenta que es necesario hacer un inplace=True para que modifique el dataframe original
projects_2017.dropna(subset=['name']).isnull().any()

ID                   False
name                 False
category             False
main_category        False
currency             False
deadline             False
goal                 False
launched             False
pledged              False
state                False
backers              False
country              False
usd pledged          False
usd_pledged_real     False
usd_goal_real        False
launched_datetime    False
year                 False
dtype: bool

In [385]:
# podemos especificamente reemplazar esos valores por un valor especifico
# en este caso indicamos para que columna queremos hacer el reemplazo
# tener en cuenta que se puede realizar tambien inplace en el dataframe
projects_2017.fillna(value={'usd pledged': 0}).isnull().any()

ID                   False
name                  True
category             False
main_category        False
currency             False
deadline             False
goal                 False
launched             False
pledged              False
state                False
backers              False
country              False
usd pledged          False
usd_pledged_real     False
usd_goal_real        False
launched_datetime    False
year                 False
dtype: bool

## Manipulando el Data Frame

En la siguiente seccion, trabajaremos con este data frame para poder incorporar algunos conceptos y herramientas que pueden sernos de utilidad en nuestro analisis exploratorio.

In [398]:
projects_2017 = pd.read_csv('../data/kickstarter-projects/ks-projects-201801.csv')
# generamos nuevas columnas seteando el tipo datetime
projects_2017['launched_datetime'] = pd.to_datetime(projects_2017['launched'])
# generamos una nueva columna obteniendo el año, esto los usuaremos en visualizacion.
projects_2017['year'] = projects_2017['launched_datetime'].dt.year
projects_2017 = projects_2017[projects_2017['country'] == 'US']

### Anatomia de un Data Frame

![title](img/anatomy_df.png)

### Manejo de Indices

- Proveen un label para cada una de las filas en el DataFrame
- Si un indice no se encuentra indicado explicitamente, un RangeIndex es creado por default con label comenzando en 0.

Dado nuestro DataFrame, podemos evaluar el indice actualmente que tiene de la siguiente forma

In [399]:
projects_2017.index

Int64Index([     1,      2,      3,      4,      5,      6,      7,      8,
                 9,     11,
            ...
            378648, 378649, 378650, 378653, 378654, 378656, 378657, 378658,
            378659, 378660],
           dtype='int64', length=292627)

In [400]:
type(projects_2017.index) # en este caso a tomado inicialmente el indice del campo ID del csv.

pandas.core.indexes.numeric.Int64Index

In [401]:
projects_2017.info(memory_usage=True)

<class 'pandas.core.frame.DataFrame'>
Int64Index: 292627 entries, 1 to 378660
Data columns (total 17 columns):
ID                   292627 non-null int64
name                 292624 non-null object
category             292627 non-null object
main_category        292627 non-null object
currency             292627 non-null object
deadline             292627 non-null object
goal                 292627 non-null float64
launched             292627 non-null object
pledged              292627 non-null float64
state                292627 non-null object
backers              292627 non-null int64
country              292627 non-null object
usd pledged          292627 non-null float64
usd_pledged_real     292627 non-null float64
usd_goal_real        292627 non-null float64
launched_datetime    292627 non-null datetime64[ns]
year                 292627 non-null int64
dtypes: datetime64[ns](1), float64(5), int64(3), object(8)
memory usage: 40.2+ MB


#### Eliminando el indice

Para poder eliminar un indice especifico que tiene el DataFrame podemos utilizar el metodo ```reset_index```

In [402]:
# en este caso si elimino el indice
projects_2017.reset_index(inplace=True) #notar que si queremos hacerlo sobre el mismo DataFrame tenemos que usar

In [403]:
# obtengo el indice por default de un DataFrame en pandas, RangeIndex
projects_2017.index

RangeIndex(start=0, stop=292627, step=1)

Una caracteristica deseable de un indice es que el mismo nos permita identificar a cada una de las filas y en ese sentido el RangeIndex por default no es muy util. Hace sentido utilizar un campo que pueda identificar cada fila, por ejemplo ```ID``` o ```name```.

In [404]:
projects_2017

Unnamed: 0,index,ID,name,category,main_category,currency,deadline,goal,launched,pledged,state,backers,country,usd pledged,usd_pledged_real,usd_goal_real,launched_datetime,year
0,1,1000003930,Greeting From Earth: ZGAC Arts Capsule For ET,Narrative Film,Film & Video,USD,2017-11-01,30000.00,2017-09-02 04:43:57,2421.00,failed,15,US,100.00,2421.00,30000.00,2017-09-02 04:43:57,2017
1,2,1000004038,Where is Hank?,Narrative Film,Film & Video,USD,2013-02-26,45000.00,2013-01-12 00:20:50,220.00,failed,3,US,220.00,220.00,45000.00,2013-01-12 00:20:50,2013
2,3,1000007540,ToshiCapital Rekordz Needs Help to Complete Album,Music,Music,USD,2012-04-16,5000.00,2012-03-17 03:24:11,1.00,failed,1,US,1.00,1.00,5000.00,2012-03-17 03:24:11,2012
3,4,1000011046,Community Film Project: The Art of Neighborhoo...,Film & Video,Film & Video,USD,2015-08-29,19500.00,2015-07-04 08:35:03,1283.00,canceled,14,US,1283.00,1283.00,19500.00,2015-07-04 08:35:03,2015
4,5,1000014025,Monarch Espresso Bar,Restaurants,Food,USD,2016-04-01,50000.00,2016-02-26 13:38:27,52375.00,successful,224,US,52375.00,52375.00,50000.00,2016-02-26 13:38:27,2016
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
292622,378656,999976400,ChknTruk Nationwide Charity Drive 2014 (Canceled),Documentary,Film & Video,USD,2014-10-17,50000.00,2014-09-17 02:35:30,25.00,canceled,1,US,25.00,25.00,50000.00,2014-09-17 02:35:30,2014
292623,378657,999977640,The Tribe,Narrative Film,Film & Video,USD,2011-07-19,1500.00,2011-06-22 03:35:14,155.00,failed,5,US,155.00,155.00,1500.00,2011-06-22 03:35:14,2011
292624,378658,999986353,Walls of Remedy- New lesbian Romantic Comedy f...,Narrative Film,Film & Video,USD,2010-08-16,15000.00,2010-07-01 19:40:30,20.00,failed,1,US,20.00,20.00,15000.00,2010-07-01 19:40:30,2010
292625,378659,999987933,BioDefense Education Kit,Technology,Technology,USD,2016-02-13,15000.00,2016-01-13 18:13:53,200.00,failed,6,US,200.00,200.00,15000.00,2016-01-13 18:13:53,2016


#### Creando un Indice

Lo realizamos mediante el metodo ```set_index```.

Tambien se puede hacer esto en lectura del archivo via ```read_csv``` indicando el indice con el parametro ```index_col```.

In [405]:
projects_2017.set_index('ID', inplace=True) 
# tambien se puede indicar al cargar el data frame usando el parametro index_col
# si no se quiere que se elimine la columna ID, usar parametro drop=False

In [406]:
# volvemos al indice que obtuvimos en carga
projects_2017.index

Int64Index([1000003930, 1000004038, 1000007540, 1000011046, 1000014025,
            1000023410, 1000030581, 1000034518,  100004195,  100005484,
            ...
             999955533,  999963618,   99996661,  999972264,  999975836,
             999976400,  999977640,  999986353,  999987933,  999988282],
           dtype='int64', name='ID', length=292627)

In [407]:
projects_2017

Unnamed: 0_level_0,index,name,category,main_category,currency,deadline,goal,launched,pledged,state,backers,country,usd pledged,usd_pledged_real,usd_goal_real,launched_datetime,year
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
1000003930,1,Greeting From Earth: ZGAC Arts Capsule For ET,Narrative Film,Film & Video,USD,2017-11-01,30000.00,2017-09-02 04:43:57,2421.00,failed,15,US,100.00,2421.00,30000.00,2017-09-02 04:43:57,2017
1000004038,2,Where is Hank?,Narrative Film,Film & Video,USD,2013-02-26,45000.00,2013-01-12 00:20:50,220.00,failed,3,US,220.00,220.00,45000.00,2013-01-12 00:20:50,2013
1000007540,3,ToshiCapital Rekordz Needs Help to Complete Album,Music,Music,USD,2012-04-16,5000.00,2012-03-17 03:24:11,1.00,failed,1,US,1.00,1.00,5000.00,2012-03-17 03:24:11,2012
1000011046,4,Community Film Project: The Art of Neighborhoo...,Film & Video,Film & Video,USD,2015-08-29,19500.00,2015-07-04 08:35:03,1283.00,canceled,14,US,1283.00,1283.00,19500.00,2015-07-04 08:35:03,2015
1000014025,5,Monarch Espresso Bar,Restaurants,Food,USD,2016-04-01,50000.00,2016-02-26 13:38:27,52375.00,successful,224,US,52375.00,52375.00,50000.00,2016-02-26 13:38:27,2016
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
999976400,378656,ChknTruk Nationwide Charity Drive 2014 (Canceled),Documentary,Film & Video,USD,2014-10-17,50000.00,2014-09-17 02:35:30,25.00,canceled,1,US,25.00,25.00,50000.00,2014-09-17 02:35:30,2014
999977640,378657,The Tribe,Narrative Film,Film & Video,USD,2011-07-19,1500.00,2011-06-22 03:35:14,155.00,failed,5,US,155.00,155.00,1500.00,2011-06-22 03:35:14,2011
999986353,378658,Walls of Remedy- New lesbian Romantic Comedy f...,Narrative Film,Film & Video,USD,2010-08-16,15000.00,2010-07-01 19:40:30,20.00,failed,1,US,20.00,20.00,15000.00,2010-07-01 19:40:30,2010
999987933,378659,BioDefense Education Kit,Technology,Technology,USD,2016-02-13,15000.00,2016-01-13 18:13:53,200.00,failed,6,US,200.00,200.00,15000.00,2016-01-13 18:13:53,2016


Por default tanto set_index como read_csv realizan un drop de la columa utilizada como indice del Data Frame. Con set_index es posible mantener la columa en el DataFrame usando el parametro ```drop``` en ```False```

## Join

Ver otro notebook de referencia para desarrollar el ejemplo.

## Agrupamiento (Group By) para agregacion, filtrado y transformacion

Al referirnos usualmente a ```groupby```, usualmente hacemos referencia al proceso conocido como split-apply-combine que considera:

- Split: Separar los datos en grupos basados en algun tipo de criterio.
- Apply: Aplicar una funcion a cada uno de los grupos de forma independiente.
- Combine: Combinar los resultados en una estructura de datos resultante.


El uso mas comun de groupby is para realizar una agregacion (la cual toma varios valores y los convierte en un unico valor)

In [414]:
projects_2017.groupby(['main_category','state'])

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x1a223f9b0>

In [417]:
# agrupando usando multiples columnas
grouped = projects_2017.groupby(['main_category','state'])\
    .agg({'backers':['mean','sum'],'pledged':'mean', 'goal':'mean'}) 

In [418]:
type(grouped)

pandas.core.frame.DataFrame

In [419]:
grouped.index

MultiIndex([(         'Art',   'canceled'),
            (         'Art',     'failed'),
            (         'Art',       'live'),
            (         'Art', 'successful'),
            (         'Art',  'suspended'),
            (      'Comics',   'canceled'),
            (      'Comics',     'failed'),
            (      'Comics',       'live'),
            (      'Comics', 'successful'),
            (      'Comics',  'suspended'),
            (      'Crafts',   'canceled'),
            (      'Crafts',     'failed'),
            (      'Crafts',       'live'),
            (      'Crafts', 'successful'),
            (      'Crafts',  'suspended'),
            (       'Dance',   'canceled'),
            (       'Dance',     'failed'),
            (       'Dance',       'live'),
            (       'Dance', 'successful'),
            (       'Dance',  'suspended'),
            (      'Design',   'canceled'),
            (      'Design',     'failed'),
            (      'Design',    

In [420]:
per_year = projects_2017.groupby('year')\
    .agg({'backers':['mean','sum'],'pledged':['mean','sum'], 'goal': ['mean','sum']})

In [421]:
per_year.index

Int64Index([1970, 2009, 2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018], dtype='int64', name='year')

### Agregacion

Siguiendo un poco los casos anteriores podemos indicar el campo y la funcion de agregacion para hacerlo por una unica columna

In [422]:
per_year = projects_2017.groupby('year').agg({'backers':'sum'}) # notar que se obtiene un DataFrame
per_year

Unnamed: 0_level_0,backers
year,Unnamed: 1_level_1
1970,0
2009,43758
2010,406875
2011,1396473
2012,4224656
2013,5705141
2014,5182188
2015,5989765
2016,5388809
2017,4751487


Otra variante es indicar la columna en la el metodo agg podemos seleccionarla usando el operador de indexacion

In [423]:
per_year = projects_2017.groupby('year')['backers'].agg('sum') # notar que se obteniene una Serie
per_year

year
1970          0
2009      43758
2010     406875
2011    1396473
2012    4224656
2013    5705141
2014    5182188
2015    5989765
2016    5388809
2017    4751487
2018        704
Name: backers, dtype: int64

In [424]:
# cuidado entre las funciones de sum de pandas y numpy. (manejo de nulos)
per_year = projects_2017.groupby('year')['backers'].agg(np.sum)
per_year

year
1970          0
2009      43758
2010     406875
2011    1396473
2012    4224656
2013    5705141
2014    5182188
2015    5989765
2016    5388809
2017    4751487
2018        704
Name: backers, dtype: int64

In [425]:
per_year = projects_2017.groupby('year')['backers'].sum()
print(per_year)

year
1970          0
2009      43758
2010     406875
2011    1396473
2012    4224656
2013    5705141
2014    5182188
2015    5989765
2016    5388809
2017    4751487
2018        704
Name: backers, dtype: int64


A su vez diferentes funciones pueden aplicarse en la misma operacion y a de distintos tipos a distintas columnas.

In [426]:
grouped = projects_2017.groupby('year')

In [427]:
type(grouped)

pandas.core.groupby.generic.DataFrameGroupBy

In [429]:
# con np.sqrt esto va a fallar ya que la funcion no realiza agregacion
# con np.sum va a funcionar bien
#projects_2017.groupby('year').agg(np.sqrt)
projects_2017.groupby('year').agg(np.sum)

Unnamed: 0_level_0,index,goal,pledged,backers,usd pledged,usd_pledged_real,usd_goal_real
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
1970,742657,35200.0,0.0,0,0.0,0.0,35200.0
2009,252369024,9385495.26,2845501.11,43758,2845501.11,2845501.11,9385495.26
2010,1997134638,138793982.64,29458272.97,406875,29458272.97,29458272.97,138793982.64
2011,4952690423,326340131.81,103752593.77,1396473,103752593.77,103752593.77,326340131.81
2012,7698258896,800195270.26,314664113.74,4224656,314664113.74,314664113.74,800195270.26
2013,7340866638,1040509287.0,429622210.7,5705141,429622210.7,429622210.7,1040509287.0
2014,9593003721,2423187674.0,433223285.43,5182188,433223285.43,433223285.43,2423187674.0
2015,10124012976,4001328129.0,558394706.09,5989765,558394706.09,558394706.09,4001328129.0
2016,7222706785,2693072417.0,503722817.56,5388809,284182095.34,503722817.56,2693072417.0
2017,6219392219,1451721188.0,454032420.13,4751487,90574149.43,454032420.13,1451721188.0


In [430]:
# notar que se indica una funcion built-in y una custom (la de numpy)
per_year = projects_2017.groupby('year').agg({'backers':np.sum,'pledged': ['mean', 'sum']})
per_year

Unnamed: 0_level_0,backers,pledged,pledged
Unnamed: 0_level_1,sum,mean,sum
year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1970,0,0.0,0.0
2009,43758,2141.08,2845501.11
2010,406875,2800.48,29458272.97
2011,1396473,3954.44,103752593.77
2012,4224656,7760.48,314664113.74
2013,5705141,11105.08,429622210.7
2014,5182188,8533.22,433223285.43
2015,5989765,10428.9,558394706.09
2016,5388809,13245.41,503722817.56
2017,4751487,13809.61,454032420.13


In [431]:
# tenemos un multi indice de columnas
# tiene en el top level las columnas de agregacion
# tiene en el bottom level el resultado de aplicar las funciones de agregacion
per_year.columns

MultiIndex([('backers',  'sum'),
            ('pledged', 'mean'),
            ('pledged',  'sum')],
           )

In [432]:
per_year.reset_index(inplace=True)

In [433]:
per_year

Unnamed: 0_level_0,year,backers,pledged,pledged
Unnamed: 0_level_1,Unnamed: 1_level_1,sum,mean,sum
0,1970,0,0.0,0.0
1,2009,43758,2141.08,2845501.11
2,2010,406875,2800.48,29458272.97
3,2011,1396473,3954.44,103752593.77
4,2012,4224656,7760.48,314664113.74
5,2013,5705141,11105.08,429622210.7
6,2014,5182188,8533.22,433223285.43
7,2015,5989765,10428.9,558394706.09
8,2016,5388809,13245.41,503722817.56
9,2017,4751487,13809.61,454032420.13


In [434]:
per_year.columns = ['year', 'backers_sum', 'pledged_mean', 'pledge_sum']

In [435]:
per_year

Unnamed: 0,year,backers_sum,pledged_mean,pledge_sum
0,1970,0,0.0,0.0
1,2009,43758,2141.08,2845501.11
2,2010,406875,2800.48,29458272.97
3,2011,1396473,3954.44,103752593.77
4,2012,4224656,7760.48,314664113.74
5,2013,5705141,11105.08,429622210.7
6,2014,5182188,8533.22,433223285.43
7,2015,5989765,10428.9,558394706.09
8,2016,5388809,13245.41,503722817.56
9,2017,4751487,13809.61,454032420.13


In [436]:
# en caso de querer volver a tener el indice por año
per_year.set_index('year', inplace=True)

In [437]:
per_year

Unnamed: 0_level_0,backers_sum,pledged_mean,pledge_sum
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1970,0,0.0,0.0
2009,43758,2141.08,2845501.11
2010,406875,2800.48,29458272.97
2011,1396473,3954.44,103752593.77
2012,4224656,7760.48,314664113.74
2013,5705141,11105.08,429622210.7
2014,5182188,8533.22,433223285.43
2015,5989765,10428.9,558394706.09
2016,5388809,13245.41,503722817.56
2017,4751487,13809.61,454032420.13


### Agregacion por multiples columnas

Group by puede recibir un conjunto de columnas, por ejemplo volviendo a nuestro **anterior analisis por categoria y estado del proyecto.**

In [442]:
grouped = projects_2017.groupby(['main_category','state'])

In [443]:
grouped.count().head(5)

Unnamed: 0_level_0,Unnamed: 1_level_0,index,name,category,currency,deadline,goal,launched,pledged,backers,country,usd pledged,usd_pledged_real,usd_goal_real,launched_datetime,year
main_category,state,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
Art,canceled,1667,1667,1667,1667,1667,1667,1667,1667,1667,1667,1667,1667,1667,1667,1667
Art,failed,10953,10952,10953,10953,10953,10953,10953,10953,10953,10953,10953,10953,10953,10953,10953
Art,live,124,124,124,124,124,124,124,124,124,124,124,124,124,124,124
Art,successful,9496,9496,9496,9496,9496,9496,9496,9496,9496,9496,9496,9496,9496,9496,9496
Art,suspended,71,71,71,71,71,71,71,71,71,71,71,71,71,71,71


In [444]:
type(grouped.count().index)

pandas.core.indexes.multi.MultiIndex

Inevitablemente al utilizar group by, vamos a estar creando un **MultiIndex** en las columnas, filas o ambas. Los DataFrames con MultiIndexes son mas dificiles de navegar y ocasionalmente tienen nombres de columnas mas confusos.

In [445]:
by_main_category_state = projects_2017.groupby(['main_category','state'])\
    .agg({'backers':['mean','sum'],'pledged':'mean', 'goal':'mean'}) 

In [446]:
by_main_category_state

Unnamed: 0_level_0,Unnamed: 1_level_0,backers,backers,pledged,goal
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,sum,mean,mean
main_category,state,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Art,canceled,8.08,13468,520.37,42709.40
Art,failed,9.12,99860,641.06,56330.52
Art,live,16.99,2107,1126.16,21166.93
Art,successful,88.85,843718,6919.10,4522.81
Art,suspended,12.21,867,584.49,11931.52
...,...,...,...,...,...
Theater,canceled,13.51,6415,1407.74,114751.53
Theater,failed,12.25,36434,1035.45,54260.62
Theater,live,30.76,892,3793.40,11427.59
Theater,successful,75.54,394405,6422.14,5562.83


Al hacer esto, obtenemos una estructura con dos niveles de indices. Esto dificulta el acceso a los datos.

Es por eso que intentaremos simplificar la estructura, para ello intentemos entender como esta la informacion en cada nivel de la misma

In [447]:
level0 = by_main_category_state.columns.get_level_values(0)

In [448]:
level0

Index(['backers', 'backers', 'pledged', 'goal'], dtype='object')

In [449]:
level1 = by_main_category_state.columns.get_level_values(1)

In [450]:
level1

Index(['mean', 'sum', 'mean', 'mean'], dtype='object')

Podemos ver que tenemos multiples columnas que se llaman mean, cada una correspondiente a backers, pledged y goal respectivamente.

vamos a intentar reducir esta estructura, concatenando ambos niveles en el mismo nombre de columna

In [461]:
by_main_category_state.columns = [level0,level1] #inmortalizar

In [457]:
by_main_category_state.columns = level0 + '_' + level1

In [458]:
by_main_category_state.columns

Index(['backers_mean', 'backers_sum', 'pledged_mean', 'goal_mean'], dtype='object')

In [463]:
by_main_category_state.T.reset_index().T

Unnamed: 0_level_0,Unnamed: 1_level_0,0,1,2,3
main_category,state,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
level_0,,backers,backers,pledged,goal
level_1,,mean,sum,mean,mean
Art,canceled,8.08,13468.00,520.37,42709.40
Art,failed,9.12,99860.00,641.06,56330.52
Art,live,16.99,2107.00,1126.16,21166.93
...,...,...,...,...,...
Theater,canceled,13.51,6415.00,1407.74,114751.53
Theater,failed,12.25,36434.00,1035.45,54260.62
Theater,live,30.76,892.00,3793.40,11427.59
Theater,successful,75.54,394405.00,6422.14,5562.83


Podemos ver que todavia tenemos dos niveles pero esto podemos reducirlo realizando un ```reset_index```

In [460]:
by_main_category_state.reset_index()

Unnamed: 0,main_category,state,backers_mean,backers_sum,pledged_mean,goal_mean
0,Art,canceled,8.08,13468,520.37,42709.40
1,Art,failed,9.12,99860,641.06,56330.52
2,Art,live,16.99,2107,1126.16,21166.93
3,Art,successful,88.85,843718,6919.10,4522.81
4,Art,suspended,12.21,867,584.49,11931.52
...,...,...,...,...,...,...
70,Theater,canceled,13.51,6415,1407.74,114751.53
71,Theater,failed,12.25,36434,1035.45,54260.62
72,Theater,live,30.76,892,3793.40,11427.59
73,Theater,successful,75.54,394405,6422.14,5562.83


Si queremos realizar el cambio de forma permanente en el DataFrame debemos realizarlo inPlace

In [None]:
by_main_category_state.reset_index(inplace=True)

In [None]:
by_main_category_state

Por ultimo es importante notar que dependiendo del nivel de agrupamiento podriamos contar con multiples niveles

In [None]:
# por ejemplo agrupando por main_category, category (sub categoria) y state 
projects_2017.groupby(['main_category','category','state']).agg({'backers':['mean','sum'],'pledged':'mean', 'goal':'mean'}) 

## Filtrado (Filtering)

In [None]:
projects_2017.groupby('year')['backers'].agg('mean') # notar que se obteniene una Serie

In [None]:
per_year = projects_2017.groupby('year')
per_year.ngroups

In [None]:
def check_backers_threshold(df, threshold):
    return df['backers'].mean() >= threshold

In [None]:
per_year_filtered = per_year.filter(check_backers_threshold, threshold=100)

In [None]:
per_year_filtered.groupby('year')['backers'].agg('mean')

## Transform


In [None]:
#calculamos el porcentaje que representa dentro de un año, categoria principal y categoria
percentages = projects_2017.groupby(['year','main_category','category'])['goal','pledged']\
                    .transform((lambda x: (x * 100) / x.sum()))
percentages

In [None]:
projects_2017.shape

## Apply

In [None]:
from collections import OrderedDict

def perform_stats(df):
    # lo usamos para preservar el orden de insercion
    data = OrderedDict()
    
    data['money_to_reach_goal'] = df['pledged'].sum() - df['goal'].sum()
    data['count'] = len(df)

    return pd.Series(data)
    

In [None]:
result = projects_2017.groupby(['main_category','category']).apply(perform_stats)

In [None]:
result

## Analizando la distribucion de variables

Un primer analisis que podemos comenzar a realizar como parte de nuestro analisis exploratorio es intentar comprender la distribucion los distintos valores por cada columna o feature que tenemos en nuestro data frame que queramos analizar.

Entendemos como distribucion a la cantidad de veces que la variable toma determinados valores.

Por lo analizado anteriormente mediante el describe dado que **hay un gran rango de valores posibles para visualizar no vamos a poder realizar en la escala normal** que tienen los datos, es por eso que los llevaremos a analizar **a escala logaritmica**, para poder graficar.

Tener en cuenta que en una escala logarítmica, una diferencia igual en orden de magnitud se representa por una distancia igual. La media geométrica de dos números está a medio camino entre los números y esto facilita graficar.

**IMPORTANTE:** Debemos ser cuidadosos con las conclusiones que obtengamos de analizar bajo la escala logaritmica, dado que su utilizacion hace compleja el analisis.

In [None]:
projects_2017.describe()

In [None]:
# es importante que el grafico tenga un correcto titulo y valores descriptivos en barras
# https://matplotlib.org/api/_as_gen/matplotlib.pyplot.hist.html
g = projects_2017["pledged"].plot.hist(bins=50, color='lightblue')
g.set_title("Histograma de pledged [Cantidad de dinero invertido en proyecto]", fontsize=18)
g.set_xlabel("Pledged",fontsize=18)
g.set_ylabel("Frecuencia", fontsize=18)

In [None]:
# creamos nuevas columnas en escala logaritmica
projects_2017["pledged_log"] = np.log(projects_2017["pledged"]+1)
projects_2017["goal_log"] = np.log(projects_2017["goal"]+1)

### Histograma

Un histograma sirve para mostrar la distribucion de una determinada variable. Para construirlo hacen falta dos parametros: la variable en cuestion que tiene que ser numerica (continua o discreta) y el ancho que van a tener las columnas del histograma. Este valor se fija en matplotlib con el valor de bins, que indica cuanto discretizamos los intervalos.


In [None]:
# es importante que el grafico tenga un correcto titulo y valores descriptivos en barras
# https://matplotlib.org/api/_as_gen/matplotlib.pyplot.hist.html
g = projects_2017["pledged_log"].plot.hist(bins=50, color='lightblue')
g.set_title("Histograma de pledged (log) [Cantidad de dinero invertido en proyecto]", fontsize=18)
g.set_xlabel("Pledged (log)",fontsize=18)
g.set_ylabel("Frecuencia", fontsize=18)

In [None]:
g = projects_2017["goal_log"].plot.hist(bins=50, color='goldenrod')
g.set_title("Histograma de Goal (log) [Cantidad de dinero a recaudar por un proyecto]", fontsize=18)
g.set_xlabel("Goal (log)",fontsize=18)
g.set_ylabel("Frecuencia", fontsize=18)

### Density Plot

Un plot de densidad es una version continua de un histograma (no es necesario indicar el tamaño de los bins). Lo que se muestra es como se distribuye la densidad de la variable numerica a lo largo de todos sus valores posibles.

In [None]:
# https://seaborn.pydata.org/generated/seaborn.distplot.html
g = sns.distplot(projects_2017["pledged_log"])
g.set_title("Densidad de Pledged (log) [Cantidad de dinero invertido en proyecto]", fontsize=18)
g.set_xlabel("Pledged (log)",fontsize=18)
g.set_ylabel("Densidad", fontsize=18)

In [None]:
g = sns.distplot(projects_2017["goal_log"], color='goldenrod')
g.set_title("Densidad de Goal (log) [Cantidad de dinero a recaudar por un proyecto]", fontsize=18)
g.set_xlabel("Goal (log)",fontsize=18)
g.set_ylabel("Densidad", fontsize=18)

## Overlaid Histogram

Una forma de comparar distribuciones sobre una misma base es realizar un overlay de distintos histogramas.

In [None]:
# ambos histogramas juntos
g = projects_2017[["pledged_log","goal_log"]].plot.hist(bins=50,alpha=0.5)
g.set_title("Distribucion de Pledged (log) x Goal (log)", fontsize=18)
g.set_ylabel("Frecuencia", fontsize=18)

## Overlaid Density Plots

O tambien se pueden analizar directamente comparando sus densidades

In [None]:
# TODO referencias por color en la visualizacion
g = sns.distplot(projects_2017['pledged_log'], color='blue', label='pledged (log)')
g = sns.distplot(projects_2017['goal_log'], color='orange', label='goal (log)')
g.set_title("Pledged x Goal cross distribuition", fontsize=18)

## Analizando por Estado del proyecto

Otro aspecto que podriamos considerar es analizar los proyecto segun su estado final (variable categorica), para ello podemos sacar inicialmente algunas estadisticas que pueden servirnos para el analisis en relacion a su media y desvio.

In [None]:
print("Calculando la media por estado final del proyecto")
print(round(projects_2017.groupby(["state"])["goal", "pledged"].mean(),2))

In [None]:
print("Calculando el desvio standard por estado final del proyecto")
print(round(projects_2017.groupby(["state"])["goal", "pledged"].std(),2))

## Boxplot

Una forma de ver esta misma informacion es utilizar una visualizacion conocida como boxplot. Usualmente usamos un boxplot para ver la distribucion de una variable numerica de acuerdo a una variable categorica (en este caso los distintos estados posibles de un proyecto).

In [None]:
# https://seaborn.pydata.org/generated/seaborn.boxplot.html
g = sns.boxplot(x="state", y="pledged_log", 
                     data=projects_2017, palette="hls")
g.set_title("Pledged segun estado de proyecto", fontsize=18)
g.set_xlabel("Estado del proyecto", fontsize=18)
g.set_ylabel("Pledged (Log)", fontsize=18)

Para leerlo tenemos que considerar que la 'caja' del boxplot va desde el primer al tercer cuantil, es decir que el 25% de los datos estan por debajo de la caja y el 25% de los datos estan por encima de la caja. La caja concentra entonces el 50% de los datos. Las lıneas que salen de la caja van desde el primer cuantil hasta el valor minimo y maximo y los puntos son valores anomalos (outliers).

## TODO: Scatter Plot

Es una de las visualizaciones mas comunes, y versatiles. En un scatter plot representamos dos variables numericas en los ejes X e Y y por cada instancia de nuestro set de datos dibujamos un punto en las coordenadas indicadas.
Estos plots nos dan una idea de la dependencia que existe entre las dos variables y de las caracteristicas de esta dependencia: lineal, no-lineal, etc. Por otro lado podemos sumar mas dimensiones al analisis teniendo en cuenta que podemos darles distintos colores a los distintos puntos del plot.

En nuestro caso podemos querer analizar la relacion entre el pledge (log) y el goal (log) analizando su relacion solamente de los proyectos que fueron exitosos y los que no lo fueron. Tener en cuenta para el analisis que ambos se encuentran en escala logaritmica.

In [None]:
# https://seaborn.pydata.org/generated/seaborn.regplot.html
# TODO: indicar referencias de colores
#g = sns.regplot(x="goal_log", y="pledged_log", 
#                    data=success, color="lightgreen",)
g = sns.regplot(x="goal", y="pledged", 
                    data=failed, color="orange")
g.set_title("Relacion entre Goal (log) y Pledged (log) values sobre proyectos exitosos y fallidos", fontsize=20)
g.set_xlabel("Goal Values(log)", fontsize=20)
g.set_ylabel("Pledged Values(log)", fontsize=20)
g.set_xticklabels(g.get_xticklabels(),rotation=90)

In [None]:
#sacar los live
g = plt.scatter(projects_2017.loc[projects_2017['state'] == 'successful','goal_log'],projects_2017.loc[projects_2017['state'] == 'successful','pledged_log'], alpha='0.25', color='lightgreen', label='successful');
g = plt.scatter(projects_2017.loc[projects_2017['state'] != 'successful','goal_log'],projects_2017.loc[projects_2017['state'] != 'successful','pledged_log'], alpha='0.25', color='orangered', label='failed');
plt.legend();
plt.title("Relacion entre Goal y Pledged values sobre proyectos exitosos y no exitosos", fontsize=20)
plt.xlabel("Goal Values(log)", fontsize=20)
plt.ylabel("Pledged Values(log)", fontsize=20)



# Categoria com mayor cantidad de proyectos

Pasando a las variables categoricas podriamos querer analizar cuales son las categorias que tienen la mayor cantidad de proyectos.

In [None]:
main_categories_counts = projects_2017["main_category"].value_counts()
main_categories_counts

## Bar Plot

Una forma de poder visualizar este tipo de informacion es utiliza un Bar Plot, de uso bastante popular y donde se cometen muchos errores. Algunas cosas que hay que tener en cuenta es que una de las variables a considerar debe ser categorica y por otro lado, los valores a evaluar deben comenzar en 0.

Existen otras variantes haciendo stacking de valores o directamente indicandolos en barras separadas de forma de que queden agrupados.

In [None]:
# https://seaborn.pydata.org/generated/seaborn.barplot.html
g = sns.barplot(x=main_categories_counts.values, y=main_categories_counts.index, orient='h')
g.set_title("Projects per Main Category", fontsize=15)
g.set_xlabel("Number of Projects", fontsize=12)
g.set_ylabel("Name of Category", fontsize=12)

In [None]:
# https://seaborn.pydata.org/generated/seaborn.countplot.html
# simplificacion para hacerlo via seaborn con countplot
g = sns.countplot(x='main_category', data=projects_2017, order=projects_2017['main_category'].value_counts().index, orient='v')
g.set_xticklabels(g.get_xticklabels(),rotation=90)
g.set_xlabel("Name of Category", fontsize=15)
g.set_ylabel("Number of Projects", fontsize=15)
g.set_title("Projects per Main Category", fontsize=15)

## Analisis por Categorias Exitosas y Fallidas

Podemos utilizar este tipo de visualizacion para realizar analisis por categorias exitosas y fallidas.

In [None]:
categories_failed = projects_2017[projects_2017["state"] == "failed"]["category"].value_counts()[:25]
categories_failed

In [None]:
g = sns.barplot(x= categories_failed.values, y=categories_failed.index)
g.set_title("Proyectos fallidos por categoria", fontsize=15)
g.set_xlabel("Total de proyectos fallidos", fontsize=12)
g.set_ylabel("Nombre de la categoria", fontsize=12)

In [None]:
categories_sucessful = projects_2017[projects_2017["state"] == "successful"]["category"].value_counts()[:25]
categories_sucessful

In [None]:
g = sns.barplot(x= categories_sucessful.values, y=categories_sucessful.index)
g.set_title("Projects exitosos por categoria", fontsize=15)
g.set_xlabel("Total de proyectos exitosos", fontsize=12)
g.set_ylabel("Nombre de categoria", fontsize=12)

## Analisis Temporal 

Para poder facilitar el analisis temporal de la informacion agregamos a nuestro data frame algunas columnas a partir del procesamiento de el valor de launched como datetime, y generamos algunas columnas para permitir agrupamientos por año, mes y dia de la semana.

In [None]:
# procesamiento de fechas de lanzamiento en mes y año
projects_2017['launched'] = pd.to_datetime(projects_2017['launched'])
projects_2017['launch_month'] = projects_2017['launched'].dt.month
projects_2017['launch_year'] = projects_2017['launched'].dt.year
projects_2017['launch_weekday_name'] = projects_2017['launched'].dt.weekday_name

Para poder entender algunos aspectos de los datos, utilizamos [crosstab](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.crosstab.html) para obtener una cross tabulacion de dos factores. Por default utiliza la frecuencia.

In [None]:
#cantidades por estado y año
pd.crosstab(projects_2017.launch_year, projects_2017.state)

## Grouped Bar Plot

Para visualizar esta informacion podemos crear un Grouped Bar Plot agrupando por el estado del proyecto


In [None]:
g = sns.countplot(x="launch_year", hue="state", data=projects_2017, palette="hls")
g.set_title("Cantidad de Proyectos por Año", fontsize=18)
g.set_xlabel("Año", fontsize=18)
g.set_ylabel("Cantidad de Proyectos", fontsize=18)

# Nota: Stacked Bar Plot
# al creador de seaborn no le gustan los stacked http://randyzwitch.com/creating-stacked-bar-chart-seaborn/
# Investigar como realizarlo en https://matplotlib.org/gallery/lines_bars_and_markers/bar_stacked.html

Tambien podemos con la informacion temporal que tenemos analizar la distribucion de algunas de las variables continuas que consideramos temporalmente, por ejemplo la cantidad de dinero invertido en proyectos por los usuarios (pledged) por año.

In [None]:
g = sns.boxplot(x="launch_year", y="pledged_log", 
                     data=projects_2017, palette="hls")
g.set_title("Pledged (log) por Año", fontsize=20)
g.set_xlabel("Año", fontsize=18)
g.set_ylabel("Pledged (log)", fontsize=18)

## Heatmap

Supongamos que tenemos un set de datos de la forma (name,variable,value) por ejemplo ("Año Lanzamiento de Proyecto", "Mes de Lanzamiento de Proyecto", "Goal del Proyecto") indicando que en el año 2017, en el mes de Marzo hubo un promedio de 76000 dolares por proyecto. 

Un heatmap representa en el eje Y todos los puntos, instancias (años) y en el eje X cada una de las categorias posibles (meses en este caso). Los ejes suelen ser intercambiables sin que afecte la visualizacin. 

El heatmap es entonces una matriz en donde cada celda muestra el valor que toma la variable del eje X para el punto del eje Y, tomando con valores de un cierto color cuando son mas altos y de otro cuando son mas bajos.

## Analizando Goal por Año y Mes

In [None]:
# llevamos a una representacion de ese tipo usando una tabla pivot (se vera en detalle en la proxima clase).
# tener en cuenta que no puede haber valores duplicados por el indice por lo cual es necesario usar algun tipo
# funcion de agregacion
for_heatmap = projects_2017[projects_2017['state'] == 'successful'].pivot_table(index='launch_year', columns='launch_month', values='goal', aggfunc='mean')

In [None]:
for_heatmap

In [None]:
# https://en.wikipedia.org/wiki/Kickstarter
# notar que segun la empresa de lanzo en 2009 en abril
# Launched April 28, 2009; 8 years ago
g = sns.heatmap(for_heatmap,  cmap="YlGnBu")
g.set_title("Promedio de Goal de Proyecto Exitoso por combinacion de Año y Mes", fontsize=22)
g.set_xlabel("Mes de Lanzamiento del Proyecto",fontsize=18)
g.set_ylabel("Año de Lanzamiento del Proyecto", fontsize=18)

In [None]:
# llevamos a una representacion de ese tipo usando una tabla pivot (se vera en detalle en la proxima clase).
# tener en cuenta que no puede haber valores duplicados por el indice por lo cual es necesario usar algun tipo
# funcion de agregacion
for_heatmap = projects_2017[projects_2017['state'] == 'failed'].pivot_table(index='launch_year', columns='launch_month', values='goal', aggfunc='mean')
g = sns.heatmap(for_heatmap,  cmap="YlGnBu")
g.set_title("Promedio de Goal de Proyectos Fallidos por combinacion de Año y Mes", fontsize=22)
g.set_xlabel("Mes de Lanzamiento del Proyecto",fontsize=18)
g.set_ylabel("Año de Lanzamiento del Proyecto", fontsize=18)

## Analizando Lanzamientos de proyectos por año y mes

In [None]:
# generamos una columna para agregar y procesar mediante una tabla pivot
projects_2017['active_project'] = 1
for_heatmap = projects_2017.pivot_table(index='launch_year', columns='launch_month', values='active_project', aggfunc='sum')

In [None]:
for_heatmap

In [None]:
g = sns.heatmap(for_heatmap, linewidths=.5, cmap="YlGnBu") # annot=True
g.set_title("Cantidad de Proyectos por combinacion de Año y Mes", fontsize=22)
g.set_xlabel("Mes de Lanzamiento del Proyecto",fontsize=18)
g.set_ylabel("Año de Lanzamiento del Proyecto", fontsize=18)