# Unidad Repaso, Caso práctico Python

Se han obtenidos dos datasets relacionados con la adquisición y fundación de *startups* a nivel global, el objetivo general, es realizar un análisis exploratorio de datos sobre los elementos comunes de ambos datasets. Estos son los objetivos a realizar:
* Convierte los archivos **funds.csv** y **funding_rounds.csv** a pandas dataframes.
* Busca un elemento común de ambos dataframes y conviértelos en uno solo.
* Elimina las columnas 'id', 'source_url', 'source_description', 'updated_at'.
* Muestra el número de nulos que tiene cada columna del dataframe y qué porcentaje supone dentro de cada columna el número de nulos.
* Modifica todos los valores de 'raised_currency_dode' nulos a 'USD'.
* Elimina el resto de nulos del dataset.
* Muestra el porcentaje de los diferentes valores de 'raised_currency_code'.
* Crea un sub-conjunto sin el valor USD y visualiza un diagrama de barras.
* Crea un nuevo sub-conjunto filtrando del dataset todas las filas por debajo de 10M y visualiza el histograma.
* Con el conjunto del apartado anterior. Investiga sobre la función contains() https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.contains.html filtra el dataset por las fechas de creación de las startup en 2000
* Sobre el conjunto filtrado por fecha visualiza la cuantía obtenida explicada por el tipo de moneda.

# SOLUCIÓN

Convierte los archivos **funds.csv** y **funding_rounds.csv** a pandas dataframes

In [1]:
import pandas as pd

In [2]:
# Leemos ambos dataframes
funds = pd.read_csv('funds.csv')
f_rounds = pd.read_csv('funding_rounds.csv')

In [3]:
# Mostramos las 3 primeras posiciones
funds.head(3)

Unnamed: 0,id,fund_id,object_id,name,funded_at,raised_amount,raised_currency_code,source_url,source_description,created_at,updated_at
0,1,1,f:371,Second Fund,2008-12-16,300000000.0,USD,http://www.pehub.com/26194/dfj-dragon-raising-...,peHub,2008-12-17 03:07:16,2008-12-17 03:07:16
1,4,4,f:17,Sequoia Israel Fourth Fund,2008-12-17,200750000.0,USD,http://www.pehub.com/26725/sequoia-israel-rais...,Sequoia Israel Raises Fourth Fund,2008-12-18 22:04:42,2008-12-18 22:04:42
2,5,5,f:951,Tenth fund,2008-08-11,650000000.0,USD,http://venturebeat.com/2008/08/11/interwest-cl...,Venture Beat,2008-12-31 09:47:51,2008-12-31 09:47:51


In [4]:
f_rounds.head(3)

Unnamed: 0,id,funding_round_id,object_id,funded_at,funding_round_type,funding_round_code,raised_amount_usd,raised_amount,raised_currency_code,pre_money_valuation_usd,...,post_money_valuation,post_money_currency_code,participants,is_first_round,is_last_round,source_url,source_description,created_by,created_at,updated_at
0,1,1,c:4,2006-12-01,series-b,b,8500000.0,8500000.0,USD,0.0,...,0.0,,2,0,0,http://www.marketingvox.com/archives/2006/12/2...,,initial-importer,2007-07-04 04:52:57,2008-02-27 23:14:29
1,2,2,c:5,2004-09-01,angel,angel,500000.0,500000.0,USD,0.0,...,0.0,USD,2,0,1,,,initial-importer,2007-05-27 06:08:18,2013-06-28 20:07:23
2,3,3,c:5,2005-05-01,series-a,a,12700000.0,12700000.0,USD,115000000.0,...,0.0,USD,3,0,0,http://www.techcrunch.com/2007/11/02/jim-breye...,Jim Breyer: Extra $500 Million Round For Faceb...,initial-importer,2007-05-27 06:09:10,2013-06-28 20:07:23


In [5]:
funds.columns

Index(['id', 'fund_id', 'object_id', 'name', 'funded_at', 'raised_amount',
       'raised_currency_code', 'source_url', 'source_description',
       'created_at', 'updated_at'],
      dtype='object')

In [6]:
funds.shape

(1564, 11)

In [7]:
f_rounds.columns

Index(['id', 'funding_round_id', 'object_id', 'funded_at',
       'funding_round_type', 'funding_round_code', 'raised_amount_usd',
       'raised_amount', 'raised_currency_code', 'pre_money_valuation_usd',
       'pre_money_valuation', 'pre_money_currency_code',
       'post_money_valuation_usd', 'post_money_valuation',
       'post_money_currency_code', 'participants', 'is_first_round',
       'is_last_round', 'source_url', 'source_description', 'created_by',
       'created_at', 'updated_at'],
      dtype='object')

In [8]:
f_rounds.shape

(52928, 23)

Busca un elemento común de ambos dataframes y conviértelos en uno solo.

In [9]:
df = pd.concat([f_rounds, funds], ignore_index=True, join='inner')

In [10]:
df.head(3)

Unnamed: 0,id,object_id,funded_at,raised_amount,raised_currency_code,source_url,source_description,created_at,updated_at
0,1,c:4,2006-12-01,8500000.0,USD,http://www.marketingvox.com/archives/2006/12/2...,,2007-07-04 04:52:57,2008-02-27 23:14:29
1,2,c:5,2004-09-01,500000.0,USD,,,2007-05-27 06:08:18,2013-06-28 20:07:23
2,3,c:5,2005-05-01,12700000.0,USD,http://www.techcrunch.com/2007/11/02/jim-breye...,Jim Breyer: Extra $500 Million Round For Faceb...,2007-05-27 06:09:10,2013-06-28 20:07:23


In [11]:
df.shape

(54492, 9)

Elimina las columnas 'id', 'source_url', 'source_description', 'updated_at'.

In [12]:
items_to_drop = ['id', 'source_url', 'source_description', 'updated_at']

In [13]:
df = df.drop(items_to_drop, axis=1)

In [14]:
#También es válido:
#df = df.drop(['id', 'source_url', 'source_description', 'updated_at'], axis = 1)

Muestra el número de nulos que tiene cada columna del dataframe y qué porcentaje supone dentro de cada columna el número de nulos.

In [1]:
def show_nulls(df):
    # Nulos totales
    total_nan = df.isnull().sum()
    # Porcentaje nulos
    perc_nan = total_nan/len(df)*100
    
    return total_nan, perc_nan

In [2]:
print('Total nulos ', show_nulls(df=df)[0])

NameError: name 'df' is not defined

In [None]:
print('Porcentaje de nulos ', show_nulls(df=df)[1])

In [None]:
#También es válido:
#print(df.isnull().sum())
#print(df.isnull().sum()/len(df)*100)

Modifica todos los valores de 'raised_currency_dode' nulos a 'USD'.

In [None]:
df['raised_currency_code'] = df['raised_currency_code'].fillna('USD')

Elimina el resto de nulos del dataset.

In [None]:
df = df.dropna()

Muestra el porcentaje de los diferentes valores de 'raised_currency_dode'

In [None]:
# Primero atendemos a los valores únicos del tipo de moneda.
df['raised_currency_code'].unique()

In [None]:
print((pd.crosstab(index=df["raised_currency_code"], columns="count"))/len(df) * 100)

Crea un sub-conjunto sin el valor USD y visualiza un diagrama de barras.

In [None]:
no_usd = df[df['raised_currency_code'] != 'USD'].copy()

In [None]:
from plotnine import *

In [None]:
(ggplot(no_usd)         
 + aes(x='raised_currency_code', fill = 'raised_currency_code')   
 + geom_bar(color="blue", alpha = 0.4) 
 + labs(title='Tipo de moneda, capital por startup', 
         x = 'Tipo de moneda',
         y = 'Cuantía')
)

Crea un nuevo sub-conjunto filtrando del dataset todas las filas por debajo de 10M y visualiza el histograma.

In [None]:
less_tenm = df[df['raised_amount'] <= 10000000].copy()

In [None]:
less_tenm.describe()

In [None]:
(ggplot(less_tenm) +
 geom_histogram(mapping = aes('raised_amount'))
)

In [None]:
import seaborn as sns
sns.distplot(a=less_tenm['raised_amount'], color='green')

Con el conjunto del apartado anterior. Investiga sobre la función contains() https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.contains.html filtra el dataset por las fechas de creación de las startup en 2000

In [None]:
less_tenm = less_tenm[less_tenm['funded_at'].str.contains('2000')].copy()

In [None]:
less_tenm

Sobre el conjunto filtrado por fecha visualiza la cuantía obtenida explicada por el tipo de moneda.

In [None]:
(
    ggplot(less_tenm) +
    geom_histogram(mapping=aes('raised_amount', fill = 'raised_currency_code'), color = "blue") +
    facet_wrap('~raised_currency_code')
)