# Unidad Repaso, Caso práctico Python

Se han obtenidos dos datasets relacionados con la adquisición y fundación de *startups* a nivel global, el objetivo general, es realizar un análisis exploratorio de datos sobre los elementos comunes de ambos datasets. Estos son los objetivos a realizar:
* Convierte los archivos **funds.csv** y **funding_rounds.csv** a pandas dataframes.
* Busca un elemento común de ambos dataframes y conviértelos en uno solo.
* Elimina las columnas 'id', 'source_url', 'source_description', 'updated_at'.
* Muestra el número de nulos que tiene cada columna del dataframe y qué porcentaje supone dentro de cada columna el número de nulos.
* Modifica todos los valores de 'raised_currency_dode' nulos a 'USD'.
* Elimina el resto de nulos del dataset.
* Muestra el porcentaje de los diferentes valores de 'raised_currency_dode'.
* Crea un sub-conjunto sin el valor USD y visualiza un diagrama de barras.
* Crea un nuevo sub-conjunto filtrando del dataset todas las filas por debajo de 10M y visualiza el histograma.
* Con el conjunto del apartado anterior. Investiga sobre la función contains() https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.contains.html filtra el dataset por las fechas de creación de las startup en 2000
* Sobre el conjunto filtrado por fecha visualiza la cuantía obtenida explicada por el tipo de moneda.

# SOLUCIÓN

Convierte los archivos **funds.csv** y **funding_rounds.csv** a pandas dataframes

In [None]:
import pandas as pd

In [None]:
# Leemos ambos dataframes
funds = pd.read_csv('funds.csv')
f_rounds = pd.read_csv('funding_rounds.csv')


In [None]:
# Mostramos las 3 primeras posiciones
funds.head(3)

In [None]:
f_rounds.head(3)

In [None]:
funds.columns

In [None]:
funds.shape

In [None]:
f_rounds.columns

In [None]:
f_rounds.shape

Busca un elemento común de ambos dataframes y conviértelos en uno solo.

In [None]:
df = pd.concat([f_rounds, funds], ignore_index=True, join='inner')

In [None]:
df.head(3)

In [None]:
df.shape

Elimina las columnas 'id', 'source_url', 'source_description', 'updated_at'.

In [None]:
items_to_drop = ['id', 'source_url', 'source_description', 'updated_at']

In [None]:
df = df.drop(items_to_drop, axis=1)

Muestra el número de nulos que tiene cada columna del dataframe y qué porcentaje supone dentro de cada columna el número de nulos.

In [None]:
def show_nulls(df):
    # Nulos totales
    total_nan = df.isnull().sum()
    # Porcentaje nulos
    perc_nan = total_nan/len(df)*100
    
    return total_nan, perc_nan

In [None]:
print('Total nulos ', show_nulls(df=df)[0])

In [None]:
print('Porcentaje de nulos ', show_nulls(df=df)[1])

Modifica todos los valores de 'raised_currency_dode' nulos a 'USD'.

In [None]:
df['raised_currency_code'] = df['raised_currency_code'].fillna('USD')

Elimina el resto de nulos del dataset.

In [None]:
df = df.dropna()

Muestra el porcentaje de los diferentes valores de 'raised_currency_dode'

In [None]:
# Primero atendemos a los valores únicos del tipo de moneda.
df['raised_currency_code'].unique()

In [None]:
print((pd.crosstab(index=df["raised_currency_code"], columns="count"))/len(df) * 100)

Crea un sub-conjunto sin el valor USD y visualiza un diagrama de barras.

In [None]:
no_usd = df[df['raised_currency_code'] != 'USD'].copy()

In [None]:
from plotnine import *

In [None]:
(ggplot(no_usd)         
 + aes(x='raised_currency_code')   
 + geom_bar(color="blue", alpha = 0.2) 
 + labs(title='Tipo de moneda, capital por startup', 
         x = 'Tipo de moneda',
         y = 'Cuantía')
)

Crea un nuevo sub-conjunto filtrando del dataset todas las filas por debajo de 10M y visualiza el histograma.

In [None]:
less_tenm = df[df['raised_amount'] <= 10000000].copy()

In [None]:
less_tenm.describe()

In [None]:
(ggplot(less_tenm) +
 geom_histogram(mapping = aes('raised_amount'))
)

In [None]:
import seaborn as sns
sns.distplot(a=less_tenm['raised_amount'], color='green')

Con el conjunto del apartado anterior. Investiga sobre la función contains() https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.contains.html filtra el dataset por las fechas de creación de las startup en 2000

In [None]:
less_tenm = less_tenm[less_tenm['funded_at'].str.contains('2000')].copy()

In [None]:
less_tenm

Sobre el conjunto filtrado por fecha visualiza la cuantía obtenida explicada por el tipo de moneda.

In [None]:
(
    ggplot(less_tenm) +
    geom_histogram(mapping=aes('raised_amount', fill = 'raised_currency_code'), color = "blue") +
    facet_wrap('~raised_currency_code')
)