# Seleccion de Bases de Datos

In [1]:
import pandas as pd
import numpy as np

In [2]:
consumer_complaints_df = pd.read_csv("consumer_complaints.csv", low_memory=False)
consumer_complaints_df.head()

Unnamed: 0,date_received,product,sub_product,issue,sub_issue,consumer_complaint_narrative,company_public_response,company,state,zipcode,tags,consumer_consent_provided,submitted_via,date_sent_to_company,company_response_to_consumer,timely_response,consumer_disputed?,complaint_id
0,08/30/2013,Mortgage,Other mortgage,"Loan modification,collection,foreclosure",,,,U.S. Bancorp,CA,95993,,,Referral,09/03/2013,Closed with explanation,Yes,Yes,511074
1,08/30/2013,Mortgage,Other mortgage,"Loan servicing, payments, escrow account",,,,Wells Fargo & Company,CA,91104,,,Referral,09/03/2013,Closed with explanation,Yes,Yes,511080
2,08/30/2013,Credit reporting,,Incorrect information on credit report,Account status,,,Wells Fargo & Company,NY,11764,,,Postal mail,09/18/2013,Closed with explanation,Yes,No,510473
3,08/30/2013,Student loan,Non-federal student loan,Repaying your loan,Repaying your loan,,,"Navient Solutions, Inc.",MD,21402,,,Email,08/30/2013,Closed with explanation,Yes,Yes,510326
4,08/30/2013,Debt collection,Credit card,False statements or representation,Attempted to collect wrong amount,,,Resurgent Capital Services L.P.,GA,30106,,,Web,08/30/2013,Closed with explanation,Yes,Yes,511067


# Variables Interesantes - consumer_complaints
# 1. product - indica el producto sobre el cual se origina la queja: permite hallar los productos financieros más criticados por el consumidor y así estimar los recursos de servicio al cliente a utilizar.
# 2. issue - razón del reclamo: ideal para mapear razones estandarizadas de quejas de los clientes, ver en dónde suelen fallar los productos ofrecidos
# 3. company - identifica a la compañía afectada: permite hallar a las compañías con más reclamos y así hacer un ránking de calidad de las compañías.
# 4. date_received - fecha de recepción reclamo: en qué fecha se recepcionan los reclamos puede permitirle a la compañía planificar mejor sus labores para tener tiempo reservado para el manejo de los reclamos apenas les llegan y así mejorar el servicio al cliente.
# 5. date_sent_to_company - fecha de envío del reclamo: permite ver en qué meses hay mayor frecuencia de reclamos y la evolución anual de los mismos. Junto con date_received y submitted_via permite ver cuál medio de envío de reclamo es el más rápido.

In [3]:
SBA_national_df = pd.read_csv('SBAnational.csv', low_memory=False)
SBA_national_df.head()

Unnamed: 0,LoanNr_ChkDgt,Name,City,State,Zip,Bank,BankState,NAICS,ApprovalDate,ApprovalFY,...,RevLineCr,LowDoc,ChgOffDate,DisbursementDate,DisbursementGross,BalanceGross,MIS_Status,ChgOffPrinGr,GrAppv,SBA_Appv
0,1000014003,ABC HOBBYCRAFT,EVANSVILLE,IN,47711,FIFTH THIRD BANK,OH,451120,28-Feb-97,1997,...,N,Y,,28-Feb-99,"$60,000.00",$0.00,P I F,$0.00,"$60,000.00","$48,000.00"
1,1000024006,LANDMARK BAR & GRILLE (THE),NEW PARIS,IN,46526,1ST SOURCE BANK,IN,722410,28-Feb-97,1997,...,N,Y,,31-May-97,"$40,000.00",$0.00,P I F,$0.00,"$40,000.00","$32,000.00"
2,1000034009,"WHITLOCK DDS, TODD M.",BLOOMINGTON,IN,47401,GRANT COUNTY STATE BANK,IN,621210,28-Feb-97,1997,...,N,N,,31-Dec-97,"$287,000.00",$0.00,P I F,$0.00,"$287,000.00","$215,250.00"
3,1000044001,"BIG BUCKS PAWN & JEWELRY, LLC",BROKEN ARROW,OK,74012,1ST NATL BK & TR CO OF BROKEN,OK,0,28-Feb-97,1997,...,N,Y,,30-Jun-97,"$35,000.00",$0.00,P I F,$0.00,"$35,000.00","$28,000.00"
4,1000054004,"ANASTASIA CONFECTIONS, INC.",ORLANDO,FL,32801,FLORIDA BUS. DEVEL CORP,FL,0,28-Feb-97,1997,...,N,N,,14-May-97,"$229,000.00",$0.00,P I F,$0.00,"$229,000.00","$229,000.00"


# Variables interesantes - SBA_national
# 1. SBA_Appv - indica el monto del préstamo respaldado por la Small Business Administration: puede permitir dar insights interesantes hacia las cantidades a las cuales un Small Business puede aspirar a conseguir respaldo.
# 2. Bank - identifica al banco que brinda el préstamo: permite a los negocios ver los montos de los bancos y así ver dónde obtener el préstamo de acuerdo a sus necesidades. 
# 3. GrAppv - indica el monto aprobado por el banco: no solo permite ver el monto que un banco aprueba, pero combinado con el SBA_Appv, permite ver ratios de respaldo de la SBA sobre la deuda total aprobada por la entidad financiera.
# 4. Approval_date - señala la fecha de aprobación de la garantía del préstamo por parte de la SBA: puede mapaerse un histórico de los préstamos por año o ver si hay meses con mayor posibilidad de aprobación de respaldo.
# 5. State y Bank State: estado de origen de la compañía y estado de origen del banco: permite mapear en qué estados es más facil el acceso a crédito y donde hace falta (según Richard Werner, el número de pequeños bancos en una zona es lo que marca mayor diferencia en el desarrollo de dicha zona, debido al apoyo a los negocios pequeños).

In [4]:
IPO_df = pd.read_csv('IPODataFull.csv', low_memory=False, encoding='unicode_escape')
IPO_df.head()

Unnamed: 0,Symbol,DaysBetterThanSP,daysProfit,daysProfitGrouped,exactDiffernce,Year,Month,Day,dayOfWeek,closeDay0,...,usableCEOAge,usableCEOGender,usablePresidentAge,usablePresidentGender,FoundingDateGrouped,yearDifferenceGrouped,Profitable,Safe,HomeRunDay,HomeRun
0,A,122,249,200+,,1999,11,18,3,28.6358,...,Blank,Blank,Blank,Blank,1951 - 2000,Unknown,1,0,77.0,1
1,AAC,131,262,200+,232.0,2014,10,2,3,18.5,...,40 - 49,male,Blank,Blank,2011 - present,Unknown,1,1,,0
2,AAOI,125,262,200+,6054.0,2013,9,26,3,9.96,...,Blank,Blank,Blank,Blank,1951 - 2000,Unknown,1,0,,0
3,AAP,128,261,200+,,2001,11,29,3,13.9,...,Blank,Blank,Blank,Blank,1901 - 1950,Unknown,1,0,,0
4,AAT,123,127,100 - 149,181.0,2011,1,13,3,21.25,...,Blank,Blank,Blank,Blank,2001 - 2010,Unknown,0,0,,0


# Variables Interesantes - IPO
# 1. Year - año de lanzamiento de las IPO: puede hallarse la evolución en lanzamientos y correlacionarlo con los ciclos económicos de crisis/crecimiento de la economía americana.
# 2. DaysBetterThanSP - indica la cantidad de días que se ha desempeñado mejor que el S&P500 en su primer año de lanzamiento al mercado público: permite comparar a la acción con un benchmark muy importante aunque general.
# 3. daysProfit - señala la cantidad de días que se apreció la acción en su primer año en el mercado público: permite identificar la establidad de las acciones (psicológicamente es más fácil sostener una acción que siempre se aprecia, aunque sea poco)
# 4. CEOAge - edad del CEO al momento del IPO: ver si la edad de quien dirige la compañía tiene impacto en el desempeño de la valoración del valor de las acciones apenas salen al mercado (la experiencia puede pesar).
# 5. MarketCap - número de acciones por el valor de cada acción: ver cómo el tamaño de la valorización de la compañía afecta el desempeño de la acción durante su primer año en bolsa.
# 6. netIncome y Revenue - una mira las utilidades netas y la segunda las ventas de la compañía al cierre del año previo al lanzamiento: con ambas puedes sacar las UN/Ventas y ver si tiene un impacto en la valorización inicial de la acción.

In [5]:
shape_array = np.array([consumer_complaints_df.shape, SBA_national_df.shape, IPO_df.shape])

In [7]:
shape_df = pd.DataFrame(shape_array, columns=['n_rows', 'n_columns'], index=['consumer_complaints_df', 'SBA_national_df', 'IPO_df'])
shape_df

Unnamed: 0,n_rows,n_columns
consumer_complaints_df,555957,18
SBA_national_df,899164,27
IPO_df,3762,1664
