<a href="https://colab.research.google.com/github/aletbm/Hazardous_Asteroids_Predictions--CoderHouse/blob/main/Asteroids_Credit_Card_Approval__Reliance_Stock_RiosAlexanderDaniel_CoderHouse.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
from google.colab import drive
drive.mount('/content/drive')

import pandas as pd

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


# ☄️ NASA JPL Asteroid Dataset

<img src="https://media.ambito.com/p/da6a05c9b05cb3047a4a7f5451d7a098/adjuntos/239/imagenes/040/635/0040635192/asteroidesjpg.jpg">

## 📣 Acerca del dataset

Este dataset fue elaborado por el Investigador en Astronomia y Astrofisica Mir Sakhawat Hossain, este dataset es mantenido oficialmente por el Laboratorio de Propulsion a Chorro (JPL por sus siglas en ingles) del Instituto Tecnologico de California la cual es una organizacion que se encuentra bajo la supervision de la NASA. Este dataset contiene varios tipos de datos relacionados con asteroides.

Este dataset puede ser utilizado en proyectos de Machine Learning para tareas tanto de clasificacion como de regresion.

### Definicion de columnas:

+ **id**: ID interno
+ **spkid**: ID principal
+ **fullname**: Designacion/Nombre completo del objeto
+ **pdes**: Designación primaria de objeto
+ **name**: Nombre del objeto en la Union astronomica Internacional
+ **prefix**: Prefijo del cometa
+ **neo**: Objeto cercano a la tierra (Near-Earth Object) (Y/N)
+ **pha**: Asteroide potencialmente peligroso (Potencial Hazardous Asteroid) (Y/N)
+ **H**: Parámetro de magnitud absoluta
+ **diameter**: Diametro del objeto (equivalente a una esfera) (km)
+ **albedo**: Albedo geométrico
+ **diameter_sigma**: Incertidumbre 1-sigma en el diámetro del objeto (km)
+ **orbit_id**: ID de solución de órbita
+ **epoch**: Época de osculación en forma de día juliano (TBD)
+ **epoch_mjd**: Época de osculación en forma de día juliana modificada (TBD)
+ **epoch_cal**: Época de osculación en forma de fecha/hora del calendario (TBD)
+ **equinox**: Equinoccio de marco de referencia
+ **e**: Excentricidad
+ **a**: Semieje mayor (au)
+ **q**: Distancia del perihelio (au)
+ **i**: Inclinación. Angulo con respecto al plano eclíptico x-y (deg)
+ **om**: Longitud del nodo ascendente (deg)
+ **w**: Argumento del perihelio (deg)
+ **ma**: Anomalía media (deg)
+ **ad**: Distancia afelio (au)
+ **n**: Noción media (deg/d)
+ **tp**: Tiempo de paso del perihelio (TBD)
+ **tp_cal**: Tiempo de paso del perihelio en forma de fecha/hora del calendario (TBD)
+ **per**: Período orbital sideral (d)
+ **per_y**: Período orbital sideral (years)
+ **moid**: Distancia de intersección de la órbita mínima de la Tierra (au)
+ **moid_ld**: Distancia de intersección de la órbita mínima de la Tierra (LD)
+ **sigma_e**: Excentricidad (incertidumbre 1-sigma)
+ **sigma_a**: Semieje mayor (incertidumbre 1-sigma) (au)
+ **sigma_q**: Distancia del perihelio (incertidumbre 1-sigma) (au)
+ **sigma_i**: Inclinación. Angulo con respecto al plano eclíptico x-y (incertidumbre 1-sigma) (deg)
+ **sigma_om**: Longitud del nodo ascendente (incertidumbre 1-sigma) (deg)
+ **sigma_w**: Argumento del perihelio (incertidumbre 1-sigma) (deg)
+ **sigma_ma**: Anomalía media (incertidumbre 1-sigma) (deg)
+ **sigma_ad**: Distancia afelio (incertidumbre 1-sigma) (au)
+ **sigma_n**: Noción media (incertidumbre 1-sigma) (deg/d)
+ **sigma_tp**: Tiempo de paso del perihelio (incertidumbre 1-sigma) (TBD)
+ **sigma_per**: Período orbital sideral (incertidumbre 1-sigma) (d)
+ **class**: Clasificación de órbita
+ **rms**: RMS de ajuste de órbita normalizado (arcsec)

## 👁️ Echando un vistazo al dataset

In [None]:
df_asteroids = pd.read_csv("/content/drive/MyDrive/Coder/Data Science/asteroid_dataset.csv", engine='c', low_memory=False, index_col="id")
df_asteroids.head()

Unnamed: 0_level_0,spkid,full_name,pdes,name,prefix,neo,pha,H,diameter,albedo,...,sigma_i,sigma_om,sigma_w,sigma_ma,sigma_ad,sigma_n,sigma_tp,sigma_per,class,rms
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
a0000001,2000001,1 Ceres,1,Ceres,,N,N,3.4,939.4,0.09,...,4.6089e-09,6.1688e-08,6.6248e-08,7.8207e-09,1.1113e-11,1.1965e-12,3.7829e-08,9.4159e-09,MBA,0.43301
a0000002,2000002,2 Pallas,2,Pallas,,N,N,4.2,545.0,0.101,...,3.4694e-06,6.2724e-06,9.1282e-06,8.8591e-06,4.9613e-09,4.6536e-10,4.0787e-05,3.6807e-06,MBA,0.35936
a0000003,2000003,3 Juno,3,Juno,,N,N,5.33,246.596,0.214,...,3.2231e-06,1.6646e-05,1.7721e-05,8.1104e-06,4.3639e-09,4.4134e-10,3.5288e-05,3.1072e-06,MBA,0.33848
a0000004,2000004,4 Vesta,4,Vesta,,N,N,3.0,525.4,0.4228,...,2.1706e-07,3.8808e-07,1.7893e-07,1.2068e-06,1.6486e-09,2.6125e-10,4.1037e-06,1.2749e-06,MBA,0.3998
a0000005,2000005,5 Astraea,5,Astraea,,N,N,6.9,106.699,0.274,...,2.7408e-06,2.8949e-05,2.9842e-05,8.3038e-06,4.729e-09,5.5227e-10,3.4743e-05,3.4905e-06,MBA,0.52191


In [None]:
print(f'El dataset tiene {df_asteroids.shape[0]} registros y {df_asteroids.shape[1]} features.')

El dataset tiene 958524 registros y 44 features.


In [None]:
df_asteroids.info()

<class 'pandas.core.frame.DataFrame'>
Index: 958524 entries, a0000001 to bT3S2678
Data columns (total 44 columns):
 #   Column          Non-Null Count   Dtype  
---  ------          --------------   -----  
 0   spkid           958524 non-null  int64  
 1   full_name       958524 non-null  object 
 2   pdes            958524 non-null  object 
 3   name            22064 non-null   object 
 4   prefix          18 non-null      object 
 5   neo             958520 non-null  object 
 6   pha             938603 non-null  object 
 7   H               952261 non-null  float64
 8   diameter        136209 non-null  float64
 9   albedo          135103 non-null  float64
 10  diameter_sigma  136081 non-null  float64
 11  orbit_id        958524 non-null  object 
 12  epoch           958524 non-null  float64
 13  epoch_mjd       958524 non-null  int64  
 14  epoch_cal       958524 non-null  float64
 15  equinox         958524 non-null  object 
 16  e               958524 non-null  float64
 17  a     

Analisis de regresión:

Como analisis de regresion planteo predecir el diametro de un posible asteroide en base a variables tales como su **excentricidad**, su **magnitud absoluta**, su **albedo geometrico** y si es o no **potencialmente peligroso**.

Analisis de clasificación:

Como analisis de clasificacion planteo diferencia aquellos **asteroides potencialmente peligrosos** de lo que no lo son para la Tierra, apoyandonos en variables tales como **distancia del perihelio y afelio**, el **periodo orbital sideral**, la **distancia de intersección de la órbita mínima de la Tierra** o la **longitud del nodo ascendente**.



# 💳 Credit Card Approval Prediction

<img src="https://www.forbes.com/advisor/wp-content/uploads/2022/07/credit_cards.jpeg-1-1-900x510.jpg">

## 📣 Acerca del dataset

Las puntuacion de tarjetas de crédito son un método común de control de riesgos en la industria financiera. Utiliza la información personal y los datos presentados por los solicitantes de tarjetas de crédito para predecir la probabilidad de futuros incumplimientos y préstamos de tarjetas de crédito. El banco puede decidir si emite una tarjeta de crédito al solicitante. Los puntajes de crédito pueden cuantificar objetivamente la magnitud del riesgo.

Este dataset puede ser utlizado en proyectos de Machine Learning para tareas de clasificacion entre cliente **bueno** o **malo**.

### Definicion de columnas:

El archivo *application_record.csv* contiene información personal de los clientes, que podría usar como características para predecir:

+ **ID**:	Numero de cliente
+ **CODE_GENDER**:	Genero
+ **FLAG_OWN_CAR**:	Posee auto
+ **FLAG_OWN_REALTY**: Posee propiedad inmobiliaria
+ **CNT_CHILDREN**: Cantidad de hijos
+ **AMT_INCOME_TOTAL**: Sueldo anual
+ **NAME_INCOME_TYPE**: Categoria de ingresos
+ **NAME_EDUCATION_TYPE**: Nivel de education
+ **NAME_FAMILY_STATUS**: Estado marital
+ **NAME_HOUSING_TYPE**: Modo de vida
+ **DAYS_BIRTH**: Cumpleaños. Cuenta hacia atrás desde el día actual (0), -1 significa ayer
+ **DAYS_EMPLOYED**: Fecha de inicio del empleo. Contar hacia atrás desde el día actual (0). Si es positivo, significa la persona actualmente desempleada.
+ **FLAG_MOBIL**: Posee telefono movil
+ **FLAG_WORK_PHONE**: Posee telefono movil laboral
+ **FLAG_PHONE**: Posee telefono
+ **FLAG_EMAIL**: Posee email
+ **OCCUPATION_TYPE**: Ocupación
+ **CNT_FAM_MEMBERS**: Tamaño familiar

El archivo *credit_record.csv* registra los comportamientos de los usuarios de la tarjeta de crédito.:

+ **ID**: Numero de cliente
+ **MONTHS_BALANCE**: Mes récord.	El mes de los datos extraídos es el punto de partida, al revés, 0 es el mes actual, -1 es el mes anterior, etc.
+ **STATUS**: Estado.	0: 1-29 días de atraso 1: 30-59 días de atraso 2: 60-89 días de atraso 3: 90-119 días de atraso 4: 120-149 días de atraso 5: Deudas atrasadas o incobrables, canceladas por más de 150 días C: pagado ese mes X: No hay préstamo para el mes

## 👁️ Echando un vistazo al dataset

In [None]:
df_user_info = pd.read_csv("/content/drive/MyDrive/Coder/Data Science/Credit Card Approval Prediction/application_record.csv", engine='c', index_col="ID")
df_user_info.head()

Unnamed: 0_level_0,CODE_GENDER,FLAG_OWN_CAR,FLAG_OWN_REALTY,CNT_CHILDREN,AMT_INCOME_TOTAL,NAME_INCOME_TYPE,NAME_EDUCATION_TYPE,NAME_FAMILY_STATUS,NAME_HOUSING_TYPE,DAYS_BIRTH,DAYS_EMPLOYED,FLAG_MOBIL,FLAG_WORK_PHONE,FLAG_PHONE,FLAG_EMAIL,OCCUPATION_TYPE,CNT_FAM_MEMBERS
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
5008804,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,1,0,0,,2.0
5008805,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,1,0,0,,2.0
5008806,M,Y,Y,0,112500.0,Working,Secondary / secondary special,Married,House / apartment,-21474,-1134,1,0,0,0,Security staff,2.0
5008808,F,N,Y,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,1,0,1,1,Sales staff,1.0
5008809,F,N,Y,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,1,0,1,1,Sales staff,1.0


In [None]:
df_user_info.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 438557 entries, 5008804 to 6842885
Data columns (total 17 columns):
 #   Column               Non-Null Count   Dtype  
---  ------               --------------   -----  
 0   CODE_GENDER          438557 non-null  object 
 1   FLAG_OWN_CAR         438557 non-null  object 
 2   FLAG_OWN_REALTY      438557 non-null  object 
 3   CNT_CHILDREN         438557 non-null  int64  
 4   AMT_INCOME_TOTAL     438557 non-null  float64
 5   NAME_INCOME_TYPE     438557 non-null  object 
 6   NAME_EDUCATION_TYPE  438557 non-null  object 
 7   NAME_FAMILY_STATUS   438557 non-null  object 
 8   NAME_HOUSING_TYPE    438557 non-null  object 
 9   DAYS_BIRTH           438557 non-null  int64  
 10  DAYS_EMPLOYED        438557 non-null  int64  
 11  FLAG_MOBIL           438557 non-null  int64  
 12  FLAG_WORK_PHONE      438557 non-null  int64  
 13  FLAG_PHONE           438557 non-null  int64  
 14  FLAG_EMAIL           438557 non-null  int64  
 15  OCCUPATION

In [None]:
df_credit_record = pd.read_csv("/content/drive/MyDrive/Coder/Data Science/Credit Card Approval Prediction/credit_record.csv", engine='c', index_col="ID")
df_credit_record.head()

Unnamed: 0_level_0,MONTHS_BALANCE,STATUS
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
5001711,0,X
5001711,-1,0
5001711,-2,0
5001711,-3,0
5001712,0,C


In [None]:
df_credit_record.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1048575 entries, 5001711 to 5150487
Data columns (total 2 columns):
 #   Column          Non-Null Count    Dtype 
---  ------          --------------    ----- 
 0   MONTHS_BALANCE  1048575 non-null  int64 
 1   STATUS          1048575 non-null  object
dtypes: int64(1), object(1)
memory usage: 24.0+ MB


In [None]:
print(f'El dataset tiene {df_user_info.shape[0]} registros y {df_user_info.shape[1] + df_user_info.shape[1]} features.')

El dataset tiene 438557 registros y 34 features.


# 💼 Reliance Stock Price Dataset

<img src="https://www.nextinbeautymag.com/uploads/s1/17/29/relaince-industries-1.jpeg">

## 📣 Acerca del dataset

Un conjunto de datos que contiene los precios de las acciones de Reliance desde 1996 hasta 2020. Contiene el volumen, la facturación, los precios de apertura, máximos, mínimos y de cierre de las acciones.

Este conjunto de datos está destinado a usarse para predecir los precios de las acciones en el futuro.

### Definicion de columnas

+ **Date**: Fecha
+ **Symbol**: Reliance
+ **Series**: Equidad
+ **Prev Close**: Precio de cierre del día anterior
+ **Open**: Precio de apertura en un día
+ **High**: Precio más alto alcanzado en un día
+ **Low**: Precio más bajo en un día
+ **Last**: Precio que se calculó por última vez
+ **Close**: Precio de cierre en un día
+ **VWAP**: Precio medio ponderado por volumen
+ **Volume**: Número de existencias
+ **Turnover**: Gasto de reemplazar a las personas que dejan una organización durante un período específico
+ **Trades**: Compras y ventas
+ **Deliverable Volume**: Volumen de entrega
+ **%Deliverble**: Porcentaje de entrega

## 👁️ Echando un vistazo al dataset


In [None]:
df_reliance = pd.read_csv("/content/drive/MyDrive/Coder/Data Science/reliance_stock_price_dataset.csv", engine='c')
df_reliance.head()

Unnamed: 0,Date,Symbol,Series,Prev Close,Open,High,Low,Last,Close,VWAP,Volume,Turnover,Trades,Deliverable Volume,%Deliverble
0,01-01-1996,RELIANCE,EQ,204.65,205.0,206.1,203.65,,205.75,205.26,3717450,76300000000000.0,,,
1,02-01-1996,RELIANCE,EQ,205.75,205.25,206.25,202.65,,204.15,204.13,6024650,123000000000000.0,,,
2,03-01-1996,RELIANCE,EQ,204.15,207.5,216.95,205.25,,205.7,207.04,7473500,155000000000000.0,,,
3,04-01-1996,RELIANCE,EQ,205.7,203.75,204.4,201.05,,203.8,202.47,7744000,157000000000000.0,,,
4,05-01-1996,RELIANCE,EQ,203.8,203.0,203.0,200.65,,202.4,202.05,5952000,120000000000000.0,,,


In [None]:
df_reliance.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6205 entries, 0 to 6204
Data columns (total 15 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Date                6205 non-null   object 
 1   Symbol              6205 non-null   object 
 2   Series              6205 non-null   object 
 3   Prev Close          6205 non-null   float64
 4   Open                6205 non-null   float64
 5   High                6205 non-null   float64
 6   Low                 6205 non-null   float64
 7   Last                5657 non-null   float64
 8   Close               6205 non-null   float64
 9   VWAP                6205 non-null   float64
 10  Volume              6205 non-null   int64  
 11  Turnover            6205 non-null   float64
 12  Trades              2356 non-null   float64
 13  Deliverable Volume  4693 non-null   float64
 14  %Deliverble         4693 non-null   float64
dtypes: float64(11), int64(1), object(3)
memory usage: 727.3

In [None]:
print(f'El dataset tiene {df_reliance.shape[0]} registros y {df_reliance.shape[1]} features.')

El dataset tiene 6205 registros y 15 features.
