# Proyecto de Análisis EDA - Datos Bursátiles Mundiales

Proyecto intermedio con análisis EDA de la clase de Desarrollo de Proyectos de la Maestría en Ciencia de los Datos (MCD) de la Universidad de Guadalajara (UDG) en el Centro Universitario de Ciencias Económico Administrativas (CUCEA). 

## Contenido

1. Introducción
2. Descripción de los Datos
3. Limpieza de datos
4. Missing Values
5. Visualización de Datos
6. Referencias

## 1. Introducción

## 2. Descripción de los Datos

In [65]:
# Import libraries
import pandas as pd
import numpy as np

In [39]:
# Load Datasets

dire = "../data/"
file1 = "indexInfo.csv"
file2 = "indexProcessed.csv"

info = pd.read_csv(dire + file1)
df = pd.read_csv(dire + file2)

In [42]:
# Variables
info.columns

Index(['Region', 'Exchange', 'Index', 'Currency'], dtype='object')

In [43]:
df.columns

Index(['Index', 'Date', 'Open', 'High', 'Low', 'Close', 'Adj Close', 'Volume',
       'CloseUSD'],
      dtype='object')

In [50]:
# Se combinan ambos datasets a través de la columna Index.

df = df.merge(info, on = "Index", how = "inner" )
df.columns

Index(['Index', 'Date', 'Open', 'High', 'Low', 'Close', 'Adj Close', 'Volume',
       'CloseUSD', 'Region', 'Exchange', 'Currency'],
      dtype='object')

In [51]:
# Información general
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 104224 entries, 0 to 104223
Data columns (total 12 columns):
 #   Column     Non-Null Count   Dtype         
---  ------     --------------   -----         
 0   Index      104224 non-null  object        
 1   Date       104224 non-null  datetime64[ns]
 2   Open       104224 non-null  float64       
 3   High       104224 non-null  float64       
 4   Low        104224 non-null  float64       
 5   Close      104224 non-null  float64       
 6   Adj Close  104224 non-null  float64       
 7   Volume     104224 non-null  float64       
 8   CloseUSD   104224 non-null  float64       
 9   Region     104224 non-null  object        
 10  Exchange   104224 non-null  object        
 11  Currency   104224 non-null  object        
dtypes: datetime64[ns](1), float64(7), object(4)
memory usage: 10.3+ MB


Se puede ver que la columna 'date' no esta siendo detectada como fecha.

In [52]:
# Se arregla la fecha.

df['Date'] = pd.to_datetime(df['Date'])  

In [53]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 104224 entries, 0 to 104223
Data columns (total 12 columns):
 #   Column     Non-Null Count   Dtype         
---  ------     --------------   -----         
 0   Index      104224 non-null  object        
 1   Date       104224 non-null  datetime64[ns]
 2   Open       104224 non-null  float64       
 3   High       104224 non-null  float64       
 4   Low        104224 non-null  float64       
 5   Close      104224 non-null  float64       
 6   Adj Close  104224 non-null  float64       
 7   Volume     104224 non-null  float64       
 8   CloseUSD   104224 non-null  float64       
 9   Region     104224 non-null  object        
 10  Exchange   104224 non-null  object        
 11  Currency   104224 non-null  object        
dtypes: datetime64[ns](1), float64(7), object(4)
memory usage: 10.3+ MB


In [54]:
## Variables cuantitativas
df.describe()

Unnamed: 0,Open,High,Low,Close,Adj Close,Volume,CloseUSD
count,104224.0,104224.0,104224.0,104224.0,104224.0,104224.0,104224.0
mean,8015.353334,8063.324234,7962.58112,8014.366642,8014.161269,1347646000.0,3046.729177
std,9140.563404,9196.575802,9082.767802,9140.609758,9140.720456,4427662000.0,3747.865623
min,54.869999,54.869999,54.869999,54.869999,54.869999,0.0,10.2049
25%,2046.887756,2057.21399,2037.185943,2047.50647,2047.35849,0.0,320.460898
50%,5772.140137,5812.764892,5725.199951,5773.710205,5773.710205,952900.0,1371.598486
75%,10487.377445,10552.17969,10416.092287,10488.62256,10488.62256,206467600.0,4383.045241
max,68775.0625,69403.75,68516.99219,68775.0625,68775.0625,94403740000.0,18934.376173


In [55]:
# Número de términos únicos por variable
df.nunique()

Index           13
Date         14657
Open         96716
High         96830
Low          96663
Close        96764
Adj Close    97602
Volume       50561
CloseUSD     99179
Region          11
Exchange        13
Currency        10
dtype: int64

###  Información general de la base de datos

In [57]:
# fechas
print("- El rango de fechas va desde {0} hasta {1}.".format(df.Date.unique().min(), df.Date.unique().max()))

- El rango de fechas va desde 1965-01-05T00:00:00.000000000 hasta 2021-06-03T00:00:00.000000000.


In [63]:
print("- En la base de datos se consideraron {0} bolsas de valores distintas:".format(len(df.Exchange.unique())))
for i in df.Exchange.unique():
    print("    * "+i)

- En la base de datos se consideraron 13 bolsas de valores distintas:
    * Hong Kong Stock Exchange
    * New York Stock Exchange
    * NASDAQ
    * Shanghai Stock Exchange
    * Tokyo Stock Exchange
    * Euronext
    * Shenzhen Stock Exchange
    * Toronto Stock Exchange
    * National Stock Exchange of India
    * Frankfurt Stock Exchange
    * SIX Swiss Exchange
    * Taiwan Stock Exchange
    * Johannesburg Stock Exchange


In [68]:
# precios
print("- El rango de Precios de Cierre (CloseUSD) va de un min {0} hasta {1} dólares, y su promedio es {2}".format(df.CloseUSD.unique().min(),
                                                                                      df.CloseUSD.unique().max(),
                                                                 np.round(pd.to_numeric(df.CloseUSD).mean(), 2)))

- El rango de Precios de Cierre (CloseUSD) va de un min 10.2048999 hasta 18934.3761734 dólares, y su promedio es 3046.73


## 3. Limpieza de los Datos

## 4. Missing Values

In [69]:
# Revisar los missing values
df.isnull().sum()



Index        0
Date         0
Open         0
High         0
Low          0
Close        0
Adj Close    0
Volume       0
CloseUSD     0
Region       0
Exchange     0
Currency     0
dtype: int64

Ninguna de las variables tienen valores nulos (NaN).

## 5. Visualización de Datos

## 6. Referencias