#  _Modelos de Analítica Aplicados a los Negocios_

<div align="center"><h2>Carga de datasets y visualización de información</h2></div>

<img src="img/logos.png" >

# **Manejo de Pandas**

<img src="img/logo_pandas.png" width="400px">
La visualización de datos en Data Science no siempre es posible hacer en gráficas, en muchas ocasiones debedo a la gran cantidad de datos, la única forma es mostrar los datos crudos.


<a href="https://pandas.pydata.org/" target="_blank">Página oficial de Pandas</a>

In [None]:
!pip install pandas

## **Carga de librería**

In [None]:
import numpy as np
import pandas as pd

## **Cargar archivos**

In [None]:
df_oro = pd.read_csv('DataSets/Datos_históricos_Futuros_oro.csv') 
df_oro

In [None]:
type(df_oro)

In [None]:
df_oro = pd.read_excel('DataSets/Datos_históricos_Futuros_oro.xlsx') 
df_oro

In [None]:
import matplotlib.pyplot as plt

y_ultimo = df_oro['Último'] # Extraer columna de un DF
y_max = df_oro['Máximo']
y_min = df_oro['Mínimo']

plt.figure(figsize=(15,5))
plt.plot(y_ultimo ,'-', label='Valor')
plt.plot(y_max , '--',label='Max')
plt.plot(y_min , '--', label='Min')
plt.title('histórico del oro')
plt.xlabel('Días de 2021')
plt.ylabel('Pesos')
plt.legend()
plt.grid()
plt.show()

In [None]:
y_ultimo = list(df_oro['Último']) # Extraer columna de un DF
y_max = list(df_oro['Máximo'])
y_min = list(df_oro['Mínimo'])
y_ultimo.reverse()
y_max.reverse()
y_min.reverse()
plt.figure(figsize=(15,5))
plt.plot(y_ultimo ,'-*', label='Valor')
plt.plot(y_max , '--',label='Max')
plt.plot(y_min , '--', label='Min')
plt.title('histórico del oro')
plt.xlabel('Días de 2021')
plt.ylabel('Pesos')
plt.legend()
plt.grid()
plt.show()

## **Uso de LOC**
Se usa para extraer segmentos del DF, utilizando los nombres de las columnas o filas.

In [None]:
# Traer una sola columan con todas las fila
df_oro.loc[    :    ,     'Último']

In [None]:
var = pd.DataFrame(df_oro.loc[    :    ,     'Último'])

In [None]:
var

In [None]:
df_oro.Último

In [None]:
# Traer una fila y todas las columna
pd.DataFrame(df_oro.loc[3,:]).transpose()

In [None]:
# Traer varias filas y columnas consecutivas
df_oro.loc[:20 , 'Apertura':'Mínimo']

In [None]:
# Traer varias columnas específicas, seleccionadas en cualquier orden

df_select = df_oro.loc[[0,99,5,70,100],['% var.','Último' , 'Fecha']]
df_select

In [None]:
df_select.loc[:,'Fecha']

In [None]:
df_oro

## **Uso del iLOC**
Se usa para extraer segmentos del DF, utilizando los **números** de las columnas o filas.

In [None]:
# Todas las filas con una columna
df_oro.iloc[:,6]

In [None]:
# ¿Qué pasa cuando no uso el nombre de la columna con iloc?
df_oro.iloc[:,'% var.']

In [None]:
# todas las columnas con una sola fila
pd.DataFrame(df_oro.iloc[100 , :]).transpose()

In [None]:
# traer varias filas y varias columnas en orden.
df_oro.iloc[100:,4:]

In [None]:
# traer varias filas y varias columnas en un orden específico
df_oro.iloc[[23, 99, 1, 5, 0],[5,0,2]]

## **Uso de AT**
Acceder al un valor específico del DF usando los nombre de fila y columna

In [None]:
df_oro.at[0,'Fecha']

In [None]:
'La fecha de actualización del precio del oro es: ' + df_oro.at[0,'Fecha']

## **Uso de iAT**
Acceder al un valor específico del DF usando los **número** de fila y columna

In [None]:
df_oro.iat[0,4]

In [None]:
df_oro.iat[0,4]*2

.

In [None]:
df_oro

In [None]:
df_oro['Vol.']

In [None]:
df_oro['Vol.'].replace('-','0')

In [None]:
df_oro

In [None]:
df_oro['Vol.'] = df_oro['Vol.'].replace('-','0')
df_oro

In [None]:
df_oro.at[3,'% var.']

In [None]:
df_oro.at[3,'% var.'] = -0.0001
df_oro

## **Forma , tamaño o dimensiones de DF**

In [None]:
print(df_oro.shape)
print('Filas:',df_oro.shape[0])
print('Columnas:',df_oro.shape[1])

## **Construir un DF en pandas desde cero**

In [None]:
new_col = pd.DataFrame(np.arange(df_oro.shape[0]))
new_col

In [None]:
pd.DataFrame({'n1': [1,6,5,3,7,9] , 'n2':['a' , 'b', 'c','d', 'e','d']})

In [None]:
# Construir DF a partir de una lista
lenguajes = ['Python' , 'Java' , 'JavaScript' , 'C' , 'C++' , 'R' , 'C#' , 'Cotlin']

df2 = pd.DataFrame(lenguajes)
df2.columns = ['Lenguajes'] # Poner nombre a columnas
df2

In [None]:
# Construir un DF a partir de un diccionario
data = {
    0 : ['Juan' , 'Sofía' , 'Carlos' , 'Martha'] ,
    1 : [20 , 21 , 19 , 18],
    2 : [4.5 , 3.6 , 3.3 , 4.2]
}

df3 = pd.DataFrame(data)
df3.columns = ['Nombre' , 'Edad' , 'Nota']
df3

In [None]:
df3.columns = ['name' , 'age' , 'cal']
df3

In [None]:
# Construir un DF a partir de un diccionario
data2 = {
    'Nombre2' : ['Juan' , 'Sofía' , 'Carlos' , 'Martha'] ,
    'Edad2' : [20 , 21 , 19 , 18],
    'Nota2' : [4.5 , 3.6 , 3.3 , 4.2]
}

df32 = pd.DataFrame(data2)
df32

In [None]:
df32.index = ['Alumno1','Alumno2','Alumno3','Alumno4']
df32

In [None]:
df32.at['Alumno2','Nombre2']

In [None]:
df32.iat[1 , 0]

## **Los DF se pueden concatenar**

In [None]:
df4 = pd.DataFrame({
  'A' : ['A0','A1','A2','A3'],
  'B' : ['B0','B1','B2','B3'],
  'C' : ['C0','C1','C2','C3'],
  'D' : ['D0','D1','D2','D3'],
})

df5 = pd.DataFrame({
  'A' : ['A4','A5','A6','A7'],
  'B' : ['B4','B5','B6','B7'],
  'C' : ['C4','C5','C6','C7'],
  'D' : ['D4','D5','D6','D7'],
})

df6 = pd.DataFrame({
  'A' : ['A8','A9','A10','A11'],
  'B' : ['B8','B9','B10','B11'],
  'C' : ['C8','C9','C10','C11'],
  'D' : ['D8','D9','D10','D11'],
})

df7 = pd.concat([df4 , df5, df6] , axis=0) # 0: concatena hacia abajo
                                           # 1: Concaena hacia el lado derecho
df7

In [None]:
df8 = pd.DataFrame({
    'E' : ['E1', 'E2', 'E3','E4'],
    'F' : ['F1', 'F2', 'F3','F4'],
    'G' : ['G1', 'G2', 'G3','G4'],
})

df9 = pd.concat([df8 , df4] , axis=1)
df9

In [None]:
df9 = pd.concat([df8 , df4] , axis=0)
df9

## **Se pueden eliminar (Drop) columna del DF**

In [None]:
df10 = df9.drop(['F', 'C'] , axis=1)
df10

In [None]:
df9

In [None]:
df9.drop(['A'] , axis=1 , inplace=True)
df9

In [None]:
df9

In [None]:
df9.drop(['F'],axis=1)

In [None]:
df9

## **Se pueden eliminar (Drop) filas**

In [None]:
# Eliminar filas
df9.drop(2 , axis=0 , inplace=True)
df9

# **Otro ejercicios con DF**

In [None]:
dataset = pd.read_excel('DataSets/dataset.xlsx')
dataset

In [None]:
dataset.shape

In [None]:
dataset.columns

In [None]:
dataset.drop(['Unnamed: 0'],axis=1, inplace=True)
dataset

In [None]:
dataset2 = pd.read_excel('DataSets/dataset.xlsx',index_col='Id')
dataset2.drop(['Unnamed: 0'], axis=1,inplace=True)
dataset2

In [None]:
pd.DataFrame(dataset2.loc[7658908 , :]).transpose()

In [None]:
dataset2.describe()

In [None]:
dataset2.info()

In [None]:
dataset2

# **Limpieza de la base de datos (DataFrame)**

In [None]:
df_sinnan = dataset2.dropna()
df_sinnan

In [None]:
df_sinnan2 = dataset2.fillna(0)
df_sinnan2

In [None]:
df_sinnan3 = dataset2.fillna({'Dirección':'Desconocida' , 'Teléfono':0} , inplace=True)
df_sinnan3

In [None]:
df_sinnan2

# **Búsqueda de información en el DF**

In [None]:
dataset2

In [None]:
dataset2[dataset2['Edad'] > 30]

In [None]:
dataset2[dataset2.Edad < 30]

In [None]:
dataset2[(dataset2['Facebook'] =='Si') | ~(dataset2['Twitter'] == 'Si')]

In [None]:
dataset2[dataset2['Nombre'].str.contains('m')]

# **Transformación de datos**

In [None]:
from datetime import datetime 
from datetime import timedelta

def year(edad):
    now = datetime.now()
    y = now - timedelta(days=edad*365)
    return y.strftime('%Y')

dataset2['Año_nacimiento'] = dataset2['Edad'].apply(year)

dataset2

In [None]:
def operacion(col):
    result = col['Nombre'] + ' ' + col['Apellido']
    return result

dataset2['Nombre completo'] = dataset2.apply(operacion, axis=1 )
dataset2

# **Usar el groupby()**

In [None]:
df12 = dataset2.groupby('Facebook').count()
df12

In [None]:
dataset2.describe()