## Sessión 6

### Introducción a Pandas

En esta sesión se examina en detalle algunas de las estructuras de datos proporcionadas por la biblioteca Pandas. Pandas es un paquete reciente, construido sobre NumPy que proporciona una implementación eficiente de un DataFrame.

Los DataFrames son esencialmente matrices multidimensionales con etiquetas de filas y columnas adjuntas, y a menudo con tipos heterogéneos y/o datos ausentes. Además de ofrecer una cómoda interfaz de almacenamiento para los datos etiquetados, Pandas implementa una serie de potentes operaciones de datos que resultan familiares a los usuarios tanto de frameworks de bases de datos como de programas de hojas de cálculo (Excel).

Pandas, y en particular sus objetos Series y DataFrame, se basa en la estructura de arrays de NumPy y proporciona un acceso eficiente a este tipo de tareas de "manipulación de datos que ocupan gran parte del tiempo del equipo de datos.

### Instalación y uso de Pandas

La instalación de Pandas en un sistema operativo requiere la instalación de NumPy, y si se construye la librería desde el código fuente, requiere las herramientas apropiadas para compilar las fuentes C y Python sobre las que se construye Pandas. 

Una vez instalado Pandas, puede importarlo y comprobar la versión:

In [11]:
import pandas
pandas.__version__

'2.2.2'

In [13]:
#pip install opencv-python

### Navegando sobre las carpetas

La libreria que permite manejar el sistema de archivos del sistema operativo es ```os```

In [17]:
import os
os.getcwd() # Devuelve el directorio de trabajo actual

'C:\\Users\\jiliarsilgado\\Documents\\machine-learning-specialization\\data_science'

In [19]:
os.listdir() # Lista todos los archivos y carpetas en el directorio especificado.

['.ipynb_checkpoints',
 'arithmetic_lib',
 'Session 1 Variables.ipynb',
 'Session 2 Condicionales.ipynb',
 'Session 3 Diccionarios.ipynb',
 'Session 4 Strings.ipynb',
 'Session 5 Manipulación de Datos.ipynb',
 'Session 6 Pandas, Archivos, Dataframes, Series.ipynb',
 'Session 7 Funciones y Librerias.ipynb',
 'Session 8 Visualización de Datos.ipynb']

In [23]:
os.listdir('../') # Moverse entre rutas de trabajo

['.git',
 '.gitignore',
 '.ipynb_checkpoints',
 '.venv',
 'activities',
 'data',
 'data_science',
 'fastapi',
 'README.md']

In [25]:
os.path.exists('Session 1 Variables.ipynb') # ¿Exite archivo?

True

In [27]:
if not os.path.exists('test'):
    os.makedirs('test') # Crear directorios

In [29]:
os.path.exists('Session 1 Variables.ipynb') # ¿Exite archivo?

True

In [31]:
import stat # Gestionar modos de archivo y los permisos en sistemas de archivos. 
os.chmod('test', stat.S_IRWXU | stat.S_IRWXU | stat.S_IXGRP | stat.S_IRWXU | stat.S_IRWXU)

In [33]:
with open('test.txt', 'w') as f: # Crear archivo
    f.write("Este es el contenido inicial del archivo.\n")
os.listdir()

['.ipynb_checkpoints',
 'arithmetic_lib',
 'Session 1 Variables.ipynb',
 'Session 2 Condicionales.ipynb',
 'Session 3 Diccionarios.ipynb',
 'Session 4 Strings.ipynb',
 'Session 5 Manipulación de Datos.ipynb',
 'Session 6 Pandas, Archivos, Dataframes, Series.ipynb',
 'Session 7 Funciones y Librerias.ipynb',
 'Session 8 Visualización de Datos.ipynb',
 'test',
 'test.txt']

In [35]:
os.remove('test.txt') #eliminar archivo

In [37]:
from pathlib import Path
ruta = Path('./')
ruta.exists() # ¿Ruta existe?

True

In [39]:
ruta.is_dir() # ¿Es directorio?

True

In [41]:
list(ruta.iterdir()) #listar archivos de un path

[WindowsPath('.ipynb_checkpoints'),
 WindowsPath('arithmetic_lib'),
 WindowsPath('Session 1 Variables.ipynb'),
 WindowsPath('Session 2 Condicionales.ipynb'),
 WindowsPath('Session 3 Diccionarios.ipynb'),
 WindowsPath('Session 4 Strings.ipynb'),
 WindowsPath('Session 5 Manipulación de Datos.ipynb'),
 WindowsPath('Session 6 Pandas, Archivos, Dataframes, Series.ipynb'),
 WindowsPath('Session 7 Funciones y Librerias.ipynb'),
 WindowsPath('Session 8 Visualización de Datos.ipynb'),
 WindowsPath('test')]

### Uso de pandas para la carga de archivos
#### Lectura de .csv

In [44]:
import pandas as pd
df = pd.read_csv('../data/csv/usuarios_win_mac_lin.csv') #Reading .csv
df.head()

Unnamed: 0,duracion,paginas,acciones,valor,clase
0,7.0,2,4,8,2
1,21.0,2,6,6,2
2,57.0,2,4,4,2
3,101.0,3,6,12,2
4,109.0,2,6,12,2


#### Lectura de .txt

In [47]:
df = pd.read_csv('../data/txt/usuarios_win_mac_lin.txt', sep=',') #Reading .txt
df.head()

Unnamed: 0,Nombre,Edad,Ciudad
0,Pedro,26,Málaga
1,Lucía,59,Valencia
2,Miguel,55,Zaragoza
3,María,56,Bilbao
4,Sofía,58,Zaragoza


#### Lectura de .xlsx

In [52]:
df = pd.read_excel('../data/xls/atletico_nacional_copas.xlsx')
df.head()

Unnamed: 0,Competencia,Año,Rival,Resultado Final
0,Copa Libertadores,1989,Olimpia,1-0 (global)
1,Copa Libertadores,2016,Independiente del Valle,2-1 (global)
2,Copa Interamericana,1997,Saprissa,3-2 (global)
3,Copa Merconorte,1998,Deportivo Cali,4-1 (global)
4,Copa Merconorte,2000,Millonarios,2-1 (global)


### Series

Una Serie en pandas es una estructura de datos unidimensional que puede almacenar cualquier tipo de datos, como enteros, cadenas, flotantes, etc.

Es similar a un array de una dimensión de NumPy, pero con algunas características adicionales, como un índice asociado que identifica cada elemento de la serie.

#### Caracteristicas clave de una Serie:

+ **Datos unidimensionales:** Una Serie almacena datos en una sola dimensión. Puede pensarse como una columna en una hoja de cálculo o una tabla de base de datos.
+ **Índice:** Cada elemento en una Serie tiene un indice asociado, que es una etiqueta que identifica el valor correspondiente. Si no especificas un indice, pandas asignará uno por defecto que es un rango de números enteros comenzando desde 0.
+ **Soporte para distintos tipos de datos:** Una Serie puede contener datos de cualquier tipo, incluidos enteros, flotantes, cadenas, objetos, y más.

In [55]:
diccionario = {
    'Suba': 63967, 'Engativa': 69662, 'Bosa': 154297, 'Usme': 87312, 'Usaquen': 99995
}

In [57]:
diccionario

{'Suba': 63967,
 'Engativa': 69662,
 'Bosa': 154297,
 'Usme': 87312,
 'Usaquen': 99995}

In [59]:
usuarios = pd.Series(diccionario)
print(usuarios)

Suba         63967
Engativa     69662
Bosa        154297
Usme         87312
Usaquen      99995
dtype: int64


### DataFrame

Un DataFrame de Pandas es una estructura de datos bidimensional en Python, que se utiliza ampliamente para manipular y analizar datos.
Puedes pensar en un DataFrame como una tabla similar a una hoja de cálculo de Excel o una tabla SQL, donde los datos están organizados en filas y columnas.

#### Características clave de un DataFrame: 

+ **Estructura de dos dimensiones:** Los datos están organizados en filas y columnas. Cada columna puede contener diferentes tipos de datos (números, cadenas de texto, booleanos, etc.).
+ **Indice:** Cada fila tiene una etiqueta de índice única, que puede ser numérica o alfanumérica.
+ **Nombres de columnas:** Cada columna tiene un nombre único.
+ **Operaciones flexibles:** Los DataFrames permiten realizar una amplia gama de operaciones, como: Filtrar y seleccionar datos, aplicar funciones a filas o columnas, manipular y transformar datos, unir y combinar diferentes DataFrames, agrupar datos y realizar operaciones agregadas.

In [62]:
df = pd.DataFrame()

In [64]:
df.columns

RangeIndex(start=0, stop=0, step=1)

In [66]:
# Todos los arreglos deben tener la misma longitud,
# cuando no pasa y se utilizan Datafarmes se reemplaza el valor faltante por el valor NaN
usuarios = pd.Series({'Usme': 87312, 'Usaquen': 99995, 'Ciudad Bolivar': 789876, 'Suba': 63967, 'Engativa': 69662, 'Bosa': 1542971})
ingresos = pd.Series({'Suba': 383325154, 'Engativa': 264489345, 'Bosa': 196512754, 'Usme': 195528621, 'Usaquen': 128821554})
data = pd.DataFrame({'Usuarios': usuarios, 'Ingresos': ingresos})
data

Unnamed: 0,Usuarios,Ingresos
Bosa,1542971,196512754.0
Ciudad Bolivar,789876,
Engativa,69662,264489345.0
Suba,63967,383325154.0
Usaquen,99995,128821554.0
Usme,87312,195528621.0


In [68]:
data.Ingresos.to_list() #Mostrar los ingresos como lista

[196512754.0, nan, 264489345.0, 383325154.0, 128821554.0, 195528621.0]

In [70]:
data.Usuarios.to_list() #Mostrar los usuarios como lista

[1542971, 789876, 69662, 63967, 99995, 87312]

In [72]:
type(ingresos) # ¿Que tipo de objeto es ingresos?

pandas.core.series.Series

In [74]:
type(data) # ¿Que tipo de objeto es data?

pandas.core.frame.DataFrame

In [76]:
# help(pd.Series()) # documentación y ayuda aserca de series

In [78]:
data ['New'] = 5 #Agregando columna con valor
data

Unnamed: 0,Usuarios,Ingresos,New
Bosa,1542971,196512754.0,5
Ciudad Bolivar,789876,,5
Engativa,69662,264489345.0,5
Suba,63967,383325154.0,5
Usaquen,99995,128821554.0,5
Usme,87312,195528621.0,5


In [80]:
data.drop(columns='New', inplace=True) #Eliminar columnas, eliminación permantente inplace=True
data

Unnamed: 0,Usuarios,Ingresos
Bosa,1542971,196512754.0
Ciudad Bolivar,789876,
Engativa,69662,264489345.0
Suba,63967,383325154.0
Usaquen,99995,128821554.0
Usme,87312,195528621.0


#### Concatenación de Dataframes

In [83]:
dictionary_1 = {"Usuarios_1":["Pepito 1", "Pepito 2", "Pepito 3", "Pepito 4", "Pepito 5"],
                "Beneficio_1": [1,2,3,4,5],
                "Beneficio_2":[1,2,3,4,5]} 

In [85]:
df_example_dic_1 = pd.DataFrame(dictionary_1)
df_example_dic_1

Unnamed: 0,Usuarios_1,Beneficio_1,Beneficio_2
0,Pepito 1,1,1
1,Pepito 2,2,2
2,Pepito 3,3,3
3,Pepito 4,4,4
4,Pepito 5,5,5


In [87]:
dictionary_2 = {"Usuarios_2":["Pepito 6", "Pepito 7", "Pepito 8", "Pepito 9", "Pepito 10"],
                "Beneficio_3": [1,2,3,4,5],
                "Beneficio_4":[1,2,3,4,5]}

In [89]:
df_example_dic_2 = pd.DataFrame(dictionary_2)
df_example_dic_2

Unnamed: 0,Usuarios_2,Beneficio_3,Beneficio_4
0,Pepito 6,1,1
1,Pepito 7,2,2
2,Pepito 8,3,3
3,Pepito 9,4,4
4,Pepito 10,5,5


In [91]:
pd.concat([df_example_dic_1, df_example_dic_2], axis = 1) #Concatenación Horizontal (Agregación de más columnas)

Unnamed: 0,Usuarios_1,Beneficio_1,Beneficio_2,Usuarios_2,Beneficio_3,Beneficio_4
0,Pepito 1,1,1,Pepito 6,1,1
1,Pepito 2,2,2,Pepito 7,2,2
2,Pepito 3,3,3,Pepito 8,3,3
3,Pepito 4,4,4,Pepito 9,4,4
4,Pepito 5,5,5,Pepito 10,5,5


In [93]:
consolidated = pd.DataFrame()
df_example_dic_1.columns = ["Usuarios", "Beneficio X", "Beneficio Y"] # Renombrar todas las columnas
df_example_dic_2.columns = ["Usuarios", "Beneficio X", "Beneficio Y"] # Renombrar todas las columnas
consolidated = pd.concat([df_example_dic_1, df_example_dic_2], axis = 0) #Concatenación Verticalmente (Agregación de más filas)
consolidated

Unnamed: 0,Usuarios,Beneficio X,Beneficio Y
0,Pepito 1,1,1
1,Pepito 2,2,2
2,Pepito 3,3,3
3,Pepito 4,4,4
4,Pepito 5,5,5
0,Pepito 6,1,1
1,Pepito 7,2,2
2,Pepito 8,3,3
3,Pepito 9,4,4
4,Pepito 10,5,5


In [95]:
type(consolidated)

pandas.core.frame.DataFrame

In [97]:
consolidated.info() #Ver información de dataframe

<class 'pandas.core.frame.DataFrame'>
Index: 10 entries, 0 to 4
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Usuarios     10 non-null     object
 1   Beneficio X  10 non-null     int64 
 2   Beneficio Y  10 non-null     int64 
dtypes: int64(2), object(1)
memory usage: 320.0+ bytes


In [99]:
consolidated["Usuarios"].dtypes #Ver el tipo de la serie Usuarios

dtype('O')

#### Creación de nuevas columnas calculadas

In [102]:
data['Promedio_Ingreso_Usuario'] = data['Ingresos'] / data['Usuarios']
data

Unnamed: 0,Usuarios,Ingresos,Promedio_Ingreso_Usuario
Bosa,1542971,196512754.0,127.359979
Ciudad Bolivar,789876,,
Engativa,69662,264489345.0,3796.752103
Suba,63967,383325154.0,5992.545437
Usaquen,99995,128821554.0,1288.279954
Usme,87312,195528621.0,2239.424375


#### Creación de nuevas columnas cosntantes

In [105]:
data['Ciudad'] = ['Fuera de Bogotá', 'Bogotá', 'Bogotá', 'Bogotá', 'Bogotá', 'Fuera de Bogotá']
data

Unnamed: 0,Usuarios,Ingresos,Promedio_Ingreso_Usuario,Ciudad
Bosa,1542971,196512754.0,127.359979,Fuera de Bogotá
Ciudad Bolivar,789876,,,Bogotá
Engativa,69662,264489345.0,3796.752103,Bogotá
Suba,63967,383325154.0,5992.545437,Bogotá
Usaquen,99995,128821554.0,1288.279954,Bogotá
Usme,87312,195528621.0,2239.424375,Fuera de Bogotá


#### Filtración de datos

In [108]:
data[['Usuarios','Promedio_Ingreso_Usuario']] # Mostrar Columnas: Usuarios y Promedio_Ingreso_Usuario

Unnamed: 0,Usuarios,Promedio_Ingreso_Usuario
Bosa,1542971,127.359979
Ciudad Bolivar,789876,
Engativa,69662,3796.752103
Suba,63967,5992.545437
Usaquen,99995,1288.279954
Usme,87312,2239.424375


In [110]:
data[['Usuarios','Promedio_Ingreso_Usuario']][data['Usuarios'] > 9500] # Mostrar usuarios por cantidad de usuarios mayor a 9500

Unnamed: 0,Usuarios,Promedio_Ingreso_Usuario
Bosa,1542971,127.359979
Ciudad Bolivar,789876,
Engativa,69662,3796.752103
Suba,63967,5992.545437
Usaquen,99995,1288.279954
Usme,87312,2239.424375


In [112]:
# Mostrar usuarios por cantidad de usuarios mayor a 9500 con promedio de ingresos matyor a 1275
data[['Usuarios','Promedio_Ingreso_Usuario']][(data['Usuarios'] > 9500) & (data['Promedio_Ingreso_Usuario'] > 1275)]

Unnamed: 0,Usuarios,Promedio_Ingreso_Usuario
Engativa,69662,3796.752103
Suba,63967,5992.545437
Usaquen,99995,1288.279954
Usme,87312,2239.424375


#### Metodo LOC e ILOC

En los DataFrames de Pandas existen diferentes formas de seleccionar los registros de las filas y columnas. Siendo dos de las más importantes ILOC y LOC.
+ **ILOC:** Permite seleccionar los elementos en base a la posición.
+ **LOC:** Permite seleccionar mediante etiquetas o declaraciones condicionales.

In [116]:
data

Unnamed: 0,Usuarios,Ingresos,Promedio_Ingreso_Usuario,Ciudad
Bosa,1542971,196512754.0,127.359979,Fuera de Bogotá
Ciudad Bolivar,789876,,,Bogotá
Engativa,69662,264489345.0,3796.752103,Bogotá
Suba,63967,383325154.0,5992.545437,Bogotá
Usaquen,99995,128821554.0,1288.279954,Bogotá
Usme,87312,195528621.0,2239.424375,Fuera de Bogotá


In [118]:
data.iloc[1:4,[0,2]] #Limite superior es inclusivo pero no el limite inferior

Unnamed: 0,Usuarios,Promedio_Ingreso_Usuario
Ciudad Bolivar,789876,
Engativa,69662,3796.752103
Suba,63967,5992.545437


In [120]:
data.loc[['Suba', 'Usme'], ['Usuarios', 'Ciudad']]

Unnamed: 0,Usuarios,Ciudad
Suba,63967,Bogotá
Usme,87312,Fuera de Bogotá


In [122]:
#Es inclusivo siempre y cuando los indices especificados esten ordenados de la misma forma en el Dataframe.
data.loc['Suba': 'Usme', 'Usuarios': 'Ciudad']

Unnamed: 0,Usuarios,Ingresos,Promedio_Ingreso_Usuario,Ciudad
Suba,63967,383325154.0,5992.545437,Bogotá
Usaquen,99995,128821554.0,1288.279954,Bogotá
Usme,87312,195528621.0,2239.424375,Fuera de Bogotá


In [124]:
data.loc[data.Ingresos > 200000000, 'Ingresos':'Ciudad']

Unnamed: 0,Ingresos,Promedio_Ingreso_Usuario,Ciudad
Engativa,264489345.0,3796.752103,Bogotá
Suba,383325154.0,5992.545437,Bogotá


#### Imputación de Datos

In [127]:
data2 = data.copy()

In [129]:
data2['col_dummy'] = 0
data2.drop(columns = 'col_dummy', inplace = True)
data2

Unnamed: 0,Usuarios,Ingresos,Promedio_Ingreso_Usuario,Ciudad
Bosa,1542971,196512754.0,127.359979,Fuera de Bogotá
Ciudad Bolivar,789876,,,Bogotá
Engativa,69662,264489345.0,3796.752103,Bogotá
Suba,63967,383325154.0,5992.545437,Bogotá
Usaquen,99995,128821554.0,1288.279954,Bogotá
Usme,87312,195528621.0,2239.424375,Fuera de Bogotá


In [131]:
data2.info

<bound method DataFrame.info of                 Usuarios     Ingresos  Promedio_Ingreso_Usuario  \
Bosa             1542971  196512754.0                127.359979   
Ciudad Bolivar    789876          NaN                       NaN   
Engativa           69662  264489345.0               3796.752103   
Suba               63967  383325154.0               5992.545437   
Usaquen            99995  128821554.0               1288.279954   
Usme               87312  195528621.0               2239.424375   

                         Ciudad  
Bosa            Fuera de Bogotá  
Ciudad Bolivar           Bogotá  
Engativa                 Bogotá  
Suba                     Bogotá  
Usaquen                  Bogotá  
Usme            Fuera de Bogotá  >

In [133]:
whos DataFrame # Ver que dataframes hay en memoria

Variable           Type         Data/Info
-----------------------------------------
consolidated       DataFrame        Usuarios  Beneficio X<...>           5            5
data               DataFrame                    Usuarios <...>        Fuera de Bogotá  
data2              DataFrame                    Usuarios <...>        Fuera de Bogotá  
df                 DataFrame    Empty DataFrame\nColumns: []\nIndex: []
df_example_dic_1   DataFrame       Usuarios  Beneficio X <...>           5            5
df_example_dic_2   DataFrame        Usuarios  Beneficio X<...>           5            5


In [135]:
whos Series # Ver que dataframes hay en memoria

Variable   Type      Data/Info
------------------------------
ingresos   Series    Suba        383325154\nEn<...>  128821554\ndtype: int64
usuarios   Series    Usme                87312<...>    1542971\ndtype: int64


In [137]:
data2.iloc[2:,[0,3]] = 1100 # Cambiando valores de la fila número 3 en adelante para las columnas 0 (Usuarios) y 3 (Ciudad)
data2

Unnamed: 0,Usuarios,Ingresos,Promedio_Ingreso_Usuario,Ciudad
Bosa,1542971,196512754.0,127.359979,Fuera de Bogotá
Ciudad Bolivar,789876,,,Bogotá
Engativa,1100,264489345.0,3796.752103,1100
Suba,1100,383325154.0,5992.545437,1100
Usaquen,1100,128821554.0,1288.279954,1100
Usme,1100,195528621.0,2239.424375,1100


In [139]:
data2.loc[data2.Usuarios <= 1100, ["Ciudad"]] = ["Medellín"]
data2

Unnamed: 0,Usuarios,Ingresos,Promedio_Ingreso_Usuario,Ciudad
Bosa,1542971,196512754.0,127.359979,Fuera de Bogotá
Ciudad Bolivar,789876,,,Bogotá
Engativa,1100,264489345.0,3796.752103,Medellín
Suba,1100,383325154.0,5992.545437,Medellín
Usaquen,1100,128821554.0,1288.279954,Medellín
Usme,1100,195528621.0,2239.424375,Medellín


In [141]:
data2['Ciudad'] = data2['Ciudad'].replace(['Bogotá'],['BOGOTA'])
data2

Unnamed: 0,Usuarios,Ingresos,Promedio_Ingreso_Usuario,Ciudad
Bosa,1542971,196512754.0,127.359979,Fuera de Bogotá
Ciudad Bolivar,789876,,,BOGOTA
Engativa,1100,264489345.0,3796.752103,Medellín
Suba,1100,383325154.0,5992.545437,Medellín
Usaquen,1100,128821554.0,1288.279954,Medellín
Usme,1100,195528621.0,2239.424375,Medellín


In [143]:
serie_prueba = pd.Series({ 'Suba':1.5, 'Engativa':2.6, 'Bosa': 3.5, 'Usaquen': 3.1 })
serie_prueba

Suba        1.5
Engativa    2.6
Bosa        3.5
Usaquen     3.1
dtype: float64

In [145]:
data2['prueba'] = serie_prueba
data2

Unnamed: 0,Usuarios,Ingresos,Promedio_Ingreso_Usuario,Ciudad,prueba
Bosa,1542971,196512754.0,127.359979,Fuera de Bogotá,3.5
Ciudad Bolivar,789876,,,BOGOTA,
Engativa,1100,264489345.0,3796.752103,Medellín,2.6
Suba,1100,383325154.0,5992.545437,Medellín,1.5
Usaquen,1100,128821554.0,1288.279954,Medellín,3.1
Usme,1100,195528621.0,2239.424375,Medellín,


In [147]:
list_aux = ['Medellín']
data2[~data2['Ciudad'].isin(list_aux)] # Consultar coincidencialmente

Unnamed: 0,Usuarios,Ingresos,Promedio_Ingreso_Usuario,Ciudad,prueba
Bosa,1542971,196512754.0,127.359979,Fuera de Bogotá,3.5
Ciudad Bolivar,789876,,,BOGOTA,


In [149]:
# reemplazar valores NaN en la columna Prueba por un valor.
data2.prueba = data2.prueba.fillna(11)
data2

Unnamed: 0,Usuarios,Ingresos,Promedio_Ingreso_Usuario,Ciudad,prueba
Bosa,1542971,196512754.0,127.359979,Fuera de Bogotá,3.5
Ciudad Bolivar,789876,,,BOGOTA,11.0
Engativa,1100,264489345.0,3796.752103,Medellín,2.6
Suba,1100,383325154.0,5992.545437,Medellín,1.5
Usaquen,1100,128821554.0,1288.279954,Medellín,3.1
Usme,1100,195528621.0,2239.424375,Medellín,11.0


In [151]:
import numpy as np
#np.where es equivalente al BuscarV, Si la condición se satisface hara algo sino dara otra respuesta.
data2.Usuarios = np.where(data2['Usuarios'] >= 1200, 5000, data2['Usuarios'])
data2

Unnamed: 0,Usuarios,Ingresos,Promedio_Ingreso_Usuario,Ciudad,prueba
Bosa,5000,196512754.0,127.359979,Fuera de Bogotá,3.5
Ciudad Bolivar,5000,,,BOGOTA,11.0
Engativa,1100,264489345.0,3796.752103,Medellín,2.6
Suba,1100,383325154.0,5992.545437,Medellín,1.5
Usaquen,1100,128821554.0,1288.279954,Medellín,3.1
Usme,1100,195528621.0,2239.424375,Medellín,11.0


In [153]:
data2.Ingresos = np.where(data2['Ingresos'].isna(), 0.0, data2['Ingresos'])
data2

Unnamed: 0,Usuarios,Ingresos,Promedio_Ingreso_Usuario,Ciudad,prueba
Bosa,5000,196512754.0,127.359979,Fuera de Bogotá,3.5
Ciudad Bolivar,5000,0.0,,BOGOTA,11.0
Engativa,1100,264489345.0,3796.752103,Medellín,2.6
Suba,1100,383325154.0,5992.545437,Medellín,1.5
Usaquen,1100,128821554.0,1288.279954,Medellín,3.1
Usme,1100,195528621.0,2239.424375,Medellín,11.0


### Actividad 1:

Las enfermedades cardiovasculares (ECV) son la primera causa de muerte en el mundo, y se calcula que se cobran 17,9 millones de vidas al año, lo que supone el 31% de todas las muertes en el mundo. Cuatro de cada cinco muertes por ECV se deben a infartos de miocardio y accidentes cerebrovasculares, y un tercio de estas muertes se producen prematuramente en personas menores de 70 años.

La insuficiencia cardíaca es un evento común causado por las ECV y este conjunto de datos contiene 11 características que pueden utilizarse para predecir una posible enfermedad cardíaca. Las personas con enfermedades cardiovasculares o que tienen un alto riesgo cardiovascular (debido a la presencia de uno o más factores de riesgo como la hipertensión, la diabetes, la hiperlipidemia o una enfermedad ya establecida) necesitan una detección y una gestión tempranas en las que un modelo de aprendizaje automático puede ser de gran ayuda.

+ Age Age in years
+ Sex (1 male: 0 = female)
+ Cp Chest pain type
+ Trestbps Resting blood pressure (in mm Hg on admission to the hospital)
+ Chol Serum cholestoral in mg/dl
+ Fbs (Fasting blood sugar > 120 mg/dl) (1 = true; 0 = false)
+ Restecg Resting electrocardiographic results
+ Thalach Maximum heart rate achieved
+ Exang Exercise induced angina (1= yes; 0 no)
+ Oldpeak ST depression induced by exercise relative to rest
+ Slope The slope of the peak exercise ST segment
+ Ca Number of major vessels (0-3) colored by flourosopy
+ Thal 3 normal; 6 fixed defect, 7 reversable defect
+ Target 1 or 0

Cargue el archivo Excel que se le compartió.

In [156]:
df = pd.read_excel('../data/xls/BO_HeartData.xlsx', index_col = 0)
df.to_csv('../data/csv/BO_HeartData.csv', index = False)
df.head()

Unnamed: 0_level_0,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
age,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
52,1,0,125,212,0,1,168,0,1.0,2,2,3,0
53,1,0,140,203,1,0,155,1,3.1,0,0,3,0
70,1,0,145,174,0,1,125,1,2.6,0,0,3,0
61,1,0,148,203,0,1,161,0,0.0,2,1,3,0
62,0,0,138,294,1,1,106,0,1.9,1,3,2,0


+ Mostrar las columnas de sex y chol
+ Muestre unicamente las columnas thal y fbs, habiendo filtrado cp igual a 0 y thalach mayor a 130
+ Reemplace los valores de sex cuando sea igual a 0 por femenino y cuando sea igual 1 como masculino.

In [159]:
df[['sex','chol']]

Unnamed: 0_level_0,sex,chol
age,Unnamed: 1_level_1,Unnamed: 2_level_1
52,1,212
53,1,203
70,1,174
61,1,203
62,0,294
...,...,...
59,1,221
60,1,258
47,1,275
50,0,254


In [161]:
df[['thal','fbs']][(df['cp'] > 0) & (df['thalach'] > 130)]

Unnamed: 0_level_0,thal,fbs
age,Unnamed: 1_level_1,Unnamed: 2_level_1
34,2,0
34,2,0
51,2,0
50,2,0
58,2,1
...,...,...
45,2,0
48,3,0
44,2,0
65,2,1


In [163]:
df.sex = np.where(df['sex'] == 0, 'Femenino', np.where(df['sex'] == 1, 'Masculino', df['sex']))
df

Unnamed: 0_level_0,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
age,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
52,Masculino,0,125,212,0,1,168,0,1.0,2,2,3,0
53,Masculino,0,140,203,1,0,155,1,3.1,0,0,3,0
70,Masculino,0,145,174,0,1,125,1,2.6,0,0,3,0
61,Masculino,0,148,203,0,1,161,0,0.0,2,1,3,0
62,Femenino,0,138,294,1,1,106,0,1.9,1,3,2,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
59,Masculino,1,140,221,0,1,164,1,0.0,2,0,2,1
60,Masculino,0,125,258,0,0,141,1,2.8,1,1,3,0
47,Masculino,0,110,275,0,0,118,1,1.0,1,1,2,0
50,Femenino,0,110,254,0,0,159,0,0.0,2,0,2,1
