<H1> **Introducción a Python para Big Data** : 🎊

Este notebook te guiará a través de los conceptos fundamentales de Python y la librería Pandas, esenciales para el análisis de datos.

<H3> 1. Primeros pasos con Python 🆎

Comenzaremos con los conceptos básicos de Python, como la creación de variables y la impresión de valores.

In [None]:
# Asignación y tipos de datos
a = 1 + 1
b = "Big Data"

# Imprimir variables en pantalla
print(a)
print(b)

2
Big Data


<H3> 2. Manejo de datos con Pandas ⛵

Pandas es una librería fundamental para trabajar con datos tabulares. Un DataFrame de Pandas es una estructura similar a una hoja de cálculo, con filas y columnas.

Crear un DataFrame

Podemos crear un DataFrame a partir de listas de Python.

In [None]:
# Listas de datos
lista_personajes = ['Luke Skywalker', 'C-3PO', 'Darth Vader']
lista_altura = [172, 167, 202]

# Crear el DataFrame
import pandas as pd

d_star_wars = pd.DataFrame({
    'personaje': lista_personajes,
    'altura': lista_altura
})

# Mostrar el DataFrame y sus tipos de datos
print(d_star_wars)
print("---")
print(d_star_wars.dtypes)

<H3> 3. Cargar y explorar un archivo ✈

En el mundo real, los datos rara vez se crean manualmente.
Veamos como cargar un archivo CSV directamente desde una URL.

In [None]:
#Antes de comenzar tenemos que instalar la librería funpymodeling que me permite conocer información estadística de los datos
%%capture
!pip install funpymodeling

In [None]:
# Cargar un archivo CSV desde una URL
url = 'https://raw.githubusercontent.com/fpineyro/homework-0/master/starwars.csv'
d_star_wars_url = pd.read_csv(url)

# Explorar el DataFrame
# Muestra las primeras 5 filas
print("Primeras 5 filas:")
print(d_star_wars_url.head(7))

# Muestra el número de filas y columnas (filas, columnas)
print("\nDimensiones del DataFrame:")
print(d_star_wars_url.shape)

# Muestra un resumen estadístico de las variables
# ¡Asegúrate de instalar esta librería antes!
# !pip install funpymodeling
from funpymodeling.exploratory import status
print("\nEstadísticas del DataFrame:")
status(d_star_wars_url)

<H3>4. Filtrar y seleccionar datos ⛳

Para seleccionar datos específicos de tu DataFrame, usa loc. Con loc puedes seleccionar filas y columnas por sus nombres o etiquetas.


El formato loc[filas, columnas] te permite seleccionar datos usando las etiquetas de filas y columnas.

[0, :]: El primer valor (0) selecciona la fila con la etiqueta 0. Los dos puntos (:) significan todas las columnas.

[:, 'nombre_columna']: Los dos puntos (:) seleccionan todas las filas. El nombre de la columna selecciona una columna específica.

4.1. Seleccionar columnas

In [None]:
# Seleccionar una sola columna
#d_star_wars['personaje']

# Seleccionar múltiples columnas
d_star_wars[['personaje', 'altura']]

4.2. Seleccionar filas

Podemos seleccionar filas basándote en su posición (índice).

Nota: el uso de 0:2 en loc es inclusivo, lo que significa que incluye los índices 0, 1 y 2.

In [None]:
# Seleccionar la primera fila
d_star_wars.loc[0, :]

In [None]:
# Seleccionar las 3 primeras filas
d_star_wars.loc[0:2, :]

4.3. Filtrar con condiciones

Podemos usar una condición para filtrar filas que cumplan con un criterio específico. Por ejemplo, encontrar todos los personajes cuya altura sea mayor que 200.

In [None]:
# Crear un filtro (devuelve True/False para cada fila)
filtro_altura = d_star_wars['altura'] > 200

# Aplicar el filtro para obtener solo los registros que cumplen la condición
d_star_wars.loc[filtro_altura, :]

4.4. Reemplazar valores

Podemos combinar el filtrado con la asignación para cambiar valores específicos en el DataFrame.

In [None]:
# Reemplazar la altura de Darth Vader por 185
d_star_wars.loc[d_star_wars['personaje'] == 'Darth Vader', 'altura'] = 185

# Verificar el cambio
print(d_star_wars.loc[d_star_wars['personaje'] == 'Darth Vader', :])

<H3>5. Manejar valores nulos (NaN) ⛎

5.1. Los valores faltantes (NaN) son muy comunes. Es crucial saber cómo identificarlos y manejarlos.

In [None]:
# Identificar nulos por columna
print("Número de nulos en cada columna:")
print(d_star_wars_url.isnull().sum())

In [None]:
d_star_wars_url

In [None]:
# Reemplazar valores nulos en columnas categóricas
valores_a_rellenar = {'homeworld': 'nulo_world', 'species': 'nulo_species'}

d_star_wars_url.fillna(value=valores_a_rellenar, inplace=True)
print(d_star_wars_url)

In [None]:
#Vemos cual es el promedio de altura
print(d_star_wars_url['height'].mean())

In [None]:
# Reemplazar valores nulos en columnas numéricas con el promedio
promedio_altura = d_star_wars_url['height'].mean()


d_star_wars_url['height'] = d_star_wars_url['height'].fillna(promedio_altura)
d_star_wars_url

In [None]:
# Verificar que los nulos fueron reemplazados
status(d_star_wars_url['height'])

5.2. Eliminar registros con valores nulos
A veces, en lugar de reemplazar los valores nulos, lo mejor es eliminar por completo las filas o columnas que los contienen. El método dropna() de Pandas te permite hacerlo fácilmente.

Por defecto, dropna() elimina cualquier fila que contenga al menos un valor nulo. Es una forma rápida de limpiar el conjunto de datos si las filas con valores faltantes no son importantes para tu análisis.

In [None]:
# Eliminar las filas con valores nulos
d_star_wars_url.dropna(inplace=True)
status(d_star_wars_url)

<H3> 6. Crear nuevas columnas 🛋

Puedes crear una nueva columna en un DataFrame y asignarle valores basados en una condición. Es una forma muy poderosa de derivar información a partir de los datos existentes.

In [None]:
# Asignamos True si la altura es > 180, de lo contrario, False
d_star_wars['is_tall'] = d_star_wars['altura'] > 180

# Muestra el DataFrame con la nueva columna
print(d_star_wars)

<H3> 7. Copiar un DataFrame ©

Cuando realizas cambios en un DataFrame y quieres conservar la versión original, es una buena práctica hacer una copia. Esto te permite manipular la nueva versión sin afectar la original.

In [None]:
#Hacer una copia del DataFrame
d_star_wars_copy = d_star_wars.copy()

# Ahora puedes trabajar con d_star_wars_copy sin afectar el original
d_star_wars_copy

************************************************************************************

<H2> Ejercicios 🔰

Aquí hay una serie de ejercicios para aplicar lo que aprendiste. ¡No te frustres si te toma tiempo! La práctica es la clave.

<H3> Ejercicio 1. Carga el archivo heart_disease.csv en un DataFrame llamado d_hd. URL: https://raw.githubusercontent.com/fpineyro/homework-0/master/heart_disease.csv

In [None]:
##Ejercicio 1

# Crear el DataFrame
import pandas as pd

url = 'https://raw.githubusercontent.com/fpineyro/homework-0/master/heart_disease.csv'
d_hd = pd.read_csv(url)

# Mostrar el DataFrame y sus tipos de datos
print(d_hd)


     age  gender  chest_pain  resting_blood_pressure  serum_cholestoral  \
0     63    male           1                     145                233   
1     67    male           4                     160                286   
2     67    male           4                     120                229   
3     37    male           3                     130                250   
4     41  female           2                     130                204   
..   ...     ...         ...                     ...                ...   
298   45    male           1                     110                264   
299   68    male           4                     144                193   
300   57    male           4                     130                131   
301   57  female           2                     130                236   
302   38    male           3                     138                175   

     fasting_blood_sugar  resting_electro  max_heart_rate  exer_angina  \
0                      1 

<H3> Ejercicio 2. Muestra los primeros 5 y los últimos 5 registros de d_hd.

In [None]:
##Ejercicio 2
print("Primeras 5 filas:")
print(d_hd.head(5))

print("\nUltimas 5 filas:")
print(d_hd.tail(5))

Primeras 5 filas:
   age  gender  chest_pain  resting_blood_pressure  serum_cholestoral  \
0   63    male           1                     145                233   
1   67    male           4                     160                286   
2   67    male           4                     120                229   
3   37    male           3                     130                250   
4   41  female           2                     130                204   

   fasting_blood_sugar  resting_electro  max_heart_rate  exer_angina  oldpeak  \
0                    1                2             150            0      2.3   
1                    0                2             108            1      1.5   
2                    0                2             129            1      2.6   
3                    0                0             187            0      3.5   
4                    0                2             172            0      1.4   

   slope  num_vessels_flour  thal  heart_disease_severit

<H3> Ejercicio 3. Selecciona e imprime las columnas age y has_heart_disease.

In [None]:
##Ejercicio 3
print(d_hd[['age', 'has_heart_disease']])


     age has_heart_disease
0     63                no
1     67               yes
2     67               yes
3     37                no
4     41                no
..   ...               ...
298   45               yes
299   68               yes
300   57               yes
301   57               yes
302   38                no

[303 rows x 2 columns]


<H3> Ejercicio 4. Crea un filtro para encontrar todos los registros donde colesterol (serum_cholestoral) sea mayor que 250.

In [None]:
##Ejercicio 4

filtroReg = d_hd['serum_cholestoral'] > 250
d_hd.loc[filtroReg, :]

Unnamed: 0,age,gender,chest_pain,resting_blood_pressure,serum_cholestoral,fasting_blood_sugar,resting_electro,max_heart_rate,exer_angina,oldpeak,slope,num_vessels_flour,thal,heart_disease_severity,exter_angina,has_heart_disease
1,67,male,4,160,286,0,2,108,1,1.5,2,3.0,3.0,2,1,yes
6,62,female,4,140,268,0,2,160,0,3.6,3,2.0,3.0,3,0,yes
7,57,female,4,120,354,0,0,163,1,0.6,1,0.0,3.0,0,1,no
8,63,male,4,130,254,0,2,147,0,1.4,2,1.0,7.0,2,0,yes
11,56,female,2,140,294,0,2,153,0,1.3,2,0.0,3.0,0,0,no
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
280,57,male,4,110,335,0,0,143,1,3.0,2,1.0,7.0,2,1,yes
281,47,male,3,130,253,0,0,179,0,0.0,1,0.0,3.0,0,0,no
285,58,male,4,114,318,0,1,140,0,4.4,3,3.0,6.0,4,0,yes
291,55,female,2,132,342,0,0,166,0,1.2,1,0.0,3.0,0,0,no


<H3> Ejercicio 5. Usa la función status() para identificar qué variables tienen valores nulos.

In [None]:
##Ejercicio 5

print("Número de nulos en cada columna:")
print(d_hd.isnull().sum())

Número de nulos en cada columna:
age                       0
gender                    0
chest_pain                0
resting_blood_pressure    0
serum_cholestoral         0
fasting_blood_sugar       0
resting_electro           0
max_heart_rate            0
exer_angina               0
oldpeak                   0
slope                     0
num_vessels_flour         4
thal                      2
heart_disease_severity    0
exter_angina              0
has_heart_disease         0
dtype: int64


<H3> Ejercicio 6. Reemplaza los valores nulos de la columna thal por un valor de 999.

In [None]:
##Ejercicio 6
d_hd['thal'] = d_hd['thal'].fillna(999)
print(d_hd['thal'].isnull().sum())


0


<H3> Ejercicio 7. Filtrar por múltiples condiciones:

Utiliza el DataFrame d_hd y filtra para encontrar todos los registros de pacientes que tienen más de 60 años Y un nivel de colesterol (serum_cholestoral) superior a 250.

In [None]:
##Ejercicio 7
filtro = d_hd[(d_hd['age'] > 60) & (d_hd['serum_cholestoral'] > 250)]
print(filtro.head())


    age  gender  chest_pain  resting_blood_pressure  serum_cholestoral  \
1    67    male           4                     160                286   
6    62  female           4                     140                268   
8    63    male           4                     130                254   
32   64    male           3                     140                335   
42   71  female           2                     160                302   

    fasting_blood_sugar  resting_electro  max_heart_rate  exer_angina  \
1                     0                2             108            1   
6                     0                2             160            0   
8                     0                2             147            0   
32                    0                0             158            0   
42                    0                0             162            0   

    oldpeak  slope  num_vessels_flour  thal  heart_disease_severity  \
1       1.5      2                3.0   3.0  

<H3> Ejercicio 8. Reemplazar valores en una columna:

Selecciona la columna slope del DataFrame d_hd. Reemplaza el valor 1 por el string 'ascendente' y el valor 2 por 'descendente'. Muestra el resultado (no necesitas guardarlo en el DataFrame original).

In [None]:
##Ejercicio 8
nuevacolumna = d_hd['slope'].replace({1: 'ascendente', 2: 'descendente'})
print(nuevacolumna)


0                3
1      descendente
2      descendente
3                3
4       ascendente
          ...     
298    descendente
299    descendente
300    descendente
301    descendente
302     ascendente
Name: slope, Length: 303, dtype: object


<H3>Ejercicio 9. Crear una nueva columna:

En el DataFrame d_hd, crea una nueva columna llamada is_healthy. Asigna el valor True si el paciente no tiene enfermedad del corazón (es decir, el valor en heart_disease_severity es 0) y False en caso contrario. Muestra el DataFrame con la nueva columna

In [None]:
##Ejercicio 9
d_hd['is_healthy'] = d_hd['heart_disease_severity'] == 0
print(d_hd)

     age  gender  chest_pain  resting_blood_pressure  serum_cholestoral  \
0     63    male           1                     145                233   
1     67    male           4                     160                286   
2     67    male           4                     120                229   
3     37    male           3                     130                250   
4     41  female           2                     130                204   
..   ...     ...         ...                     ...                ...   
298   45    male           1                     110                264   
299   68    male           4                     144                193   
300   57    male           4                     130                131   
301   57  female           2                     130                236   
302   38    male           3                     138                175   

     fasting_blood_sugar  resting_electro  max_heart_rate  exer_angina  \
0                      1 

<H3> Ejercicio 10. Eliminar registros con nulos:

Crea una copia del DataFrame d_hd llamada d_hd_clean. Usa el método dropna() para eliminar todos los registros que contengan al menos un valor nulo. Luego, usa status() para verificar que ya no hay valores nulos en d_hd_clean.

In [None]:
##Ejercicio 10
d_hd_clean = d_hd.dropna()
print("Valores nulos en d_hd_clean:")
print(d_hd_clean.isnull().sum())

Valores nulos en d_hd_clean:
age                       0
gender                    0
chest_pain                0
resting_blood_pressure    0
serum_cholestoral         0
fasting_blood_sugar       0
resting_electro           0
max_heart_rate            0
exer_angina               0
oldpeak                   0
slope                     0
num_vessels_flour         0
thal                      0
heart_disease_severity    0
exter_angina              0
has_heart_disease         0
is_healthy                0
dtype: int64


************************************************************************************