### 🐼 Pandas

<p>Pandas es una biblioteca de Python para análisis y manipulación de datos y se utiliza mucho en ciencia de datos, machine learning, estadística y finanzas.</p>

Con Pandas puedes:
- Leer y escribir datos (CSV, Excel, SQL, JSON, etc.).
- Limpiar, transformar y analizar datos.
- Hacer estadísticas básicas.
- Trabajar con datos tabulares (como si fueran tablas de Excel o SQL).

#### Instalación

```python
pip install pandas
```

importar desde un notebook

```python
import pandas as pd
```

### Estructuras principales de pandas

Pandas tiene dos estructuras clave:

#### Series
Es un vector unidimensional (parecido a una columna de Excel).


In [14]:
import pandas as pd

serie = pd.Series([10, 20, 30, 40], name="Numeros")
print(serie)

#Observa que tiene índice (0,1,2,3) y valores.

0    10
1    20
2    30
3    40
Name: Numeros, dtype: int64


#### Dataframe

Es una tabla de datos en dos dimensiones (como una hoja de Excel).

In [15]:
data = {
    "Nombre": ["Ana", "Luis", "Carlos", "Marta"],
    "Edad": [23, 30, 25, 35],
    "Ciudad": ["Bogotá", "Medellín", "Cali", "Cartagena"]
}

df = pd.DataFrame(data)
print(df)

   Nombre  Edad     Ciudad
0     Ana    23     Bogotá
1    Luis    30   Medellín
2  Carlos    25       Cali
3   Marta    35  Cartagena


### Operaciones basicas

Ver los primeros registros

In [23]:
print(df.head(2))   # Primeras 5 filas
print("----------------------------------------")
print(df.tail(2))  # Últimas 2 filas

  Nombre  Edad  Ciudad
0    Ana    23  Bogotá
1   Luis    30  Bogotá
----------------------------------------
   Nombre  Edad     Ciudad
2  Carlos    25       Cali
3   Marta    35  Cartagena


In [24]:
df["Ciudad"].unique()

array(['Bogotá', 'Cali', 'Cartagena'], dtype=object)

### Información del DataFrame

In [25]:
print(df.shape)   # (filas, columnas)
print("----------------------------------------")
print(df.columns) # Nombres de columnas
print("----------------------------------------")
print(df.info())  # Resumen del DataFrame
print("----------------------------------------")
print(df.describe()) # Estadísticas numéricas

(4, 3)
----------------------------------------
Index(['Nombre', 'Edad', 'Ciudad'], dtype='object')
----------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Nombre  4 non-null      object
 1   Edad    4 non-null      int64 
 2   Ciudad  4 non-null      object
dtypes: int64(1), object(2)
memory usage: 224.0+ bytes
None
----------------------------------------
            Edad
count   4.000000
mean   28.250000
std     5.377422
min    23.000000
25%    24.500000
50%    27.500000
75%    31.250000
max    35.000000


In [26]:
type(df["Nombre"][0])

str

### Acceder a columnas y filas

In [27]:
print(df["Nombre"])       # Columna específica
print("----------------------------------------")
print(df[["Nombre","Edad"]]) # Varias columnas
print("----------------------------------------")

print(df.iloc[0])   # Primera fila (por posición)
print("----------------------------------------")

print(df.loc[2])    # Fila con índice 2
print("----------------------------------------")


0       Ana
1      Luis
2    Carlos
3     Marta
Name: Nombre, dtype: object
----------------------------------------
   Nombre  Edad
0     Ana    23
1    Luis    30
2  Carlos    25
3   Marta    35
----------------------------------------
Nombre       Ana
Edad          23
Ciudad    Bogotá
Name: 0, dtype: object
----------------------------------------
Nombre    Carlos
Edad          25
Ciudad      Cali
Name: 2, dtype: object
----------------------------------------


### Filtrado y selección

In [28]:
df["Edad"] > 25

0    False
1     True
2    False
3     True
Name: Edad, dtype: bool

In [30]:
# Filtrar personas mayores de 25 años
mask = df["Edad"] > 25
mayores_25 = df[mask]
print(mayores_25)

# Filtrar por varias condiciones
medellin = df[(df["Edad"] < 35) & (df["Ciudad"] == "Medellín")]
print(medellin)

  Nombre  Edad     Ciudad
1   Luis    30     Bogotá
3  Marta    35  Cartagena
Empty DataFrame
Columns: [Nombre, Edad, Ciudad]
Index: []


### Modificación de datos

In [36]:
# Agregar una nueva columna
df["Edad+10"] = df["Edad"] + 10

# Cambiar valores
df.loc[1, "Ciudad"] = "Medellin"

# Eliminar columna
#df = df.drop(columns=["Edad+10"])

In [37]:
df.head()

Unnamed: 0,Nombre,Edad,Ciudad,Edad+10
0,Ana,23,Bogotá,33
1,Luis,30,Medellin,40
2,Carlos,25,Cali,35
3,Marta,35,Cartagena,45


### Importar y exportar datos

```python

df_csv = pd.read_csv("archivo.csv")
df_excel = pd.read_excel("archivo.xlsx")

```

### Guardar archivos
```python
df.to_csv("datos.csv", index=False)
df.to_excel("datos.xlsx", index=False)
```

---

### Ejercicio

About DataSet There are 13 attributes: 1. Age: Age (in years) 2. Sex: gender (1 = male; 0 = female) 3.ChestPain: Chest Pain type -- 1: typical angina (all criteria present) -- 2: atypical angina (two of three criteria satisfied) -- 3: non-anginal pain (less than one criteria satisfied) -- 4: asymptomatic (none of the criteria are satisfied) 4. Restbps: Resting Blood pressure (in mmHg, upon admission to the hospital) 5. Chol: serum cholesterol in mg/dL 6. Fbs: fasting blood sugar > 120 mg/dL (likely to be diabetic) 1 = true; 0 = false 7. RestECG: Resting electrocardiogram results -- Value 0: normal -- Value 1: having ST-T wave abnormality (T wave inversions and/or ST elevation or depression of > 0.05 mV) -- Value 2: showing probable or definite left ventricular hypertrophy by Estes' criteria 8. MaxHR: Greatest number of beats per minute your heart can possibly reach during all-out strenuous exercise. 9.Exang: exercise induced angina (1 = yes; 0 = no) 10. Oldpeak: ST depression induced by exercise relative to rest (in mm, achieved by subtracting the lowest ST segment points during exercise and rest) 11. Slope: the slope of the peak exercise ST segment, ST-T abnormalities are considered to be a crucial indicator for identifying presence of ischaemia -- Value 1: upsloping -- Value 2: flat -- Value 3: downsloping 12.Ca: number of major vessels (0-3) colored by fluoroscopy. Major cardial vessels are as goes: aorta, superior vena cava, inferior vena cava, pulmonary artery (oxygen-poor blood --> lungs), pulmonary veins (oxygen-rich blood --> heart), and coronary arteries (supplies blood to heart tissue). 13. AHD: 0 = normal; 1 = fixed defect (heart tissue can't absorb thallium both under stress and in rest); 2 = reversible defect (heart tissue is unable to absorb thallium only under the exercise portion of the test) 14.AHD: 0 = no disease, 1 = disease

In [38]:
import pandas as pd

df_heart = pd.read_csv("data/HeartAttackDataSet.csv")

In [39]:
df_heart.head()

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,63,1,3,145,233,1,0,150,0,2.3,0,0,1,1
1,37,1,2,130,250,0,1,187,0,3.5,0,0,2,1
2,41,0,1,130,204,0,0,172,0,1.4,2,0,2,1
3,56,1,1,120,236,0,1,178,0,0.8,2,0,2,1
4,57,0,0,120,354,0,1,163,1,0.6,2,0,2,1


In [40]:
df_heart.columns

Index(['age', 'sex', 'cp', 'trestbps', 'chol', 'fbs', 'restecg', 'thalach',
       'exang', 'oldpeak', 'slope', 'ca', 'thal', 'target'],
      dtype='object')