# Intro a Pandas

Pandas es una librería de Python que nos permite trabajar con datos tabulares de manera muy eficiente. 

En el mundo del análisis de datos, Pandas se ha convertido en una herramienta fundamental para científicos de datos, analistas y cualquier persona que trabaje con datos en Python. Con Pandas, puedes realizar operaciones como limpieza, manipulación, visualización y análisis de datos de manera eficiente.

![](https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/1920px-Pandas_logo.svg.png)

## 1. Instalar Pandas

Para instalar Pandas, ejecuta el siguiente comando en tu terminal:

```bash
pip install pandas==<version>
```

In [3]:
import pandas as pd

## 2. Series y Dataframes

Pandas tiene dos estructuras de datos principales: Series y DataFrames.

- **Series**: es un array unidimensional. Es similar a una columna en una tabla de Excel.
- **DataFrame**: es una estructura de datos bidimensional con filas y columnas con etiquetas. Es similar a una tabla de Excel.

### 2.1 Series

Para crear una Serie, puedes pasar una lista de elementos y Pandas creará una Serie con índices numéricos.

In [6]:
serie = pd.Series([1, 2, 3, 4, 5])
serie

0    1
1    2
2    3
3    4
4    5
dtype: int64

### 2.2 DataFrames

Para crear un DataFrame, puedes pasar un diccionario de listas, donde cada clave es el nombre de la columna y cada valor es una lista de elementos.

In [7]:
data = {
    'name': ['María', 'Daniel', 'Marisa', 'David', 'Sabrina'],
    'age': [16, 7, 29, None, 33], 
    'city': ['Madrid', 'Madrid', 'Málaga', 'Málaga', 'Valladolid'],
    'height': [None, 1.20, 1.60, 2.01, 1.83]
}

df = pd.DataFrame(data)
df

Unnamed: 0,name,age,city,height
0,María,16.0,Madrid,
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,Málaga,1.6
3,David,,Málaga,2.01
4,Sabrina,33.0,Valladolid,1.83


Aunque lo más normal es crear DataFrames a partir de archivos CSV, Excel, bases de datos, etc. En este caso, vamos a guardar el DataFrame en un archivo CSV y posteriormente lo leeremos.

In [8]:
CSV_PATH = "data.csv"

df.to_csv(CSV_PATH, index=False)

In [10]:
import pandas as pd
from pathlib import Path


CSV_PATH = Path("data.csv")


df = pd.read_csv(CSV_PATH)
df

Unnamed: 0,name,age,city,height
0,María,16.0,Madrid,
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,Málaga,1.6
3,David,,Málaga,2.01
4,Sabrina,33.0,Valladolid,1.83


## 3. Basics de un Dataframe

Podemos visualizar los primeros/últimos registros de un DataFrame con los métodos `head()` y `tail()`, respectivamente.

In [12]:
df.head(3)

Unnamed: 0,name,age,city,height
0,María,16.0,Madrid,
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,Málaga,1.6


In [13]:
df.tail(3)

Unnamed: 0,name,age,city,height
2,Marisa,29.0,Málaga,1.6
3,David,,Málaga,2.01
4,Sabrina,33.0,Valladolid,1.83


Los dataframes tienen una serie de atributos básicos: `.columns`, `.values`, `.shape`, `.dtypes`, etc. Algunos de ellos te recordarán a los atributos de un array de NumPy.

In [14]:
df.columns

Index(['name', 'age', 'city', 'height'], dtype='object')

In [15]:
df.values

array([['María', 16.0, 'Madrid', nan],
       ['Daniel', 7.0, 'Madrid', 1.2],
       ['Marisa', 29.0, 'Málaga', 1.6],
       ['David', nan, 'Málaga', 2.01],
       ['Sabrina', 33.0, 'Valladolid', 1.83]], dtype=object)

In [18]:
df.shape

(5, 4)

In [20]:
df.dtypes

name       object
age       float64
city       object
height    float64
dtype: object

## 4. Estadísticas básicas

Pandas nos permite obtener la información general de un Dataframe con el método `info()`.

In [21]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   name    5 non-null      object 
 1   age     4 non-null      float64
 2   city    5 non-null      object 
 3   height  4 non-null      float64
dtypes: float64(2), object(2)
memory usage: 292.0+ bytes




Pandas nos permite obtener estadísticas básicas de un DataFrame con el método `describe()`. Este método nos devuelve un resumen de las estadísticas descriptivas de las **columnas numéricas**.

In [22]:
df.describe()

Unnamed: 0,age,height
count,4.0,4.0
mean,21.25,1.66
std,11.954776,0.349571
min,7.0,1.2
25%,13.75,1.5
50%,22.5,1.715
75%,30.0,1.875
max,33.0,2.01


Para contabilizar los valores únicos de una columna, podemos usar el método `value_counts()`. Vemos que las filas que albergan valores nulos, no se contabilizan.

In [101]:
df.value_counts()

name     age   city        height
Daniel   7.0   Madrid      1.20      1
Marisa   29.0  Málaga      1.60      1
Sabrina  33.0  Valladolid  1.83      1
Name: count, dtype: int64

Realmente, lo normal es que apliquemos el `value_counts()` a una Serie, no a un DataFrame. Para ello, seleccionamos la columna que queremos analizar.

In [102]:
df["city"].value_counts()

city
Madrid        2
Málaga        2
Valladolid    1
Name: count, dtype: int64

## 5. Indexación

Recordemos que el indexing consiste en seleccionar un subconjunto de datos de un DataFrame. Recordemos antes cómo era el dataframe original y veamos que Pandas nos permite indexar un DataFrame de diferentes maneras.

In [23]:
df

Unnamed: 0,name,age,city,height
0,María,16.0,Madrid,
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,Málaga,1.6
3,David,,Málaga,2.01
4,Sabrina,33.0,Valladolid,1.83



**Por nombre de columna**: `df['column_name']`

In [27]:
column = df['name']
column

0      María
1     Daniel
2     Marisa
3      David
4    Sabrina
Name: name, dtype: object

**Por posición (índice) de la fila**: `df.iloc[0]`


In [36]:
df.iloc[3]

name       David
age          NaN
city      Málaga
height      2.01
Name: 3, dtype: object

**Por etiqueta de la fila**: `df.loc['row_label']`


In [37]:
df.loc[3]

name       David
age          NaN
city      Málaga
height      2.01
Name: 3, dtype: object

**Por etiqueta de fila y columna**: `df.loc['row_label', 'column_name']`

In [51]:
df.loc[1, 'name']

'Daniel'

**Por condición**: `df[df['column_name'] > 0]`


In [53]:
import numpy as np

array = np.arange(5)
array < 2

array([ True,  True, False, False, False])

In [54]:
older_than_18 = df['age'] > 18
older_than_18

0    False
1    False
2     True
3    False
4     True
Name: age, dtype: bool

In [55]:
df[older_than_18]

Unnamed: 0,name,age,city,height
2,Marisa,29.0,Málaga,1.6
4,Sabrina,33.0,Valladolid,1.83


**Por valores mínimos y máximos**: `df['column_name'].idxmin()` y `df['column_name'].idxmax()`

In [78]:
age_column = df['age']
min_age = age_column.min()
min_age_rows_mask = age_column == min_age
df[min_age_rows_mask]

Unnamed: 0,name,age,city,height
1,Daniel,7.0,Madrid,1.2


## 6. Data Cleaning

El data cleaning es un paso fundamental en cualquier análisis de datos. Pandas nos permite realizar operaciones de limpieza de datos de manera muy eficiente. **Es muy común encontrarnos con valores nulos** en nuestros datasets. Pandas nos ofrece métodos para tratar estos valores nulos, como `dropna()`, `fillna()` y `isnull()`. Recordemos primero, el dataset original.

In [79]:
df

Unnamed: 0,name,age,city,height
0,María,16.0,Madrid,
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,Málaga,1.6
3,David,,Málaga,2.01
4,Sabrina,33.0,Valladolid,1.83


Por ejemplo, para ver si hay valores nulos en un DataFrame, podemos usar los metodos `isnull()` ó `isna()`.

In [85]:
df.isnull()

Unnamed: 0,name,age,city,height
0,False,False,False,True
1,False,False,False,False
2,False,False,False,False
3,False,True,False,False
4,False,False,False,False


Para **eliminar** las filas con valores nulos, podemos usar el método `dropna()`.

In [83]:
df.dropna()

Unnamed: 0,name,age,city,height
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,Málaga,1.6
4,Sabrina,33.0,Valladolid,1.83


Para **rellenar** los valores nulos con un valor específico, podemos usar el método `fillna()`.

In [87]:
df.fillna(100000)

Unnamed: 0,name,age,city,height
0,María,16.0,Madrid,100000.0
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,Málaga,1.6
3,David,100000.0,Málaga,2.01
4,Sabrina,33.0,Valladolid,1.83


Estos métodos son aplicables también a las Series (columnas de un DataFrame).

In [90]:
df["age"].isnull()

0    False
1    False
2    False
3     True
4    False
Name: age, dtype: bool

# Ejercicios

Toma el dataframe original y guárdalo como un CSV

In [97]:
CSV_PATH_2 = "data_2.csv"

df.to_csv(CSV_PATH_2, index=False)

Ahora lee el archivo CSV

In [98]:
df = pd.read_csv(CSV_PATH_2)

Muestra los 3 primeros registros del DataFrame.

In [103]:
df.head(3)

Unnamed: 0,name,age,city,height
0,María,16.0,Madrid,
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,Málaga,1.6


Muestra los 4 últimos registros del DataFrame.

In [104]:
df.tail(4)

Unnamed: 0,name,age,city,height
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,Málaga,1.6
3,David,,Málaga,2.01
4,Sabrina,33.0,Valladolid,1.83


Dime cuantos datos tiene el DataFrame (💡 es lo mismo que calcular el número de filas). ¿en `numpy` vimos 2 formas de calcular este dato, recuerdas?

In [109]:
df.shape[0]
len(df)

5

Muéstrame las estadísticas básicas del DataFrame.

In [105]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   name    5 non-null      object 
 1   age     4 non-null      float64
 2   city    5 non-null      object 
 3   height  4 non-null      float64
dtypes: float64(2), object(2)
memory usage: 292.0+ bytes


In [116]:
df.describe()

Unnamed: 0,age,height
count,4.0,4.0
mean,21.25,1.66
std,11.954776,0.349571
min,7.0,1.2
25%,13.75,1.5
50%,22.5,1.715
75%,30.0,1.875
max,33.0,2.01


Obtén los datos de la columna 'name' ¿Cual es el tipo de dato de esta columna?

In [121]:
name_column = df['name']
name_column

0      María
1     Daniel
2     Marisa
3      David
4    Sabrina
Name: name, dtype: object

🌶️ Recuera que una Serie se puede tratar como un array de numpy, por tanto, obtén los datos de la columna "age" y calcula la media. ¿Coincide con el resultado que arroja pandas en la celda superior? (💡 en `numpy` la media se calcula usando `np.mean`)

In [124]:
import numpy as np

age_column = df['age']
np.mean(age_column)

21.25

Ahora calcula la edad máxima y mínima de la columna "age".

In [126]:
np.min(age_column)
age_column.min()

7.0

🌶️ Una vez obtenida la edad mínima, ¿Cual es el nombre de dicha persona?

In [131]:
min_age = age_column.min()
min_age_mask = age_column == min_age
df[min_age_mask]

Unnamed: 0,name,age,city,height
1,Daniel,7.0,Madrid,1.2


Filtra el DataFrame: muestra las filas donde la edad sea mayor a 25.

In [133]:
older_than_25 = age_column > 25
df[older_than_25]

Unnamed: 0,name,age,city,height
2,Marisa,29.0,Málaga,1.6
4,Sabrina,33.0,Valladolid,1.83


Filtra el DataFrame: muestra las filas donde la gente sea de 'Málaga'. (💡 utiliza el operador `==`)

In [135]:
city_column = df['city']
people_from_malaga = city_column == 'Málaga'
df[people_from_malaga]

Unnamed: 0,name,age,city,height
2,Marisa,29.0,Málaga,1.6
3,David,,Málaga,2.01


🌶️ Filtra el Dataframe: filas donde la gente sea de 'Málaga' y mayor de 25. (💡 para sumar dos condiciones se utiliza el operador `and` que se representa en python con `&`, i.e.: 

```python
compose_condition = condition1 & condition2
```

In [144]:
df[older_than_25 & people_from_malaga]


Unnamed: 0,name,age,city,height
2,Marisa,29.0,Málaga,1.6


In [149]:
df[older_than_25 | ~people_from_malaga]

Unnamed: 0,name,age,city,height
0,María,16.0,Madrid,
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,Málaga,1.6
4,Sabrina,33.0,Valladolid,1.83


Obtén la máscara de los valores que son nulos en el DataFrame.

In [148]:
df.isnull()

Unnamed: 0,name,age,city,height
0,True,True,True,False
1,True,True,True,True
2,True,True,True,True
3,True,False,True,True
4,True,True,True,True


Ahora obtén la máscara de los valores que NO son nulos en el DataFrame. (💡 busca en la documentación de pandas, o en google, cómo hacerlo)

In [147]:
df.notnull()

Unnamed: 0,name,age,city,height
0,True,True,True,False
1,True,True,True,True
2,True,True,True,True
3,True,False,True,True
4,True,True,True,True


Elimina los valores nulos del DataFrame.

In [162]:
height_valid_values = df["height"].notnull()
df[height_valid_values]

Unnamed: 0,name,age,city,height
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,Málaga,1.6
3,David,,Málaga,2.01
4,Sabrina,33.0,Valladolid,1.83


Rellena todos los valores nulos con 1.

In [156]:
df.fillna(1)

Unnamed: 0,name,age,city,height
0,María,16.0,Madrid,1.0
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,Málaga,1.6
3,David,1.0,Málaga,2.01
4,Sabrina,33.0,Valladolid,1.83


Ahora rellena sólo los valores nulos de la columna 'age' con 10.

In [159]:
df["age"].fillna(10)

0    16.0
1     7.0
2    29.0
3    10.0
4    33.0
Name: age, dtype: float64

🌶️ Ahora rellena los valores nulos de la columna 'height' con la media de dicha columna

In [166]:
height_column = df["height"]
mean_height = np.mean(height_column)
height_column.fillna(mean_height)

0    1.66
1    1.20
2    1.60
3    2.01
4    1.83
Name: height, dtype: float64

## BONUS: Explora los datos del dataset de Titanic

El dataset de Titanic es un dataset muy famoso en el mundo del análisis de datos. Contiene información sobre los pasajeros del Titanic, incluyendo si sobrevivieron o no, su edad, sexo, clase, etc.

In [167]:
CSV_PATH = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"


titanic_df = pd.read_csv(CSV_PATH)
titanic_df.head(5)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Hazte preguntas como, ¿Qué porcentaje de pasajeros sobrevivió? ¿Cuál es la edad media de los pasajeros? ¿Cuántos pasajeros había en cada clase? ¿Cuál es la edad media de los pasajeros que sobrevivieron y de los que no? ¿Cuál es la edad máxima de los pasajeros que sobrevivieron y de los que no?

In [168]:
titanic_df.to_csv('titanic.csv')