# Intro a Pandas

Pandas es una librer√≠a de Python que nos permite trabajar con datos tabulares de manera muy eficiente. 

En el mundo del an√°lisis de datos, Pandas se ha convertido en una herramienta fundamental para cient√≠ficos de datos, analistas y cualquier persona que trabaje con datos en Python. Con Pandas, puedes realizar operaciones como limpieza, manipulaci√≥n, visualizaci√≥n y an√°lisis de datos de manera eficiente.

![](https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/1920px-Pandas_logo.svg.png)

## 1. Instalar Pandas

Para instalar Pandas, ejecuta el siguiente comando en tu terminal:

```bash
pip install pandas==<version>
```

In [1]:
import pandas as pd

## 2. Series y Dataframes

Pandas tiene dos estructuras de datos principales: Series y DataFrames.

- **Series**: es un array unidimensional. Es similar a una columna en una tabla de Excel.
- **DataFrame**: es una estructura de datos bidimensional con filas y columnas con etiquetas. Es similar a una tabla de Excel.

### 2.1 Series

Para crear una Serie, puedes pasar una lista de elementos y Pandas crear√° una Serie con √≠ndices num√©ricos.

In [2]:
serie = pd.Series([1, 2, 3, 4, 5])
serie

0    1
1    2
2    3
3    4
4    5
dtype: int64

### 2.2 DataFrames

Para crear un DataFrame, puedes pasar un diccionario de listas, donde cada clave es el nombre de la columna y cada valor es una lista de elementos.

In [3]:
data = {
    'name': ['Mar√≠a', 'Daniel', 'Marisa', 'David', 'Sabrina'],
    'age': [16, 7, 29, None, 33], 
    'city': ['Madrid', 'Madrid', 'M√°laga', 'M√°laga', 'Valladolid'],
    'height': [None, 1.20, 1.60, 2.01, 1.83]
}

df = pd.DataFrame(data)
df

Unnamed: 0,name,age,city,height
0,Mar√≠a,16.0,Madrid,
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,M√°laga,1.6
3,David,,M√°laga,2.01
4,Sabrina,33.0,Valladolid,1.83


Aunque lo m√°s normal es crear DataFrames a partir de archivos CSV, Excel, bases de datos, etc. En este caso, vamos a guardar el DataFrame en un archivo CSV y posteriormente lo leeremos.

In [4]:
CSV_PATH = 'data.csv'

df.to_csv(CSV_PATH, index=False)
df = pd.read_csv(CSV_PATH)
df

Unnamed: 0,name,age,city,height
0,Mar√≠a,16.0,Madrid,
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,M√°laga,1.6
3,David,,M√°laga,2.01
4,Sabrina,33.0,Valladolid,1.83


## 3. Basics de un Dataframe

Podemos visualizar los primeros/√∫ltimos registros de un DataFrame con los m√©todos `head()` y `tail()`, respectivamente.

In [5]:
df.head(2)

Unnamed: 0,name,age,city,height
0,Mar√≠a,16.0,Madrid,
1,Daniel,7.0,Madrid,1.2


In [73]:
df.tail(3)

Unnamed: 0,name,age,city,height
2,Marisa,29.0,M√°laga,1.6
3,David,,M√°laga,2.01
4,Sabrina,33.0,Valladolid,1.83


Los dataframes tienen una serie de atributos b√°sicos: `.columns`, `.values`, `.shape`, `.dtypes`, etc. Algunos de ellos te recordar√°n a los atributos de un array de NumPy.

In [7]:
df.columns

Index(['name', 'age', 'city', 'height'], dtype='object')

In [8]:
df.values

array([['Mar√≠a', 16.0, 'Madrid', nan],
       ['Daniel', 7.0, 'Madrid', 1.2],
       ['Marisa', 29.0, 'M√°laga', 1.6],
       ['David', nan, 'M√°laga', 2.01],
       ['Sabrina', 33.0, 'Valladolid', 1.83]], dtype=object)

In [9]:
df.shape

(5, 4)

In [10]:
df.dtypes

name       object
age       float64
city       object
height    float64
dtype: object

## 4. Estad√≠sticas b√°sicas

Pandas nos permite obtener la informaci√≥n general de un Dataframe con el m√©todo `info()`.

In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   name    5 non-null      object 
 1   age     4 non-null      float64
 2   city    5 non-null      object 
 3   height  4 non-null      float64
dtypes: float64(2), object(2)
memory usage: 292.0+ bytes




Pandas nos permite obtener estad√≠sticas b√°sicas de un DataFrame con el m√©todo `describe()`. Este m√©todo nos devuelve un resumen de las estad√≠sticas descriptivas de las **columnas num√©ricas**.

In [12]:
df.describe()

Unnamed: 0,age,height
count,4.0,4.0
mean,21.25,1.66
std,11.954776,0.349571
min,7.0,1.2
25%,13.75,1.5
50%,22.5,1.715
75%,30.0,1.875
max,33.0,2.01


## 5. Indexaci√≥n

Recordemos que el indexing consiste en seleccionar un subconjunto de datos de un DataFrame. Recordemos antes c√≥mo era el dataframe original y veamos que Pandas nos permite indexar un DataFrame de diferentes maneras.

In [13]:
df

Unnamed: 0,name,age,city,height
0,Mar√≠a,16.0,Madrid,
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,M√°laga,1.6
3,David,,M√°laga,2.01
4,Sabrina,33.0,Valladolid,1.83



**Por nombre de columna**: `df['column_name']`

In [19]:
column = df['name']
column 

0      Mar√≠a
1     Daniel
2     Marisa
3      David
4    Sabrina
Name: name, dtype: object

**Por posici√≥n (√≠ndice) de la fila**: `df.iloc[0]`


In [16]:
df.iloc[0]

name       Mar√≠a
age         16.0
city      Madrid
height       NaN
Name: 0, dtype: object

**Por etiqueta de la fila**: `df.loc['row_label']`


In [17]:
df.loc[0]  # en este caso, como los indices son los mismos que las posiciones, `loc` es lo mismo que `iloc`

name       Mar√≠a
age         16.0
city      Madrid
height       NaN
Name: 0, dtype: object

**Por etiqueta de fila y columna**: `df.loc['row_label', 'column_name']`

In [None]:
df.loc[1, 'name']

'David'

**Por condici√≥n**: `df[df['column_name'] > 0]`


In [53]:
import numpy as np 

array = np.arange(5)
array < 2

array([ True,  True, False, False, False])

In [54]:
older_than_18 = df['age'] > 18
older_than_18

0    False
1    False
2     True
3    False
4     True
Name: age, dtype: bool

In [58]:
df

Unnamed: 0,name,age,city,height
0,Mar√≠a,16.0,Madrid,
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,M√°laga,1.6
3,David,,M√°laga,2.01
4,Sabrina,33.0,Valladolid,1.83


In [55]:
df[older_than_18]

Unnamed: 0,name,age,city,height
2,Marisa,29.0,M√°laga,1.6
4,Sabrina,33.0,Valladolid,1.83


In [22]:
condition = df['age'] > 18
df[condition]  # as√≠ se filtran los datos

Unnamed: 0,name,age,city,height
2,Marisa,29.0,M√°laga,1.6
4,Sabrina,33.0,Valladolid,1.83


**Por valores m√≠nimos y m√°ximos**: `df['column_name'].idxmin()` y `df['column_name'].idxmax()`

In [23]:
max_age_row_idx = df["age"].idxmax()
max_age_row = df.loc[max_age_row_idx]
max_age_row

name         Sabrina
age             33.0
city      Valladolid
height          1.83
Name: 4, dtype: object

In [24]:
age_column = df ['age']
min_age = age_column.min()
min_age_rows_mask = age_column == min_age
min_age_rows_mask.count()

5

## 6. Data Cleaning

El data cleaning es un paso fundamental en cualquier an√°lisis de datos. Pandas nos permite realizar operaciones de limpieza de datos de manera muy eficiente. **Es muy com√∫n encontrarnos con valores nulos** en nuestros datasets. Pandas nos ofrece m√©todos para tratar estos valores nulos, como `dropna()`, `fillna()` y `isnull()`. Recordemos primero, el dataset original.

In [26]:
df

Unnamed: 0,name,age,city,height
0,Mar√≠a,16.0,Madrid,
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,M√°laga,1.6
3,David,,M√°laga,2.01
4,Sabrina,33.0,Valladolid,1.83


Por ejemplo, para ver si hay valores nulos en un DataFrame, podemos usar los metodos `isnull()` √≥ `isna()`.

In [27]:
df.isnull()

Unnamed: 0,name,age,city,height
0,False,False,False,True
1,False,False,False,False
2,False,False,False,False
3,False,True,False,False
4,False,False,False,False


Para **eliminar** las filas con valores nulos, podemos usar el m√©todo `dropna()`.

In [28]:
df.dropna()

Unnamed: 0,name,age,city,height
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,M√°laga,1.6
4,Sabrina,33.0,Valladolid,1.83


Para **rellenar** los valores nulos con un valor espec√≠fico, podemos usar el m√©todo `fillna()`.

In [29]:
df.fillna(0)  # rellena los valores nulos con 0

Unnamed: 0,name,age,city,height
0,Mar√≠a,16.0,Madrid,0.0
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,M√°laga,1.6
3,David,0.0,M√°laga,2.01
4,Sabrina,33.0,Valladolid,1.83


Estos m√©todos son aplicables tambi√©n a las Series (columnas de un DataFrame).

In [30]:
df['age'].fillna(10)

0    16.0
1     7.0
2    29.0
3    10.0
4    33.0
Name: age, dtype: float64

# Ejercicios

Toma el dataframe original y gu√°rdalo como un CSV

In [31]:
CSV_PATH_2 = "data_2.csv"

df.to_csv(CSV_PATH_2, index=False)


Ahora lee el archivo CSV

In [32]:
df= pd.read_csv(CSV_PATH_2)

Muestra los 3 primeros registros del DataFrame.

In [33]:
df.head(3)

Unnamed: 0,name,age,city,height
0,Mar√≠a,16.0,Madrid,
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,M√°laga,1.6


Muestra los 4 √∫ltimos registros del DataFrame.

In [34]:
df.tail(4)

Unnamed: 0,name,age,city,height
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,M√°laga,1.6
3,David,,M√°laga,2.01
4,Sabrina,33.0,Valladolid,1.83


Dime cuantos datos tiene el DataFrame (üí° es lo mismo que calcular el n√∫mero de filas). ¬øen `numpy` vimos 2 formas de calcular este dato, recuerdas?

In [38]:
df.shape[0], 
len(df)

5

Mu√©strame las estad√≠sticas b√°sicas del DataFrame.

In [35]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   name    5 non-null      object 
 1   age     4 non-null      float64
 2   city    5 non-null      object 
 3   height  4 non-null      float64
dtypes: float64(2), object(2)
memory usage: 292.0+ bytes


In [39]:
df.describe()

Unnamed: 0,age,height
count,4.0,4.0
mean,21.25,1.66
std,11.954776,0.349571
min,7.0,1.2
25%,13.75,1.5
50%,22.5,1.715
75%,30.0,1.875
max,33.0,2.01


Obt√©n los datos de la columna 'name' ¬øCual es el tipo de dato de esta columna?

In [40]:
name_column = df['name']
name_column 

0      Mar√≠a
1     Daniel
2     Marisa
3      David
4    Sabrina
Name: name, dtype: object

üå∂Ô∏è Recuera que una Serie se puede tratar como un array de numpy, por tanto, obt√©n los datos de la columna "age" y calcula la media. ¬øCoincide con el resultado que arroja pandas en la celda superior? (üí° en `numpy` la media se calcula usando `np.mean`)

In [42]:
import numpy as np

age_column = df['age']
np.mean(age_column)

21.25

Ahora calcula la edad m√°xima y m√≠nima de la columna "age".

In [43]:
np.min(age_column)
age_column.min()

7.0

In [44]:
np.max(age_column)
age_column.max()

33.0

üå∂Ô∏è Una vez obtenida la edad m√≠nima, ¬øCual es el nombre de dicha persona?

In [50]:
min_age = age_column.min()
min_age_mask = age_column == min_age
df[min_age_mask]

Unnamed: 0,name,age,city,height
1,Daniel,7.0,Madrid,1.2


Filtra el DataFrame: muestra las filas donde la edad sea mayor a 25.

In [59]:
condition = df['age'] > 25
df[condition] 

Unnamed: 0,name,age,city,height
2,Marisa,29.0,M√°laga,1.6
4,Sabrina,33.0,Valladolid,1.83


In [64]:
older_than_25 = age_column > 25
df[older_than_25]

Unnamed: 0,name,age,city,height
2,Marisa,29.0,M√°laga,1.6
4,Sabrina,33.0,Valladolid,1.83


Filtra el DataFrame: muestra las filas donde la gente sea de 'M√°laga'. (üí° utiliza el operador `==`)

In [78]:
city_column = df['city']
people_from_malaga = city_column == 'M√°laga'
df[people_from_malaga]


Unnamed: 0,name,age,city,height
2,Marisa,29.0,M√°laga,1.6
3,David,,M√°laga,2.01


üå∂Ô∏è Filtra el Dataframe: filas donde la gente sea de 'M√°laga' y mayor de 25. (üí° para sumar dos condiciones se utiliza el operador `and` que se representa en python con `&`, i.e.: 

```python
compose_condition = condition1 & condition2
```

In [79]:
older_than_25

0    False
1    False
2     True
3    False
4     True
Name: age, dtype: bool

In [80]:
people_from_malaga

0    False
1    False
2     True
3     True
4    False
Name: city, dtype: bool

In [81]:
df[older_than_25 & people_from_malaga]

Unnamed: 0,name,age,city,height
2,Marisa,29.0,M√°laga,1.6


Obt√©n la m√°scara de los valores que son nulos en el DataFrame.

In [82]:
df.isnull()

Unnamed: 0,name,age,city,height
0,False,False,False,True
1,False,False,False,False
2,False,False,False,False
3,False,True,False,False
4,False,False,False,False


Ahora obt√©n la m√°scara de los valores que NO son nulos en el DataFrame. (üí° busca en la documentaci√≥n de pandas, o en google, c√≥mo hacerlo)

In [83]:
df.notnull()

Unnamed: 0,name,age,city,height
0,True,True,True,False
1,True,True,True,True
2,True,True,True,True
3,True,False,True,True
4,True,True,True,True


Elimina los valores nulos del DataFrame.

In [88]:
mask = df["height"].notnull()
df[mask]

Unnamed: 0,name,age,city,height
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,M√°laga,1.6
3,David,,M√°laga,2.01
4,Sabrina,33.0,Valladolid,1.83


Rellena todos los valores nulos con 1.

In [89]:
df.fillna(1)

Unnamed: 0,name,age,city,height
0,Mar√≠a,16.0,Madrid,1.0
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,M√°laga,1.6
3,David,1.0,M√°laga,2.01
4,Sabrina,33.0,Valladolid,1.83


Ahora rellena s√≥lo los valores nulos de la columna 'age' con 10.

In [91]:
df["age"].fillna(10)

0    16.0
1     7.0
2    29.0
3    10.0
4    33.0
Name: age, dtype: float64

üå∂Ô∏è Ahora rellena los valores nulos de la columna 'height' con la media de dicha columna

In [92]:
height_column = df["height"]
mean_height = np.mean(height_column)
height_column.fillna(mean_height)

0    1.66
1    1.20
2    1.60
3    2.01
4    1.83
Name: height, dtype: float64

## BONUS: Explora los datos del dataset de Titanic

El dataset de Titanic es un dataset muy famoso en el mundo del an√°lisis de datos. Contiene informaci√≥n sobre los pasajeros del Titanic, incluyendo si sobrevivieron o no, su edad, sexo, clase, etc.

In [98]:
CSV_PATH = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"

titanic_df = pd.read_csv(CSV_PATH)
titanic_df.head(5)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Hazte preguntas como, ¬øQu√© porcentaje de pasajeros sobrevivi√≥? ¬øCu√°l es la edad media de los pasajeros? ¬øCu√°ntos pasajeros hab√≠a en cada clase? ¬øCu√°l es la edad media de los pasajeros que sobrevivieron y de los que no? ¬øCu√°l es la edad m√°xima de los pasajeros que sobrevivieron y de los que no?

In [99]:
titanic_df.to_csv('titanic.csv')

In [None]:
¬øqu√© porcentaje de pasajeros sobrevivi√≥?

In [105]:
survived_percentage = titanic_df['Survived'].mean() * 100
survived_percentage


38.38383838383838

¬øCual es la edad media de los pasajeros?

In [104]:
import numpy as np 

age_column = titanic_df['Age']
mean_age = np.mean(age_column)
mean_age

29.69911764705882

¬øCuantos pasajeros hab√≠a en cada clase?

In [107]:
titanic_df['Pclass'].value_counts()



Pclass
3    491
1    216
2    184
Name: count, dtype: int64

¬øCu√°l es la edad media de los pasajeros que sobrevivieron y de los que no?

In [108]:
import numpy as np

mean_age = np.mean(titanic_df['Age'])

mean_age_not_survived = np.mean(titanic_df[titanic_df['Survived'] == 0]['Age'])

mean_age_survived = np.mean(titanic_df[titanic_df['Survived'] == 1]['Age'])

mean_age, mean_age_not_survived, mean_age_survived


(29.69911764705882, 30.62617924528302, 28.343689655172415)

In [109]:
import numpy as np
import pandas as pd

mean_age = np.mean(titanic_df['Age'])
mean_age_not_survived = np.mean(titanic_df[titanic_df['Survived'] == 0]['Age'])
mean_age_survived = np.mean(titanic_df[titanic_df['Survived'] == 1]['Age'])

pd.DataFrame({
    'Grupo': ['Total', 'No sobrevivieron', 'S√≠ sobrevivieron'],
    'Edad media': [mean_age, mean_age_not_survived, mean_age_survived]
})


Unnamed: 0,Grupo,Edad media
0,Total,29.699118
1,No sobrevivieron,30.626179
2,S√≠ sobrevivieron,28.34369


¬øCu√°l es la edad maxima de los pasajeros que sobrevivieron y de los que no?

In [115]:
max_age = titanic_df[titanic_df["Survived"] == 1]["Age"].max()
max_age_mask = age_column == max_age
titanic_df[max_age_mask & (titanic_df["Survived"] == 1)]


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
630,631,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.0,0,0,27042,30.0,A23,S


In [116]:
max_age = titanic_df[titanic_df["Survived"] == 0]["Age"].max()
max_age_mask = age_column == max_age
titanic_df[max_age_mask & (titanic_df["Survived"] == 0)]


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
851,852,0,3,"Svensson, Mr. Johan",male,74.0,0,0,347060,7.775,,S
