# Intro a Pandas

Pandas es una librer√≠a de Python que nos permite trabajar con datos tabulares de manera muy eficiente. 

En el mundo del an√°lisis de datos, Pandas se ha convertido en una herramienta fundamental para cient√≠ficos de datos, analistas y cualquier persona que trabaje con datos en Python. Con Pandas, puedes realizar operaciones como limpieza, manipulaci√≥n, visualizaci√≥n y an√°lisis de datos de manera eficiente.

![](https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/1920px-Pandas_logo.svg.png)

## 1. Instalar Pandas

Para instalar Pandas, ejecuta el siguiente comando en tu terminal:

```bash
pip install pandas==<version>
```

In [1]:
import pandas as pd
import numpy as np

## 2. Series y passenger_class_distribframes

Pandas tiene dos estructuras de datos principales: Series y DataFrames.

- **Series**: es un array unidimensional. Es similar a una columna en una tabla de Excel.
- **DataFrame**: es una estructura de datos bidimensional con filas y columnas con etiquetas. Es similar a una tabla de Excel.

### 2.1 Series

Para crear una Serie, puedes pasar una lista de elementos y Pandas crear√° una Serie con √≠ndices num√©ricos.

In [2]:
serie = pd.Series([1, 2, 3, 4, 5])
serie

0    1
1    2
2    3
3    4
4    5
dtype: int64

### 2.2 DataFrames

Para crear un dataFrame, puedes pasar un diccionario de listas, donde cada clave es el nombre de la columna y cada valor es una lista de elementos.

In [3]:
dataFrame = {
    'name': ['Mar√≠a', 'Daniel', 'Marisa', 'David', 'Sabrina'],
    'age': [16, 7, 29, None, 33], 
    'city': ['Madrid', 'Madrid', 'M√°laga', 'M√°laga', 'Valladolid'],
    'height': [None, 1.20, 1.60, 2.01, 1.83]
}

df = pd.DataFrame(dataFrame)
df

Unnamed: 0,name,age,city,height
0,Mar√≠a,16.0,Madrid,
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,M√°laga,1.6
3,David,,M√°laga,2.01
4,Sabrina,33.0,Valladolid,1.83


Aunque lo m√°s normal es crear passenger_class_distribFrames a partir de archivos CSV, Excel, bases de datos, etc. En este caso, vamos a guardar el passenger_class_distribFrame en un archivo CSV y posteriormente lo leeremos.

In [4]:
CSV_PATH = 'passenger_class_distrib.csv'

df.to_csv(CSV_PATH, index=False)
df = pd.read_csv(CSV_PATH)
df

Unnamed: 0,name,age,city,height
0,Mar√≠a,16.0,Madrid,
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,M√°laga,1.6
3,David,,M√°laga,2.01
4,Sabrina,33.0,Valladolid,1.83


## 3. Basics de un Dataframe

Podemos visualizar los primeros/√∫ltimos registros de un passenger_class_distribFrame con los m√©todos `head()` y `tail()`, respectivamente.

In [5]:
df.head(2)

Unnamed: 0,name,age,city,height
0,Mar√≠a,16.0,Madrid,
1,Daniel,7.0,Madrid,1.2


In [6]:
df.tail(2)

Unnamed: 0,name,age,city,height
3,David,,M√°laga,2.01
4,Sabrina,33.0,Valladolid,1.83


Los passenger_class_distribframes tienen una serie de atributos b√°sicos: `.columns`, `.values`, `.shape`, `.dtypes`, etc. Algunos de ellos te recordar√°n a los atributos de un array de NumPy.

In [7]:
df.columns

Index(['name', 'age', 'city', 'height'], dtype='object')

In [8]:
df.values

array([['Mar√≠a', 16.0, 'Madrid', nan],
       ['Daniel', 7.0, 'Madrid', 1.2],
       ['Marisa', 29.0, 'M√°laga', 1.6],
       ['David', nan, 'M√°laga', 2.01],
       ['Sabrina', 33.0, 'Valladolid', 1.83]], dtype=object)

In [9]:
df.shape

(5, 4)

In [10]:
df.dtypes

name       object
age       float64
city       object
height    float64
dtype: object

## 4. Estad√≠sticas b√°sicas

Pandas nos permite obtener la informaci√≥n general de un passenger_class_distribframe con el m√©todo `info()`.

In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   name    5 non-null      object 
 1   age     4 non-null      float64
 2   city    5 non-null      object 
 3   height  4 non-null      float64
dtypes: float64(2), object(2)
memory usage: 292.0+ bytes




Pandas nos permite obtener estad√≠sticas b√°sicas de un passenger_class_distribFrame con el m√©todo `describe()`. Este m√©todo nos devuelve un resumen de las estad√≠sticas descriptivas de las **columnas num√©ricas**.

In [12]:
df.describe()

Unnamed: 0,age,height
count,4.0,4.0
mean,21.25,1.66
std,11.954776,0.349571
min,7.0,1.2
25%,13.75,1.5
50%,22.5,1.715
75%,30.0,1.875
max,33.0,2.01


## 5. Indexaci√≥n

Recordemos que el indexing consiste en seleccionar un subconjunto de datos de un passenger_class_distribFrame. Recordemos antes c√≥mo era el passenger_class_distribframe original y veamos que Pandas nos permite indexar un passenger_class_distribFrame de diferentes maneras.

In [13]:
df

Unnamed: 0,name,age,city,height
0,Mar√≠a,16.0,Madrid,
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,M√°laga,1.6
3,David,,M√°laga,2.01
4,Sabrina,33.0,Valladolid,1.83



**Por nombre de columna**: `df['column_name']`

In [14]:
df['name']

0      Mar√≠a
1     Daniel
2     Marisa
3      David
4    Sabrina
Name: name, dtype: object

**Por posici√≥n (√≠ndice) de la fila**: `df.iloc[0]`


In [15]:
df.iloc[0]

name       Mar√≠a
age         16.0
city      Madrid
height       NaN
Name: 0, dtype: object

**Por etiqueta de la fila**: `df.loc['row_label']`


In [16]:
df.loc[0]  # en este caso, como los indices son los mismos que las posiciones, `loc` es lo mismo que `iloc`

name       Mar√≠a
age         16.0
city      Madrid
height       NaN
Name: 0, dtype: object

**Por etiqueta de fila y columna**: `df.loc['row_label', 'column_name']`

In [17]:
df.loc[0, 'name']

'Mar√≠a'

**Por condici√≥n**: `df[df['column_name'] > 0]`


In [18]:
condition = df['age'] > 18
df[condition]  # as√≠ se filtran los datos

Unnamed: 0,name,age,city,height
2,Marisa,29.0,M√°laga,1.6
4,Sabrina,33.0,Valladolid,1.83


**Por valores m√≠nimos y m√°ximos**: `df['column_name'].idxmin()` y `df['column_name'].idxmax()`

In [19]:
max_age_row_idx = df["age"].idxmax()
max_age_row = df.loc[max_age_row_idx]
max_age_row

name         Sabrina
age             33.0
city      Valladolid
height          1.83
Name: 4, dtype: object

## 6. passenger_class_distrib Cleaning

El passenger_class_distrib cleaning es un paso fundamental en cualquier an√°lisis de datos. Pandas nos permite realizar operaciones de limpieza de datos de manera muy eficiente. **Es muy com√∫n encontrarnos con valores nulos** en nuestros passenger_class_distribsets. Pandas nos ofrece m√©todos para tratar estos valores nulos, como `dropna()`, `fillna()` y `isnull()`. Recordemos primero, el passenger_class_distribset original.

In [20]:
df

Unnamed: 0,name,age,city,height
0,Mar√≠a,16.0,Madrid,
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,M√°laga,1.6
3,David,,M√°laga,2.01
4,Sabrina,33.0,Valladolid,1.83


Por ejemplo, para ver si hay valores nulos en un passenger_class_distribFrame, podemos usar los metodos `isnull()` √≥ `isna()`.

In [21]:
df.isnull()

Unnamed: 0,name,age,city,height
0,False,False,False,True
1,False,False,False,False
2,False,False,False,False
3,False,True,False,False
4,False,False,False,False


Para **eliminar** las filas con valores nulos, podemos usar el m√©todo `dropna()`.

In [22]:
df.dropna()

Unnamed: 0,name,age,city,height
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,M√°laga,1.6
4,Sabrina,33.0,Valladolid,1.83


Para **rellenar** los valores nulos con un valor espec√≠fico, podemos usar el m√©todo `fillna()`.

In [23]:
df.fillna(0)  # rellena los valores nulos con 0

Unnamed: 0,name,age,city,height
0,Mar√≠a,16.0,Madrid,0.0
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,M√°laga,1.6
3,David,0.0,M√°laga,2.01
4,Sabrina,33.0,Valladolid,1.83


Estos m√©todos son aplicables tambi√©n a las Series (columnas de un passenger_class_distribFrame).

In [24]:
df['age'].fillna(10)

0    16.0
1     7.0
2    29.0
3    10.0
4    33.0
Name: age, dtype: float64

# Ejercicios

Toma el passenger_class_distribframe original y gu√°rdalo como un CSV

In [25]:
df.to_csv('passenger_class_distribframe_alumnos.csv', index = False)

Ahora lee el archivo CSV

In [26]:
# antes de leer el csv
df

Unnamed: 0,name,age,city,height
0,Mar√≠a,16.0,Madrid,
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,M√°laga,1.6
3,David,,M√°laga,2.01
4,Sabrina,33.0,Valladolid,1.83


In [27]:
# despues de leer el csv
df = pd.read_csv('passenger_class_distribframe_alumnos.csv')
df

Unnamed: 0,name,age,city,height
0,Mar√≠a,16.0,Madrid,
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,M√°laga,1.6
3,David,,M√°laga,2.01
4,Sabrina,33.0,Valladolid,1.83


Muestra los 3 primeros registros del passenger_class_distribFrame.

In [28]:
df.head(3)

Unnamed: 0,name,age,city,height
0,Mar√≠a,16.0,Madrid,
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,M√°laga,1.6


Muestra los 4 √∫ltimos registros del passenger_class_distribFrame.

In [29]:
df.tail(4)

Unnamed: 0,name,age,city,height
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,M√°laga,1.6
3,David,,M√°laga,2.01
4,Sabrina,33.0,Valladolid,1.83


Dime cuantos datos tiene el passenger_class_distribFrame (üí° es lo mismo que calcular el n√∫mero de filas). ¬øen `numpy` vimos 2 formas de calcular este dato, recuerdas?

In [30]:
print(f'El passenger_class_distribtset tiene {df.shape[0]} filas.')

El passenger_class_distribtset tiene 5 filas.


In [31]:
np.shape(df)

(5, 4)

Mu√©strame las estad√≠sticas b√°sicas del passenger_class_distribFrame.

In [32]:
df.describe()

Unnamed: 0,age,height
count,4.0,4.0
mean,21.25,1.66
std,11.954776,0.349571
min,7.0,1.2
25%,13.75,1.5
50%,22.5,1.715
75%,30.0,1.875
max,33.0,2.01


Obt√©n los datos de la columna 'name' ¬øCual es el tipo de dato de esta columna?

In [33]:
df['name']

0      Mar√≠a
1     Daniel
2     Marisa
3      David
4    Sabrina
Name: name, dtype: object

In [34]:
df.name

0      Mar√≠a
1     Daniel
2     Marisa
3      David
4    Sabrina
Name: name, dtype: object

In [35]:
df['name'].dtype

dtype('O')

üå∂Ô∏è Recuerda que una Serie se puede tratar como un array de numpy, por tanto, obt√©n los datos de la columna "age" y calcula la media. ¬øCoincide con el resultado que arroja pandas en la celda superior? (üí° en `numpy` la media se calcula usando `np.mean`)

In [36]:
df['age'].mean()

np.float64(21.25)

In [37]:
np.mean(df['age'])

np.float64(21.25)

Ahora calcula la edad m√°xima y m√≠nima de la columna "age".

In [38]:
# edad m√°xima
df.age.max()

np.float64(33.0)

In [39]:
# edad m√≠nima
df.age.min()

np.float64(7.0)

In [40]:
df.age.agg(['min', 'max']).astype('int').to_frame()

Unnamed: 0,age
min,7
max,33


üå∂Ô∏è Una vez obtenida la edad m√≠nima, ¬øCual es el nombre de dicha persona?

In [41]:
edad_max = df.age.max()
nombre_persona_m√°xima_edad = df[ df.age == edad_max ].name.values[0]
print(f'La persona de mayor edad del grupo es {nombre_persona_m√°xima_edad}. Su edad es {int(edad_max)} a√±os.')

La persona de mayor edad del grupo es Sabrina. Su edad es 33 a√±os.


Filtra el passenger_class_distribFrame: muestra las filas donde la edad sea mayor a 25.

In [42]:
df[ df.age > 25 ]

Unnamed: 0,name,age,city,height
2,Marisa,29.0,M√°laga,1.6
4,Sabrina,33.0,Valladolid,1.83


Filtra el passenger_class_distribFrame: muestra las filas donde la gente sea de 'M√°laga'. (üí° utiliza el operador `==`)

In [43]:
df[ df.city == 'M√°laga' ]

Unnamed: 0,name,age,city,height
2,Marisa,29.0,M√°laga,1.6
3,David,,M√°laga,2.01


üå∂Ô∏è Filtra el passenger_class_distribframe: filas donde la gente sea de 'M√°laga' y mayor de 25. (üí° para sumar dos condiciones se utiliza el operador `and` que se representa en python con `&`, i.e.: 

```python
compose_condition = condition1 & condition2
```

In [44]:
compose_condition = (df.city == 'M√°laga') & (df.age > 25)
df[ compose_condition ]

Unnamed: 0,name,age,city,height
2,Marisa,29.0,M√°laga,1.6


Obt√©n la m√°scara de los valores que son nulos en el passenger_class_distribFrame.

In [45]:
df.isna()

Unnamed: 0,name,age,city,height
0,False,False,False,True
1,False,False,False,False
2,False,False,False,False
3,False,True,False,False
4,False,False,False,False


Ahora obt√©n la m√°scara de los valores que NO son nulos en el passenger_class_distribFrame. (üí° busca en la documentaci√≥n de pandas, o en google, c√≥mo hacerlo)

In [46]:
~ df.isna()

Unnamed: 0,name,age,city,height
0,True,True,True,False
1,True,True,True,True
2,True,True,True,True
3,True,False,True,True
4,True,True,True,True


Elimina los valores nulos del passenger_class_distribFrame.

In [47]:
df.dropna()

Unnamed: 0,name,age,city,height
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,M√°laga,1.6
4,Sabrina,33.0,Valladolid,1.83


Rellena todos los valores nulos con 1.

In [48]:
df.fillna(1)

Unnamed: 0,name,age,city,height
0,Mar√≠a,16.0,Madrid,1.0
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,M√°laga,1.6
3,David,1.0,M√°laga,2.01
4,Sabrina,33.0,Valladolid,1.83


Ahora rellena s√≥lo los valores nulos de la columna 'age' con 10.

In [49]:
df.fillna({ 'age' : 10 } )  

Unnamed: 0,name,age,city,height
0,Mar√≠a,16.0,Madrid,
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,M√°laga,1.6
3,David,10.0,M√°laga,2.01
4,Sabrina,33.0,Valladolid,1.83


üå∂Ô∏è Ahora rellena los valores nulos de la columna 'height' con la media de dicha columna

In [50]:
avg_age = df.age.mean()

In [51]:
df.fillna( {'height' : avg_age} )

Unnamed: 0,name,age,city,height
0,Mar√≠a,16.0,Madrid,21.25
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,M√°laga,1.6
3,David,,M√°laga,2.01
4,Sabrina,33.0,Valladolid,1.83


In [52]:
df.fillna({'height': df.age.mean() })

Unnamed: 0,name,age,city,height
0,Mar√≠a,16.0,Madrid,21.25
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,M√°laga,1.6
3,David,,M√°laga,2.01
4,Sabrina,33.0,Valladolid,1.83


## BONUS: Explora los datos del passenger_class_distribset de Titanic

El passenger_class_distribset de Titanic es un passenger_class_distribset muy famoso en el mundo del an√°lisis de datos. Contiene informaci√≥n sobre los pasajeros del Titanic, incluyendo si sobrevivieron o no, su edad, sexo, clase, etc.

In [53]:
CSV_PATH = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"

In [54]:
df = pd.read_csv(CSV_PATH)
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Hazte preguntas como:

## ¬øQu√© porcentaje de pasajeros sobrevivi√≥?

Para calcular la cantidad de pasajeros supervivientes, har√© uso del m√©todo `.value_counts(normalize=True)` y a√±adir√© el par√°metro `normalize` para obtener la proporci√≥n de cada uno de los valores.

In [55]:
survivors_proportions = df.Survived.value_counts(normalize=True) * 100
survivors_proportions = survivors_proportions.round(2)
survivors_proportions.index = ['Fallecidos', 'Supervivientes']
survivors_proportions.name = 'Distribuci√≥n de supervivientes'
survivors_proportions

Fallecidos        61.62
Supervivientes    38.38
Name: Distribuci√≥n de supervivientes, dtype: float64

In [56]:
print(f'El porcentaje de pasajeros supervivientes en el pasaje del Titanic fue del {survivors_proportions.loc['Supervivientes']}%.')

El porcentaje de pasajeros supervivientes en el pasaje del Titanic fue del 38.38%.


## ¬øCu√°l es la edad media de los pasajeros? 

Mediante un slicing del passenger_class_distribset, obtenemos la columna `age` y aplicamos sobre la `pandas.Series` resultante el m√©todo `.mean()`

In [57]:
avg_age = df.Age.mean()

In [58]:
print(f'La edad media de un pasajero del Titanic era de {avg_age.round(1)} a√±os.')

La edad media de un pasajero del Titanic era de 29.7 a√±os.


## ¬øCu√°ntos pasajeros hab√≠a en cada clase?

De forma similar a la 1a pregunta, hago un conteo de los diferentes valores existentes en la variable `Pclass`. Adem√°s, ordeno los resultados usando los valores del √≠ndice de la serie resultante.

In [59]:
passenger_class_distrib = df.Pclass.value_counts().sort_index()
passenger_class_distrib.index = ['1a Clase', '2a Clase', '3a Clase']
passenger_class_distrib.name = 'Distribuci√≥n de pasajeros por clase'
passenger_class_distrib

1a Clase    216
2a Clase    184
3a Clase    491
Name: Distribuci√≥n de pasajeros por clase, dtype: int64

## ¬øCu√°l es la edad media de los pasajeros que sobrevivieron y de los que no?

En este caso es necesario hacer una agrupaci√≥n de los datos por la variable `Survived`. A continuaci√≥n, obtener la variable `Age`. Sobre los datos de esta serie agrupada, aplicar la media y un redondeo para obtener unos datos con un formato m√°s adecuado.

In [60]:
passengers_grouped_survival = df.groupby('Survived').Age
passengers_grouped_survival_ages = passengers_grouped_survival.mean().round(1)

Una vez obtenidos los datos, procedo a formatearlos para una apariencia m√°s informativa.

In [61]:
passengers_grouped_survival_ages.index = ['Fallecidos', 'Supervivientes']
passengers_grouped_survival_ages.name = 'Edad media en funci√≥n de su supervivencia'
passengers_grouped_survival_ages

Fallecidos        30.6
Supervivientes    28.3
Name: Edad media en funci√≥n de su supervivencia, dtype: float64

## ¬øCu√°l es la edad m√°xima de los pasajeros que sobrevivieron y de los que no?

1. Reutilizo la informaci√≥n de la distribuci√≥n de edades de los pasajeros en funci√≥n de su superviviencia de la pregunta anterior.  
2. Para obtener tanto la edad m√≠nima como la m√°xima, har√© uso de las funciones de agregaci√≥n `max()` y `min()`.  
3. Para aplicar dos o m√°s funciones de agregaci√≥n sobre una serie de datos, hago uso del m√©todo `.agg()`  
4. Formateo los valores del dataframe resultante para unos resultados m√°s informativos.

In [62]:
max_min_ages_survival_distribution = passengers_grouped_survival.agg(['min', 'max'])

In [63]:
max_min_ages_survival_distribution.index = ['Fallecido', 'Superviviente']
max_min_ages_survival_distribution.columns = ['edad_m√≠nima', 'edad_m√°xima']
max_min_ages_survival_distribution

Unnamed: 0,edad_m√≠nima,edad_m√°xima
Fallecido,1.0,74.0
Superviviente,0.42,80.0
