# Intro a Pandas

Pandas es una librer√≠a de Python que nos permite trabajar con datos tabulares de manera muy eficiente. 

En el mundo del an√°lisis de datos, Pandas se ha convertido en una herramienta fundamental para cient√≠ficos de datos, analistas y cualquier persona que trabaje con datos en Python. Con Pandas, puedes realizar operaciones como limpieza, manipulaci√≥n, visualizaci√≥n y an√°lisis de datos de manera eficiente.

![](https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/1920px-Pandas_logo.svg.png)

## 1. Instalar Pandas

Para instalar Pandas, ejecuta el siguiente comando en tu terminal:

```bash
pip install pandas==<version>
```

In [3]:
import pandas as pd

## 2. Series y Dataframes

Pandas tiene dos estructuras de datos principales: Series y DataFrames.

- **Series**: es un array unidimensional. Es similar a una columna en una tabla de Excel.
- **DataFrame**: es una estructura de datos bidimensional con filas y columnas con etiquetas. Es similar a una tabla de Excel.

### 2.1 Series

Para crear una Serie, puedes pasar una lista de elementos y Pandas crear√° una Serie con √≠ndices num√©ricos.

In [4]:
serie = pd.Series([1, 2, 3, 4, 5])
serie

0    1
1    2
2    3
3    4
4    5
dtype: int64

### 2.2 DataFrames

Para crear un DataFrame, puedes pasar un diccionario de listas, donde cada clave es el nombre de la columna y cada valor es una lista de elementos.

In [5]:
data = {
    'name': ['Mar√≠a', 'Daniel', 'Marisa', 'David', 'Sabrina'],
    'age': [16, 7, 29, None, 33], 
    'city': ['Madrid', 'Madrid', 'M√°laga', 'M√°laga', 'Valladolid'],
    'height': [None, 1.20, 1.60, 2.01, 1.83]
}

df = pd.DataFrame(data)
df

Unnamed: 0,name,age,city,height
0,Mar√≠a,16.0,Madrid,
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,M√°laga,1.6
3,David,,M√°laga,2.01
4,Sabrina,33.0,Valladolid,1.83


Aunque lo m√°s normal es crear DataFrames a partir de archivos CSV, Excel, bases de datos, etc. En este caso, vamos a guardar el DataFrame en un archivo CSV y posteriormente lo leeremos.

In [6]:
CSV_PATH = 'data.csv'

df.to_csv(CSV_PATH, index=False)
df = pd.read_csv(CSV_PATH)
df

Unnamed: 0,name,age,city,height
0,Mar√≠a,16.0,Madrid,
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,M√°laga,1.6
3,David,,M√°laga,2.01
4,Sabrina,33.0,Valladolid,1.83


## 3. Basics de un Dataframe

Podemos visualizar los primeros/√∫ltimos registros de un DataFrame con los m√©todos `head()` y `tail()`, respectivamente.

In [7]:
df.head(3)

Unnamed: 0,name,age,city,height
0,Mar√≠a,16.0,Madrid,
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,M√°laga,1.6


In [8]:
df.tail(2)

Unnamed: 0,name,age,city,height
3,David,,M√°laga,2.01
4,Sabrina,33.0,Valladolid,1.83


Los dataframes tienen una serie de atributos b√°sicos: `.columns`, `.values`, `.shape`, `.dtypes`, etc. Algunos de ellos te recordar√°n a los atributos de un array de NumPy.

In [9]:
df.columns

Index(['name', 'age', 'city', 'height'], dtype='str')

In [10]:
df.values

array([['Mar√≠a', 16.0, 'Madrid', nan],
       ['Daniel', 7.0, 'Madrid', 1.2],
       ['Marisa', 29.0, 'M√°laga', 1.6],
       ['David', nan, 'M√°laga', 2.01],
       ['Sabrina', 33.0, 'Valladolid', 1.83]], dtype=object)

In [11]:
df.shape

(5, 4)

In [12]:
df.dtypes

name          str
age       float64
city          str
height    float64
dtype: object

## 4. Estad√≠sticas b√°sicas

Pandas nos permite obtener la informaci√≥n general de un Dataframe con el m√©todo `info()`.

In [13]:
df.info()

<class 'pandas.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   name    5 non-null      str    
 1   age     4 non-null      float64
 2   city    5 non-null      str    
 3   height  4 non-null      float64
dtypes: float64(2), str(2)
memory usage: 292.0 bytes




Pandas nos permite obtener estad√≠sticas b√°sicas de un DataFrame con el m√©todo `describe()`. Este m√©todo nos devuelve un resumen de las estad√≠sticas descriptivas de las **columnas num√©ricas**.

In [14]:
df.describe()

Unnamed: 0,age,height
count,4.0,4.0
mean,21.25,1.66
std,11.954776,0.349571
min,7.0,1.2
25%,13.75,1.5
50%,22.5,1.715
75%,30.0,1.875
max,33.0,2.01


## 5. Indexaci√≥n

Recordemos que el indexing consiste en seleccionar un subconjunto de datos de un DataFrame. Recordemos antes c√≥mo era el dataframe original y veamos que Pandas nos permite indexar un DataFrame de diferentes maneras.

In [15]:
df

Unnamed: 0,name,age,city,height
0,Mar√≠a,16.0,Madrid,
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,M√°laga,1.6
3,David,,M√°laga,2.01
4,Sabrina,33.0,Valladolid,1.83



**Por nombre de columna**: `df['column_name']`

In [16]:
df['name']

0      Mar√≠a
1     Daniel
2     Marisa
3      David
4    Sabrina
Name: name, dtype: str

**Por posici√≥n (√≠ndice) de la fila**: `df.iloc[0]`


In [17]:
df.iloc[0]

name       Mar√≠a
age         16.0
city      Madrid
height       NaN
Name: 0, dtype: object

**Por etiqueta de la fila**: `df.loc['row_label']`


In [18]:
df.loc[0]  # en este caso, como los indices son los mismos que las posiciones, `loc` es lo mismo que `iloc`

name       Mar√≠a
age         16.0
city      Madrid
height       NaN
Name: 0, dtype: object

**Por etiqueta de fila y columna**: `df.loc['row_label', 'column_name']`

In [19]:
df.loc[0, 'name']

'Mar√≠a'

**Por condici√≥n**: `df[df['column_name'] > 0]`


In [20]:
condition = df['age'] > 18
df[condition]  # as√≠ se filtran los datos

Unnamed: 0,name,age,city,height
2,Marisa,29.0,M√°laga,1.6
4,Sabrina,33.0,Valladolid,1.83


**Por valores m√≠nimos y m√°ximos**: `df['column_name'].idxmin()` y `df['column_name'].idxmax()`

In [21]:
max_age_row_idx = df["age"].idxmax()
max_age_row = df.loc[max_age_row_idx]
max_age_row

name         Sabrina
age             33.0
city      Valladolid
height          1.83
Name: 4, dtype: object

In [22]:
city_colum = df['city']
city_colum.value_counts()

city
Madrid        2
M√°laga        2
Valladolid    1
Name: count, dtype: int64

## 6. Data Cleaning

El data cleaning es un paso fundamental en cualquier an√°lisis de datos. Pandas nos permite realizar operaciones de limpieza de datos de manera muy eficiente. **Es muy com√∫n encontrarnos con valores nulos** en nuestros datasets. Pandas nos ofrece m√©todos para tratar estos valores nulos, como `dropna()`, `fillna()` y `isnull()`. Recordemos primero, el dataset original.

In [23]:
df

Unnamed: 0,name,age,city,height
0,Mar√≠a,16.0,Madrid,
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,M√°laga,1.6
3,David,,M√°laga,2.01
4,Sabrina,33.0,Valladolid,1.83


Por ejemplo, para ver si hay valores nulos en un DataFrame, podemos usar los metodos `isnull()` √≥ `isna()`.

In [24]:
df.isnull()

Unnamed: 0,name,age,city,height
0,False,False,False,True
1,False,False,False,False
2,False,False,False,False
3,False,True,False,False
4,False,False,False,False


Para **eliminar** las filas con valores nulos, podemos usar el m√©todo `dropna()`.

In [25]:
df.dropna()

Unnamed: 0,name,age,city,height
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,M√°laga,1.6
4,Sabrina,33.0,Valladolid,1.83


Para **rellenar** los valores nulos con un valor espec√≠fico, podemos usar el m√©todo `fillna()`.

In [26]:
df.fillna(0)  # rellena los valores nulos con 0

Unnamed: 0,name,age,city,height
0,Mar√≠a,16.0,Madrid,0.0
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,M√°laga,1.6
3,David,0.0,M√°laga,2.01
4,Sabrina,33.0,Valladolid,1.83


Estos m√©todos son aplicables tambi√©n a las Series (columnas de un DataFrame).

In [27]:
df['age'].fillna(10)

0    16.0
1     7.0
2    29.0
3    10.0
4    33.0
Name: age, dtype: float64

# Ejercicios

Toma el dataframe original y gu√°rdalo como un CSV

In [28]:
df.to_csv('textt.csv', index=None)

Ahora lee el archivo CSV

In [29]:
path = 'textt.csv'
texto = pd.read_csv(path)
texto

Unnamed: 0,name,age,city,height
0,Mar√≠a,16.0,Madrid,
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,M√°laga,1.6
3,David,,M√°laga,2.01
4,Sabrina,33.0,Valladolid,1.83


Muestra los 3 primeros registros del DataFrame.

In [30]:
texto1 = texto.head(3)
texto1

Unnamed: 0,name,age,city,height
0,Mar√≠a,16.0,Madrid,
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,M√°laga,1.6


Muestra los 4 √∫ltimos registros del DataFrame.

In [31]:
texto2 = texto.tail(4)
texto2

Unnamed: 0,name,age,city,height
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,M√°laga,1.6
3,David,,M√°laga,2.01
4,Sabrina,33.0,Valladolid,1.83


Dime cuantos datos tiene el DataFrame (üí° es lo mismo que calcular el n√∫mero de filas). ¬øen `numpy` vimos 2 formas de calcular este dato, recuerdas?

In [32]:
len(texto)

5

Mu√©strame las estad√≠sticas b√°sicas del DataFrame.

In [33]:
texto.describe()

Unnamed: 0,age,height
count,4.0,4.0
mean,21.25,1.66
std,11.954776,0.349571
min,7.0,1.2
25%,13.75,1.5
50%,22.5,1.715
75%,30.0,1.875
max,33.0,2.01


Obt√©n los datos de la columna 'name' ¬øCual es el tipo de dato de esta columna?

In [34]:
texto['name']

0      Mar√≠a
1     Daniel
2     Marisa
3      David
4    Sabrina
Name: name, dtype: str

üå∂Ô∏è Recuera que una Serie se puede tratar como un array de numpy, por tanto, obt√©n los datos de la columna "age" y calcula la media. ¬øCoincide con el resultado que arroja pandas en la celda superior? (üí° en `numpy` la media se calcula usando `np.mean`)

In [35]:
import numpy as np

ages = texto['age'].dropna()
avg = np.mean(ages)
avg


21.25

Ahora calcula la edad m√°xima y m√≠nima de la columna "age".

In [36]:
maxi = ages.max()
mini = ages.min()
maxi, mini

(33.0, 7.0)

üå∂Ô∏è Una vez obtenida la edad m√≠nima, ¬øCual es el nombre de dicha persona?

In [37]:
texto.iloc[ages.idxmin()]

name      Daniel
age          7.0
city      Madrid
height       1.2
Name: 1, dtype: object

Filtra el DataFrame: muestra las filas donde la edad sea mayor a 25.

In [38]:
cond = texto['age'] > 18
texto[cond]

Unnamed: 0,name,age,city,height
2,Marisa,29.0,M√°laga,1.6
4,Sabrina,33.0,Valladolid,1.83


Filtra el DataFrame: muestra las filas donde la gente sea de 'M√°laga'. (üí° utiliza el operador `==`)

In [39]:
condi = texto['city'] == 'M√°laga'
texto[condi]

Unnamed: 0,name,age,city,height
2,Marisa,29.0,M√°laga,1.6
3,David,,M√°laga,2.01


üå∂Ô∏è Filtra el Dataframe: filas donde la gente sea de 'M√°laga' y mayor de 25. (üí° para sumar dos condiciones se utiliza el operador `and` que se representa en python con `&`, i.e.: 

```python
compose_condition = condition1 & condition2
```

In [40]:
texto[cond & condi]


Unnamed: 0,name,age,city,height
2,Marisa,29.0,M√°laga,1.6


Obt√©n la m√°scara de los valores que son nulos en el DataFrame.

In [41]:
texto.isnull()

Unnamed: 0,name,age,city,height
0,False,False,False,True
1,False,False,False,False
2,False,False,False,False
3,False,True,False,False
4,False,False,False,False


Ahora obt√©n la m√°scara de los valores que NO son nulos en el DataFrame. (üí° busca en la documentaci√≥n de pandas, o en google, c√≥mo hacerlo)

In [42]:
texto.notnull()

Unnamed: 0,name,age,city,height
0,True,True,True,False
1,True,True,True,True
2,True,True,True,True
3,True,False,True,True
4,True,True,True,True


Elimina los valores nulos del DataFrame.

In [148]:
texto.dropna()

Unnamed: 0,name,age,city,height
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,M√°laga,1.6
4,Sabrina,33.0,Valladolid,1.83


Rellena todos los valores nulos con 1.

In [149]:
texto.fillna(1)

Unnamed: 0,name,age,city,height
0,Mar√≠a,16.0,Madrid,1.0
1,Daniel,7.0,Madrid,1.2
2,Marisa,29.0,M√°laga,1.6
3,David,1.0,M√°laga,2.01
4,Sabrina,33.0,Valladolid,1.83


Ahora rellena s√≥lo los valores nulos de la columna 'age' con 10.

In [49]:
age_10 = texto['age'].fillna(10)
age_10

0    16.0
1     7.0
2    29.0
3    10.0
4    33.0
Name: age, dtype: float64

üå∂Ô∏è Ahora rellena los valores nulos de la columna 'height' con la media de dicha columna

In [None]:
media_altura = texto['height'].fillna(np.mean(texto['height']))
media_altura

0    1.66
1    1.20
2    1.60
3    2.01
4    1.83
Name: height, dtype: float64

## BONUS: Explora los datos del dataset de Titanic

El dataset de Titanic es un dataset muy famoso en el mundo del an√°lisis de datos. Contiene informaci√≥n sobre los pasajeros del Titanic, incluyendo si sobrevivieron o no, su edad, sexo, clase, etc.

In [146]:
import pandas as pd
import numpy as np

CSV_PATH = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"

df = pd.read_csv(CSV_PATH)

survivors = df['Survived']
avg_survivors = (np.mean(survivors))
survive_percentage = (avg_survivors * 100).round(2)
print(f'En el naufragio del Titanic sobrevivieron un {survive_percentage}% de personas\n')

avg_age_to_fill = np.mean(df['Age'])
ages = df['Age'].fillna(avg_age_to_fill)
avg_age = np.mean(ages).round(2)
print(f'La edad media de los pasajeros del Titanic fue {avg_age} a√±os\n')


num_of_people_per_class = df['Pclass'].value_counts()
print(f'En el titanic nevagaban {num_of_people_per_class[1]} personas en primera clase, \n{num_of_people_per_class[2]} en segunda clase, y por √∫ltimo {num_of_people_per_class[3]} en tercera clase\n')

survived_condition = df['Survived'] == 1
ages_survivors = df[survived_condition]
avg_age_survivors = np.mean(ages_survivors['Age']).round(2)

no_survived_condition = df['Survived'] == 0
ages_non_survivors = df[no_survived_condition]
avg_age_non_survivors = np.mean(ages_non_survivors['Age']).round(2)

print(f'Los pasajeros que sobrevivieron tenian una media de {avg_age_survivors} a√±os, \npor otro lado los que no lo consiguieron tenian {avg_age_non_survivors} de media\n')

max_age_survivor_table = ages_survivors.max()
max_age_survivor = max_age_survivor_table['Age']

max_age_survivor_table = ages_non_survivors.max()
max_age_non_survivor = max_age_survivor_table['Age']

print(f'el superviviente mas mayor tenia {int(max_age_survivor)} a√±os, mientas que el pasajero \nmas mayor de entre los que no lo consiguieron tenia {int(max_age_non_survivor)} a√±os\n')

En el naufragio del Titanic sobrevivieron un 38.38% de personas

La edad media de los pasajeros del Titanic fue 29.7 a√±os

En el titanic nevagaban 216 personas en primera clase, 
184 en segunda clase, y por √∫ltimo 491 en tercera clase

Los pasajeros que sobrevivieron tenian una media de 28.34 a√±os, 
por otro lado los que no lo consiguieron tenian 30.63 de media

el superviviente mas mayor tenia 80 a√±os, mientas que el pasajero 
mas mayor de entre los que no lo consiguieron tenia 74 a√±os



Hazte preguntas como, ¬øQu√© porcentaje de pasajeros sobrevivi√≥? ¬øCu√°l es la edad media de los pasajeros? ¬øCu√°ntos pasajeros hab√≠a en cada clase? ¬øCu√°l es la edad media de los pasajeros que sobrevivieron y de los que no? ¬øCu√°l es la edad m√°xima de los pasajeros que sobrevivieron y de los que no?