<a href="https://colab.research.google.com/github/vbatiz/intro-python/blob/main/notebooks/IntroPython_04.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Práctica con la biblioteca Pandas

Para profundizar en esta biblioteca se puede visitar el sitio oficial dando clic [aquí](https://pandas.pydata.org/).

In [None]:
import pandas as pd

## Cargando el dataset
Utilizaremos el dataset de la información del Titanic.

In [None]:
!wget --no-check-certificate https://catalabs.mx/datasets/titanic.csv -O titanic.csv

Creamos el dataframe a partir del archivo.

In [None]:
df_titanic = pd.read_csv('titanic.csv')

In [None]:
df_titanic.head()

Creamos un nuevo dataframe con las columnas Name, Sex y Age.

In [None]:
df_nombre_sexo_edad = df_titanic[["Name","Sex","Age"]]

In [None]:
df_nombre_sexo_edad.head(100)

In [None]:
print(df_nombre_sexo_edad.Name[1])

In [None]:
df_nombre_sexo_edad.shape

Eliminamos los renglones en los cuales el campo de edad (Age) sea nulo.

In [None]:
df_nombre_sexo_edad = df_nombre_sexo_edad.dropna()

In [None]:
df_nombre_sexo_edad.shape

Obtenemos un subconjunto de los datos que solo contenga a los menores de 10 años.

In [None]:
menores_de_10 = df_nombre_sexo_edad[df_nombre_sexo_edad["Age"] < 10]

In [None]:
menores_de_10.head(20)

### Determinar sobrevivientes por Clase

In [None]:
#Obtenemos el conjunto de datos de pasajeros en primera clase
primera_clase = df_titanic[df_titanic["Pclass"] == 1]

primera_clase.shape
total_primera_clase = primera_clase.shape[0]
print(total_primera_clase)
primera_clase_vivos = primera_clase[primera_clase["Survived"] > 0]
primera_clase_vivos.shape
total_primera_clase_vivos = primera_clase_vivos.shape[0]
print(total_primera_clase_vivos)
print(f"De {total_primera_clase} pasajeros en primera clase, sobrevivieron {total_primera_clase_vivos} \
que representan el {round(total_primera_clase_vivos/total_primera_clase*100,2)}%")

In [None]:
#Obtenemos el conjunto de datos de pasajeros en tercera clase
tercera_clase = df_titanic[df_titanic["Pclass"] == 3]

tercera_clase.shape
total_tercera_clase = tercera_clase.shape[0]
print(total_tercera_clase)
tercera_clase_vivos = tercera_clase[tercera_clase["Survived"] > 0]
tercera_clase_vivos.shape
total_tercera_clase_vivos = tercera_clase_vivos.shape[0]
print(total_tercera_clase_vivos)
print(f"De {total_tercera_clase} pasajeros en tercera clase, sobrevivieron {total_tercera_clase_vivos} \
que representan el {round(total_tercera_clase_vivos/total_tercera_clase*100,2)}%")

Ahora visualizaremos los valores de edad distribuidos por clase y usaremos el dato de sobrevivencia para colorear cada valor. ¿Qué podemos observar?

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
sns.scatterplot(x=df_titanic["Pclass"], y=df_titanic["Age"], hue = df_titanic["Survived"])

# Prácticas del curso de Pandas en Kaggle

Esta sección se basa en el curso disponible [aquí](https://www.kaggle.com/learn/pandas). Se utiliza el conjunto de datos de revisiones de vinos disponible en la sección data del curso, descargarlo y subirlo al repositorio temporal de Colab para trabajar con esta práctica.

## 1. Creando, leyendo y escribiendo.

In [None]:
import pandas as pd #importamos la biblioteca y le colocamos el apodo pd

Creamos un dataframe a partir de un diccionario:

In [None]:
df_datos = pd.DataFrame({'Yes': [50, 21], 'No': [131, 2]})
df_datos.head()

In [None]:
df_datos2 = pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'], 'Sue': ['Pretty good.', 'Bland.'], 'Tim':['It was great.','Boring.']})
df_datos2.head()

Si quisiéramos cambiar la descripción de la columna de índices, lo podemos hacer con el parámetro `index`.

In [None]:
pd.DataFrame({'Bob': ['I liked it.', 'It was awful.'],
              'Sue': ['Pretty good.', 'Bland.']},
             index=['Product A', 'Product B'])

### Series

Una serie en Pandas, es una secuencia de valores. Una columna de un dataframe puede considerarse como una serie. Podemos crear una serie utilizando una simple lista.

In [None]:
pd.Series([1, 2, 3, 4, 5])

Una serie al igual que un dataframe puede tener títulos en los índices, así mismo le podemos dar un nombre a la serie de datos. Una serie es esencia el equivalente a una columna de un dataframe.

In [None]:
pd.Series([30, 35, 40], index=['2015 Sales', '2016 Sales', '2017 Sales'], name='Product A')

## Leyendo archivos de datos

Existen diferentes formas de cargar archivos con Pandas, una de las más utilizadas es hacerlo a partir de un archivo separado por comas (CSV).

In [None]:
wine_reviews = pd.read_csv("winemag-data-130k-v2.csv")

In [None]:
wine_reviews.head()

In [None]:
wine_reviews.shape

Podemos indicar una columna para que sea utilziada como etiquetas de índice (aparecerá totalemente a la izquierda de la tabla).

In [None]:
wine_reviews = pd.read_csv("winemag-data-130k-v2.csv", index_col=0)
wine_reviews.head()

## 2. Indexado, Selección y Asignación.

### Cargamos los datos

In [None]:
import pandas as pd
reviews = pd.read_csv("winemag-data-130k-v2.csv", index_col=0)
pd.set_option('display.max_rows', 5)

Podemos revisar los valores de una columna, usando el nombre de la misma. Si la columna no tiene espacios en el nombre se puede usar la estructura `dataframe.columna`, si la columna tiene espacios se debe usar `dataframe["Columna"]`. Esta última opción aplica sin problema para las columnas sin espacios.

In [None]:
reviews

In [None]:
reviews.country

In [None]:
reviews['country']

Para acceder a un dato específico de una columna, podemos usar la misma nomenclatura que usamos para acceder a una lista. Indicando el índice del elemento que deseamos consultar.

In [None]:
reviews['country'][100]

### Selección basada en índices (Index-based selection).

In [None]:
reviews.iloc[0]

Podemos usar las reglas de slicing de las listas para recuperar una parte de los renglones y de las columnas (loc e iloc usan el orden renglones:columnas).

In [None]:
reviews.iloc[:, 0:3] #Esto es equivalente a: reviews[['country','description','designation']]

In [None]:
reviews.iloc[:3, 0]

Podemos indicar una lista con los índices que deseamos obtener:

In [None]:
reviews.iloc[[0, 10, 20], 0]

Vale la pena mencionar que al igual que en las listas, podemos usar valores negativos para indicar las posiciones:

In [None]:
reviews.iloc[-5:]  #Recupera los últimos 5 registros

### Selección basada en etiquetas (Label-based selection).

In [None]:
reviews.loc[0, 'country']

In [None]:
reviews.loc[:, ['taster_name', 'taster_twitter_handle', 'points']]

### Manipulando las etiquetas de los índices

In [None]:
reviews.set_index("title")

### Selección condicional

In [None]:
reviews.country == 'Italy'

In [None]:
reviews.loc[reviews.country == 'Mexico']

También podemos realizar selección con varias condiciones, podemos por ejemplo utilizar condiciones *and* (&) u *or* (|).

In [None]:
reviews.loc[(reviews.country == 'Mexico') & (reviews.points >= 90)]

In [None]:
reviews.loc[(reviews.country == 'Mexico') | (reviews.country == 'Uruguay')]

Otra forma de filtrar los datos es con la función `isin`. Esta función recibe una lista de los valores a verificar.

In [None]:
reviews.loc[reviews.country.isin(['Italy', 'France', 'Mexico'])]

Podemos incluso filtrar los valores nulos:

In [None]:
reviews.loc[reviews.price.notnull()]

### Asignación de valores

Es posible asignar un mismo valor a todos los renglones

In [None]:
reviews['critic'] = 'everyone'
reviews

También se pueden asignar los elementos de una lista o rango generado:

In [None]:
reviews['index_backwards'] = range(len(reviews), 0, -1)
reviews['index_backwards']

Finalmente podemos crear un campo calculado:

In [None]:
reviews['new_price'] = reviews.price * 1.15
reviews.loc[:,['price','new_price']]

## 3. Funciones de sumarizado y mapeo (Summary Functions and Maps)

In [None]:
pd.set_option('display.max_rows', 20)
reviews

#### Funciones de sumarizado

In [None]:
reviews.points.describe()

In [None]:
reviews.describe()

In [None]:
reviews.taster_name.describe()

In [None]:
reviews.taster_name.unique()

In [None]:
reviews.country.unique()

In [None]:
print(reviews.points.mean())
print(reviews.points.std())
print(reviews.points.median())

In [None]:
reviews.taster_name.value_counts()

In [None]:
df_paises = reviews.country.value_counts()
df_paises.tail(20)

#### Mapeos

In [None]:
review_points_mean = reviews.points.mean()
reviews.points.map(lambda p: p - review_points_mean)

In [None]:
def remean_points(row):
    row.points = row.points - review_points_mean
    return row

reviews.apply(remean_points, axis='columns')

Pandas ofrece una forma más directa de aplicar una operación sobre una columna:

In [None]:
review_points_mean = reviews.points.mean()
reviews.points - review_points_mean

In [None]:
reviews.country + " - " + reviews.region_1

## 4. Agrupamiento y ordenamiento

#### Operaciones de agrupamiento

In [None]:
reviews.groupby('points').points.count()

In [None]:
reviews.groupby('country').country.count()

Una vez agrupados podemos solicitar información de algun campo específico y obtendremos dicho valor para cada grupo.

In [None]:
reviews.groupby('points').price.mean()

In [None]:
reviews.groupby('points').price.min()

También por ejemplo podemos obtener el título del primer vino revisado de cada grupo de empresas.

In [None]:
reviews.groupby('winery').apply(lambda df: df.title.iloc[0])

Para obtener el vino mejor calificado por País y Provincia:

In [None]:
reviews.groupby(['country', 'province']).apply(lambda df: df.loc[df.points.idxmax()])

In [None]:
reviews.groupby(['country']).price.agg([len, min, max])

In [None]:
reviews.groupby('country').points.max()

In [None]:
countries_reviewed = reviews.groupby(['country', 'province']).description.agg([len])
countries_reviewed

In [None]:
countries_reviewed.reset_index()

### Ordenamiento

In [None]:
countries_reviewed = countries_reviewed.reset_index()
countries_reviewed.sort_values(by='len')

In [None]:
countries_reviewed.sort_values(by='len', ascending=False)

Ordenando con base al índice de los renglones

In [None]:
countries_reviewed.sort_index()

In [None]:
countries_reviewed.sort_index(ascending=False)

In [None]:
countries_reviewed.sort_values(by=['country', 'len'])

In [None]:
countries_reviewed.sort_values(by=['country', 'len'], ascending=[True, False])

## 5. Tipos de datos y valores nulos

Se puede verificar el tipo de datos de todas las columnas o de una columna en específico:

In [None]:
reviews.dtypes

In [None]:
reviews.price.dtype

In [None]:
reviews.points.astype('float64')

### Manejando datos nulos

In [None]:
reviews[pd.isnull(reviews.country)]

Podemos usar la función `fillna` para sustituir los valores nulos por un valor específico.

In [None]:
reviews.region_2.fillna("Desconocido")

Es posible sustiituir el valor de una columna por otro en todo el dataframe:

In [None]:
reviews.taster_twitter_handle.replace("@kerinokeefe", "@kerino")

In [None]:
reviews

## 6. Renombrado y combiando

Para renombrar una columna utilizar:

In [None]:
reviews.rename(columns={'points': 'score'})

Es posible renombrar también las etiquetas de los índices:

In [None]:
reviews.rename(index={0: 'firstEntry', 1: 'secondEntry'})