## Pandas es como una hoja de cálculo avanzada

Se instala con `pip install pandas`

Pandas es una librería de Python que nos permite trabajar con datos tabulares de forma muy sencilla. Es una librería muy potente y muy utilizada en el mundo de la ciencia de datos.

Pandas nos permite leer datos de distintos formatos, como CSV, JSON, Excel, etc. También nos permite escribir datos en distintos formatos.

Pandas nos permite manipular los datos de forma muy sencilla, como si estuviéramos trabajando con una hoja de cálculo.

Pandas nos permite hacer análisis estadísticos de los datos.

Pandas nos permite guardar los datos en distintos formatos.

### Dataframes

Un dataframe es una estructura de datos que se parece a una tabla de una hoja de cálculo. Cada fila de la tabla es un registro y cada columna es una variable.

Se pueden crear dataframes con datos de distintos tipos: números, cadenas de texto, fechas, etc.

In [None]:
import pandas as pd

df = pd.read_csv('github_dataset.csv')

df

Se puede colocar un índice a cada fila del dataframe si este existe con el parámetro index_col="id".

In [None]:
df = pd.read_csv('github_dataset.csv', index_col="id")

Pandas provee funciones para leer los datos cargados, por ejemplo, `df.head()` muestra las primeras 5 filas del dataframe.

In [None]:
df.head()

O tambien existe `df.tail()`, que muestra las últimas 5 filas del dataframe.

In [None]:
df.tail()

Con `df.describe()` podemos obtener estadísticas de las columnas numéricas del dataframe.

In [None]:
df.describe()

## Limpieza de datos

### Valores nulos

Los valores nulos se representan con `NaN` (Not a Number). Pandas provee funciones para detectar y eliminar valores nulos.

`df.dropna()` elimina las filas que contienen valores nulos.

In [None]:
df_sin_nan = df.dropna()

df_sin_nan

`df.fillna()` reemplaza los valores nulos por un valor específico.

In [None]:
df_nan_0 = df.fillna(0)

df_nan_0

Tamibén se puede reemplazar los valores nulos por valores específicos para cada columna.

In [None]:
df_nan_mix = df.fillna({"stars_count": 0, "language": "No language"})

df_nan_mix

### Filtrado de datos

En pandas se pueden filtrar datos de diferentes formas, se puede por ejemplo con condiciones o por columnas o filas por indexación, o por etiquetas.

#### Filtrar por columna

In [None]:
df["stars_count"]

Si queremos filtrar dos columnas, por ejemplo, `df[["col1", "col2"]]`.

In [None]:
df[["stars_count", "language"]] # Devuelve un dataframe

#### Filtrar por filas

Se puede de dos formas, por indice o por id.

`df.loc[0]` filtra por indice.

`df.iloc[0]` filtra por id.

Se puede filtrar por un rango de filas, por ejemplo, `df.loc[0:2]`.

Se puede filtrar filas especificas, por ejemplo, `df.loc[[0, 3, 5]]`.

In [None]:
df.loc[0] # Devuelve una serie

In [None]:
df.loc[0:3]

In [None]:
df.loc[[0, 3, 5]]

#### Filtrar filas y columnas

Se puede filtrar filas y columnas, por ejemplo, `df.iloc[0:5, ["contributors"]]`.

In [None]:
df.loc[0:5,["contributors"]]

#### Filtrar por condiciones

Se puede filtrar por condiciones, por ejemplo, `df[df["stars_count"] > 100]`.

In [None]:
df[df["stars_count"] > 500]

También se pueden crear condiciones compuestas, por ejemplo, `df[(df["stars_count"] > 100) & (df["forks_count"] > 100)]`.

In [None]:
df[(df["stars_count"] > 100) & (df["forks_count"] > 100)]

Se puede filtrar por contenido de un texto, por ejemplo, `df[df["repositories"].str.contains("github")]`.

In [None]:
df[df["repositories"].str.contains("github")]

### Transformación de datos

A partir de las columnas ya creadas se pueden crear nuevas columnas.

In [None]:
def es_popular(fila):
    stars_count = fila["stars_count"]
    return stars_count > 500

df["popular"] = df.apply(es_popular, axis=1)

df

### Agrupación de datos

Se puede agrupar datos por una columna, por ejemplo, `df.groupby("language")`.

In [None]:
cantidad_populares = df.groupby("popular").count()["repositories"]

cantidad_populares

## Graficar datos con matplotlib

Se instala con `pip install matplotlib`

Matplotlib es una librería de Python que nos permite hacer gráficos de los datos.

Matplotlib nos permite hacer gráficos de líneas, de barras, de dispersión, de cajas, de torta, etc.

Se importa con `import matplotlib.pyplot as plt`.

In [None]:
import matplotlib.pyplot as plt

In [None]:
cantidad_populares.plot(kind="bar")

In [None]:
df.plot(kind="scatter", x="stars_count", y="forks_count")

### Exportar dataframe

Se puede exportar el dataframe a un archivo CSV con `df.to_csv("dataframe.csv")`.

Se puede exportar el dataframe a un archivo JSON con `df.to_json("dataframe.json")`.

Se puede exportar el dataframe a un archivo Excel con `df.to_excel("dataframe.xlsx")`.

## Ejercicios

### Ejercicio 1

Cargar el archivo `dataframe.csv` en un dataframe.

### Ejercicio 2

Mostrar las primeras 10 filas del dataframe.

### Ejercicio 3

Mostrar las últimas 10 filas del dataframe.

### Ejercicio 4

Mostrar las estadísticas de las columnas numéricas del dataframe.

### Ejercicio 5

Mostrar las columnas del dataframe.

### Ejercicio 6

Mostrar las columnas del dataframe que no sean numéricas.

### Ejercicio 7

Mostrar las columnas del dataframe que sean numéricas.

### Ejercicio 8

Mostrar las columnas del dataframe que sean numéricas y que tengan más de 1000 valores.

### Ejercicio 9

Mostrar las columnas del dataframe que sean numéricas y que tengan menos de 1000 valores.

### Ejercicio 10

Mostrar las columnas del dataframe que sean numéricas y que tengan menos de 1000 valores y que tengan más de 100 valores.