# Introducción a herramientas para Ciencia de Datos - Pandas

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# Graficar inline
%matplotlib inline

### Construcción de Dataframes

In [None]:
# Crear datos

nombres = ['Juan','Pedro','María','Paula','Diego','Andrea','Diana']
edades = [22, 24, 32, 19, 52, 45, 61]

In [None]:
# Crear dataset

personas_dataset = list(zip(nombres,edades)) # La función zip() crea un iterador a partir de dos iteradores
personas_dataset

In [None]:
# Crear DATAFRAME

df = pd.DataFrame(data=personas_dataset, columns=["Nombre","Edad"])
df

In [None]:
# Escribir en CSV

df.to_csv("./data/personas.csv", index=False)

In [None]:
# Leer de CSV

df_csv = pd.read_csv("./data/personas.csv", encoding = "latin-1")
df_csv

In [None]:
df

### Tipos de datos

In [None]:
df.dtypes

### Análisis de datos

In [None]:
# Encontrar la mayor edad

df_ordenado = df.sort_values(['Edad'], ascending=False)
df_ordenado.head(1) # Función head(n) trae las primeras n filas del dataframe

In [None]:
# Encontrar la mayor edad (otro método)

df_ordenado['Edad'].max()

In [None]:
# Crear gráfica
df['Edad'].plot()

# Valor máximo en el dataset
ValorMax = df['Edad'].max()

# Nombre asociado a la máxima edad
NombreMax = df['Nombre'][df['Edad'] == df['Edad'].max()].values

# Texto para mostrar en la gráfica
Texto = str(ValorMax) + " - " + NombreMax

# Añadir texto a la gráfica
plt.annotate(Texto, xy=(1, ValorMax), xytext=(8, 0), 
                 xycoords=('axes fraction', 'data'), textcoords='offset points')

print("La persona mayor")
df.loc[df['Edad'] == df['Edad'].max()]

### Análisis de datos II

In [None]:
df_got = pd.read_csv("./data/got.csv")
df_got.head()

In [None]:
# Histograma de la serie de edad

df_got["age"].hist()

In [None]:
# Valores únicos

df_got["house"].unique()

<span style="color:red">Reto 1</span>

In [None]:
# Conteo de registros por casa

df_count = df_got.groupby(["house"]).agg(["count"])["name"]
df_count

<span style="color:red">Reto 2</span>

<span style="color:red">Reto 3</span>

<span style="color:red">Reto 4</span>

<span style="color:red">Reto 5</span>

<span style="color:red">Reto 6</span>

### Funciones

In [None]:
# La función apply() permite aplicar una función todos los elementos de una columna

df_got["name_upper"] = df_got["name"].apply(lambda x:x.upper())
df_got.head(10)

<span style="color:red">Reto 7</span>

### Conocer los datos

In [None]:
chipo = pd.read_csv("./data/chipotle.tsv", sep = '\t')

<span style="color:red">Reto 8</span>

<span style="color:red">Reto 9</span>

In [None]:
# Columnas del dataframe

chipo.columns

<span style="color:red">Reto 10</span>

In [None]:
# Ver indexación del dataset

chipo.index

<span style="color:red">Reto 11</span>

<span style="color:red">Reto 12</span>

<span style="color:red">Reto 13</span>

<span style="color:red">Reto 14</span>

<span style="color:red">Reto 15</span>

<span style="color:red">Reto 16</span>

<span style="color:red">Reto 17</span>

### Filtrar

In [None]:
euro = pd.read_csv("./data/euro.csv")
euro.head(5)

In [None]:
# Filtrar por columnas

disciplina = euro[['Team', 'Yellow Cards', 'Red Cards']]
disciplina.head(5)

In [None]:
# Ordenar registros primero por tarjetas rojas y luego por tarjetas amarillas

disciplina.sort_values(['Red Cards', 'Yellow Cards'], ascending = False)

<span style="color:red">Reto 18</span>

<span style="color:red">Reto 19</span>

<span style="color:red">Reto 20</span>

### Más agrupaciones

In [None]:
raw_data = {'regiment': ['Nighthawks', 'Nighthawks', 'Nighthawks', 'Nighthawks', 'Dragoons', 'Dragoons', 'Dragoons', 'Dragoons', 'Scouts', 'Scouts', 'Scouts', 'Scouts'], 
        'company': ['1st', '1st', '2nd', '2nd', '1st', '1st', '2nd', '2nd','1st', '1st', '2nd', '2nd'], 
        'name': ['Miller', 'Jacobson', 'Ali', 'Milner', 'Cooze', 'Jacon', 'Ryaner', 'Sone', 'Sloan', 'Piger', 'Riani', 'Ali'], 
        'preTestScore': [4, 24, 31, 2, 3, 4, 24, 31, 2, 3, 2, 3],
        'postTestScore': [25, 94, 57, 62, 70, 25, 94, 57, 62, 70, 62, 70]}

In [None]:
regiment = pd.DataFrame(raw_data, columns = raw_data.keys())
regiment

In [None]:
# Estadísticas generales por compañía

regiment.groupby('company').describe()

In [None]:
# Media de preTestScores agrupados por regimiento y compañía

regiment.groupby(['regiment', 'company']).preTestScore.mean()

In [None]:
# Media de preTestScores agrupados por regimiento y compañía 
# sin índice jerárquico

regiment.groupby(['regiment', 'company']).preTestScore.mean().unstack()

### Uniones

In [None]:
raw_data_1 = {
        'subject_id': ['1', '2', '3', '4', '5'],
        'first_name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'], 
        'last_name': ['Anderson', 'Ackerman', 'Ali', 'Aoni', 'Atiches']}

raw_data_2 = {
        'subject_id': ['4', '5', '6', '7', '8'],
        'first_name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'], 
        'last_name': ['Bonder', 'Black', 'Balwner', 'Brice', 'Btisan']}

raw_data_3 = {
        'subject_id': ['1', '2', '3', '4', '5', '7', '8', '9', '10', '11'],
        'test_id': [51, 15, 15, 61, 16, 14, 15, 1, 61, 16]}

In [None]:
data1 = pd.DataFrame(raw_data_1, columns = ['subject_id', 'first_name', 'last_name'])
data2 = pd.DataFrame(raw_data_2, columns = ['subject_id', 'first_name', 'last_name'])

In [None]:
data1

In [None]:
data2

In [None]:
# Unión de dataframes por filas

all_data = pd.concat([data1, data2])
all_data

In [None]:
# Unión de dataframes por columnas (inner)

pd.merge(data1, data2, on='subject_id', how='inner')

In [None]:
# Unión de dataframes por columnas (outer)

pd.merge(data1, data2, on='subject_id', how='outer')