In [None]:
import pandas as pd

df = pd.read_csv("resumen_resultados_astronautas.csv")
df.head()

Unnamed: 0,nombre,edad,peso,altura,evaluacion_fisica,evaluacion_psicologica,evaluacion_adaptativa,evaluacion_medica,anos_experiencia,califica
0,Alana Morillo,32,75,180,93,88,78,89,6,Si
1,Fátima Tafalla,27,68,167,82,95,81,87,4,Si
2,Sofía Puig,29,80,185,85,80,90,91,3,Si
3,Valentina Tasis,30,65,175,90,91,85,92,2,No
4,Regina Cicerón,31,76,183,89,87,83,90,7,Si


Si no queremos que se muestre todo el DataFrame (porque podría ser excesivamente largo), podemos usar el método **head()**, que por defecto nos mostrará las primeras 5 filas.

In [None]:
df.head()

Unnamed: 0,nombre,edad,peso,altura,evaluacion_fisica,evaluacion_psicologica,evaluacion_adaptativa,evaluacion_medica,anos_experiencia,califica
0,Alana Morillo,32,75,180,93,88,78,89,6,Si
1,Fátima Tafalla,27,68,167,82,95,81,87,4,Si
2,Sofía Puig,29,80,185,85,80,90,91,3,Si
3,Valentina Tasis,30,65,175,90,91,85,92,2,No
4,Regina Cicerón,31,76,183,89,87,83,90,7,Si


Si queremos ver más filas, podemos indicarlo como se muestra.

In [None]:
df.head(n=9)

Unnamed: 0,nombre,edad,peso,altura,evaluacion_fisica,evaluacion_psicologica,evaluacion_adaptativa,evaluacion_medica,anos_experiencia,califica
0,Alana Morillo,32,75,180,93,88,78,89,6,Si
1,Fátima Tafalla,27,68,167,82,95,81,87,4,Si
2,Sofía Puig,29,80,185,85,80,90,91,3,Si
3,Valentina Tasis,30,65,175,90,91,85,92,2,No
4,Regina Cicerón,31,76,183,89,87,83,90,7,Si
5,Amaya de la Cruz,26,64,170,80,94,79,86,4,No
6,María Juderías,28,78,182,88,85,87,92,5,Si
7,Perla Alcocer,30,71,168,86,92,82,88,3,No
8,Consuela Arboleda,33,77,188,94,83,89,93,8,Si


## <font color='green'> Índices de filas y columnas</font>

Cada columna del DataFrame tiene una etiqueta o nombre que la identifica, mientras que cada fila puede o no tener una etiqueta que la identifique.

<center>
<img src="https://files.realpython.com/media/fig-1.d6e5d754edf5.png" width="500">
</center>

El índice es un objeto que se encuentra en el atributo index de un DataFrame. Pueden ser numéricos, etiquetas, fechas, horas, entre otros. Cuando hablamos de índice, podemos referirnos a las etiquetas o a las posiciones de fila o columna. Por defecto, Pandas considerará el número de fila, tomando en cuenta la forma en que se ha generado. Por ejemplo:

In [None]:
df.index

RangeIndex(start=0, stop=32, step=1)

Observa que, si queremos averiguar cuáles son nuestras columnas, basta usar un sencillo comando:

In [None]:
df.columns

Index(['nombre', 'edad', 'peso', 'altura', 'evaluacion_fisica',
       'evaluacion_psicologica', 'evaluacion_adaptativa', 'evaluacion_medica',
       'anos_experiencia', 'califica'],
      dtype='object')

## <font color='green'>Elegir una columna como índice de filas</font>

El método **set_index()** nos permite establecer una columna existente como índice. Al hacerlo, la quita de las columnas del DataFrame.

In [None]:
df = df.set_index('nombre')
df.head()

Unnamed: 0_level_0,edad,peso,altura,evaluacion_fisica,evaluacion_psicologica,evaluacion_adaptativa,evaluacion_medica,anos_experiencia,califica
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Alana Morillo,32,75,180,93,88,78,89,6,Si
Fátima Tafalla,27,68,167,82,95,81,87,4,Si
Sofía Puig,29,80,185,85,80,90,91,3,Si
Valentina Tasis,30,65,175,90,91,85,92,2,No
Regina Cicerón,31,76,183,89,87,83,90,7,Si


In [None]:
df.index

Index(['Alana Morillo', 'Fátima Tafalla', 'Sofía Puig', 'Valentina Tasis',
       'Regina Cicerón', 'Amaya de la Cruz', 'María Juderías', 'Perla Alcocer',
       'Consuela Arboleda', 'María José Franco', 'Emanuel Gálvez',
       'Alberto Graciani', 'Patricio Encarnación', 'Cristóbal Miralles',
       'Pablo Cotilla', 'Pablo Capmany', 'Nicolás Cambeiro', 'Daniel Sánchez',
       'Samuel Gálvez', 'José París', 'Kevin Pareja', 'Estefania Manzanares',
       'Óliver Fonseca', 'Christopher Berganza', 'Álvaro Espina',
       'Leonardo Magrina', 'Fernando Gálvez', 'Sophie González', 'Alexia Gaos',
       'Fátima Varela', 'Clara Arias', 'Paloma Berganza'],
      dtype='object', name='nombre')

Podemos revertir lo anterior con el siguiente comando:

In [None]:
df = df.reset_index()
df.head()

Unnamed: 0,nombre,edad,peso,altura,evaluacion_fisica,evaluacion_psicologica,evaluacion_adaptativa,evaluacion_medica,anos_experiencia,califica
0,Alana Morillo,32,75,180,93,88,78,89,6,Si
1,Fátima Tafalla,27,68,167,82,95,81,87,4,Si
2,Sofía Puig,29,80,185,85,80,90,91,3,Si
3,Valentina Tasis,30,65,175,90,91,85,92,2,No
4,Regina Cicerón,31,76,183,89,87,83,90,7,Si


In [None]:
df = df.set_index('nombre') # devolvemos a lo anterior, para seguir trabajando

**FIN DE LA PRIMERA CLASE**

# <font color='green'>Creación de un DataFrame</font>

## <font color='green'>Un DataFrame vacío</font>

En ocasiones, podemos necesitar definir un dataFrame vacío.

In [None]:
dfn=pd.DataFrame()
dfn

## <font color='green'>A partir de una lista de filas</font>

In [None]:
lista = [ [1, 'a', True], [2, 'b', False], [3, 'c', True] ]
columnas = ['columna_1', 'columna_2', 'columna_3']

df2 = pd.DataFrame(lista, columns=columnas)
df2

Unnamed: 0,columna_1,columna_2,columna_3
0,1,a,True
1,2,b,False
2,3,c,True


## <font color='green'>A partir de un diccionario</font>

In [None]:
import pandas as pd

datos = {'nombre': ['Juan', 'María', 'Pedro'], 'edad': [25, 30, 40], 'ciudad': ['Bogotá', 'Medellín', 'Cali']}

df3 = pd.DataFrame(datos)
df3

Unnamed: 0,nombre,edad,ciudad
0,Juan,25,Bogotá
1,María,30,Medellín
2,Pedro,40,Cali


## <font color='green'>A partir de una lista de diccionarios</font>


In [None]:
datos = [{'nombre': 'Juan', 'edad': 25, 'ciudad': 'Bogotá'}, {'nombre': 'María', 'edad': 30, 'ciudad': 'Medellín'}, {'nombre': 'Pedro', 'edad': 40, 'ciudad': 'Cali'}]

df4 = pd.DataFrame(datos)
df4

Unnamed: 0,nombre,edad,ciudad
0,Juan,25,Bogotá
1,María,30,Medellín
2,Pedro,40,Cali


## <font color='green'>A partir de un NumPy Array</font>

In [None]:
import numpy as np

arr = np.array([[1, 2], [3, 4]])
df5 = pd.DataFrame(arr, columns=['A', 'B'])
df5


Unnamed: 0,A,B
0,1,2
1,3,4


**FIN DE LA SEGUNDA CLASE**

# <font color='green'>Operaciones y métodos en DataFrames</font>

##  <font color='green'>Crear nuevas columnas</font>

Recordando los diccionarios de Python, cuando agregamos nuevas claves lo hacemos de la siguiente forma:

In [None]:
# Creamos un diccionario con un solo par clave-valor, que es una lista en nuestro caso.
diccionario_dias = {"dias_laborales": ["Lunes", "Martes", "Miércoles", "Jueves", "Viernes"]}

print(diccionario_dias)

# Asignamos un nuevo par clave-valor.
diccionario_dias["dias_no_laborales"] =  ["Sábado", "Domingo"]

print(diccionario_dias)

{'dias_laborales': ['Lunes', 'Martes', 'Miércoles', 'Jueves', 'Viernes']}
{'dias_laborales': ['Lunes', 'Martes', 'Miércoles', 'Jueves', 'Viernes'], 'dias_no_laborales': ['Sábado', 'Domingo']}


Cuando agregamos una nueva columna a un **DataFrame**, lo hacemos de la misma manera **pero** con una importante diferencia: **la columna que se agregue al DataFrame debe tener tantos valores como filas haya en el DataFrame!.**

Veamos un ejemplo:

In [None]:
df_dias = pd.DataFrame({"dias_laborales": ["Lunes", "Martes", "Miércoles", "Jueves", "Viernes"]})
df_dias

Unnamed: 0,dias_laborales
0,Lunes
1,Martes
2,Miércoles
3,Jueves
4,Viernes


In [None]:
df_dias["dias_no_laborales"] = ["Sábado", "Domingo", "", "", ""]
df_dias

Unnamed: 0,dias_laborales,dias_no_laborales
0,Lunes,Sábado
1,Martes,Domingo
2,Miércoles,
3,Jueves,
4,Viernes,


Tuvimos que agregar tres "strings vacíos", para que la lista "dias_no_laborales" tenga la misma cantidad de elementos que "dias_laborales".

## <font color='green'>Nuevas columnas con operaciones</font>

Podemos crear nuevas columnas como resultado de alguna operación sobre una columna o entre columnas.

In [None]:
df_nombres = pd.DataFrame({"nombres": ["Juan", "Pedro", "Daniela", "Marta", "Claudia"]})
df_nombres

Unnamed: 0,nombres
0,Juan
1,Pedro
2,Daniela
3,Marta
4,Claudia


Vamos a agregar prefijos a cada valor de cada columna, como se muestra:

In [None]:
df_nombres["nombres_prefijo_version_1"] = "Sr. " + df_nombres['nombres']
df_nombres["nombres_prefijo_version_2"] = ["Sr. ", "Sr. ", "Sra. ", "Sra. ", "Sra. "] + df_nombres['nombres']
df_nombres

Unnamed: 0,nombres,nombres_prefijo_version_1,nombres_prefijo_version_2
0,Juan,Sr. Juan,Sr. Juan
1,Pedro,Sr. Pedro,Sr. Pedro
2,Daniela,Sr. Daniela,Sra. Daniela
3,Marta,Sr. Marta,Sra. Marta
4,Claudia,Sr. Claudia,Sra. Claudia


Analiza las columnas creadas, y explica sus diferencias.<br>


Podemos agregar una columna, además, generando una lista de valores aleatorios.

In [None]:
import numpy as np
df_nombres["edad"] = np.random.randint(18, 100, 5)
df_nombres

Unnamed: 0,nombres,nombres_prefijo_version_1,nombres_prefijo_version_2,edad
0,Juan,Sr. Juan,Sr. Juan,18
1,Pedro,Sr. Pedro,Sr. Pedro,50
2,Daniela,Sr. Daniela,Sra. Daniela,87
3,Marta,Sr. Marta,Sra. Marta,87
4,Claudia,Sr. Claudia,Sra. Claudia,84


## <font color='green'>Combinación de DataFrames</font>

Podemos combinar dos DataFrames en un proceso similar a la operación JOIN, de tablas en SQL.

Con Python, utilizamos **pd.concat()**, que recibe una lista con DataFrames que deben tener las mismas columnas.

In [None]:
df1 = pd.DataFrame({"mes": "enero", "ventas":np.random.randint(1,100, 5)})
df1

Unnamed: 0,mes,ventas
0,enero,37
1,enero,21
2,enero,99
3,enero,29
4,enero,26


In [None]:
df2 = pd.DataFrame({"mes": "febrero", "ventas":np.random.randint(1,100, 5)})
df2

Unnamed: 0,mes,ventas
0,febrero,70
1,febrero,75
2,febrero,92
3,febrero,10
4,febrero,80


In [None]:
df3 = pd.concat([df1, df2])
df3

Unnamed: 0,mes,ventas
0,enero,37
1,enero,21
2,enero,99
3,enero,29
4,enero,26
0,febrero,70
1,febrero,75
2,febrero,92
3,febrero,10
4,febrero,80


## <font color='green'>Reordenando el índice</font>

Podemos observar que los indices quedaron duplicados y desordenados, por lo que para evitar confusiones se recomienda reiniciar el indice de las filas luego de hacer Uniones de este estilo.

In [None]:
df3 = df3.reset_index(drop=True) #¿Qué ocurre si no ponemos "drop=True" (que es el valor por defecto)?
df3

Unnamed: 0,mes,ventas
0,enero,37
1,enero,21
2,enero,99
3,enero,29
4,enero,26
5,febrero,70
6,febrero,75
7,febrero,92
8,febrero,10
9,febrero,80


In [None]:
df4 = pd.DataFrame({"mes": "marzo", "ventas": np.random.randint(1,100, 1)})
df4

Unnamed: 0,mes,ventas
0,marzo,7


Para simplificar, utilizamos el parametro **ignore_index** del método **concat** al realizar la union de DataFrames. De esta manera, el indice se reiniciará automáticamente.

In [None]:
df5 = pd.concat([df3, df4], ignore_index = True)
df5

Unnamed: 0,mes,ventas
0,enero,37
1,enero,21
2,enero,99
3,enero,29
4,enero,26
5,febrero,70
6,febrero,75
7,febrero,92
8,febrero,10
9,febrero,80


**FIN DE LA TERCERA CLASE**

# <font color='green'>Explorando un DataFrame</font>

###  <font color='green'>Conteos</font>

El método **value_counts()** nos permite hacer un recuento de los valores de cada columna. Considerando nuestro DataFrame tenemos

In [None]:
df['anos_experiencia'].value_counts()

Podemos ver que en la columna izquierda aparecen los valores distintos de la columna 'anos_experiencia', y en la izquierda la cantidad de veces que dicho valor aparece repetido.

Por otro lado, si quisieramos obtener solamente los valores de una columna **sin realizar el conteo**, podemos utilizar el método **unique()**.

In [None]:
df['anos_experiencia'].unique()

array([ 6,  4,  3,  2,  7,  5,  8,  9,  1,  0, 11])

### <font color='green'>Estadística descriptiva</font>

El método **describe** nos permite obtener varias medidas estadisticas en un solo paso.

In [None]:
df.describe()

Unnamed: 0,edad,peso,altura,evaluacion_fisica,evaluacion_psicologica,evaluacion_adaptativa,evaluacion_medica,anos_experiencia
count,32.0,32.0,32.0,32.0,32.0,32.0,32.0,32.0
mean,29.96875,71.0625,174.78125,86.1875,88.71875,85.375,86.46875,4.4375
std,5.095756,5.89115,7.48648,4.999597,4.025999,4.46311,4.2879,2.539209
min,21.0,61.0,162.0,77.0,80.0,77.0,77.0,0.0
25%,27.0,67.25,168.75,82.0,85.75,81.75,84.75,2.75
50%,29.0,71.5,175.0,87.0,89.5,85.5,87.0,4.0
75%,31.25,75.25,180.25,90.0,92.0,89.0,89.25,6.0
max,44.0,81.0,190.0,94.0,95.0,93.0,93.0,11.0


## <font color='green'>Orden, Ranking e indexación de un DataFrame</font>

Consideremos el DataFrame original, de los astronautas. Vamos, además, a indexarlo según el nombre.

In [None]:
df = pd.read_csv("resumen_resultados_astronautas.csv")
df = df.set_index('nombre')

Vamos a ordenarlos por edad. Observa la opción **ascending**

In [None]:
df.sort_values(by = 'edad', ascending = False)

Unnamed: 0_level_0,edad,peso,altura,evaluacion_fisica,evaluacion_psicologica,evaluacion_adaptativa,evaluacion_medica,anos_experiencia,califica
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Clara Arias,44,63,162,77,87,88,84,11,No
José París,40,68,163,78,85,85,77,8,No
Leonardo Magrina,39,65,171,79,92,90,85,8,No
Óliver Fonseca,38,80,164,77,88,90,89,9,No
Sophie González,36,75,176,85,82,84,80,7,No
Fátima Varela,33,73,182,91,90,91,88,5,Si
Consuela Arboleda,33,77,188,94,83,89,93,8,Si
Alana Morillo,32,75,180,93,88,78,89,6,Si
Regina Cicerón,31,76,183,89,87,83,90,7,Si
Cristóbal Miralles,31,72,174,88,91,86,92,6,No


Podemos obtener el ranking de los valores de una columna, con el método **rank()**

In [None]:
df['edad'].rank(ascending=False)

nombre
Alana Morillo            8.0
Fátima Tafalla          24.5
Sofía Puig              17.5
Valentina Tasis         13.5
Regina Cicerón          10.0
Amaya de la Cruz        27.5
María Juderías          21.0
Perla Alcocer           13.5
Consuela Arboleda        6.5
María José Franco       17.5
Emanuel Gálvez          24.5
Alberto Graciani        21.0
Patricio Encarnación    13.5
Cristóbal Miralles      10.0
Pablo Cotilla           24.5
Pablo Capmany           17.5
Nicolás Cambeiro        17.5
Daniel Sánchez          27.5
Samuel Gálvez           31.0
José París               2.0
Kevin Pareja            24.5
Estefania Manzanares    10.0
Óliver Fonseca           4.0
Christopher Berganza    30.0
Álvaro Espina           13.5
Leonardo Magrina         3.0
Fernando Gálvez         29.0
Sophie González          5.0
Alexia Gaos             32.0
Fátima Varela            6.5
Clara Arias              1.0
Paloma Berganza         21.0
Name: edad, dtype: float64

**FIN DE LA CUARTA CLASE**

# <font color='green'>Indexación y exportación de un DataFrame</font>

Indexar un DataFrame es una operación fundamental en Pandas, que nos permite seleccionar un conjunto de datos específico del DataFrame. La indexación permite filtrar, ordenar y manipular los datos de una manera más fácil y rápida. Distinguiremos esencialmente tres indexaciones fundamentales:

- **Indexación por posición:** seleccionar una o varias filas y/o columnas del DataFrame mediante sus índices numéricos.
- **Indexación por etiquetas:** seleccionar una o varias filas y/o columnas del DataFrame mediante sus etiquetas o nombres.
- **Indexación booleana:** seleccionar filas del DataFrame que cumplan una o varias condiciones lógicas.

De estas tres, la **indexación booleana** puede resultar más cómoda para el analisis de datos ya que permite hacer filtros basados en condiciones aplicados a la **Data** en lugar de a los **Indices**.

## <font color='green'>Indexación por posiciones</font>

Podemos seleccionar valores específicos del DataFrame utilizando sus posiciones con **iloc**. Para ello, podemos entregar una lista "fila(s) - columna(s)", como se muestra:

In [None]:
df

Unnamed: 0_level_0,edad,peso,altura,evaluacion_fisica,evaluacion_psicologica,evaluacion_adaptativa,evaluacion_medica,anos_experiencia,califica
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Alana Morillo,32,75,180,93,88,78,89,6,Si
Fátima Tafalla,27,68,167,82,95,81,87,4,Si
Sofía Puig,29,80,185,85,80,90,91,3,Si
Valentina Tasis,30,65,175,90,91,85,92,2,No
Regina Cicerón,31,76,183,89,87,83,90,7,Si
Amaya de la Cruz,26,64,170,80,94,79,86,4,No
María Juderías,28,78,182,88,85,87,92,5,Si
Perla Alcocer,30,71,168,86,92,82,88,3,No
Consuela Arboleda,33,77,188,94,83,89,93,8,Si
María José Franco,29,70,175,87,90,80,89,2,No


In [None]:
df.iloc[2,3] #cambia los valores y observa los resultados. ¿Qué significa cada valor?

85

Observa que podemos utilizar listas de filas y columnas

In [None]:
df.iloc[[0,1,2,3,4,5,6], [0,1,2,3]]

Unnamed: 0_level_0,edad,peso,altura,evaluacion_fisica
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Alana Morillo,32,75,180,93
Fátima Tafalla,27,68,167,82
Sofía Puig,29,80,185,85
Valentina Tasis,30,65,175,90
Regina Cicerón,31,76,183,89
Amaya de la Cruz,26,64,170,80
María Juderías,28,78,182,88


E incluso, rangos de filas y columnas

In [None]:
df.iloc[0:5 , 0:4]

Unnamed: 0_level_0,edad,peso,altura,evaluacion_fisica
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Alana Morillo,32,75,180,93
Fátima Tafalla,27,68,167,82
Sofía Puig,29,80,185,85
Valentina Tasis,30,65,175,90
Regina Cicerón,31,76,183,89


## <font color='green'>Indexación por etiquetas</font>

Podemos seleccionar valores específicos por etiqueta, gracias a **loc**

In [None]:
df.loc[["Alana Morillo", "Fátima Tafalla", "Sofía Puig"], ["edad", "peso", "altura"]]

Unnamed: 0_level_0,edad,peso,altura
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Alana Morillo,32,75,180
Fátima Tafalla,27,68,167
Sofía Puig,29,80,185


Podemos utilizar también rangos de etiqueta.

In [None]:
df.loc["Alana Morillo":"Regina Cicerón", "edad":"altura"]

Unnamed: 0_level_0,edad,peso,altura
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Alana Morillo,32,75,180
Fátima Tafalla,27,68,167
Sofía Puig,29,80,185
Valentina Tasis,30,65,175
Regina Cicerón,31,76,183


## <font color='green'>Indexación booleana</font>

Podemos seleccionar datos poniendo condiciones, que podemos combinar utilizando los operadores booleanos & (and) y | (or). Notemos que las condiciones deben ponerse entre paréntesis, cuando haya más de una.

In [None]:
df[(df['edad'] >= 30) & (df['anos_experiencia'] >=5)]

Unnamed: 0_level_0,edad,peso,altura,evaluacion_fisica,evaluacion_psicologica,evaluacion_adaptativa,evaluacion_medica,anos_experiencia,califica
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Alana Morillo,32,75,180,93,88,78,89,6,Si
Regina Cicerón,31,76,183,89,87,83,90,7,Si
Consuela Arboleda,33,77,188,94,83,89,93,8,Si
Cristóbal Miralles,31,72,174,88,91,86,92,6,No
José París,40,68,163,78,85,85,77,8,No
Estefania Manzanares,31,79,179,89,82,85,81,5,Si
Óliver Fonseca,38,80,164,77,88,90,89,9,No
Leonardo Magrina,39,65,171,79,92,90,85,8,No
Sophie González,36,75,176,85,82,84,80,7,No
Fátima Varela,33,73,182,91,90,91,88,5,Si


## <font color='green'>El método query()</font>

El método llamado **query()** nos permite realizar una indexación booleana más sencilla:

In [None]:
df.query("edad <= 21 or anos_experiencia == 0")

Unnamed: 0_level_0,edad,peso,altura,evaluacion_fisica,evaluacion_psicologica,evaluacion_adaptativa,evaluacion_medica,anos_experiencia,califica
nombre,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Alexia Gaos,21,69,169,93,94,93,86,0,Si


Como puedes ver:

- No son necesarios los parentesis **().**
- Podemos utilizar **"and"** y **"or"** en vez de **"&"** y **"|"**.

## <font color='green'>Exportando un DataFrame</font>

Podemos exportar fácilmente un DataFrame a un archivo csv (u otro formato, como xls) mediante el método **to_csv**. Su uso es el siguiente:

In [None]:
df.query.to_csv("nombre.csv", index = False, sep = ',', header = False, columns = ['edad','evaluacion_adaptativa'])

los parámetros de este método son:

  - **nombre.cvs:** corresponde al nombre del archivo que exportaremos (quedará en la misma carpeta que nuestro archivo de Jupyter o Python.
  - **index:** agrega o no una columna adicional de índice. Por defecto es True, por lo que denbemos especificar si no la queremos.
  - **sep:** corresponde al separador de datos. En nuestro caso, serán comas.
  - **header:** similar a index, agrega o no la cabecera.
  - **columns**: lista de columnas que queremos que se exporten (si no precisamos, se exportarán todas). Podemos indicar las columnas utilizando sus etiquetas (como en nuestro ejemplo) o utilizando posiciones. En tal caso usamos columns=df.columns[[0, 2]]

**FIN DE LA QUINTA CLASE**

# <font color='green'>Ejercicio: GAMEBOY</font>

En este ejercicio importaremos los datos desde el archivo: **best-selling-gameboy.csv**

- Generar dos DataFrames, uno de juegos de Gameboy Color y otro de Gameboy.
- Rankear los top 10 juegos con más ventas de ambos dataframes.
- Responder las siguientes preguntas:
    - ¿Hay más juegos de Gameboy Color o Juegos de Gameboy?
    - ¿Cuáles fueron los 3 juegos menos vendidos del Publisher Capcom para ambas plataformas?


In [None]:
# Leemos el archivo y generamos un DataFrame.
df = pd.read_csv("best-selling-gameboy.csv")
df.head()

Unnamed: 0,Game,Developer(s),Publisher,Platform,Release date,Sales
0,Pokémon Red / Green / Blue / Yellow,Game Freak,Nintendo,Game Boy,1996-02-27,46020000
1,Tetris,Nintendo R&D1,Nintendo,Game Boy,1989-06-14,35000000
2,Pokémon Gold / Silver / Crystal,Game Freak,Nintendo,Game Boy Color,1999-11-21,29490000
3,Super Mario Land,Nintendo R&D1,Nintendo,Game Boy,1989-04-21,18140000
4,Super Mario Land 2: 6 Golden Coins,Nintendo R&D1,Nintendo,Game Boy,1992-10-21,11180000


In [None]:
# Dividiremos el DataFrame en dos.
df_game_boy = df.query("Platform == 'Game Boy'")
df_game_boy_color = df.query("Platform == 'Game Boy Color'")

In [None]:
# Ordenamos por ventas de mayor a menor e indexamos las 10 primeras posiciones.
df_game_boy.sort_values(by = 'Sales', ascending = False).iloc[:10]

Unnamed: 0,Game,Developer(s),Publisher,Platform,Release date,Sales
0,Pokémon Red / Green / Blue / Yellow,Game Freak,Nintendo,Game Boy,1996-02-27,46020000
1,Tetris,Nintendo R&D1,Nintendo,Game Boy,1989-06-14,35000000
3,Super Mario Land,Nintendo R&D1,Nintendo,Game Boy,1989-04-21,18140000
4,Super Mario Land 2: 6 Golden Coins,Nintendo R&D1,Nintendo,Game Boy,1992-10-21,11180000
5,Dr. Mario,Nintendo R&D1,Nintendo,Game Boy,1990-07-27,5340000
7,Wario Land: Super Mario Land 3,Nintendo R&D1,Nintendo,Game Boy,1994-01-21,5190000
8,Kirby's Dream Land,HAL Laboratory,Nintendo,Game Boy,1992-04-27,5130000
11,Donkey Kong Land,Rare,Nintendo,Game Boy,1995-06-26,3910000
12,The Legend of Zelda: Link's Awakening,Nintendo EAD,Nintendo,Game Boy,1993-06-06,3830000
14,F-1 Race,Nintendo R&D1,Nintendo,Game Boy,1990-11-09,3410000


In [None]:
# Ordenamos por ventas de mayor a menor e indexamos las 10 primeras posiciones.
df_game_boy_color.sort_values(by = 'Sales', ascending = False).iloc[:10]

Unnamed: 0,Game,Developer(s),Publisher,Platform,Release date,Sales
2,Pokémon Gold / Silver / Crystal,Game Freak,Nintendo,Game Boy Color,1999-11-21,29490000
6,Pokémon Pinball,Jupiter,Nintendo,Game Boy Color,1999-04-14,5310000
9,Super Mario Bros. Deluxe,Nintendo EAD,Nintendo,Game Boy Color,1999-05-01,5070000
10,The Legend of Zelda: Oracle of Seasons and Ora...,Flagship,Nintendo,Game Boy Color,2001-02-27,3960000
13,Pokémon Trading Card Game,Hudson Soft and Creatures Inc.,Nintendo,Game Boy Color,1998-12-18,3720000
18,Yu-Gi-Oh! Duel Monsters 4: Battle of Great Due...,Konami,Konami,Game Boy Color,2000-12-07,2500000
19,Yu-Gi-Oh! Dark Duel Stories,Konami,Konami,Game Boy Color,2000-07-13,2396518
22,Dragon Warrior Monsters,Tose,Enix,Game Boy Color,1998-09-25,2350000
23,The Legend of Zelda: Link's Awakening DX,Nintendo EAD,Nintendo,Game Boy Color,1998-12-12,2220000
24,Wario Land 3,Nintendo R&D1,Nintendo,Game Boy Color,2000-03-21,2200000


In [None]:
df['Platform'].value_counts()

Game Boy          48
Game Boy Color    18
Name: Platform, dtype: int64

**R:** Hay más juegos de Game Boy que juegos de Game Boy Color.

In [None]:
df_game_boy.query("Publisher == 'Capcom'").sort_values(by="Sales", ascending = False).iloc[-3:]

Unnamed: 0,Game,Developer(s),Publisher,Platform,Release date,Sales
56,Mega Man II,Japan System House,Capcom,Game Boy,1991-12-20,1000000
58,Star Wars,NMS Software,Capcom,Game Boy,1992-11-01,1000000
59,DuckTales 2,Make Software,Capcom,Game Boy,1993-04-23,1000000


In [None]:
df_game_boy_color.query("Publisher == 'Capcom'").sort_values(by="Sales", ascending = False).iloc[-3:]

Unnamed: 0,Game,Developer(s),Publisher,Platform,Release date,Sales
