# Repaso de DataFrames

In [None]:
import pandas as pd
import numpy as np

##### Definimos un DataFrame con dos columnas

In [None]:
data = {
    'Nombre': ['Pedro', 'María', 'Juan', 'Ana', 'Lily','Andy', 'Roberto'],
    'Edad': [25, 30, 22, 35,17,15,30],
    'Puntuación': [85, 90, 88, 78,100,25,10]
}
df = pd.DataFrame(data)

Verificamos el tipo de dato de estas dos variables creadas con `type()`

In [None]:
print('Tipo de datos de la variable data',type(data))
print('Tipo de datos de la variable df',type(df))

#### Imprimimos el dataframe

In [None]:
display(df) # Solo para Jupyter Notebook en Standalone usar print()
df.empty

## Podemos explorar los atributos de DataFrame
DataFrame tiene cientos de atributos y funciones que nos permiten manipular y analizar datos   \
📚[Documentación de la librería pandas.Dataframe](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html)

In [None]:
print(df.size)

In [None]:
print(df.empty)

In [None]:
print(df.count())

In [None]:
display(df.head(0))

In [None]:
print(df.columns)

In [None]:
df.shape

In [None]:
df.describe() # Estadística descriptiva de cada columna

In [None]:
len(df)

#### Podemos acceder a cada `Serie` dentro del `DataFrame`

In [None]:
print(df['Nombre'])
print('------   ------   ------   ------   ')
print(df['Edad'])
print('------   ------   ------   ------   ')
print(df['Puntuación'])

Para saber el tipo de dato que tenemos usamos la función `type()`

In [None]:
print(type(df['Puntuación']))

In [None]:
print(type(df))

### Filtrar un DataFrame
Podemos filtrar un dataframe de muchas maneras. Una función muy util es `sort_values()`\
📚[Ver documentación](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html)

Podemos ordenar los valores con la función `sort_values()` de forma ascendente o descendente

In [None]:
# Creamos una nueva variable y le asignamos el nombre df_sorted_puntos
df_sorted_puntos = df.sort_values(by='Puntuación', ascending=False)
display(df)
print('**************************************')
display(df_sorted_puntos)

In [None]:
# Creamos una nueva variable y le asignamos el nombre df_sorted_edad
df_sorted_edad = df.sort_values(by='Edad', ascending=False)
display(df_sorted_edad)

### Función `iloc[]`
La función `iloc[]` se utiliza para acceder a un grupo de filas y columnas por índices\
📚[Documentación de iloc](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html#pandas.DataFrame.iloc)

In [None]:
primer_valor_puntuacion = df_sorted_puntos['Puntuación'].iloc[0]
segundo_valor_puntuacion = df_sorted_puntos['Puntuación'].iloc[1]

ultimo_valor_puntuacion = df_sorted_puntos['Puntuación'].iloc[len(df_sorted_puntos)-1]
print("\nPrimer valor de la columna 'Puntuación':", primer_valor_puntuacion)
print("Segundo valor de la columna 'Puntuación':", segundo_valor_puntuacion)
print("Ultimo valor de la columna 'Puntuación':", ultimo_valor_puntuacion)

print(len(df_sorted_puntos)) # Length)

In [None]:
primer_valor_edad = df_sorted_edad['Edad'].iloc[0]
# primer_valor_edad = df_sorted_edad['Edad'].iloc[len(df_sorted_edad)-1]
print("\nPrimer valor de la columna 'Edad':", primer_valor_edad)

## Crear y leer archivos `csv`
El formato `csv` es uno de los mas utilizados, como veremos mas adelante, para representar **datos tabulares**   

📚[to_csv](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html)\
📚[read_csv](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html)


### Creacion de un archivo `csv` a partir del dataFrame `df`

In [None]:
df.to_csv('df_original2.csv', index=False)

### Lectura de un archivo `csv`
El siguiente código funciona para un archivo que esta en la misma carpeta que el modulo que estamos corriendo.

In [None]:
# Creamos una nueva variable:
df_from_csv = pd.read_csv('df_original2.csv')

# Lo mostramos en pantalla
display(df_from_csv)