# Repaso de DataFrames

In [124]:
import pandas as pd

##### Definimos un DataFrame con dos columnas

In [125]:
data = {
    'Nombre': ['Pedro', 'María', 'Juan', 'Ana', 'Lily','Andy'],
    'Edad': [25, 30, 22, 35,17,15],
    'Puntuación': [85, 90, 88, 78,100,25]
}
df = pd.DataFrame(data)

Verificamos el tipo de dato de estas dos variables creadas con `type()`

In [126]:
print('Tipo de datos de la variable data',type(data))
print('Tipo de datos de la variable df',type(df))

Tipo de datos de la variable data <class 'dict'>
Tipo de datos de la variable df <class 'pandas.core.frame.DataFrame'>


#### Imprimimos el dataframe

In [127]:
display(df) # Solo para Jupyter Notebook en Standalone usar print()

Unnamed: 0,Nombre,Edad,Puntuación
0,Pedro,25,85
1,María,30,90
2,Juan,22,88
3,Ana,35,78
4,Lily,17,100
5,Andy,15,25


## Podemos explorar los atributos de DataFrame
DataFrame tiene cientos de atributos y funciones que nos permiten manipular y analizar datos   \
📚[Documentación de la librería pandas.Dataframe](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html)

In [128]:
print(df.size)

18


In [129]:
print(df.empty)

False


In [130]:
print(df.count())

Nombre        6
Edad          6
Puntuación    6
dtype: int64


In [131]:
print(df.head())

  Nombre  Edad  Puntuación
0  Pedro    25          85
1  María    30          90
2   Juan    22          88
3    Ana    35          78
4   Lily    17         100


In [132]:
print(df.columns)

Index(['Nombre', 'Edad', 'Puntuación'], dtype='object')


In [133]:
df.shape

(6, 3)

In [134]:
df.describe() # Estadística descriptiva de cada columna

Unnamed: 0,Edad,Puntuación
count,6.0,6.0
mean,24.0,77.666667
std,7.641989,26.778101
min,15.0,25.0
25%,18.25,79.75
50%,23.5,86.5
75%,28.75,89.5
max,35.0,100.0


#### Podemos acceder a cada `Serie` dentro del `DataFrame`

In [135]:
print(df['Nombre'])
print('------   ------   ------   ------   ')
print(df['Edad'])
print('------   ------   ------   ------   ')
print(df['Puntuación'])

0    Pedro
1    María
2     Juan
3      Ana
4     Lily
5     Andy
Name: Nombre, dtype: object
------   ------   ------   ------   
0    25
1    30
2    22
3    35
4    17
5    15
Name: Edad, dtype: int64
------   ------   ------   ------   
0     85
1     90
2     88
3     78
4    100
5     25
Name: Puntuación, dtype: int64


Para saber el tipo de dato que tenemos usamos la función `type()`

In [136]:
print(type(df['Puntuación']))

<class 'pandas.core.series.Series'>


In [137]:
print(type(df))

<class 'pandas.core.frame.DataFrame'>


### Filtrar un DataFrame
Podemos filtrar un dataframe de muchas maneras. Una función muy util es `sort_values()`\
📚[Ver documentación](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html)

Podemos ordenar los valores con la función `sort_values()` de forma ascendente o descendente

In [138]:
# Creamos una nueva variable y le asignamos el nombre df_sorted_puntos
df_sorted_puntos = df.sort_values(by='Puntuación', ascending=False) # Orden descendente (en columna 'Puntuación')
display(df_sorted_puntos)

Unnamed: 0,Nombre,Edad,Puntuación
4,Lily,17,100
1,María,30,90
2,Juan,22,88
0,Pedro,25,85
3,Ana,35,78
5,Andy,15,25


In [139]:
# Creamos una nueva variable y le asignamos el nombre df_sorted_edad
df_sorted_edad = df.sort_values(by='Edad', ascending=False)
display(df_sorted_edad)

Unnamed: 0,Nombre,Edad,Puntuación
3,Ana,35,78
1,María,30,90
0,Pedro,25,85
2,Juan,22,88
4,Lily,17,100
5,Andy,15,25


### Función `iloc[]`
La función `iloc[]` se utiliza para acceder a un grupo de filas y columnas por índices\
📚[Documentación de iloc](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html#pandas.DataFrame.iloc)

In [140]:
primer_valor_puntuacion = df_sorted_puntos['Puntuación'].iloc[0]
print("\nPrimer valor de la columna 'Puntuación':", primer_valor_puntuacion)


Primer valor de la columna 'Puntuación': 100


In [141]:
primer_valor_edad = df_sorted_edad['Edad'].iloc[0]
# primer_valor_edad = df_sorted_edad['Edad'].iloc[len(df_sorted_edad)-1]
print("\nPrimer valor de la columna 'Edad':", primer_valor_edad)


Primer valor de la columna 'Edad': 35


## Crear y leer archivos `csv`
El formato `csv` es uno de los mas utilizados, como veremos mas adelante, para representar **datos tabulares**   

📚[to_csv](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html)\
📚[read_csv](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html)


### Creacion de un archivo `csv` a partir del dataFrame `df`

In [142]:
df.to_csv('ejemplo.csv', index=False)

### Lectura de un archivo `csv`
El siguiente código funciona para un archivo que esta en la misma carpeta que el modulo que estamos corriendo.

In [143]:
# Creamos una nueva variable:
df_from_csv = pd.read_csv('ejemplo.csv')

# Lo mostramos en pantalla
display(df_from_csv)

Unnamed: 0,Nombre,Edad,Puntuación
0,Pedro,25,85
1,María,30,90
2,Juan,22,88
3,Ana,35,78
4,Lily,17,100
5,Andy,15,25
