In [2]:
import pandas as pd

## Dataframes

- El módulo `pandas` proporciona una poderosa estructura de datos llamada 'dataframe.

- Es similar, pero no idéntico a una hoja de cálculo de Excel,

- Un marco de datos tiene varias columnas, cada una de las cuales puede contener un tipo de valor *diferente*.

- Al igual que una serie, tiene un índice que proporciona una etiqueta para todas y cada una de las filas.




## Cargando archivos con Pandas

- Siempre que tenga un conjunto de datos con una variedad de campos de varios tipos, cargarlo en Pandas es una buena estrategia.
- Puede cargar datos desde Azure, desde un archivo local o desde una URL.







In [3]:
# Nosotros podemos cargar archivos .csv
df = pd.read_csv('titles.csv')


## Echando un vistazo rápido al dataframe.

- Podemos ver rápidamente el contenido superior de un dataframe usando `df.head()`.
- Por defecto, esto mostrará las primeras 5 entradas, pero `head()` toma un argumento para especificar si quieres más o menos.
- Un método similar es `.tail()` que muestra las ultimas entradas.

In [4]:
df.head()

Unnamed: 0,title,year,rating,votes
0,Spanish Fiesta,2019,6.9,29
1,La tierra de los toros,2000,5.4,14
2,Dama de noche,1993,6.0,25
3,Frivolinas,2014,5.6,19
4,Mya ga naing,1996,7.5,21


In [5]:
df.head(3)

Unnamed: 0,title,year,rating,votes
0,Spanish Fiesta,2019,6.9,29
1,La tierra de los toros,2000,5.4,14
2,Dama de noche,1993,6.0,25


## Funciones y dataframes

- Podemos hacer cálculos y funciones con -dataframes como series.
- Las funciones generalmente devolverán un marco de datos o una serie, dependiendo de la definicion de la  funcion.
- Para hacer una copia, no asigne --dataframe a una nueva variable, en su lugar use el método `copiar` que se muestra a continuación:
`df2= df.copy()` (igual que las listas)

In [6]:
#Info
nulls=df.isnull()
print(nulls, "\n", type(nulls))

nullsum=nulls.sum()

print("\nNull sum for each column \n", nullsum, "\n", type(nullsum))

# print("\nWe can slice these results to get the answer for x \n", nullsum.x)
# type(nullsum.x)

        title   year  rating  votes
0       False  False   False  False
1       False  False   False  False
2       False  False   False  False
3       False  False   False  False
4       False  False   False  False
...       ...    ...     ...    ...
213660  False  False   False  False
213661  False  False   False  False
213662  False  False   False  False
213663  False  False   False  False
213664  False  False   False  False

[213665 rows x 4 columns] 
 <class 'pandas.core.frame.DataFrame'>

Null sum for each column 
 title     0
year      0
rating    0
votes     0
dtype: int64 
 <class 'pandas.core.series.Series'>


## Resumen estadístico
- Para obtener rápidamente estadísticas resumidas sobre valores numéricos, utilice el método `describe`.
- Recibirá una advertencia si faltan valores.

In [7]:
df.describe()

Unnamed: 0,year,rating,votes
count,213665.0,213665.0,213665.0
mean,2003.708628,6.142454,4088.516
std,14.191798,1.397839,36681.31
min,1970.0,1.0,5.0
25%,1994.0,5.3,18.0
50%,2008.0,6.3,62.0
75%,2015.0,7.1,335.0
max,2021.0,10.0,2476378.0


### Tipos de datos y forma
- Cada uno tendrá un tipo de dato inferido.

In [8]:
print(df.dtypes)

title      object
year        int64
rating    float64
votes       int64
dtype: object


In [9]:
# .shape da el número total de filas y columnas
print(df.shape)
# .len da el número total de filas
print(len(df))

(213665, 4)
213665


# Acceso a las etiquetas de fila y columna

- Se puede acceder a las etiquetas de fila (índice) a través de `df.index`.
- Se puede acceder a las etiquetas de las columnas a través de `df.columns`.

In [10]:
df.index

RangeIndex(start=0, stop=213665, step=1)

In [11]:
df.columns

Index(['title', 'year', 'rating', 'votes'], dtype='object')