# Introduccion a Pandas
Pandas es una librería de Python especializada en la manipulación y el análisis de datos. Ofrece estructuras de datos y operaciones para manipular tablas numéricas y series temporales, es como el Excel de Python.

Documentacion:
https://pandas.pydata.org/docs/user_guide/10min.html

In [2]:
import pandas as pd
import numpy as np

## Estructuras de datos basicas en Pandas
Pandas ofrece dos tipos de clases para manejar datos:
1. **Series:** una matriz etiquetada unidimensional que contiene datos de cualquier tipo como números enteros, strings, objetos, etc.
2. **DataFrame:** una estructura de datos bidimensional que contiene datos como una matriz bidimensional o una tabla con filas y columnas.
<img src="\imgs\pandas-DataStructure.png" width="500">

## Creacion de objetos

In [11]:
# Creamos una serie en pandas pasandole una lista de valores
series = pd.Series([1, 3, 5, np.nan, 6, 8])
series

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

In [12]:
# Otro ejemplo
series_carros = pd.Series(["Toyota", "BMW", "Honda", "Ford", "Chevrolet"])
series_carros

0       Toyota
1          BMW
2        Honda
3         Ford
4    Chevrolet
dtype: object

In [13]:
series_varios = pd.Series(["Python", 2, 3.4, 'A', True])
series_varios

0    Python
1         2
2       3.4
3         A
4      True
dtype: object

In [15]:
# Creación de un DataFrame pasando un diccionario de objetos 
# donde las claves son las etiquetas de las columnas y los valores son los valores de las columnas.
alumnos = pd.DataFrame({"nombre":["Francisco", "Valeria", "Fernanda", "Iker"], "edad":[23,18,12,7]})
alumnos

Unnamed: 0,nombre,edad
0,Francisco,23
1,Valeria,18
2,Fernanda,12
3,Iker,7


In [16]:
# Tambien podemos construir DataFrames con Series de Pandas
nombres = pd.Series(["Tasha", "Lucas", "General", "Mishi", "Balú", "Donatello"])
animal = pd.Series(["Perro", "Pato", "Perro", "Gato", "Perro", "Tortuga"])
sexo = pd.Series(['H', 'M', 'M', 'H', 'M', 'M'])

mascotas_df = pd.DataFrame({"Nombre":nombres, "Animal":animal, "Sexo [M/H]":sexo})
mascotas_df

Unnamed: 0,Nombre,Animal,Sexo [M/H]
0,Tasha,Perro,H
1,Lucas,Pato,M
2,General,Perro,M
3,Mishi,Gato,H
4,Balú,Perro,M
5,Donatello,Tortuga,M


## Importacion y exportacion de datos

In [31]:
medallero_df = pd.read_csv(r"datasets\medallas.csv")
medallero_df

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
0,,1.0,2.0,3,Argentina
1,,2.0,2.0,4,Armenia
2,17.0,7.0,22.0,46,Australia
3,1.0,1.0,5.0,7,Austria
4,,3.0,4.0,7,Azerbaijan
...,...,...,...,...,...
88,,1.0,,1,Turkmenistan
89,2.0,1.0,1.0,4,Uganda
90,1.0,6.0,12.0,19,Ukraine
91,3.0,,2.0,5,Uzbekistan


In [27]:
# Creamos y exportamos un Dataframe
df = pd.DataFrame(np.random.randint(0, 5, (10, 5)))
df.to_csv(r"datasets\numeros_aleatorios.csv")
df

Unnamed: 0,0,1,2,3,4
0,0,3,2,3,3
1,0,3,1,0,2
2,4,3,2,3,2
3,2,4,1,4,0
4,2,3,2,3,2
5,1,2,3,3,2
6,0,2,3,0,4
7,0,4,4,4,1
8,2,2,4,2,0
9,3,0,3,1,1


## Visualizacion de datos

In [33]:
medallero_df.head() # Mostrara el top 5 de mi lista de datos
# medallero_df.head(n) # Mostrara los n valores del principio de la lista

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
0,,1.0,2.0,3,Argentina
1,,2.0,2.0,4,Armenia
2,17.0,7.0,22.0,46,Australia
3,1.0,1.0,5.0,7,Austria
4,,3.0,4.0,7,Azerbaijan


In [34]:
medallero_df.tail() # Mostrara los ultimos 5 de mi lista de datos
# medallero_df.head(n) # Mostrara los n valores del final de la lista

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
88,,1.0,,1,Turkmenistan
89,2.0,1.0,1.0,4,Uganda
90,1.0,6.0,12.0,19,Ukraine
91,3.0,,2.0,5,Uzbekistan
92,1.0,3.0,,4,Venezuela


In [35]:
medallero_df.index

RangeIndex(start=0, stop=93, step=1)

In [37]:
# Mostramos las columnas de nuestro dataframe
medallero_df.columns

Index(['Oro', 'Plata', 'Bronce', 'Total', 'Pais'], dtype='object')

In [38]:
# Convertimos el dataframe en un objeto de numpy
medallero_df.to_numpy

<bound method DataFrame.to_numpy of      Oro  Plata  Bronce  Total          Pais
0    NaN    1.0     2.0      3     Argentina
1    NaN    2.0     2.0      4       Armenia
2   17.0    7.0    22.0     46     Australia
3    1.0    1.0     5.0      7       Austria
4    NaN    3.0     4.0      7    Azerbaijan
..   ...    ...     ...    ...           ...
88   NaN    1.0     NaN      1  Turkmenistan
89   2.0    1.0     1.0      4        Uganda
90   1.0    6.0    12.0     19       Ukraine
91   3.0    NaN     2.0      5    Uzbekistan
92   1.0    3.0     NaN      4     Venezuela

[93 rows x 5 columns]>

In [41]:
# Visualizamos los tipos de datos que hay en nuestro dataframe
medallero_df.dtypes

Oro       float64
Plata     float64
Bronce    float64
Total       int64
Pais       object
dtype: object

In [42]:
# Resumen de medidas estadisticas de nuestro dataframe
medallero_df.describe()

Unnamed: 0,Oro,Plata,Bronce,Total
count,65.0,69.0,76.0,93.0
mean,4.4,4.768116,4.934211,10.548387
std,7.633806,7.276362,6.261705,18.897617
min,1.0,1.0,1.0,1.0
25%,1.0,1.0,1.0,2.0
50%,2.0,2.0,2.0,4.0
75%,3.0,5.0,5.25,8.0
max,39.0,41.0,33.0,113.0


In [46]:
# Podemos reordenar los datos, ejemplo:
medallero_df.sort_values(by="Total", ascending=False)

# Existen otras formas para reordenar los datos...

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
25,39.0,41.0,33.0,113,Estados Unidos de America
72,38.0,32.0,18.0,88,Republica Popular de China
73,2.0,28.0,23.0,71,ROC
34,22.0,21.0,22.0,65,Gran Bretana
46,27.0,14.0,17.0,58,Japon
...,...,...,...,...,...
59,,1.0,,1,Namibia
58,1.0,,,1,Morocco
54,,1.0,,1,Lithuania
51,,,1.0,1,Kuwait


## Seleccion de datos

In [50]:
# Seleccion de columna con "."
medallero_df.Oro

0      NaN
1      NaN
2     17.0
3      1.0
4      NaN
      ... 
88     NaN
89     2.0
90     1.0
91     3.0
92     1.0
Name: Oro, Length: 93, dtype: float64

In [51]:
# Seleccion de columna con "[]"
medallero_df["Plata"]

0     1.0
1     2.0
2     7.0
3     1.0
4     3.0
     ... 
88    1.0
89    1.0
90    6.0
91    NaN
92    3.0
Name: Plata, Length: 93, dtype: float64

In [55]:
# Seleccionamos filas del data frame df[inicio:final:paso]
medallero_df[0:10]

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
0,,1.0,2.0,3,Argentina
1,,2.0,2.0,4,Armenia
2,17.0,7.0,22.0,46,Australia
3,1.0,1.0,5.0,7,Austria
4,,3.0,4.0,7,Azerbaijan
5,2.0,,,2,Bahamas
6,,1.0,,1,Bahrain
7,1.0,3.0,3.0,7,Belarus
8,3.0,1.0,3.0,7,Belgium
9,1.0,,,1,Bermuda


In [56]:
medallero_df[0:10:3]

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
0,,1.0,2.0,3,Argentina
3,1.0,1.0,5.0,7,Austria
6,,1.0,,1,Bahrain
9,1.0,,,1,Bermuda


In [57]:
# Por medio de filtros
medallero_df[medallero_df["Oro"] > 10]

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
2,17.0,7.0,22.0,46,Australia
25,39.0,41.0,33.0,113,Estados Unidos de America
34,22.0,21.0,22.0,65,Gran Bretana
46,27.0,14.0,17.0,58,Japon
72,38.0,32.0,18.0,88,Republica Popular de China
