# Introducción a Numpy y Pandas

*Numpy* es una librería de python especializada en operaciones númericas con matrices o arreglos multidimensionales.

*Pandas* es una librería de python especializada en el manejo de datos organizados en tablas así como el procesamiento especializado para cálculos estadísticos y matemáticos.

## Numpy

La unidad básica de trabajo en Numpy son los *array*.

In [1]:
# Importar numpy
import numpy as np

In [2]:
# Creando arreglos
#1D
a = np.array([1, 2, 3, 4, 5, 6])

#2D
b = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])


In [3]:
# Visualizarlos
print("Arreglo 1D:\n", a)
print("Arreglo 2D:\n ", b)

Arreglo 1D:
 [1 2 3 4 5 6]
Arreglo 2D:
  [[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


In [4]:
# Tamaño de arreglos
print(a.ndim)
print(a.size)
print(a.shape)
# ¿Qué crees que signifique cada uno de los resultados que obtuviste?
# ¿Pueden obtener la misma información con el arreglo 2D?

1
6
(6,)


In [5]:
# Tamaño de arreglos
print(b.ndim)
print(b.size)
print(b.shape)

2
12
(3, 4)


In [6]:
# Accesando a datos individuales
print(b[0])
# Obtenemos la primer línea

[1 2 3 4]


In [7]:
# Accesando a datos individuales
print(b[0,0])
#Obtenemos el primer elemento de la primer línea

1


In [10]:
print(b[:,2])

[ 3  7 11]


In [11]:
print(b[2,:])

[ 9 10 11 12]


In [8]:
# Operaciones básicas
# Suma
a1 = np.array([[1,2],[3,4]])
a2 = np.array([[5,0],[8,-3]])
a3 = a1+a2
print(a3)

[[ 6  2]
 [11  1]]


In [12]:
# Multiplicación por escalares
a4 = a1*5
print(a4)

[[ 5 10]
 [15 20]]


In [13]:
# Operaciones adicionales
print(a1.max())
print(a1.min())
print(a1.sum())

4
1
10


In [21]:
# ¿Qué obtenemos con estas operaciones? ¿Que quiere decir el parametros axis?
print(a1)
print("\n")
print(a1.max(axis=0))
print(a1.min(axis=0))
print(a1.sum(axis=0))

[[1 2]
 [3 4]]


[3 4]
[1 2]
[4 6]


In [15]:
# ¿Qué obtenemos con estas operaciones? ¿Que quiere decir el parametros axis?
print(a1.max(axis=1))
print(a1.min(axis=1))
print(a1.sum(axis=1))

[2 4]
[1 3]
[3 7]


## Pandas

Una de las librerías que nos permite realizar fácilmente tareas de estadística es Pandas.

In [25]:
# Importamos las librerías que ocuparemos en este ejercicio
import pandas as pd

## Lectura de datos con Pandas

In [28]:
# Si estas usando google colab ejecutar esto
#from google.colab import files
#uploaded = files.upload()

In [29]:
# Lectura de datos con google colab
#import io
#df = pd.read_csv(io.BytesIO(uploaded['resultados_futbol.csv']))

In [31]:
# Lectura de datos
df = pd.read_csv(r'C:\Users\sltm-14\Documents\AI\Diplomado\Notebooks\resultados_futbol.csv')

In [32]:
df

Unnamed: 0,date,home_team,away_team,home_score,away_score,tournament,city,country,neutral
0,1872-11-30,Scotland,England,0,0,Friendly,Glasgow,Scotland,False
1,1873-03-08,England,Scotland,4,2,Friendly,London,England,False
2,1874-03-07,Scotland,England,2,1,Friendly,Glasgow,Scotland,False
3,1875-03-06,England,Scotland,2,2,Friendly,London,England,False
4,1876-03-04,Scotland,England,3,0,Friendly,Glasgow,Scotland,False
...,...,...,...,...,...,...,...,...,...
41581,2020-01-10,Barbados,Canada,1,4,Friendly,Irvine,United States,True
41582,2020-01-12,Kosovo,Sweden,0,1,Friendly,Doha,Qatar,True
41583,2020-01-15,Canada,Iceland,0,1,Friendly,Irvine,United States,True
41584,2020-01-19,El Salvador,Iceland,0,1,Friendly,Carson,United States,True


In [33]:
# Analisis descriptivo de los datos
df.describe() # Sólo para columnas numéricas

Unnamed: 0,home_score,away_score
count,41586.0,41586.0
mean,1.745756,1.187587
std,1.75378,1.405323
min,0.0,0.0
25%,1.0,0.0
50%,1.0,1.0
75%,2.0,2.0
max,31.0,21.0


In [42]:
# visualización
df.head(10) # te dará la información de los primeros 10 datos

Unnamed: 0,date,home_team,away_team,home_score,away_score,tournament,city,country,neutral
0,1872-11-30,Scotland,England,0,0,Friendly,Glasgow,Scotland,False
1,1873-03-08,England,Scotland,4,2,Friendly,London,England,False
2,1874-03-07,Scotland,England,2,1,Friendly,Glasgow,Scotland,False
3,1875-03-06,England,Scotland,2,2,Friendly,London,England,False
4,1876-03-04,Scotland,England,3,0,Friendly,Glasgow,Scotland,False
5,1876-03-25,Scotland,Wales,4,0,Friendly,Glasgow,Scotland,False
6,1877-03-03,England,Scotland,1,3,Friendly,London,England,False
7,1877-03-05,Wales,Scotland,0,2,Friendly,Wrexham,Wales,False
8,1878-03-02,Scotland,England,7,2,Friendly,Glasgow,Scotland,False
9,1878-03-23,Scotland,Wales,9,0,Friendly,Glasgow,Scotland,False


In [43]:
# Visualización
df.tail() # Te dará la información de los últimos 5 datos

Unnamed: 0,date,home_team,away_team,home_score,away_score,tournament,city,country,neutral
41581,2020-01-10,Barbados,Canada,1,4,Friendly,Irvine,United States,True
41582,2020-01-12,Kosovo,Sweden,0,1,Friendly,Doha,Qatar,True
41583,2020-01-15,Canada,Iceland,0,1,Friendly,Irvine,United States,True
41584,2020-01-19,El Salvador,Iceland,0,1,Friendly,Carson,United States,True
41585,2020-02-01,United States,Costa Rica,1,0,Friendly,Carson,United States,False


In [46]:
df["home_team"]

0             Scotland
1              England
2             Scotland
3              England
4             Scotland
             ...      
41581         Barbados
41582           Kosovo
41583           Canada
41584      El Salvador
41585    United States
Name: home_team, Length: 41586, dtype: object

In [44]:
# Filtrado de filas
#df2 = df[df['home_team'] == 'Mexico']
df2 = df[(df['home_team'] == 'Mexico') | (df['away_team'] == 'Mexico')]
#df2 = df[df.home_team == 'Mexico']
df2.head()

Unnamed: 0,date,home_team,away_team,home_score,away_score,tournament,city,country,neutral
683,1923-01-01,Guatemala,Mexico,2,3,Friendly,Guatemala,Guatemala,False
685,1923-01-04,Guatemala,Mexico,3,1,Friendly,Guatemala,Guatemala,False
686,1923-01-07,Guatemala,Mexico,1,4,Friendly,Guatemala,Guatemala,False
769,1923-12-09,Mexico,Guatemala,2,1,Friendly,Mexico City,Mexico,False
770,1923-12-12,Mexico,Guatemala,2,0,Friendly,Mexico City,Mexico,False


In [45]:
# Seleccionar columnas
df2 = df[['home_team', 'home_score']]
df2.head()

Unnamed: 0,home_team,home_score
0,Scotland,0
1,England,4
2,Scotland,2
3,England,2
4,Scotland,3


## Retos

### Reto 1
1. ¿Cuántos partidos ha jugado México como  local? ¿Cuántos como visitantes?
2. ¿Cuál es el promedio de goles de México como visitante?
3. ¿Cuál es el promedio de goles de México como local?
4. ¿Cuál es el mayor número de goles anotados por México en partidos como local??
4. ¿Cuál es el mayor número de goles anotados por México en partidos como visitante?

In [None]:
# Espacio para tu programa
df_mx_local = df[df.home_team == 'Mexico']
df_mx_local.shape

In [None]:
df_mx_vis = df[df.away_team == 'Mexico']
df_mx_vis.shape

In [None]:
# Pregunta 3
df_mx_local.home_score.mean()

In [None]:
# Pregunta 4
print(df_mx_local.home_score.max())
print(df_mx_local.away_score.max())

In [None]:
print(df_mx_local.away_score.max())

In [None]:
df_mx_local[df_mx_local.away_score==7]

In [None]:
df[df.away_score==21]

### Reto 2
Calcula el histograma de goles anotados por México como visitante.

In [None]:
# Creación histograma
df_mx_vis.away_score.hist(bins=20)